Zu Gast im Podcast “Voice Tech Talk”

In dieser Podcast-Episode des “Voice Tech Talk“ von beyond touch spricht Daniel Mittendorf mit Alexander Martin und mir über Voice, Alexa, APL (Alexa Presentation Language), Multimodalität und APL Ninja. APL ist eine Sprache zur Gestaltung von sprachgesteuerten visuellen Erfahrungen für Alexa-fähige Geräte, durch deren Einsatz die Benutzererfahrung verbessert werden kann.

Die Diskussion geht auf die Vorteile von APL ein, wie die Schaffung von interaktiven Spielen und Bildungsangeboten sowie anderen ansprechenden Anwendungen. Dabei spielen Entwicklertools wie APL.Ninja sowie die Themen Benutzerfreundlichkeit und Barrierefreiheit eine wichtige Rolle.

Pocdast mit Daniel Mittendorf, Alexander Martin und Frank Börncke

Transkription des Podcasts

Nachfolgend die komplette Transkription des Podcasts. Die Transkription wurde automatisch erstellt und nicht redaktionell bearbeitet. Technisch bedingt kann sie Fehler enthalten. Maßgeblich für den Inhalt ist das gesprochene Wort im Podcast:

Beyond Touch, der Podcast über Voice und intelligente Assistenten mit Claudius Herz,
Mike Metzen und Daniel Mittendorf.
Willkommen zum Beyond Touch Podcast. Heute sind wir eher technisch unterwegs und sprechen über
Multimodalität von Sprachassistenten. Speziell geht es heute um die Unterstützung von Bildschirmgeräten,
allen voran die Echo-Geräte und die Alexa Presentation Language, kurz APL. Dazu haben
wir auch heute zwei Gäste im Podcast, die schon viel Erfahrung mit APL für Alexa gesammelt haben.
Das ist einmal Alexander Martin, der bereits viele Alexa Skills im Skills Store veröffentlicht hat
und der APL.ninja das Portal zum Teilen von APL-Dokumenten gestartet hat. Und wir haben
Frank Börncke hier, Freelance-Voice-Entwickler, der ebenfalls schon viele nützliche und interessante
Alexa Skills im Skills Store veröffentlicht hat, darunter auch viele mit APL-Unterstützung.
Ja, willkommen an euch beide und stellt euch gerne einmal vor, wer seid ihr, was macht ihr,
wofür sollte man euch bei Alexa kennen? Alex, leg los!
Okay, ja, mein Name ist Alexander Martin, ich bin hauptberuflich Frontend-Architekt,
habe 2017 meinen ersten Echo Dot per Einladung bekommen und seitdem entwickle ich quasi Alexa
Skills. Cool, wofür kennt man oder welcher Skill ist bei dir so der bekannteste, wo man sagen kann,
der ist von dir? Ich habe damals angefangen, mein erster Skill war der Gehirn-Jogging-Skill. Das
waren einfach nur per Random, ja, Matheaufgaben, die man lösen musste. Der zweite Skill war dann
der Fernsehprogramm-Skill. Dafür habe ich damals intensiv und lange nach einem Anbieter suchen
müssen, der mir irgendwie die Daten bereitstellen kann. Hat dann auch irgendwann geklappt. Was ich
zu dem Zeitpunkt nicht wusste, war, dass hinter dem Anbieter die Funk-Mediengruppe steckt und
nachdem der Skill dann irgendwann online ging und auch relativ erfolgreich war, gab es irgendwann
einen Anruf von der Funk-Mediengruppe, ob ich den Skill verkaufen möchte und eben auch parallel
die Funk-Mediengruppe noch andere Alexa Skills entwickle. Ja, cool, super, dann ist der Top-1-Skill
also von dir aktuell. Genau. Sehr cool. Frank, wolltest du noch was über dich erzählen,
dich einmal kurz vorstellen? Ja, also erstmal danke für die Einladung zu dem Podcast. Ich bin
Frank Börncke. Meine Webseite sagt, dass ich ja freiberuflich Entwickler bin für Java-Fullstack-Projekte
wie auch für Sprachanwendungen, was in der Praxis halt auch bedeutet, dass ich mich von den
verfügbaren Sprachassistenten hauptsächlich so mit Alexa beschäftige. Was mich da besonders
umtreibt, ist eigentlich so die Beobachtung, es tut mir auch ein bisschen weh, dass viele Menschen
so Sprachassistenten hauptsächlich als Spaß- und Gagmaschine betrachten. Und ich eigentlich so
das Gefühl habe, da ist so viel mehr drin. Also man könnte so viel mehr im Alltag machen mit
Sprachassistenten und deshalb bin ich auch immer so am Suchen, nicht nur, ja, was gibt es an neuen
Technologien oder was kann Alexa jetzt Neues, sondern eben auch, was sind so Anwendungsfälle,
die man finden kann, die noch keiner ausprobiert hat. Da ist es für mich auch eine Spielwiese,
wo ich mich gerne austobe. Führt auch manchmal dazu, dass man Skill gar nicht live kriegt,
weil die Zertifizierung irgendwie sagt, nö, das geht nicht oder sowas. Aber es ist ja auch was,
was mich neugierig macht, wo es hinführt, die ganze Technik. Okay, und was ist so dein erfolgreichster
Skill? Ja, das ist so seltsam zweigleisig. Ich hätte ja ursprünglich mal so gedacht,
wo man viel Arbeit reinsteckt, da kommt auch viel bei rum. Aber da weiß man irgendwann auch,
nee, ist eigentlich gar nicht so. Also ich glaube, mein zweiter oder dritter Skill, das war R2D2,
war eigentlich so eine Spielwiese, wo man einfach nur drauf los irgendwas sagt. Man kriegt als
Response so ein R2D2-Gequassel zurück, zufällig generiert. Und das läuft seitdem ziemlich gut.
Also gab es auch Rewards ab und zu. Es ist zweimal Newsletter beworben worden, obwohl da
eigentlich fast null Arbeit drin steckt. Andererseits dann so Sachen, also die Mediathek,
was ich letztes Jahr gemacht habe, das ist so ein barrierefreier Zugriff auf diese Fernseharchive
von den öffentlich-rechtlichen Sendern. Man sucht nach irgendeinem Genre oder nach einem
Schauspieler oder sowas, kriegt dann Ergebnisse angezeigt und kann die auf dem Gerät abspielen.
Das ist das, wo ich so am meisten Feedback eigentlich kriege und Nutzerzahlen auch habe.
Okay. Also Alex hat ja gerade schon gesagt, für die Entwicklung zu Voice ist er so 2017
dann gekommen, nachdem er sein erstes Gerät bekommen hat. Wie war das bei dir, Frank?
Wann hast du angefangen?
Eigentlich auch 2017 gleich. Ich habe in den 90ern studiert, da hatte ich als Nebenfach
Computerlinguistik, also da bin ich schon auf Sprache gestoßen. Hat mich sehr interessiert,
aber freiberuflich damals was mit dem Thema zu machen, da ging nicht viel. Aber als 2017
eben Alexa kam, war das gleich so, dass ich auch dachte, da bestellst du dir mal eine,
als man die noch vorbestellen musste. Und ein, zwei Wochen habe ich damit so rumgespielt und
dann war auch die Frage da, okay, was kannst du jetzt selber damit machen? Und seitdem bin
ich eigentlich dabei.
Ja, ja. Alex, war es bei dir auch so, dass du einfach ein bisschen rumgespielt hast damit?
Am Anfang ja. Ich hatte vorher so einen kleinen Pi mit einem Mikrofon, wo ich dann per Klatschen
quasi das Licht ein- und ausschalten konnte. Und dann gab es die Werbung, dass man quasi
über Alexa die Geräte steuern kann. Und daraufhin gab es dann eben den ersten Dot-Alt-Spiel Wiese.
Ah, okay. Also bei mir war es tatsächlich auch ähnlich. Also ich habe hier auch noch zwei von
den alten Geräten. Die haben auch noch einen UK Stromstecker, weil es damals ja erst den UK
zu kaufen gab, bevor die hier nach Deutschland kamen. Und dann ging das auch los. Den ersten
Echo Show mit Bildschirm hatten wir dann in der Küche stehen. Und es war dann so die Geburtsstunde
von einem Streamplayer damals. Auf ZDF lief damals ja noch die Champions League. Da konnte
man frei die Champions League gucken. Und dann wollte ich damit einfach Fernsehen gucken in
der Küche. Und das ging nicht. Und so ging das also auch bei mir los. Also einfach mal selber
ein bisschen was ausprobieren. Und es ist halt schön, dass wir das alle drei so gemeinsam haben.
Einfach ausprobieren, was geht. Ja, sehr cool. Und das erste Gerät stand bei mir auch in der
Küche. Das war ganz klar. Ich habe echt überlegt, Wohnzimmer, Arbeitszimmer oder irgendwas. Aber
in der Küche fiel mir meistens so ein mit dem Timer. Also auch dieses Hands-free, wenn du die
Hände im Kuchenteig hast oder irgendwas. Das war logisch. Ja, richtig. Genau. Dann lass uns mal
über das eigentliche Thema reden. APL. Das gibt es ja jetzt mittlerweile seit, ich glaube, über
zwei Jahren. Seitdem hat sich auch viel getan. Wie waren so eure ersten Belohnungspunkte damit,
Frank? Ja, also erst mal war ich total befremdet, als es rauskam. Also ich habe
davor nur diese Display-Templates benutzt, die jetzt irgendwie auch abgekündigt sind. Da hat
man auch nicht viele Möglichkeiten gehabt. Das waren starre Templates, die man so ein bisschen
mit Inhalt ausgefüllt hat. Ja, und es war klar, da musste irgendwas anderes kommen. Aber ich hatte
so die Erwartungen, die werden so ein HTML-Stack machen mit CSS und JavaScript dabei. Und dann
kam dieses APL, was so völlig fremdartig erst mal wirkte oder aussah. Und ja, ich fand es vom
Ansatz her irgendwie ganz, ganz schräg. Also aber dann, ich probiere halt auch gerne mal aus,
was geht. Und ich hatte eh so ein Landkartenskill mit Display-Templates umgesetzt. Dann habe ich
gedacht, jetzt machst du das Gleiche mal mit APL. Und dann war wieder der Damm gebrochen,
dass ich dann Schritt für Schritt immer geguckt habe, was geht noch, was geht noch.
Also Alex, bei dir ist ja gerade der Fernsehprogrammskill ist ja auch ziemlich APL-lastig,
ne? Ja. Also früher hatte der Skill auch die Display-Templates. Und ich habe gestern mal
in den Mails nachgeguckt. Ich hatte die erste Mail zum Thema APML im März 2018. Da wurde zum
ersten Mal eine Umfrage gestartet von Amazon, was denn so an Technologien und der Entwickler
bekannt ist. Und dann gab es 2018 im Juni eine Private Beta für APL 1.0. Und da durfte ich
eben dran teilnehmen. Und das war so die erste Berührung quasi mit APML damals noch.
Ja, genau. Das war bei mir tatsächlich ähnlich. Also auch über den Streamplayer dann,
damals mit der ersten Beta angefangen. Und da gab es noch nicht so viel an Möglichkeiten. Also es
war wirklich sehr rudimentär. Und was ich bis heute noch weiß, ist, was ich bis jetzt auch
nicht verstehe. Warum braucht man zum Beispiel diesen APL-Frame-Container, um irgendwas halt
durchsichtig oder so zu machen? Oder mit irgendwelchen Backgrounds zu versehen? Also
das geht ja bei den normalen Components einfach immer noch nicht. Korrigiere mich gerne, Alex,
du bist ja da viel tiefer im Thema. Aber das ist tatsächlich ein Ding, was ich bis heute nicht
verstanden habe, warum einige Sachen so auf Komponenten beschränkt sind und andere wiederum
da nicht. Aber ein bisschen komisch war es damals. Aber es hat sich natürlich viel entwickelt. Also
wie seht ihr so die letzten zwei Jahre damit? Was sticht da so hervor seitdem?
Also es hat einen Riesensprung gemacht. Gerade so dieses Interaktive, was früher einfach gar
nicht möglich war. Also dass man irgendwie auch individuelle Benutzereingaben irgendwie
verarbeiten kann. Sei es nun per Tastatur oder eben per Keyboard. War ja alles am Anfang gar
nicht vorhanden. Ich glaube, mit APL 1.1 kamen auch die Animationen hinzu. Die gab es vorher auch
nicht. Wobei, da bin ich im Moment noch kein Freund von. Die finde ich irgendwie noch zu
starr. Das war einfach noch zu sehr eingeschränkt. Vector war auch irgendwann dazu.
Wobei, die haben ja jetzt auch diese Unterstützung für diese Lottie-Animations. Also da ist ja auch
eine ganze Menge möglich. Ich habe das ja auch mal ausprobiert. Aber viele von diesen Importdateien
oder viele von diesen Lottie-Files, die man so im Netz findet, die lassen sich dann wegen
irgendwelchen Fehlern, die man dann hat, gar nicht importieren. Das ist dann wahrscheinlich
auch so eine Sache bezüglich der fehlenden Unterstützung für einige Animationen.
Wobei, die ganzen Lottie-Files laufen über Vektor-Grafiken und dann über so Keyframes,
die dann quasi die Animationen steuern innerhalb der Vektor-Grafik.
Ah, okay. Habt ihr denn so einen richtig coolen APL-Feature bisher schon umgesetzt? Oder Skills,
die ihr mit APL bisher versehen habt, wo ihr sagt, das ist tatsächlich, das sollte man sich mal
angucken? Cool. Ich muss ganz ehrlich sagen, so optisch ist natürlich das mit dem Fernsehprogramm
schon alleine, weil das wirkt tatsächlich so, als wenn da eine ganze Menge Arbeit drin steckt
und wie das alles aufgebaut ist. Also ich glaube, da steckt schon viel Arbeit und auch eben,
was man vorher sich Gedanken gemacht hat, wie das Ganze aufgebaut ist und aussehen soll. Bei dir,
Frank, ich glaube, dieses Commander, wie heißt er, Commander Speedo hast du das genannt?
Commander Speedo, das war letztes Jahr, das war der Versuch, so ein Arkadespiel eigentlich
hinzukriegen. Also auch dieses Spielerlebnis, schnell was zu machen, dass du so Kommandos
abgibst, da kommen Raumschiffe, du kannst was abschießen. Also ich bin auch mit dem C64 groß
geworden. Das ist so mein Master-Dinge für Spiele irgendwie. Da hänge ich irgendwie fest. Und da war
das Gameplay aber für mich daheim auch viel, viel schneller, als wie es jetzt live ist,
weil die Zertifizierung da wieder so lauter Vorgaben gemacht hat. Also die Idee ist,
dass du da so ein Kommandostack quasi formulieren kannst. Du kannst deinem Raumschiff oder deinem
Spieler sagen, vorwärts, vorwärts, rechts, rechts, links, dreimal Feuer, zwei rückwärts und dann
wird das so abgespielt und die Gegner bewegen sich irgendwie. Und da wird also dynamisch so
ein APL, so eine Sequenz quasi zusammengebaut anhand deiner Kommandos. Und da habe ich aber
dann so Vorgaben gekriegt. Alexa muss immer zurückfragen, was willst du jetzt machen? Was
möchtest du als nächstes tun? Und das macht natürlich dieses schnelle Gameplay dann irgendwie
so ein bisschen kaputt, weil diese Response dann eigentlich so eine Unterbrechung ist. Aber das
war so der Skill, wo ich auch sehr tief eingetaucht bin, mit APL was zu machen, grafisch. Also bei der
Mediathek sieht man es nicht so. Da war die Herausforderung, die Funktionalität auf ganz
verschiedenen Endgeräten so ähnlich zum Laufen zu bringen. Also das war eine komische Erfahrung
für mich, wie unterschiedlich sich Devices benehmen, wenn du das APL da drauf schickst.
Also gerade, wenn da noch Animation oder Bewegung dabei ist oder wo die auch einfach mal aussetzen,
ja. Also wenn du eine Tabelle hast oder so einen verscharteten Container mit zu vielen Elementen,
das steigen halt manche Geräte irgendwann aus, müsste man eigentlich mal so Benchmarks bauen
oder sowas, die das durchmessen. Parallele Video-Wiedergabe habe ich mit experimentiert.
Das geht auf einigen Geräten. Der FireTV ist, da ist man froh, wenn da ein Film flüssig abspielt
oder so. Ja, das war da Arbeit. Oder was ich jetzt aktuell gerade gebaut habe mit Toolbox,
das ist jetzt die Woche rausgekommen. Das wird ein Skill sein, der sich speziell an Entwickler
richtet. Da habe ich eine komplette Kommandozeile eigentlich nachgebaut, also wie man es von Linux
erkennt oder so mit blinkendem Cursor und so zum Stack, wo du dich durch die History bewegen kannst,
indem du so Befehle Blätter nach oben, Blätter nach unten und sowas angibst. Also da passiert
auch viel im Hintergrund, weil das auch so responsive auf großen und kleinen Bildschirmen
laufen soll. Also ich glaube, viel Arbeit ist auch die, die man am Ende gar nicht sieht.
Ja, das glaube ich auch. Was fandest du bisher so cool, was du gesehen hast, was APL angeht, Alex?
Irgendwas, was dir tatsächlich so im Kopf geblieben ist, wo du gesagt hast, hey, das ist ja cool,
das muss ich mir mal angucken. Ich glaube, den letzten, den ich gesehen habe, war dieses
Ritter-Spiel. Ich glaube, das war von Kröger. Ja, genau, Kröger. Der war relativ cool gemacht,
auch mit diesen ganzen kleinen Vektorkrafiken, wenn es Vektorkrafiken waren. Den fand ich eigentlich
gar nicht schlecht. Ja, das stimmt. Also gerade für Spiele. Aber ich bin auch so ein bisschen
bei Frank. Also ich habe mir immer schon mal gedacht, ich meine, gerade bei den älteren
Computern oder damals mit den Computern, die es gab, da fing ja irgendwann dann auch so 3D-Sachen
wie Doom oder so zu kommen. Wäre das für euch technisch irgendwas, was irgendwann mal möglich
ist? Wo ihr sagt, tatsächlich so auf Alexa macht das wahrscheinlich eh keinen Sinn. Also irgendwie
so eine Art 3D. Also muss ja kein Shooter sein. Aber Frank hast ja gerade auch schon gesagt,
also das Gameplay wird ja schon relativ verlangsamt dadurch, wenn man immer wieder
Antworten geben muss. Aber Alex, du hast ja auch diesen Morhun, zumindest das ist ja APL-only,
da brauchst du ja eigentlich gar kein Backend-Code dafür. Das funktioniert ja eigentlich auch. Aber
ja, der ist ja auch noch nicht live. Also hast du den mal versucht einzureichen?
Nee, noch nicht. Tatsächlich hat es mal auf der Liste draufstehen, den einfach mal fertig
zu machen. Aber irgendwie kam er schnell dazu. Das habe ich auf meiner Liste stehen, Alex. Also
auch Pong. Wenn du es nicht sagst, dann sage ich das. Also eigentlich ein Hammer-APL-Skript,
wo du ausschließlich mit APL dieses Pong-Spiel danach gebaut hast. Wo ich mich aber auch frage,
also korrigiere mich, wenn es falsch ist. Aber als Skill gibt es die noch nicht.
Nee, gibt es nicht. Also ich versuche es in der Regel zu vermeiden, irgendwie Skills rauszubringen,
die auf APL setzen oder generell mit Displays arbeiten. Ich versuche immer schon wirklich,
Voice im Vordergrund zu halten. Und wenn es einfach nicht geht, dann mache ich dafür auch
kein Skill. Ja, also die Herausforderung ist dann auch genauso wie bei dem Doom-Thema. Wie
machst du eigentlich das Benutzerinterface mit der Sprache? Also wie verzahnst du das,
was du visuell schon gelöst hast, mit so einem schönen Benutzerinterface? Also durch so ein
Labyrinth laufen könnte ich mir schon gut vorstellen, 3D-mäßig, dass man gerade vorwärts,
vorwärts und jetzt nach rechts und da passiert was. Also das wäre, glaube ich, interessant auch,
weil man auch nicht weiß, was hinter der nächsten Ecke kommt oder so. Das könnte man gut gestalten.
Aber wie man jetzt zum Beispiel Pong macht, sagt man da oben, oben, oben, oben, unten.
Das ist auch mit dem Timing dann schwer. Ja, also ich höre schon raus, also ich glaube so,
man muss immer Bezug auf Voice haben, sagt ihr beide. Und jetzt nur ein Spiel,
was nur eben auf einem Display funktioniert, auf ein Displaygerät von Alexa zu bringen,
das hilft nicht. Also würdet ihr beide das so unterschreiben?
Definitiv.
Also entscheidend ist immer, was die Leute nutzen. Und da ist man manchmal überrascht,
worauf die abfahren und wo du denkst, das ist es jetzt und das nutzt keiner. Vielleicht,
weil sie es auch nie mitkriegen, weil es nicht sichtbar ist als Skill. Das kann natürlich auch
anders sein. Und dann werden so banale Sachen werden da tausendfach abgerufen.
Ja, aber so aus eurer Erfahrung heraus, wenn man jetzt tatsächlich einen Skill hat,
der Voice-only vorher war, und wenn man den jetzt mit APL ausstattet, habt ihr das in diesem Bereich
schon mal so gehabt? Oder könnt ihr dann sagen, das bringt mehr Engagement? Oder dass ihr dann
sagt, die Nutzer ordern das auch so ein bisschen ein mittlerweile, dass eine Displayunterstützung
da ist? Oder merkt man da aus eurer Erfahrung keinen Unterschied, ob man jetzt einen Voice-only
Skill hat, den man dann auch mit APL ausstattet? Einfach, weil es noch zu wenig Displaygeräte
dafür gibt. Hast du eine Zahl, wie viele Displaygeräte es gibt?
Also unsere letzte Studie hat gesagt, dass 25 bis 30 Prozent der Displaygeräte und das aktuell
auch ein Drittel aller Geräte mit einem Display verkauft werden. Also das wäre im Moment diese
Zwei-Drittel-Ein-Drittel-Verteilung haben. Beim Streamplayer war das tatsächlich damals, da gab
es ja nur den Echo Show 7. Und dann kam später, ich glaube im Februar oder März, kam der Spot raus.
Das waren die einzigen beiden Displaygeräte, die es damals gab. Und da war die Verteilung dann,
ich sag mal, nachdem der Spot draußen war, war die so bei 80-20, 75-25. Aber dass tatsächlich
75-80 Prozent der Leute die Fernsehsender gehört haben und nicht geguckt haben. Mittlerweile ist es
60-40, also 60 Prozent hören, 40 Prozent gucken. Aber auch das überrascht mich tatsächlich genauso
wie damals, auch heute noch, dass es so viele von den Nutzern gibt, die es eher hören, als die es
gucken wollen. Und ich glaube auch, dass das ganze Thema, dass du das auf einem Feier-TV nutzen kannst,
ist, glaube ich, auch noch gar nicht allen klar, die so ein Feier-TV haben, dass du da einfach mit
der Alexa-Taste Alexa-Skills starten kannst. Also, wie häufig wir da Anfragen bekommen haben,
wie installiere ich denn jetzt den Streamplayer auf dem Feier-TV? Das heißt, über diese Sprachfernbedienung
einfach drück die Taste und starte den Skill. Wobei wir hatten noch ein anderes Problem, weil es gab
tatsächlich eine App, die auch Streamplayer hieß. Und wenn du dann auf dem Feier-TV nur gesagt hast,
öffne Streamplayer, dann hat die immer den App-Store angezeigt mit der App und gar nicht den Skill
gestartet. Und das war dann tatsächlich noch so eine Hürde. Du musstest immer öffne Streamplayer-Skill
sagen, bis dann der Skill kam. Aber trotz alledem, also vom Gefühl her, meint ihr, APL-Unterstützung in
dem Skill bringt was? Oder kann man sich eigentlich eher sparen, wenn man einen coolen Voice-Skill hat?
Das hängt am Anwendungsfall. Also, bei der Mediathek haben mir Leute geschrieben,
sie haben sich extra ein Gerät mit Bildschirm gekauft, um den Skill zu benutzen. Darum geht es
auch. Und dann, was ich überhaupt nicht gesehen habe, also ich bin ja auch ein bisschen mit
Menschen, die blind oder sehbeeinträchtigt sind, vernetzt. Da haben mir Leute gesagt,
da gibt es noch welche, die ein Gerät mit Bildschirm haben. Wo ich auch erst gedacht
habe, na nun, ich habe ja wenig Ahnung. Aber die haben mir erklärt, es gibt halt dieses
Voice-View-Feature. Also, wenn du da bei Barrierefreiheit suchst, in den Einstellungen
von dem Echo Show, gibt es eine Einstellung, wo du das Gerät in einen Modus bringst,
dass du mit dem Finger über den Bildschirm fahren kannst und kriegst vorgelesen, was unter
dem Finger steht. Und das ist für die dann ein echter Mehrwert. Also, ich habe da auch mal in
der Mediathekskirche entsprechend umgebaut damals, als da so Rückfragen kamen. Und das ist
auch mit APL ganz einfach umzusetzen. Es ist einfach ein weiteres Attribut, das du mit
Inhalt fliegen musst. Also, es kann auch ein anderer Text sein. Wenn du jetzt so ein APL-Text-Element
hast, kannst du ein anderes Element vorlesen lassen als das, was angezeigt wird. Das kann
ein bisschen ausführlicher sein. Und dann ist es ein echter Mehrwert zum Beispiel gegenüber
einem Gerät ohne Bildschirm. Aber von Haus aus muss man natürlich auch sagen, dass der
Entwicklungsprozess sich völlig ändert. Also, wir sind ja erst mal darauf trainiert
worden, Voice-first zu denken. Wenn wir jetzt entwickeln, erstmal Dialoge schreiben und
daraus irgendwie die Sprachmodelle entwickeln und dann irgendwie noch den Backend-Code schreiben.
Aber jetzt, wenn du wieder grafische Oberflächen hast, kannst du entweder sagen, du fängst
weiter Voice-first an und machst dann noch ein bisschen GUI obendrauf oder planst gleich
mit visuellen Elementen und überlegst dir dann nur, wie du die mit Sprache fernsteuern
kannst. Ich glaube, die Skills würden dann ganz anders aussehen, je nachdem, ob du den
einen oder anderen Prozess machst. Testen wird teurer oder aufwendiger, weil du musst
wirklich verschiedene Endgeräte angucken. Also, auch das kann eine Entscheidung sein,
die da oder ein Kriterium, was bei der Entscheidung eine Rolle spielt.
Ja. Alex, wie stellst du das Thema ein? Du hast ja auch diesen Bildschirmschonerskill,
der eigentlich nur rein auf den Displaygeräten läuft.
Tatsächlich, ja. Der ist wirklich rein nur für Geräte mit Display da. Ich glaube,
das ist auch wieder so ein bisschen der Punkt. Da war einfach der Nutzen oder die Nachfrage war
da. Ein paar Leute immer wieder schimpfen über diese Startbildschirme von den Echo-Geräten mit
diesen nervigen Tipps und irgendwas läuft durch, was man eigentlich gar nicht will.
Und da habe ich tatsächlich gesündigt. Das ist ein Skill, der tatsächlich nur für Bildschirme
funktioniert. Aber generell halte ich es eher so in der Entwicklung, APL kommt immer ganz am Ende
und auch nur on top quasi als Unterstützung für den Dialog vorher, der gelaufen ist oder die
Informationen, die rausgegeben werden. Ein klassisches Beispiel, wenn du einen Skill hast,
wo du fragen kannst, wer Person X ist. Dann geht es natürlich, du willst jetzt andere
Informationen wissen als der Frank und wieder andere als ich. Und über dieses Display kannst
du dann mehr Informationen rausgeben als über die reine Sprachausgabe. Ich kann quasi sagen,
Person X ist geboren hier und da und schießt mich tot. Aber im Display kann ich ihm anzeigen,
er ist so groß, hat braune Haare. Also wirklich unfassbar viel an Informationen
anreichern. Und ich glaube, das ist so der ganz große Mehrwert von APL,
generell diesen Displays. Definitiv, definitiv. Genau, das ist ja eben diese Multimodalität eben,
dass man Sprache eben auch dann mit dem Grafischen vereinen kann und über das Grafische dann eben
auch mehr Informationen geben. Also ich glaube, wenn man auf dem Bildschirm nur das anzeigt,
was auch die Sprachausgabe sagt, dann kann man es genauso gut eigentlich auch sein lassen. Also
dann macht es keinen Sinn, oder? Das kommt auf die Informationsmenge an. Also
was geht da schon los? Wie gehst du mit Listen um? Also wenn du eine Ergebnisliste hast,
viel mehr als drei Elemente vorlesen. Also wenn es Audio-only ist, macht ja kaum Sinn eigentlich.
Da kannst du auf dem Bildschirm natürlich schon mehr machen.
Das stimmt, ja. Wobei du gehst dann ab einem gewissen Punkt, hast du deine Features,
ob auf einem Bildschirmgerät oder auf einem Voice-only-Gerät, da gehst du ja dann ein
bisschen auseinander. Also da ist ja auch die Frage, wie weit willst du damit auseinandergehen?
Wenn jetzt ein Nutzer in der Küche zum Beispiel ein Echo Show hat und im Arbeitszimmer oder
irgendwo anders hat er seinen normalen Echo, der nur mit Audio funktioniert,
möchtest du ihm zwei verschiedene Funktionalitäten anbieten? Oder möchtest du halt sagen,
nee, es soll eigentlich alles gleich sein und Bildschirm ist tatsächlich nur eine Erweiterung,
ohne mehr Funktionalität? Wahrscheinlich auch immer so eine Frage, die man sich dann stellen muss.
Wenn ihr jetzt programmiert und jetzt für den Kunden vielleicht irgendwie ein Projekt umsetzt
oder auch für euch selber ein Projekt umsetzt, Alex, du hast ja gerade schon gesagt, APL ist
ganz am Ende. Bedenkt ihr das denn vorher schon, was damit möglich ist? Oder sagt ihr tatsächlich,
ihr macht Voice-only erstmal alles und dann überlegt ihr am Ende, wie passt APL dazu?
Also ich würde zumindest empfehlen, immer möglichst klein zu denken und ganz klein anzufangen.
Weil auch um die Benutzerakzeptanz zu testen, um erstmal durch die Zertifizierung durch zu sein,
weil da manchmal Sachen aufschlagen, mit denen man nicht rechnet und dann inkrementell zu wachsen,
ist leichter als das eine große Ding zu bauen und möglicherweise viel Arbeit in irgendeiner
Nebenbaustelle zu versenken, die am Ende keiner nutzt. Also lieber klein anfangen und wachsen,
wäre da meine Empfehlung immer. Ja. Alex, wie ist deine Einschätzung dazu?
Also ich versuche schon zumindest bei der, wenn es dann gerade darum geht, die Response zusammen
zu generieren, wenn es dann relativ flexibel, dynamisch ist die Response, dass da eben nicht
mal vorgesehen ist, dass ich die gleichen Inhalte auch später wieder einsetzen kann in mein APL,
zum Beispiel für irgendwelche Speak-Items, wenn ich Sachen parallelisieren will mit Display
und quasi Sprache. Weil das am Ende wieder auseinanderpriebeln, das macht keinen Spaß.
Das ist unfassbar aufwendig und fehlanfällig. Ja, das ist richtig, ja. Also jetzt hat ja Amazon
auch die Version 1.6 von APL kürzlich veröffentlicht. Wie ist so eure Einschätzung dazu?
Was sagt ihr zur aktuellen Entwicklung? Ich war jetzt beim letzten Update etwas enttäuscht.
Warum? Es kam einfach zu wenig Features, zu wenig neue Features mit dazu. Es wurde jetzt viel Arbeit
reingesteckt in eben diese Tablet-Unterstützung. Ich hätte mir allerdings ein paar Sachen gewünscht,
die jetzt schon seit längerem im Raum stehen. So Debug-Möglichkeiten für Dokumente zum Beispiel,
dass man einfach mal nachvollziehen kann, was auf dem Geld eigentlich wirklich passiert. Weil
einfach nur ein schwarzes Bildschirm ist einfach nicht hilfreich. Ich hatte eine riesen Wunschliste,
die ich noch letztes Jahr irgendwie übergeben habe. Du wolltest irgendwas mit einer Physics Engine
oder sowas mal haben. Das wollte dieser Gold Zulu haben. Ich glaube, es gibt noch diesen
Hint-Transformer und der ist im Moment gerade, wir haben das Problem in Deutschland, er ist
formell gehalten. Also es hat immer die Anrede, sie können oder sagen sie und dann die Phrase.
Und eigentlich willst du die Skills immer per Du halten, also informell. Aber dieser
Transformer gibt es einfach nicht her. Und da ist schon ein paar Mal irgendwie angemerkt,
ob man Investing irgendwie steuern kann, dass er eben entweder dieses formelle oder informelle
ausspuckt oder man generell irgendwie selbst diesen Präfix definieren kann.
Also guter Punkt. Ich gebe dir da vollkommen recht. Ist mir so aber auch noch gar nicht
aufgefallen. Aber wenn ich jetzt, ich meine, ich gucke hier gerade auf so einen Bildschirm und
da wird man auf dem Homescreen bei den Sachen, die durchlaufen, wird man eigentlich auch informell
per Du angesprochen. Ist das dann in Skills tatsächlich über den Hint-Transformer was
anderes?
Scheinbar. Auf dem Netzverstand war eben, dass da immer steht, versuchen Sie.
Ja, da gebe ich dir tatsächlich recht. Das ist mir tatsächlich auch aufgefallen. Aber
ich habe da noch nie auf dem Homescreen drauf geachtet. Ja, interessant. Also ich gucke gerade
da drauf. Frank, wir waren gerade noch bei 1.6. Was sind so deine, wo du sagst, das wäre schön
gewesen oder das ist jetzt gut, dass es drin ist?
Also großes Update ist es nicht gewesen. Würde ich, Alex, zustimmen. Für mich hat die größte
Bedeutung eine Kleinigkeit, dass man diese Skill-Response-Größe von 24 Kilobyte, also
wirklich Kilobyte, verfünffacht hat auf 120. Da bin ich wirklich oft reingelaufen, auch zur
Laufzeit, weil ich auch oft dynamische, dynamisch generierte APL-Dokumente habe,
die da ab und zu mal größer geworden sind. Dann steigt der Skill halt einfach nur zur
Laufzeit aus und du hast da irgendwie gar keine Möglichkeit, das abzufangen. Also das ist die
Änderung, wo ich sagen würde, das hat für mich die größte Bedeutung. Also ich glaube,
das war schon eine Zeit lang aktiv, Alex. Du hast es in irgendeinem Chat mal gesagt. Also
ich weiß nicht, welche Informationsquellen du da noch ansatzt.
Ich glaube, das gab es schon Anfang des Jahres oder Ende letztes Jahres, wo es erhöht wurde,
das Limit. Jetzt wurde es eben offiziell auch eine Doku benannt.
Also das war letztes Jahr bei Commander Speed ein großes Problem, wo ich diese Kommandosequenzen
da dynamisch generiert habe. Die musste ich künstlich beschränken, damit mir das APL nicht
immer um die Ohren flog. Den Parameter könnte ich jetzt mal aufsetzen.
Ich habe tatsächlich auch ein Thema auf der Wunschliste, das habe ich auch schon ein
paar Mal platziert. Das ist mit dem APL-Video-Component, weil du hast da keine Unterstützung
für DRM-geschützte Inhalte. Also wir waren da tatsächlich für den Streamplayer-Skill auch schon
mal im Gespräch mit ProSiebenSat.1 und wir hatten da auch Interesse, aber du hast keine
Möglichkeit, DRM-geschützte Streams über den APL-Videoplayer auszugeben und über den
normalen Videoplayer auch nicht. Das wird halt einfach nicht unterstützt. Und zudem,
ich meine, jetzt kommen wir einmal zu dem Thema, was wir vorher schon einmal kurz
angesprochen haben. Dieses Web-API ist ja eben durch den Zusatz nur für Games. Da würde das
eben gehen, weil man eben die Möglichkeit hat, Web-API oder Web-Themen einfach da abzuprüstücken.
Das ist tatsächlich auch so ein Thema, was mich dann da ein bisschen fuchst. Und eigentlich müsste
es vielleicht ja die Unterstützung mal kommen oder generell über das ganze Thema Web-API,
dass man da diesen Zusatz für Games rausnimmt, oder?
Das ist völlig krass. Also ich finde es völlig unverständlich. Also mir fällt auch gar kein
anderes Beispiel ein, wo man als Hersteller eine Technologie auf eine bestimmte Anwendungsdomäne
beschränkt. Also genauso, wie man jetzt sagen würde, APL ist reserviert nur für Anwendungen,
die mit dem Bereich Office zu tun haben oder irgend so was. Das wäre ja auch ganz seltsam.
Also ich habe da mit dem Joe Morio auch schon mal diskutiert oder so. Also die versuchen,
einem das zu erklären, aber es kommt bei mir nicht an, warum die das machen.
Ich wollte auch, als das Web-API rauskam, wollte ich den Fernsehprogrammskill erweitern. Also die
jetzige Ansicht dieses APL ist ja so eine abgespeckte Version von so einem EPG, den man
klassisch vom Fernsehen kennt. Ist halt eben beschränkt auf eine gewisse Anzahl, was eben
damals noch durch das Limit einfach gab von APL oder generell die Response-Size. Und weil es auch
noch dieses Lazy-Loading noch gar nicht gab damals. Und jetzt wollte ich eigentlich das
Ding eben migrieren auf diese Web-API, dass man eben da quasi eine Web-Ansicht hat, wo man eben
wirklich diesen EPG darstellen kann. Durfte ich aber nicht. Hat Amazon untersagt, weil es eben
kein Game ist. War auch irgendwie sehr schade. Vielleicht hättest du als Zusatzfeature noch
so einen Minesweeper einbauen sollen. Genau. Dann hätten sie es vielleicht abgenickt oder so.
Aber vielleicht ist das auch so ein bisschen durch Google gekommen, weil die haben ja diese
Interactive Canvases und das ist ja auch so HTML5, CSS und JavaScript. Aber wenn ich mich richtig
erinnere, ich habe eigentlich vor ein paar Tagen auch nochmal nachgeguckt, das sind auch nur for
Games bei denen. Und ansonsten haben die ja auch keine Unterstützung für Displaygeräte, außer dass
man mal ein Bild oder so anzeigen kann. Vielleicht ist das auch so ein bisschen die Antwort von
Amazon auf diese Interactive Canvases, um da zu sagen, pass auf, Google macht jetzt Interactive
Canvas for Games. Dann müssen wir auch die Web API for Games anbieten und für alles andere lassen
wir APL. Also wie ich das verstanden habe, zumindest aus meinen Gesprächen, ist das ein
bisschen bedingt auch durch die Hardwareausstattung der Eco-Geräte, die auch sehr unterschiedlich ist,
gerade bei den kleineren Geräten. Und dass sie eben Probleme haben mit der Darstellung oder der
schnellen Darstellung von Web-Inhalten. Aber dann wiederum frage ich mich, warum erlaubt man das
halt für Spiele, die auch auf diesen Geräten laufen, aber eben nicht für alle Anwendungsfälle?
Ja, da bin ich ganz bei dir.
Also zum richtigen Grund. Alex, kennst du, hat man dir irgendwas gesagt?
Nee, einfach nur, mein Skill ist kein Game, deswegen darf ich keine Web API nutzen.
Ja, also das ist tatsächlich auch so, wenn man diesen Haken in der Developer Console setzt,
dass man API for Games nutzen möchte und nachher ist der Skill aber nicht in der Store-Kategorie
Games, dann kannst du ihn noch nicht mal mehr einreichen mittlerweile. Also die prüfen das
schon vorher. Das habe ich nämlich letztens aus Versehen, habe ich einmal den Haken gesetzt und
habe danach versucht, den Skill einzureichen. Aber der war nicht in der Games-Kategorie und
dann hast du immer diese Vorzertifizierung oder diese Vorprüfung, die stattfindet. Und da fehlt
das schon und du kannst den Skill tatsächlich einfach noch nicht mal mehr einreichen heutzutage,
wenn er dann nicht in der Games-Kategorie ist.
Okay, gut zu wissen.
Ja, dann lass uns noch mal über so ein Projekt sprechen, das mich seit, wann gibt’s das? Alex,
im halben Jahr, dreiviertel Jahr, APL Ninja?
Ich glaube, seit dem 17. September ist es live gegangen, zumindest die Beta.
Bisschen über ein halbes Jahr.
Das ist auch so ein Corona-Projekt, oder?
Genau, wollte ich gerade fragen. Wie kam es dazu? Also angeteast hattest du das ja schon
länger, dass du da an was arbeitest. Also du hattest, glaube ich, auch die Domain vorher schon
geteilt, aber nicht, was da kommt unter der Domain, wenn ich mich richtig erinnere.
Genau, ich glaube, vor einem Jahr gab es quasi diesen ersten WebView-Host, der quasi dann eben
das APL-Poder für Browser ist, wo Amazon quasi auch eben diesen Autoren-Tool verwendet,
Open-Source gestellt hat. Da habe ich zum ersten Mal so ein kleines Tool gebaut,
worüber die Entwickler quasi ihre APL-Templates innerhalb von so einem Device-Frame sehen konnten.
Und ja, hat mir eigentlich relativ gut gefallen, mit dem Ding zu arbeiten, weil es einfach mal auch
so ein bisschen hintendran zeigt, was dann eigentlich APL alles kann oder tut. Und dann
zweiter Grund, ich glaube, da spreche ich für Frank und mich. Wir haben damals unsere ganzen
APL-Dokumente auf GitHub gehostet. Problem allerdings nur, du hast eben keinen wirklichen
Vorschau gehabt. Du hast immer quasi Screenshots machen müssen, hast mehr zupacken müssen,
kleine Beschreibungen, einfach irgendwie nervig und aufwendig. Und zudem, glaube ich,
kein Mensch kannte diese Repositories so wirklich. Deshalb habe ich es tatsächlich auch sein gelassen,
weil ich fand es zu nervig, immer so eine Beschreibung und einen Screenshot noch da
reinzupacken. Also der Aufwand war einfach zu groß. Und dann dritter Punkt eben, ich bin
relativ aktiv in dem Forum. Und was mich da immer genervt hat, wenn er irgendwie sein APL-Dokument
da gepostet hat, muss es das erst kopieren, ins Outwear-Tool gehen, muss es da einfügen,
muss es gucken, wo ist das Problem, den Code korrigieren, wieder zurückkopieren. Und ich
wollte einfach irgendeine Möglichkeit haben, relativ schnell und einfach Code zu teilen.
Und so entstand einfach die Idee von diesem APL Ninja. Also wir angehören an diese ganzen
Plattformen, die man eben kennt, so wie CodePen, JS-Viertel und wie es alle heißen.
Also aus deinem eigenen Bedürfnis heraus. Und ich meine, viele nutzen es. Also ich hatte mit
Frank vorab, Frank sagte zu mir, ist ja cool, dass der Alexan auch dabei ist. Er wollte sich
auf jeden Fall nochmal bedanken für das APL Ninja, hat er gesagt.
Definitiv. Du hast die Welt verändert.
Ich muss tatsächlich auch sagen, das ist tatsächlich eines der coolsten Projekte,
die ich für Alexa und für APL überhaupt kenne. Also deshalb bin ich da auch gerne dabei und teile
da auch gerne dann meine Sachen einfach, weil es so viel einfacher jetzt ist, als das,
was man eben vorher hatte. Also von daher, Frank, du hast es auch sehr, sehr positiv
aufgefasst. Du bist, glaube ich, auch einer der Top-Contributor dabei und teilst immer sehr
viele Dokumente. Ist das so deine Einschätzung? Ja, wenn ich es in einem Satz sagen muss. Also
was IntelliJ für mich, für Java ist, ist APL Ninja für die Skillentwicklung. Also was jetzt
das Grafische betrifft. Es ist wirklich, am Anfang war es was zur Inspiration und als Nachschlagewerk
und dann habe ich gemerkt, wenn ich gleich in der Umgebung da entwickle, bin ich schneller als bei
jeder Alternative, die sich mir sonst anbietet. Ja, also das ist fast nur von Amazon das Authoring
Tool, was die anbieten. Aber das, was du da gebaut hast, ist einfach flüssiger. Es fühlt sich besser
an, macht mehr Spaß. Also auch diese Device-For-Ansicht und sowas. Es ist einfach rund,
ja. Und wenn was klemmt, dann schreibt man dir und 24 Stunden später läuft es dann. Ich glaube,
das einzige Alleinstellungsmerkmal, was Amazon da mit dem Authoring Tool noch hat, ist dieses,
wie heißt es, Push-to-Device-Feature, ja. Dass du direkt zu einem Gerät so ein APL mal rüberschubsen
kannst, um es wirklich auf dem Gerät zu sehen. Aber ich sage mal, nicht ich glaube, sondern ich
weiß, wenn es das als API gäbe, hättest du das auch irgendwie an einem Wochenende
wahrscheinlich integriert. Definitiv. Ich weine im Moment gerade alle zwei Wochen jemanden die
Ohren voll, dass ich gerne so eine API hätte. Aber sie wird wahrscheinlich nicht öffentlich
gemacht werden, aus Sicherheitsgründen. Ja, kann man dem auch ein bisschen nachvollziehen.
Ja, genau. Aber es ist wirklich für mich auch eine Entwicklungsumgebung geworden,
was ich selber daran merke, dass ich zeitweise mehr private Dokumente da habe als öffentliche,
ja. Also letzte Woche mal wieder aufgeräumt und geguckt, was du dann auch öffentlich machen kannst.
Das ist aber auch immer noch ein bisschen Arbeit, das zurechtzustricken und das Überflüssige
rauszuschmeißen und so. Aber wirklich ganz, ganz toll, was du da gebaut hast.
Freut mich. Ja, also auch von meiner Seite echt Daumen hoch.
Ich sehe auch in der Datenbank, es gibt aktuell doppelt so viele private Dokumente wie öffentliche
Dokumente. Es gibt ganz, ganz viele User mit Amazon.com als E-Mail-Adresse. Was mich total
gefeutert war, es gibt einen Entwickler, der hat angemeldet mit einer Disney.com-Adresse.
Der hat auch tatsächlich mein Morphun-Spiel gefolgt und ein paar Find-It-Nemo-Anpassungen
drin gemacht. Ah, okay. Dann ist ja wohl klar, was bald kommt, ne?
Ja.
Werden die Morphun-Sprites ersetzt durch, ich weiß nicht, was es bei Disney da gerade gibt.
Das war dieser Find-It-Nemo, dieser, was ist das, ein Clown-Fisch?
Ja, genau. Vielleicht, ich meine, man weiß ja nicht, vielleicht ist ja ein Teil 3 in Arbeit,
also meine Kinder, die stehen ja total auf Find-It-Nemo und Find-It-Dory, also das ist ja
da quasi der zweite Teil davon. Von daher, ganz spannend auf jeden Fall, ne? Also das ganze Thema
APL. Was würdet ihr denn sagen, wohin sollte denn für Amazon oder für APL die Reise gehen? Also,
was sind so Sachen, wo ihr das vielleicht in ein, zwei Jahren seht? Habt ihr euch da schon mal so
Gedanken drüber gemacht?
Ich habe ja vorhin schon mal gesagt, dass ich eine ganz große Wunschliste habe. Also, im Moment
gerade ist es ja, ich habe, man war es, vor zwei Wochen gab es, glaube ich, ein Two-Voice-Dev-Talk
zwischen dem Stuart und dem Alan, wo sie auch über APL gesprochen haben. Da haben sie immer
wieder Vergleiche gezogen zwischen APL und Technologien, die man bereits kennt, also
JavaScript, HTML. Und APL ist ja eigentlich nichts anderes wie HTML, ist ja irgendwie eine
Ausdruckssprache oder Beschreibungssprache. Und was mir persönlich ganz, ganz viel fehlt an ein
paar Stellen, ist einfach so dieser Zugriff auf diesen DOM, nenn es einfach mal, dieses
Dokument, das man wirklich auch mal abragen kann, wo sitzt eigentlich gerade ein Element oder wie
groß ist das Element, um einfach noch irgendwie flexibler an den Templates sein zu können.
Frank, bei dir? Hast du auch so eine Wunschliste, so zumindest vielleicht im Kopf?
Ja, aber es sind viele Kleinigkeiten, die mir eigentlich eher so das Leben schwer machen. Das
eine ist, dass neue Geräte halt oft immer noch mit einer alten APL-Version ausgeliefert werden,
was ich so gar nicht verstehe. Also, ich weiß, das letzte neue Gerät, was ich hatte, war auch
Dezember rum, das war immer noch APL 1.3. Ja, und der Update-Prozess, der ist halt für die Nutzer
auch nicht wirklich transparent. Also, wenn du in den Einstellungen System-Update fährst und
der sagt dir, es ist jetzt aktuell, heißt das nicht, dass du ein aktuelles APL hast. Das wird
wohl irgendwann, wenn das Ding nachts mal läuft und nicht angefasst wird, dann laden sie es irgendwie
hoch, haben die mir erklärt von Amazon. Aber leider stellen viele Leute das Gerät auch nachts im
Schrank oder stöpseln es nur mal ein, wenn sie es gerade brauchen. Und ja, da laufen dann manche
Skills einfach nicht. Also, den Prozess wünsche ich mir anders. Oder die Alexa-App, dass die
vielleicht auch mal APL darstellen könnte. Also, dass es auch irgendwie sichtbarer wird,
ja. Also, auch wenn du Entwickler dafür bewegen, motivieren willst, den Stack zu benutzen,
dann musst du ja auch irgendwie mehr Plattformen haben, ja. Also, auf jeden Fall. Aber ich habe
tatsächlich die Hoffnung, Alex hat das vorhin ja auch schon gesagt, dass sie jetzt Anpassungen
für das Tablet gemacht haben. Also, gerade auch Portrait- und Landscape-Mode. Das ist ja meine
Hoffnung. Es gibt ja die Handys und Smartphones heutzutage, die sind ja alle schon auch relativ
groß, was den Bildschirm angeht. Also, viereinhalb, fünf Zoll ist ja heute so quasi Standard. Da
vielleicht auch mit ein bisschen wenig Anpassungen, dass man da endlich mal die Alexa-App eben auch
aus dem Mobile bekommt. Und Debugging, das hast du, Alex, vorhin schon mal erwähnt. Also,
da ist ja fast nichts, ja. Also, wenn es irgendwie nicht läuft, musst du sehr
kleinschrittig das Problem einkreisen, um irgendwie rauszukriegen, was es ist. Da
können es bessere Tools geben. Ja, das stimmt, das stimmt. Ja, super. Wollt ihr noch irgendwas
ergänzen? Also, ich meine, ich habe mir hier noch ein Thema auf jeden Fall aufgeschrieben. Und zwar,
du hattest, Frank, relativ am Anfang gesagt, dass du findest, dass Alexa und so häufig für
Spaß-Inhalte genutzt wird. Dass du dir auch wünschst, dass es ein bisschen in die ernstere
Ecke kommt. Wenn wir jetzt mal Vergleiche ziehen zur Mobile-Entwicklung, die es am Anfang gab.
Ja. Also, gerade iOS und Android, ich meine hier die ganzen, zum Beispiel Bier- oder
Furzkissen oder sonst irgendwas, das waren ja auch quasi die ersten Apps, die man so darauf
hatte. Seht ihr beiden diesen Weg, dass es diesen Weg macht, oder im Moment eher nicht?
Also, ich sehe die Parallele genauso wie du erst mal, ja. Also, nur, dass die Anfangszeit
jetzt doch schon ein paar Jahre geht hier. Aber ja, es gibt vielleicht Gründe, warum es hier
nicht so passiert. Also, ich glaube, viele Leute wissen gar nicht so, dass es Skills gibt oder was
das ist. Die benutzen das Gerät out of the box, wie es ist. Also, ich weiß nicht, ob das schon
vom Ansatz her ein Fehler war, die Dinger Skills zu nennen und nicht Apps. Also, das ist schon,
wenn ich jemandem erkläre, was ich mache, wenn ich ihm sage, einfach mal, auch wenn es technisch
nicht ganz passt, ich schreibe Apps für Alexa, dann weiß er, hat er ein Bild davon, was ich
mache. Wenn ich sage, ich schreibe Skills für Alexa, muss ich ihm erklären, was das ist. Also,
der eine Begriff ist verankert irgendwie. Wenn Leute neue Handys haben, dann fragen sie sich
oft, was hast du für Apps drauf? Aber bei Alexa fragt niemand, was hast du für Skills
dir installiert? Oder vielleicht manche, aber das ist irgendwie schon mal nicht so verankert
bei den Leuten. Also, das ist eine Sache. Dann, dass immer alles geht, ist vielleicht auch ein
Hindernis. Also, ich weiß, wir haben mal so ein Prototyp entwickelt für so ein Autohaus,
aber es ist letztlich nicht live gegangen. Also, da wollte man in Autos drinnen,
in ausgestellten Autos die Möglichkeit haben, dass man quasi Eigenschaften über das Auto
abfragt. Aber man wollte eigentlich auch nur dieses Feature haben und nicht, dass du da auch
anfängst, komische Geräusche abzuspielen oder eine Erinnerung setzt in 30 Minuten mit dem Text,
Dacia hat die besseren Autos oder sowas. Das kannst du ja nicht abklemmen. Also,
so ein Kioskmodus, wo du sagst, auf dem Gerät läuft nur ein Skill. Das wäre für Museen toll,
für Infoterminals oder sowas. Ich glaube, damit könnte man auch eine Menge ändern,
wenn man so ein Feature hätte. Also, um es auch sichtbarer zu machen in der Öffentlichkeit.
Ja, das stimmt.
Und dieses Datenschutzproblem, also das sagen mir ja viele, aha, Alexa, ja, aber die hört ja
immer zu. Und wenn ich dann zurückfrage, bist du bei Facebook? Bist du bei Instagram? Bist du bei
WhatsApp? Ja, ja, klar. Also, es ist so eine ganz zweigleisige Wahrnehmung der Dinge, die da vielleicht
auch noch eine Rolle spielt, dass es nicht so genutzt wird. Ich lese oft von Alexa for Business,
was es irgendwie in den USA gibt. Ich weiß nicht, ob das da noch so andere Möglichkeiten eröffnet.
Für Firmen oder so professionellere Sachen zu machen. Aber das ist ja auch wieder so ein
US-only-Ding. Also, das ist auch noch was, was mich stört, dass wir bei vielen Sachen nur zu,
bei vielen Features nur zuschauen dürfen.
Das stimmt. Alex, so aus deiner Richtung, wie findest du die Entwicklung?
Ich bin da völlig bei Frank. Also, ich muss auch immer den Vergleich ziehen zwischen App und Skill,
wenn ich einem erkläre, was ich eigentlich tue. Ich beobachte auch immer so die letzten sieben
Tage, was an neuen Skills reinkommt in den Store. Und in letzter Zeit ist erschreckenderweise sehr
viele Radio-Skills. Also, irgendwie hat gefühlt jeder Radio-Sender mittlerweile irgendwie für
ihre Genre einen eigenen Skill. Ich glaube einfach, dass diese ganzen Templates, die aktuell
existieren, es einfach unfassbar einfach machen, dass Entwickler irgendwie irgendwelchen Content
anbieten. Also, da ist irgendwie immer so die Quantität statt die Qualität im Überhang. Da
gehen halt eben wirklich die Skills, die wirklich schön gemacht sind, wo auch wirklich Arbeit
reingeflossen ist, die gehen einfach irgendwie unter in dieser schieren Menge.
Ja, stimmt. Also, gerade das Thema Discoverability. Also, ich meine, das ist egal, mit wem man spricht
aus der Voice-Szene. Das ist auch so ein universelles Thema. Das betrifft ja jetzt
nicht nur Alexa, sondern eben auch Google und alle anderen. Das ist tatsächlich ein
schwieriges Thema. Also, in dem App-Store von Apple oder von Google, da hast du diese
kuratierten Inhalte. Du hast verschiedene Bezüge, die du ziehen kannst und Apps,
die du angeboten bekommst. Und die wechseln relativ häufig. Das ist bei Amazon ja im
Moment leider nicht so der Fall, dass da im Skill-Store immer wieder was Neues angeboten
wird. Und auch im Newsletter. Ich glaube, vor zwei Wochen oder drei Wochen. Ich schaue da auch
jeden Morgen am Freitag dann rein. Es gab tatsächlich jetzt mal ein Newsletter, wo nicht
ein Skill erwähnt wurde, sondern alles nur die First-Party-Invocations, die du bei Alexa
nehmen kannst. Und das ist dann natürlich auch ein bisschen schade, weil es gibt so viele,
so viele coole Skills da draußen. Und einmal ist mir tatsächlich so aufgefallen, da haben
die zwei Befehle, also zweimal denselben Befehl im Newsletter. Wurde zweimal dasselbe. Und da
frage ich mich, das könnte man tatsächlich ein bisschen anders angehen. Und das ist so einer
meiner Wünsche einfach, weil es gibt wirklich in diesen 11.000 Skills, die wir mittlerweile fast
in Deutschland haben, gibt es so viele coole, also jetzt auch von euch beiden, aber auch von
allen anderen Entwicklern da draußen, die wirklich viel Arbeit da reinstecken. Und dann ist es
wirklich schade, wenn am Ende des Tages der 15. Pupskill rauskommt und der dann einfach auch
einfach auch genutzt wird, dann im Gegensatz zu den ganzen anderen coolen Skills, wo so viel Arbeit
und Wochen Mehrwert drin ist. Also das ist tatsächlich eins meiner größten Wünsche,
die Discoverability, dass man das ändert. Ja, ihr habt letztes Jahr diese Studie da
rausgebracht, wo ihr die Top-10-Skills da von allen Locals mal verglichen habt. Das habe ich mir
alles durchgelesen und das war ja echt so, ich glaube sogar unter den Top-5 war immer irgendwie
Furz und Rülps. Das ärgert mich irgendwie, aber ja. Alex, was wolltest du sagen? Meine erste Aktion
freitags morgens ist das Handy in die Hand nehmen, das E-Mail-Klein aufbauen und den Newsletter
umgelesen löschen, weil ich habe da schon ewig mehr reingeguckt, weil es war eine Zeit lang einfach
Sachen, die waren von der Vorwoche noch mal drin, also es war irgendwie einfach nur immer wieder
wieder erholend. Ja, genau. Also wie gesagt, vor zwei oder drei Wochen war tatsächlich zweimal,
wie du die Temperatur über deine Alexa einstellen kannst, stell die Temperatur auf 22 Grad oder
irgendwie so und wirklich zweimal im Newsletter. Also das ist dann wirklich ein bisschen schade,
aber dann schauen wir mal, wohin sich das so entwickelt. Super, habt ihr noch irgendwas,
was ihr loswerden wollt? Jetzt ist die Zeit, oder wir treffen uns irgendwann noch zu Teil 2 und
sprechen noch andere Themen durch. Ich würde definitiv zu Teil 2 tendieren. Da wäre ich dabei.
Also wenn ich das vergleiche, wenn man heute mit APL einsteigen will, und ich vergleiche das mit
der Situation, die man vor zwei Jahren hatte oder sowas, also da ist es heute deutlich leichter.
Also neben APL-Ninja gibt es halt einfach viel mehr bessere Do-Boost-Beispiele. Man kann mehr
machen. Also wer mit dem Gedanken spielt, möchte ich einfach Mut machen. Es lohnt sich und die Hürde
ist nicht mehr so groß, wie sie vor zwei Jahren noch war. Sehr gut, ich glaube, das ist ein schönes
Schlusswort, Frank, Alex. Ich sage vielen, vielen Dank für eure Zeit, für euren Input und dann schauen
wir mal in Richtung Teil 2. Vielen Dank euch beiden. Sie hörten Beyond Touch, der Podcast
über Voice und intelligente Assistenten mit Claudius Herz, Mike Metzen und Daniel Mittendorf.