Siri, Alexa und der Mann, der wissen will, wie wir mit Automaten reden

Virtuelle Sprachassistenten wie Siri von Apple oder Alexa von Amazon sind unsere Butler 2.0: Wir fordern, sie liefern – ohne Widerworte. Wie beeinflusst das unser Sprachverhalten? Linguist Steve Duman will es herausfinden.

«Unsere Kommunikation mit Maschinen ist ein Land der Grauzonen», sagt Sprachwissenschaftler Steve Duman.

Vorausgesetzt, Sie besitzen ein iPhone: Wann haben Sie das letzte Mal Siri benutzt? Wahrscheinlich als Sie aus Versehen zu lange auf den Home-Button gedrückt haben, stimmts?

Man kann es Ihnen nicht verübeln. Es fühlt sich unnatürlich an, in sein Smartphone zu sprechen, damit eine kühle Computerstimme eine mehr oder weniger brauchbare Antwort liefert. Und es wirkt komisch, so vor anderen Leuten.

Beck: Siri, wer ist Steve Duman?
Siri: Interessante Frage.

Richtig, wenn auch wenig hilfreich: Der Amerikaner Steve Duman forscht seit Februar 2017 am Englischen Seminar der Uni Basel zu sogenannten VUIs, also «voice user interfaces», wie Siri eines ist. Für seine Habilitation will der Ph.D. herausfinden, wie wir mit und über unsere virtuellen Butler sprechen und was das mit unserer Sprache und Wahrnehmung macht.

Immerhin: Im Jahr 2017 haben sich geschätzte 710 Millionen Menschen an einen virtuellen Assistenten gewendet. In drei Jahren sollen es schon 1,8 Milliarden Menschen sein. Fast ein Viertel der jetzigen Weltbevölkerung wird  früher oder später mit einer Software kommunizieren, die gesprochene oder geschriebene Sprache versteht und auf Befehl das Wetter anzeigt, einen Anruf tätigt oder einen Witz reisst.

Apples Siri, Amazons Alexa und Googles Assistant sind nur die bekanntesten VUI-Assistenten. Man findet sie auf dem Smartphone, im Auto und zu Hause. Digitale Plaudertäschchen, wenn man so will, die auf das gesprochene Wort ihres Herrchens oder Frauchens warten. «Danke» und «Bitte» braucht es für sie dabei nicht.

Beck: Siri, wie wichtig ist dir das Sprechen?
Siri: Interessante Frage.

Allerdings! Denn trotz technologischen Quantensprüngen war das gesprochene Wort die längste Zeit uns Menschen vorbehalten. Wir sprachen, während der PC in der Ecke ahnungslos vor sich hinsurrte. Seit 2011, als mit dem iPhone 4S auch der Sprachassistent Siri präsentiert wurde, haben wir einen ernst zu nehmenden zusätzlichen Gesprächspartner.

2015 folgte mit Amazon Echo der intelligente Lautsprecher für zu Hause mit dem Sprachassistenten Alexa, der über die Cloud agiert. Auf den Befehl «Alexa, spiel Musik» zum Beispiel lässt der Assistent die Bässe wummern.

Sprechen statt eintippen – dieser feine Unterschied könnte sich zu einem riesigen aufblähen.

Die Maschine hat sich also dazwischengeschlichen und will mitreden. Nach den Software-Entwicklern  werden nun auch die Linguisten hellhörig. Wieso denn, fragen Sie sich vielleicht. Maschinen sind keine Menschen, haben (noch) keine Gefühle. Was interessiert es Sprachwissenschaftler, wie ich mit ihnen kommuniziere?

«Unsere Kommunikation mit Maschinen ist ein Land der Grauzonen», sagt Steve Duman. «Auch wenn wir eigentlich wissen, dass es eine Maschine ist – ein Teil von uns versteht es trotzdem nicht ganz.»

Wieso nicht? Duman erklärt: «Unser eigenes Spracherkennungssystem ist hoch-automatisiert und wir verarbeiten Sprache nahezu unbewusst. Ausserdem neigen wir dazu, unseren Konversationspartnern Intentionalität zuzuschreiben.» Wenn nun plötzlich auch die Software spricht –besonders, wenn wir die Technologie dahinter nicht kennen –, dann greifen wir laut Duman auf unser gewohntes System zurück.  Sprechen statt eintippen – dieser auf den ersten Blick feine Unterschied könnte sich zu einem riesigen aufblähen und in die zwischenmenschliche Interaktion hineinfunken.

Beck: Siri, hast du mich gern?
Siri: Ich respektiere dich.

Wird die Welt also geflutet werden von unflätigen Rüpeln, von lauter kleinen Diktatoren, die Befehle plärren und keinen Fehler verzeihen? Oder werden wir allesamt zu asozialen Eremiten, die endlich jemanden beziehungsweise etwas gefunden haben, das sie respektiert, ihnen zuhört und widerspruchslos folgt?

«Vielleicht», sagt Duman. Oder: «Das wäre möglich.» Oder: «Das würde Sinn machen, nicht?»

Hat Siri nun sogar den Sprachwissenschaftler verdorben?

Zum Glück nicht. Duman würde gerne genauer antworten, doch er kann es im Moment nicht. Das Forschungsfeld ist jung und die Entwicklung schnell.  «Es gibt schlichtweg noch kaum Forschung dazu, wie uns die VUIs beeinflussen», sagt er. Es sei denkbar, dass sich die Kommunikation auf der Ebene Mensch–Maschine auch auf die Ebene Mensch–Mensch niederschlägt.

Möglich, dass wir nach einem Sonntag zu Hause mit Alexa am Montag im Büro beim Chef das Bitte vergessen. Oder dass wir Siris Aussprache übernehmen, wie wir es bei unseren Mitmenschen tun. Oder dass uns unsere Kinder dabei beobachten, wie wir mit unseren virtuellen Assistenten umspringen und dieses Verhalten im Alltag implementieren. Solche und ähnliche «Carry-over»-Effekte sind naheliegend. Jetzt muss man sie nur noch beweisen, sagt Duman.

Je näher die Maschine am Mensch ist, desto mehr mögen wir sie. Logisch, nicht?

Die Gruppe «Kognition, Sprache und Interaktion mit Maschinen» – ein internationales Forscherteam, dem auch Steve Duman angehört – führt an der Uni Basel verschiedene Studien durch. Die erste wird Anfang 2018 publiziert werden. Darin untersuchen die Forscher Zigtausende Nutzer-Rezensionen auf Amazon.com. Die Forscher wollen herausfinden, in welchem Ausmass Amazons Sprachassistent vermenschlicht und personifiziert wird. Zum Beispiel, ob Alexa eine «Sie» oder ein «Es» ist. Oder ob Alexa als Freundin oder als Software-Agent bezeichnet wird.

Denn nicht nur wie wir mit, sondern auch wie wir über unsere virtuellen Assistenten sprechen, kann weitreichende Erkenntnisse liefern. So viel kann Duman vor der Veröffentlichung der Studie preisgeben: «Es scheint so, als würde der Grad der Vermenschlichung aufzeigen oder sogar beweisen, wie stark der Nutzer das Produkt mag.»

Beck: Siri, bist du eigentlich weiblich oder ohne Geschlecht?
Siri: Ich bin Siri.

Je näher die Maschine am Menschen ist, je stärker sie unsere Instinkte anspricht, desto mehr mögen wir sie. Immerhin sind wir soziale Wesen. Logisch, nicht?

Nicht unbedingt, sagt Duman. Die Software-Entwickler müssen sich vor dem Sturz in die Tiefe hüten, es droht das «uncanny valley», das unheimliche Tal, das man vor allem von Animationsfilmen kennt: Erreichen animierte Menschen einen gewissen Grad an Realismus, bricht die Akzeptanz bei den Zuschauern paradoxerweise ein. Ihnen wird unwohl, die Figuren wirken befremdlich. Das «uncanny valley» war der Hauptgrund, wieso Filme wie «Beowulf» (2007) von Star-Regisseur Robert Zemeckis an den Kinokassen scheiterten.

Wer aus dem Tal herausfinden will,  muss so gut animieren, dass die Animation nicht mehr von der Realität zu unterscheiden ist. Denn wenn eine Animation versucht, auf Mensch zu machen, wird sie auch mit denselben Massstäben gemessen wie ein Mensch. Dasselbe gilt für virtuelle Sprachassistenten.

Wird uns irgendwann ein Betriebssystem mit der rauen Stimme von Scarlett Johansson um den Verstand säuseln wie im Film «Her»? Vielleicht. Vielleicht auch nicht. Sicher ist: VUIs werden auch in Zukunft versuchen, im Gespräch zu bleiben. Jetzt kommt es darauf an, wie stark wir sie miteinbeziehen.

Beck: Siri, hast du den perfekten Schlusssatz für mich?
Siri: Das kann ich nicht beantworten. 

Es ist noch Luft nach oben.

Nächster Artikel