zum Hauptinhalt

Siri sagt: Warum die Apple-Sprachsoftware nicht nur Geeks fasziniert

Das neue iPhone 4S spricht. Der Sprachassistent Siri hat zwar noch seine Schwächen, die Apple-Fangemeinde ist trotzdem begeistert. Wie intelligent ist das Smartphone wirklich? Zwei Forscher geben unterschiedliche Antworten.

Science-Fiction-Autoren zeichnen mal mehr, mal weniger plausible, mal mehr, mal weniger wünschenswerte Visionen von der Zukunft. In einem Punkt scheinen sich die Vertreter dieses Genres aber einig zu sein: In der Zukunft werden Menschen mit Maschinen kommunizieren wie mit Menschen. Ob Haushaltsgerät oder Raumschiff – in der Vorstellung der Visionäre empfangen die Geräte ihre Anweisungen über das effektivste aller Informationsübertragungsmedien: die menschliche Stimme. Die ästhetische Analogie zu diesem Menschheitstraum von der Mensch-Maschine-Kommunikation als einer Mensch-zu-Mensch-Kommunikation begegnet uns in Gestalt des Androiden, einem menschenähnlichen Roboter.

Warum strebt der Mensch so sehr danach, die Maschinen zum Reden zu bringen? – Kein Mittel der Informationsübertragung ist so intuitiv und effektiv wie die gesprochene Sprache. Wären Maschinen in der Lage, menschliche Sprache einwandfrei zu verstehen und zu interpretieren, müsste niemand mehr Bedienungsanleitungen tüfteln oder Computerkurse belegen. Der Mensch müsste nichts mehr können. Er müsste nur noch wollen.

An der Universität Bielefeld beschäftigen sich Wissenschaftler aus den unterschiedlichsten Bereichen mit der Erforschung und Entwicklung solcher sprachgesteuerter und wissensbasierter Systeme, besser bekannt als Künstliche Intelligenzen (KI). Mit einer Mischung aus persönlichem und professionellem Interesse beobachten Ipke Wachsmuth, Leiter des Fachbereichs Künstliche Intelligenz, und Computerlinguist David Schlangen, wie sich im Herbst 2012 ein Wendepunkt auf dem Gebiet der Sprachtechnologie abzeichnet. Die Rede ist von Apple und von Siri, dem Sprachassistenten auf dem neuen iPhone 4S. Siri kann hören und verstehen. Es kann auf Zuruf Nachrichten verschicken, Anrufe tätigen, den Wecker stellen, Termine planen. Und es beantwortet Fragen. Siri weiß, wie das Wetter wird, welche Termine anstehen und wo es lang geht. Der persönliche Assistent im Smartphone ist geduldig, allzeit bereit und absolut humorlos – charakterlich also ein Android wie er im Drehbuche steht.

An der Uni Bielefeld zeigen sich die Forscher und Ingenieure beeindruckt von dem persönlichen Assistenten. KI-Forscher Ipke Wachsmuth sieht in Siri gar einen „Meilenstein der Sprachtechnologie“. Wer schon mal das Vergnügen mit Siri hatte, wird an diesem Punkt stutzig werden. Solche Loblieder ist man sonst nur von den Apple-Jüngern gewohnt. Um die Begeisterung der Experten zu verstehen, muss man aber etwas weiter ausholen.

Zunächst einmal besteht die Leistung Apples nicht in der Technologie an sich. Neu ist lediglich die Integration in ein beliebtes Alltagsgerät. Das ist nur möglich, weil die Analyse der Spracheingabe nicht auf dem iPhone selbst stattfindet. Eine solche Rechenleistung könnte das kleine Gerät niemals vollbringen, glaubt Wachsmuth. Siri sendet die Nutzeranfragen an einen Webserver, nutzt also dessen Ressourcen. Eine clevere Lösung und in dieser Kombination einmalig, meint Wachsmuth.

Warum es Mut braucht, um dem Smartphone eine Stimme zu verleihen.

Das neue iPhone mit einer Sprachverarbeitungssoftware auszustatten sei gar ein mutiger Schritt gewesen, meint der Computerlinguist David Schlangen, denn: „Die Erfahrungen der Nutzer mit Sprachsystemen sind nicht positiv." Weder automatisierte Ansagen im Zug noch im Callcenter haben bisher Begeisterungsstürme ausgelöst. Ihre Fehleranfälligkeit lassen den Verbraucher viel eher verzweifeln. Und auch Siri hat Schwächen, die die Geduld des Nutzers oft genug auf eine harte Probe stellen.

Ein so unausgegorenes System auf den Markt zu bringen, käme für die meisten Konzerne nicht in Frage. Nicht so für Apple. Es ist paradox: Statt eines erwarteten iPhone 5 bringt der Smartphone-Pionier im Herbst 2012 ein iPhone 4S mit einem Sprachassistenten in der Beta-Version auf den Markt – und wird dafür auch noch belohnt. Die Marketing-Wirkung ist phänomenal. Dem Sprachassistenten wurden schon ganze Webseiten und sogar ein Liebeslied gewidmet. Nach der „Touchscreen-Revolution“ (Schlangen) hat der Apfel wieder mal den Stengel vorn und zementiert seinen Ruf als innovatives, wegweisendes Unternehmen.

Dabei spielt das Design eine ebenso wichtige Rolle wie die Technologie, glaubt David Schlangen. „Es wurde offensichtlich viel Mühe darauf verwendet, den Umgang mit dem Assistenten angenehm und hübsch zu machen“, folgert er. Man habe Siri sogar eine Persönlichkeit verpasst. Siri ist schlagfertig, kühl und distanziert – und gerade deshalb so charmant. Kurz gesagt: Siri bedient Fantasien. „Das ist alles Handarbeit“, sagt Schlangen. Die Entwickler haben so genannte „Ostereier“ versteckt; schlagfertige Antworten auf alle denkbaren und undenkbaren Fragen. Schon kurze Zeit nach dem Verkaufsstart des iPhone 4S ist es zum Volkssport geworden, dem Gerät lustige Antworten zu entlocken und auf Webseiten zu veröffentlichen.

Die natürliche Sprache, also die Alltagssprache, steckt voller Tücken für die Entwickler von Sprachsystemen. Es ist längst nicht damit getan, dem System ein umfangreiches Vokabular und die Grammatik einzuimpfen. Auch sei zweitrangig, welche Sprache das System sprechen soll, erklärt Wachsmuth. So sei die deutsche Grammatik zwar komplexer als die Englische. Dafür gäbe es im Englischen aber weitaus mehr Wörter. Ein stabiles Sprachsystem hat mit ganz anderen Problemen zu kämpfen: Es muss mit Dialekten und undeutlicher Artikulation zurechtkommen. Eines der größten Hindernisse war lange Zeit, die richtige Verarbeitung von Sprechpausen. Die sprechenden Roboter in den Forschungslaboren können mittlerweile minutenlange Dialoge aufrechterhalten, berichtet Schlangen. Siri scheitert daran. Kurzes Nachdenken, während man eine Nachricht diktiert, interpretiert Siri als das Ende der Ansage.

Überraschend sei das nicht, sagt Schlangen. Dennoch sei er fast erleichtert gewesen, als er sich das neue iPhone gekauft und erkannt habe, dass Siri weit hinter den Erwartungen zurück bleibt. „In dem Werbeclip sieht es ja so aus, als ob Siri alle Probleme löst“, sagt der Fachmann für angewandte Computerlinguistik.

Siri-Sprech, Künstliche Intelligenz und eine Katze, die sich in den Schwanz beißt.

Den Sprachwissenschaftler interessieren vor allem zwei Dinge. Erstens: die Qualität der Spracherkennung. „Da schlägt sich Siri ganz gut“, so das Fachurteil. Das Programm erkennt Worte selbst in einer lauten Umgebung und trotz undeutlicher Sprechweise. Hat das System die Worte identifiziert, muss es als nächstes den Sinn verstehen. Hier erkennt der Experte mangelnde Flexibilität. Es gibt viele Formulierungen, die ein und dieselbe Intention ausdrücken. Siri ist aber nur für eine übersichtliche Zahl an Sätzen empfänglich. „Siri-Sprech“ nennt Schlangen das. Am Ende bleibt dem iPhone-Nutzer nichts anderes übrig, als diese Sprache zu lernen.

Wie eng die Entwicklung von sprachfähigen Computersystemen und künstlichen Intelligenzen verwandt sind, wird deutlich, wenn man zwei Aussagen von Wachsmuth und Schlangen gegenüberstellt. „Das perfekte System müsste eine künstliche Intelligenz sein“, sagt der Computerlinguist. Aus Sicht des „Schöpfers“ solcher Künstlichen Intelligenzen ist es genau umgekehrt: „Die gesprochene Sprache war immer das schwächste Glied der Künstlichen Intelligenz.“ Da beißt sich die Katze wohl in den Schwanz.

Ein Bestandteil der menschlichen Intelligenz, die auf Künstliche Intelligenzen übertragen wird, ist die Fähigkeit zu lernen. Auch Siri soll lernfähig sein. Angeblich gewöhnt es sich an die Stimme und Sprechweise des Besitzers und versteht ihn mit der Zeit besser.

Jedes effektive Sprachsystem muss trainiert werden, erklärt Wachsmuth. Siri in einer unausgereiften Beta-Version auf den Markt zu bringen ist deshalb mehr als nur Marketingstrategie. Es ist auch Entwickler-Kalkül. Je mehr Datenmaterial zur Verfügung steht, desto besser wird das System. Apple setzt hier auf den freien Feldversuch, statt auf Labortests. Das dürfte sich rechnen: Jede Nutzeranfrage trägt zur Verbesserung der Deutschkenntnisse Siris bei. Gut möglich, dass Siri dank der deutschen iPhone-Gemeinde schnell gegenüber seinem amerikanischen Vorbild aufholt.

Nachholbedarf besteht aber noch in weiteren Punkten. Siri kann nur so „intelligent“ sein, wie das Netz, das es umgibt. Der Markt für mobile Webdienste in Deutschland ist aber bei weitem nicht so vielfältig, wie der in den Staaten. Geradezu sinnentleert wirkt Siri hierzulande vor allem dadurch, dass die Wissensdatenbank „Wolfram Alpha“ nur in Englisch verfügbar ist.

Auch als Navigationssystem taugt Siri hierzulande noch nicht. Zwar greift das iPhone standardmäßig auf den Google-Maps-Dienst zurück. Damit die Navigationshilfe aber in Kombination mit dem Sprachassistenten funktioniert, müsste jeder einzelne Orts- und Straßenname zunächst in eine phonetische Umschreibung „übersetzt“ und dem System beigebracht werden, erklärt der Computerlinguist Schlangen. Wie bei Eigennamen ist die Fehleranfälligkeit hoch.

Trotz aller noch vorhandenen Schwächen sind sich die Forscher einig: Siri ist für die Smartphone-Industrie ein guter Anfang. Für ihren Forschungsbereich aber könnte es ein Durchbruch sein. Sprachgesteuerte Geräte werden dank Apple und Co schon bald in der Mitte der Gesellschaft angekommen sein, so ihre Hoffnung. Ihr Kerngebiet wird dann nicht mehr als ferne Zukunftsmusik, als Science Fiction abgetan, sondern rückt in den Mainstream vor. Für die Institute bedeutet das nicht nur, dass sie mehr Aufmerksamkeit erhalten. Sie können auch auf Fördergelder hoffen. Die Hoffnungen sind nicht unbegründet. Die Konkurrenz auf dem Smartphone-Markt hat bereits nachgelegt. Der Sprachassistent für Google’s Betriebssystem Android heißt IRIS – Intelligent Rival Imitation of Siri (sic!).

Zur Startseite