Zeitung Heute : Navigationssoftware: Unsere Gabi ist digital

Jochen Meissner

Alamem, alamen, alalml, aschiefel, deresotant, ssetliga ... Seit Stunden ist Dagmar Harrold damit beschäftigt sinnlose Lautverbindungen aufzusagen. Ein bisschen klingt das nach dem inspirierten In-Zungen-Reden, das der Ausgießung des Heiligen Geistes folgte. Aber hier geht es nicht um die sprachübergreifende Verbreitung einer Weltreligion, sondern um den Eintritt der Stimme ins Zeitalter ihrer technischen Simulierbarkeit - ein Phänomen, das Millionen Menschen täglich mit dem Navigationssystem ihrer Autos täglich zu begleiten scheint.

Doch der Reihe nach. Lange nachdem mit dem Terminator II lebensechte künstliche Wesen auf die Leinwände kamen, macht man sich daran, auch das menschliche Ohr zu täuschen, was sich als weitaus schwerer erweist als ursprünglich angenommen. Denn im Gegensatz zum Auge, dass sich von nur 25 Einzelbildern pro Sekunde eine flüssige Bewegung vormachen lässt, tastet das Ohr die Welt im Millisekundenbereich ab, identifiziert den Ort des Sprechers, erkennt Tonlage und Emotionalität des Sprechaktes und bildet außerdem noch den Raum nach seinen akustischen Eigenschaften ab.

Schon lange bevor Thomas Alva Edison mit seinem Phonographen natürliche Stimmen speicherbar machte, hatte man versucht, Stimmen künstlich herzustellen. Der Wiener Hofrat Baron Wolfgang von Kempelen, der den berühmten mechanischen Schachtürken erfunden hatte, war der Konstrukteur einer der ersten Sprechmaschinen. Kempelen führte seine Sprechmaschine immer gemeinsam mit einem schachspielenden Androiden vor. Der blecherne Schachspieler war dem Äußeren eines Menschen nachgebaut und unterstrich mit eckigen Bewegungen und unnatürlich rollenden Augen seine Maschinenhaftigkeit, um den Betrug, der in ihm steckte, einen menschlichen Schachspieler, zu verbergen. Die Sprechmaschine verzichtete auf jegliche Illusion. Sie bestand nur aus einer schuhkartongroßen Kiste mit einem Blasebalg. Darin befand sich eine sogenannte Windlade. Der Blasebalg diente als Lunge, die Stimmlippen waren aus Gummi und ein paar Röhren lenkten die Luftsäule.

Alle Straßennamen nachsprechen

Seit den fünfziger Jahren versucht man, Stimmen auf elektrisch/elektronischem Wege herzustellen. Heute werden die künstlichen Stimmen, die in Telefonwarteschleifen die Anrufer beruhigen sollen, in Auto-Navigationssystemen den Weg weisen oder als "Text-to-speech(TTS)"-Automaten Emails und SMS vorlesen, nicht mehr vollsynthetisch hergestellt.

Es bleiben zwei Möglichkeiten. Die erste ist die Mit-dem-Kopf-durch-die-Wand-Methode: Man lässt eine Sprecherin oder einen Sprecher einfach alle benötigten Wörter und Sätze aufsagen. Für definierte Einsatzgebiete reicht das aus. Der VW-Konzern ist mit seinen Blaupunkt-Navigationssystemen diesen Weg gegangen. Und weil man sich nicht immer mit dem kargen Satz "Der Straße folgen" begnügen wollte, mussten für die neue Version alle Straßenamen nachgesprochen werden. Jetzt heißt es beispielsweise "Der B 72 folgen." Darüber, dass die Navigationssoftware schon mal eine Fähre für eine Brücke hält und das Auto ins Wasser lotst, kann aber auch die natürlichste Stimme nicht hinwegtrösten. Um mit der Brute-Force-Methode ein universell einsatzfähiges System zu schaffen, müsste man einen Sprecher in der an Flexionen, Deklinationen und Konjugation reichen deutschen Sprache die 400 000 häufigsten Wörter aufsagen lassen.

Durchgesetzt haben sich verschiedene Varianten der sogenannten Konkatenationssynthese. Hier wird mit natürlicher Sprache gearbeitet, die in kleinste Lautbestandteile zerlegt und wieder zu sinnvollen Wörtern zusammengesetzt wird. Die Devise heißt: Stimme rein - Sprache raus. Die Firma Logox kommt mit 400 sogenannter Mikrosegmente aus, um alle Laute der deutschen Sprache zu erzeugen. Die Etex Sprachsynthese GmbH benutzt die sogenannte Diphon-Methode. Hierbei werden sinnvolle Wörter aus rund 3200 Diphonen erzeugt, die die Übergänge von Vokalen und Konsonanten, stimmhaften und stimmlosen Lauten darstellen.

Die Diphonmethode eignet sich ebenfalls für viele Sprachen, weshalb sich neben Dagmar auch noch Thomas, Paul, Mary, Cathy und Robert der Strapaze unterzogen haben stundenlang sinnlose Lautverbindungen auf deutsch, englisch, französisch, spanisch etc. aufzusagen. Dafür sind die künstlichen Stimmen auch nach ihnen benannt - aus der realen Dagmar Harrold wurde die virtuelle "Dagmar". Damit aus dem Rohmaterial hörbare Sätze werden - also aus der Zeichenkette 2,48 DM wirklich die Wortfolge "Zweimarkachtundvierzig" und aus Aschaffenburg nicht Asch-affenburg - bedarf es noch einer linguistischen Analyse, ein paar Ausspracheregeln und eines Feintunings für Ausnahmefälle. Gemessen an dieser komplexen Aufgabe sind die heutigen TTS-Systeme schon recht brauchbar. Allerdings sind die künstliche Stimmen immer noch relativ leicht von natürlichen Stimmen zu unterscheiden.

Der Berliner Kommunikationswissenschaftler Felix Burkhardt arbeitet daran, diese Lücke zu schließen, indem er versucht, den künstlichen Stimmen Emotionalität beizubringen. Auf seiner Internet-Site stehen viele Demoversionen künstlicher Stimmen zum Vergleich bereit, die er unter anderem mit dem folgenden Beispielsatz gequält hat: "Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm."

Dagmar liest vor

Welcher Computer kann das verstehen? Bevor eine computergenerierte Stimme in der Lage sein wird, einen computergenerierten Schauspieler zu synchronisieren, wird noch einige Zeit vergehen. Bis dahin können wir uns immerhin schon mit der künstlichen Stimme von Stephen Hawking unterhalten - oder uns von "Dagmar" etwas vorlesen lassen. Richtig synthetische Stimmen werden so auch nicht bei den Navigationssystemen von DaimlerChrysler, BMW oder VW eingesetzt. Man arbeitet dort lieber mit kompletten Sätzen und Wörtern echter Sprecherinnen. Außer bei Renault. Dort heißt es zum neuen Navigationssystem: "Unsere Gabi ist digital".

Hintergründe und Expertisen zu aktuellen Diskussionen: Tagesspiegel Causa, das Debattenmagazin des Tagesspiegels.

Hier geht es zu Tagesspiegel Causa!