Gesundheit : Verstimmter Kanzler

Der Computer erkennt die Parodie des Kabarettisten Elmar Brandt als „sehr gute“ Täuschung

Gideon Heimann

Stellen wir uns vor, Onkel Dagoberts Geldspeicher wäre durch eine sprachgesteuerte Zugangssoftware gesichert. Und die ist auf die Stimme des Bundeskanzlers Gerhard Schröder getrimmt. Würde das Prüfprogramm auch einen anderen, zum Beispiel den Kabarettisten Elmar Brandt, an die begehrten Taler heranlassen? Anders gefragt: Wie „dicht“ muss die Stimme eines Imitators am Original liegen, damit die Technik überlistet wird und/oder das Publikum eines Kabaretts den Scherz annimmt? Programmentwickler sind sich sicher: Das Publikum ist viel leichter zu amüsieren als ein Computer.

Michael Kramer von der Firma Voice.Trust, die in München sprachgesteuerte Sicherheitstechnik entwickelt, lacht jedenfalls bei dieser Frage. Denn die Mitarbeiter seines Hauses haben Ähnliches bereits durchgespielt. Welche Politiker es waren und welche Imitatoren, das darf er aus Gründen des Datenschutzes nicht preisgeben. Aber die Technik habe sich bewährt, sagt er.

Auch bei dem Test, der am Dienstag auf Bitte des Tagesspiegels hin stattfand, ließ sich der Computer nicht austricksen: Voice.Trust- Experte Johannes Komarek hatte einen Redeausschnitt des Bundeskanzlers mit den Worten der aus dem „Steuer-Song“ extrahierten Stimme von Brandt verglichen.

Das Ergebnis: Brandt liefert mit 30 bis 50 Prozent Übereinstimmung „eine sehr gute Kopie“, nur für den Rechner reicht’s eben nicht. Im Bassbereich ist Schröder einfach stärker, Brandts Stimme klingt in dieser Frequenz sichtbar dünner.

Doch bevor wir uns ansehen, wie er das feststellt, betrachten wir erst einmal das Kabarettpublikum. Es macht mit, weil es weiß, dass es um eine Persiflage geht. Da reichen schon ein paar Kniffe, um den gewünschten Erfolg zu erzielen: „Wenn die Sprechgeschwindigkeit stimmt und die Betonung auch, dann sind schon 80 Prozent der Hörer überzeugt“, weiß Kramer. Und auf diese Merkmale kann sich ein guter Imitator schnell einstellen.

Darüber hinaus helfen auch typische Redewendungen, um sich dem Original anzunähern. Manch ein Zuhörer grinst denn schon „ganz und gar unerträglich“, sobald Kohls „Mandl der Gechichte“ auch nur erwähnt wird. Und wenn Mathias Richling in silberner Locke herumstoibert, füllt er die Pausen zwischen den „Ähs“ so gekonnt auf, dass es gar nicht auffällt, wie weit die Stimmen zwischen Original und Fälschung auseinander klaffen. Die Gestik – wenn das Vorbild denn häufig charakteristische Bewegungen vollführt – überdeckt zudem manche Unzulänglichkeit der akustischen Darstellung.

Bei Schröder wird’s schwerer

Und unvergessen ist bis heute die Parodie, die Thomas Freitag Mitte der 80er Jahre brachte: ein Streitgespräch über die aktuelle Politik und ihre Parallelen zur Weimarer Zeit. Freitag führte einen kollernden Franz-Josef Strauß, den hart prononcierenden Willy Brandt, den sanft sächselnden Hans-Dietrich Genscher und einen wolkig-historisierenden Helmut Kohl auf. Bei dieser „Ein-Mann-Diskussion“ fielen sich die Herren sogar gegenseitig ins Wort. Wie bei einer gezeichneten Karikatur wurden auch hier vorhandene Linien überzogen und ins Komische verzerrt.

Schwieriger ist all das schon bei dem doch recht schnörkellos redenden Gerhard Schröder, der keine typischen Wendungen äußert, an denen ein Kabarettist einhaken könnte. Entsprechend geradlinig ist denn auch die Persiflage. Im Gegensatz zu einem (meist) fröhlich gestimmten Auditorium jedoch ist die Technik viel anspruchsvoller. „Selbst wenn der Zuhörer überzeugt ist, stellt der Rechner erhebliche Unterschiede in den biometrischen Merkmalen fest“, sagt Kramer.

So analysiert der Computer zunächst das Spektrum der zu prüfenden Stimme. Die jeweiligen Frequenzanteile sind je nach Sprecher lauter oder leiser, enthalten also mehr oder weniger Energie. Frequenz und Energie bilden ein Muster, das sich mathematisch mit den Pfeilen von Vektoren darstellen lässt, wobei die Frequenzänderung die Richtung des Pfeils bestimmt und die Energie seine Länge.

Schnupfen stört kaum

Dieses Muster bleibt auch noch dann ausreichend charakteristisch, wenn der betreffende Sprecher plötzlich unter Erkältung leidet. Im Gegensatz zu anderen Fachleuten, die die Sprechererkennung nur als zusätzliche Analysemethode anerkennen, verweist Kramer auf die Vielzahl der Merkmalsvektoren: „Bei einem Fingerabdruck sind es 15 bis 20 Messpunkte, anhand derer das Muster überprüft werden kann, bei der Stimme sind es 120 000 Punkte.“

Und wann kommt diese Technik an ihre Grenzen? „Bei eineiigen Zwillingen. Denn bei ihnen stimmen die Merkmale an den Fingern zu 98,5 Prozent überein, jene der Stimme sogar zu 99,8 Prozent." Da muss der Rechner drei Mal hinhören, bis er die Unterschiede feststellen kann. Aber in allen anderen Fällen ist er schon in der ersten Prüfstufe auf der richtigen Spur.

Wie treffgenau die Technik ist, kommt allerdings auf den Einsatzzweck an. Bei Zugangssperren etwa muss der berechtigte Nutzer zugelassen, der Eindringling abgewiesen werden. Hierfür werden gesprochene Schlüsselwörter oder -sätze hinterlegt und später beim Zugangsversuch abgeglichen. „Die Fehlerquote liegt bei eins zu zehn Millionen“, sagt der Fachmann.

So gehe das irrtümliche Akzeptieren von nicht Berechtigten gegen Null, während die Abweisequote Berechtigter weniger als ein Prozent betrage, behauptet Kramer. Der Vorteil dabei: Der Betreffende ist daran interessiert, seinem hinterlegten Text möglichst nahe zu kommen, denn er will die Sperre ja ohne langen Aufenthalt passieren.

Beim Vergleich zweier aus unterschiedlichen Kontexten heraus aufgenommener Sätze ist das Ergebnis nicht ganz so gut – die Trefferquote liegt bei rund 80 Prozent. Hierfür braucht man Textstücke von etwa 40 Sekunden Länge, die auf identische Charakteristika untersucht werden.

Weil es da um textunabhängige Sequenzen geht, die geprüft werden müssen, weil Hintergrund- und Störgeräusche hinzu kommen und weil manch eine Aufnahme sogar absichtlich verzerrt worden ist, hat es jede Technik schwer zu sagen: „Das ist der Sprecher.“ Die Ergebnisse werden dann oft in einem Prozentwert auf einer Wahrscheinlichkeitsskala abgebildet. Im vorliegenden Fall der Politsatire freilich gibt es genügend Schlüsselworte wie „Geld“ und „Steuern“.

Weiteres im Internet unter:

http://sauron.pbm.de:8080/voicetrust/de/

0 Kommentare

Neuester Kommentar