zum Hauptinhalt

Wirtschaft: Sprechen statt tippen

Auf dem Markt der Spracherkennungsprogramme hat sich viel getan: Im Preis und in der Genauigkeit sind viele Produkte heute alltagsreif. (04.07.2005, 11:12 Uhr)

Berlin/Hannover - Der Spracherkennung am Computer schien vor wenigen Jahren die Zukunft zu gehören. Geradezu euphorisch waren viele Computernutzer, als sich auf den Bildschirmen die ersten gesprochenen Sätze als Text darstellten. Doch die Spracherkennung erwies sich als anfällig, die Nachbearbeitung nahm manchmal mehr Zeit in Anspruch als gespart wurde. Dabei ist die Kommunikation des Menschen mit der Maschine über die Tastatur eigentlich höchst kompliziert - selbst geübte Schreiber sprechen schneller als sie tippen. Deshalb hat sich inzwischen viel getan: Im Preis und in der Genauigkeit sind viele Spracherkennungsprogramme heute alltagsreif.

Die besten Systeme kosten aber noch immer mehrere hundert Euro, die günstigsten weisen Lücken auf. Letztlich gilt für alle: Respektable Ergebnisse sind erreichbar, wenn sich der Mensch der Maschine anpasst.

Die Stiftung Warentest in Berlin hat im vergangenen Jahr die sechs gängigsten Systeme auf den Prüfstand gestellt. Die ersten Ergebnisse waren ernüchternd: Das deutlich gesprochene «Johann Wolfgang von Goethe» wurde als «Juan Wolf kann Mohnblüte», «Jaun Wolfgang von Göbel» oder «Johann-Wolfgang Wohngüte» geschrieben. Grundsätzlich gilt: Bei einem einfachen Basiswortschatz sind die Ergebnisse genau, sobald es etwas spezieller wird, wird die Software erfinderisch. «Zweiter Weltkrieg» kann dann zu «Zeit für Geld kriegt» werden.

Doch ebenso wie der Nutzer lernt auch das System. Bei der Software ist Lernfähigkeit Standard. Ohnehin muss der Benutzer das System einrichten, in dem er vorgegebene Texte liest. Dabei wird das Programm der Stimme und der Sprechgeschwindigkeit angepasst.

Hier gilt, dass der Anwender deutlich, aber ganz normal vorlesen sollte. Wer akzentuiert und übertrieben betont, wird später mit ungenauen Ausgaben bestraft. Erkennt das System auch nach dem Training einzelne Wörter nicht, können sie nachträglich eingefügt werden. Gleiches gilt für kompliziertere Orts- oder Eigennamen. Wie gut das funktioniert, beweist ein Gegentest: Liest ein anderer den selben Text vor, sinkt das Erkennungsniveau rapide.

Die beste Lernfähigkeit attestierten die Warentester dem System «Voice Pro 10» von linguatec. Das war das mit Abstand vielseitigste, mit fast 200 Euro jedoch auch das teuerste Programm. Billiger geht es mit «ViaVoice Standard» von IBM. Die Software kostet etwa 50 Euro, hat aber erhebliche Schwächen in der Lernfähigkeit. Sie schneidet jedoch immer noch besser ab als das gut drei Mal so teure «Voice Office Premium 10», dass im Test der sechs Programme als einziges nur ein «Befriedigend» bekam.

«Man liest über Spracherkennung nicht mehr so viel, weil es funktioniert», glaubt Dorothee Wiegand von der in Hannover erscheinenden Computerzeitschrift «c't». Die Technik, etwa «Dragon Naturally Speaking» von ScanSoft, sei ausgereift. «Spracherkennung ist vor allem Statistik, die Auswertung unendlicher Wortmöglichkeiten. Eigentlich war eher die Hardware das Problem», sagt Wiegand. Da jetzt selbst einfache Heimcomputer schnell und leistungsfähig seien, hätten die Entwickler viel mehr Möglichkeiten. «Aber selbst ältere Computer kommen mit den Systemen klar. Sie brauchen nur etwas länger.»

«Jedes Byte macht die Spracherkennung etwas schneller, ungenauer ist sie sonst aber nicht», bestätigt Kristina Henry von linguatec in München. Auch für die Produkte des Herstellers gelte jedoch, dass «üben und deutlich sprechen wichtiger sind als jede Hardware». Selbst Stimmen von Diktiergeräten würden klar erkannt, versichert Henry: «Wir wollen einen Schritt weiter gehen und Diktieren von unterwegs möglich machen.» Der Benutzer könnte dann eine Nummer anwählen, etwa im Auto einen Text aufsprechen und ihn zu Hause «getippt» vorfinden.

Grundsätzlich passt die Spracherkennungssoftware inzwischen auch auf den privaten Computer zu Hause. Klar ist aber, dass selbst der bestgesprochene Text nachbearbeitet werden muss, wenn auch moderat. Zudem ist vom Nutzer Geduld gefragt: Ebenso wie sein System lernt, muss der Mensch sich in Aussprache und Geschwindigkeit dem System anpassen. Dann sind die Ergebnisse allerdings beachtlich - und Ergebnisse wie «Sexterminvereinbarung» statt «zwecks Terminvereinbarung» gehören der Vergangenheit an. (Von Chris Melzer, dpa)

Zur Startseite

showPaywall:
false
isSubscriber:
false
isPaid:
showPaywallPiano:
false