Echte Stimme oder Fake?: Das Gehirn weiß das durchaus zu unterscheiden

Unser Gehirn reagiert anders auf KI-generierte Stimmen als auf echte. Nur wird uns das nicht immer bewusst, fanden Forschende heraus, die Probanden beim Zuhören ins Hirn geschaut haben.

Stand: 14.06.2024, 15:00 Uhr

Ob gerade ein echter Mensch oder eine mithilfe Künstlicher Intelligenz generierte Stimme spricht, ist für Zuhörer häufig kaum noch zu unterscheiden. Zumindest nicht bewusst: Das Gehirn reagiere auf Deepfake-Stimmen durchaus anders als auf natürliche, berichtet ein Forschungsteam im Fachjournal „Communications Biology“.

Algorithmen zur Stimmsynthese seien inzwischen so leistungsfähig, dass die Identitätsmerkmale künstlicher Stimmklone denen natürlicher Sprecher sehr nahekommen. Solche mit Deepfake-Technologien imitierten Stimmen würden zum Beispiel für Betrugsversuche am Telefon genutzt oder dafür, Sprachassistenten die Stimme der Lieblingsschauspielerin zu geben.

Deepfake-Stimmen klingen schon ziemlich echt

Das Team um Claudia Roswandowitz von der Universität Zürich analysierte, wie gut die menschliche Identität in Stimmklonen erhalten bleibt. Die Forschenden nahmen im Jahr 2020 die Stimmen vier deutschsprachiger Männer auf. Mithilfe von Computeralgorithmen wurden Deepfake-Stimmen dieser Sprecher generiert.

Dann wurde geprüft, wie gut die Nachahmung gelungen ist. Dafür sollten 25 Probandinnen und Probanden entscheiden, ob die Identität zweier vorgespielter Stimmen identisch war oder nicht. In etwa zwei Drittel der Versuche wurden die Deepfake-Stimmen korrekt dem jeweiligen Sprecher zugeordnet. „Dies verdeutlicht, dass aktuelle Deepfake-Stimmen zwar nicht perfekt die Identität imitieren, aber das Potenzial haben, die Wahrnehmung von Menschen zu täuschen“, sagte Roswandowitz.

Irgendwas signalisiert dem Bewusstsein dann schon, dass etwas anders und schwieriger ist, aber das bleibt häufig unter der Wahrnehmungsschwelle.

Claudia Roswandowitz von der Universität Zürich

Mit funktioneller Magnetresonanztomographie (fMRT) untersuchten die Forschenden dann, wie einzelne Gehirnareale auf gefälschte und echte Stimmen reagieren. Demnach gab es in zwei zentralen Arealen Unterschiede: im sogenannten Nucleus Accumbens und im auditorischen Cortex. Es liege dem Team zufolge nahe, dass beide Bereiche eine wichtige Rolle dabei spielen, ob ein Mensch eine Deepfake-Stimme als Fälschung erkennt oder nicht.

„Der Nucleus Accumbens ist ein wichtiger Bestandteil des Belohnungssystems im Gehirn“, erklärte Roswandowitz. Er sei weniger aktiv gewesen, wenn eine Deepfake- und eine natürliche Stimme verglichen wurden, als bei zwei echten Stimmen. Einer gefälschten Stimme zu lauschen, aktiviere das Belohnungssystem weniger.

Das Gehirn versucht auszubessern

Einen Aktivitätsunterschied gab es der Analyse zufolge auch im auditorischen Cortex, der zuständig für die Analyse von Geräuschen ist. Der Bereich war mehr involviert, wenn es darum ging, die Identität von Deepfake-Stimmen zu erkennen. „Wir vermuten, dass dieses Areal auf die noch nicht perfekte akustische Imitation der Deepfake-Stimmen reagiert und versucht, das fehlende akustische Signal auszugleichen“, sagte Roswandowitz.

„Irgendwas signalisiert dem Bewusstsein dann schon, dass etwas anders und schwieriger ist, aber das bleibt häufig unter der Wahrnehmungsschwelle“, so die Forscherin. Mit der rasanten Entwicklung von Technologien der Künstlichen Intelligenz habe die Erstellung und Verbreitung von Deepfakes massiv zugenommen, heißt es von den Forschenden. Neuere KI-generierte Stimmen hätten wahrscheinlich eine etwas bessere Klangqualität. (dpa)

Zur Startseite

showPaywall:: false
isSubscriber:: false
isPaid: