
© KI/erstellt mit Magic Design
Neurowissenschafts-Forschung: Können Large Language Models Gedanken übersetzen?
Unser Gehirn erkennt nicht nur Objekte, sondern auch Bedeutungen. Doch mit welchen Werkzeugen lässt sich dieses abstrakte visuelle Verständnis erfassen?
Stand:
Große Sprachmodelle der Künstlichen Intelligenz sagen voraus, wie das menschliche Gehirn auf visuelle Reize reagiert“, meldete die Freie Universität im August. Kann KI jetzt Gedanken lesen? Dieser Eindruck drängt sich auf, wenn man gerade an neue Laufschuhe gedacht hat und kurz darauf online mit passenden Anzeigen überschüttet wird. Doch worum geht es in der Studie wirklich?
Ihr Autor Adrien Doerig, Gastprofessor für kognitive computergestützte Neurowissenschaften, erklärt, wie Bilder, etwa von einem fröhlichen Hund auf einem Segelboot, „semantische Fingerabdrücke“ und Tausende Scans aus dem Magnetresonanztomografen neue Erkenntnisse für Hirnforschung, KI und Philosophie liefern.
Den Schweizer faszinierte schon als Kind, dass die winzigen Neuronen eines Gehirns, die einzeln nur ein paar elektrische Impulse senden, zusammen den menschlichen Verstand ausmachen. Zunächst studierte er Biowissenschaften, dann Neurowissenschaften und theoretische Physik – und ein bisschen Philosophie.
Die Verarbeitung von Wahrnehmung im Gehirn sei kompliziert, erklärt er. Menschen mit Schäden in einem bestimmten Hirnareal können zum Beispiel keine Gesichter erkennen. Sie sehen Augen, Nase und Mund, doch ohne die „Fusiform Face Area“ – eine Region im unteren Teil von Schläfen- und Hinterhauptslappen – gelingt es ihnen nicht, die Einzelteile zu einem Ganzen zusammenzufügen. Dieses Areal ist besonders aktiv, wenn wir Gesichter betrachten.
Gehirne und LLMs ähneln sich
Gemeinsam mit Kolleginnen und Kollegen der Universitäten Osnabrück, Minnesota und Montréal wollte Adrien Doerig herausfinden, wie das Gehirn die Wahrnehmung von Szenen verarbeitet – nicht nur „ein Gesicht“, sondern etwa „eine Person sitzt am Tisch und schreibt“ oder „ein fröhlicher Hund steht auf einem Segelboot“. „Wir hatten die Idee, dass uns Large Language Models (LLMs), also die Sprachmodelle hinter KI-Bots wie ChatGPT, dabei helfen können“, erzählt er.
Große Sprachmodelle erfassen Bedeutung, indem sie statistische und semantische Muster anhand von riesigen Mengen von Sprachdaten erlernen. Wörter, Sätze und Konzepte stellen sie als hochdimensionale Vektoren dar: Sie übersetzen Sprache in Zahlen. Diese mathematischen Repräsentationen ermöglichen es den Modellen, wahrscheinliche Fortsetzungen in Texten vorherzusagen und zusammenhängende, kontextgerechte Antworten zu geben. Sprachmodelle reproduzieren also bestimmte Aspekte des menschlichen Sprachverständnisses, allerdings ohne ein Bewusstsein.
Zum Beispiel könnte das Modell einen Satz wie „Ich ging auf den Markt, um …“ vervollständigen mit „… Tomaten zu kaufen“, weil es aus Millionen von Beispielen gelernt hat, dass solche Wörter häufig folgen. Dieses „Wissen“ steckt in semantischen Fingerabdrücken oder Einbettungen, wie sie in der Fachsprache genannt werden, also in numerischen Repräsentationen, die abbilden, wie Wörter und Ideen in Bedeutung und Kontext miteinander in Beziehung stehen.
Verarbeitet unser Gehirn Informationen vielleicht auf ähnliche Weise, wenn wir Szenen wie „einen fröhlichen Hund auf einem Segelboot“ sehen? Verwendet das visuelle System eine Kodierung, die mit semantischen Fingerabdrücken in großen Sprachmodelle vergleichbar ist? Das überraschende Ergebnis der Studie: Ja, das visuelle System des Gehirns funktioniert tatsächlich ähnlich wie ein Large Language Model.
Prognose der Gehirnaktivitäten
Um das herauszufinden, nutzten die Forschenden einen umfangreichen Datensatz der University of Minnesota. Acht Probanden verbrachten viele Stunden im funktionellen Magnetresonanztomografen (fMRT). Der Scanner zeichnete präzise auf, welche Regionen ihres Gehirns aktiv waren, während die Teilnehmenden jeweils drei Sekunden lang Bilder alltäglicher Szenen betrachteten.
Wenn das Gehirn „einen fröhlichen Hund auf einem Segelboot“ sieht, zeigt es ein Aktivitätsmuster, das sich nicht nur bildlich, sondern auch in Zahlen darstellen lässt. Zu jedem getesteten Bild ermittelte das Team einen komplexen Zahlenwert aus dem Gehirnscan und einen weiteren aus der Einbettung der Szenenbeschreibung im Sprachmodell.
„Mit Hilfe statistischer Methoden – der sogenannten Analyse der Ähnlichkeit von Repräsentationen und der linearen Regression – konnten wir zeigen, dass diese Werte miteinander korrelieren und sich gegenseitig vorhersagen“, erklärt Doerig. So, wie man den Umsatz von Speiseeis anhand der Temperatur und Sonnenscheindauer vorhersagen kann, lassen sich Gehirnaktivitäten anhand der Einbettungen von Szenenbeschreibungen in Sprachmodellen prognostizieren.
Das Rechenmodell sagte auch für neue Szenen, etwa „Kinder spielen Frisbee im Park“, das Muster der Gehirnaktivität im höheren visuellen Kortex voraus. Umgekehrt gelang es, aus Gehirnscans die semantischen Fingerabdrücke des betrachteten Bildes und schließlich die Bildunterschriften abzuleiten.
„Wir haben es geschafft, Informationen direkt aus dem Gehirn zu decodieren“, sagt Doerig. Die Methode sei nicht perfekt, Störfaktoren wie Bewegungen oder mangelnde Konzentration der Probanden erschwerten die Analyse. Trotzdem konnte das Team kurze Beschreibungen dessen erzeugen, was die Teilnehmenden während der Aufnahme gesehen hatten – allein auf Grundlage ihrer Gehirnaktivität.
Wird Gedankenlesen möglich?
Informationen direkt aus dem Gehirn zu entschlüsseln kann medizinisch sinnvoll sein: Auf diese Weise könnten etwa gelähmte Menschen ihre Gedanken mitteilen. Allerdings sind dafür noch sehr große Datenmengen erforderlich. Das sei unpraktisch, sagt Adrien Doerig. Viele Forschende arbeiten derzeit daran, die Datenmenge für solche Studien zu verringern, um die Verfahren für klinische Anwendungen nutzbar zu machen.
Wir versuchen, nicht Bewegung, sondern Sprache aus der Gehirnaktivität zu entschlüsseln. Das ist schwieriger, weil Sprache ein stärker verteilter und komplexerer Prozess ist – und deshalb viel schwerer zu interpretieren.
Adrien Doerig, Gastprofessor für kognitive computergestützte Neurowissenschaften an der Freien Universität
In der Prothetik ist man mit verwandten Methoden schon ein Stück weiter: Moderne künstliche Arme oder Beine werden mit Gehirnsignalen verbunden, sodass Patientinnen und Patienten sie allein durch ihren Willen bewegen können – und manchmal sogar ein Feedback von der Prothese spüren.
Doerig sieht Parallelen zu seiner Arbeit: In der Prothetik lernen Forschende, welche Gehirnsignale zu bestimmten Bewegungen gehören, und bauen die Prothesen so, dass sie darauf reagieren. „Wir versuchen, nicht Bewegung, sondern Sprache aus der Gehirnaktivität zu entschlüsseln. Das ist schwieriger, weil Sprache ein stärker verteilter und komplexerer Prozess ist – und deshalb viel schwerer zu interpretieren.“
Ist das schon der erste Schritt zum Gedankenlesen? Adrien Doerig kann solche Befürchtungen zwar nachvollziehen. Doch zitiert er die Neurowissenschaftlerin Nancy Kanwisher vom Massachusetts Institute of Technology aus einem Aufsatz darüber, warum sich MRTs derzeit nicht als Lügendetektoren eignen: „Ein Proband kann die Daten komplett durcheinanderbringen, indem er seine Zunge im Mund bewegt oder Kopfrechnen betreibt.“ Schon kleinste Bewegungen erzeugen so starke Wellen im Gehirn, dass sie die Aufnahme stören, erklärt er. „Solche Experimente funktionieren nur mit Kooperation.“
Als der Neurowissenschaftler sein Forschungsvorhaben vor drei Jahren auf Konferenzen vorstellte, seien viele davon überrascht gewesen. Heute hätten andere seinen Ansatz aufgegriffen, berichtet er. Forschende aus den Neurowissenschaften, der KI-Forschung und der Philosophie rücken näher zusammen und erkunden gemeinsam, wie verschiedene Weisen, die Welt zu beschreiben, miteinander verbunden sind.
- showPaywall:
- false
- isSubscriber:
- false
- isPaid: