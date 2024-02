Seit einem Jahr hat Microsoft die KI von ChatGPT in seine Suchmaschine Bing integriert und damit einen Großangriff auf Google gestartet. Gestartet als „Bing Chat“ heißt die Funktion nun „Copilot“, unter diesem Namen integriert Microsoft KI-Assistenten in immer mehr Produkte. Allerdings gab es in der ersten Testphase auch viele zweifelhafte Antworten, schnell musste Microsoft Einschränkungen einführen. So kann nun zwischen den Antwortmodi „kreativ“, „ausgewogen“ und „genau“ gewählt werden. Doch ist es Microsoft gelungen, seit dem Start die falschen Angaben zu reduzieren?

Grundsätzlich haben sich die Ergebnisse verbessert. Während die Suchmaschine am Anfang bei aktuellen Sportfragen zu den richtigen Ergebnissen beispielsweise die Torschützen und andere Details noch frei erfunden hat, sind die Antworten nun genauer und mit Quellen unterlegt.

Trotzdem kommen auch bei solch einfachen Sachfragen zu aktuellen Ereignissen immer wieder Fehler dazu, es werden Ergebnisse aus der Vorsaison mit genannt oder falsche Angaben zu den nächsten Spielen. Als Trainer von Hertha BSC nennt Bing Sandro Schwarz, der schon im Vorjahr entlassen wurde.

Hertha spielt noch Bundesliga

Auch die Punktzahlen der Tabelle werden teils falsch angegeben, da viele Angaben stimmen, fällt dies jedoch oft nicht direkt auf. Bei einem anderen Testversuch gerät aber auch die Reihenfolge der Tabelle nach den ersten Plätzen durcheinander, Union Berlin landet so auf Platz Sieben. Und sogar Hertha ist laut der Microsoft-KI schon wieder oder immer noch erstklassig, genau wie Schalke 04..

In der Bundesligatabelle bringt Bing einiges durcheinander. © Screenshot/Tagesspiegel

Ziemlich daneben liegt der Copilot auch bei der Frage nach den Titelchancen. Auf 67,5 Prozent beziffert Bing die Wahrscheinlichkeit, dass Bayern München zum zwölften Mal in Folge Meister wird. Die Chancen von Bayer Leverkusen seien mit 1,7 Prozent eher gering. Fragt man die Suchmaschine, ob denn Leverkusen nicht vorne liege, behauptet das System Bayern wäre Tabellenführer und bleibt auch auf Nachfrage dabei: „Ja, ich bin mir sicher“.

Auch bei politischen Themen ist die Fehlerquote von Bing hoch. Bei einer Testfrage nach aktuellen Wahlumfragen in Deutschland gibt Bing für das neue Bündnis Sahra Wagenknecht (BSW) einen Wert von 6,3 Prozent an und schreibt zudem, das BSW sei „eine neue Partei, die sich für die Wiedervereinigung mit Österreich einsetzt“.

Berlins Regierenden Bürgermeister Kai Wegner nennt die KI-Suche zwar korrekt, bei der selbst vorgeschlagenen Folgfrage nach seinem Vorgänger kommt jedoch Michael Müller statt Franziska Giffey als Antwort.

Bing machte eine große Kabinettsumbildung

In einer Frage nach dem Bundeskanzler wird Olaf Scholz genannt, in der Antwort aber Christian Lindner als Finanzminister bezeichnet. Bei Auflistungen aller Kabinettsmitglieder kommt der Copilot ganz durcheinander: Steffi Lemke wird zur Digitalministerin, Volker Wissing bekommt das Gesundheitsressort und Karl Lauterbach Familie und Senioren. Bettina-Stark Watzinger übernimmt in Bings Kabinettrochade das Umweltministerium.

Die Antworten stimmen jedoch wieder, wenn die Ministerfrage direkt am Anfang eines Chats gestellt wird. Stellt man mehrere Fragen hintereinander, scheint auch die Fehlerquote des Copiloten zuzunehmen. Das vertauschte Kabinett ist auch kein Einzelfall, die Fehler wiederholen sich in verschiedenen Testanfragen.

Das Problem, dass mit der Länge der Chats die Halluzinationen und fragwürdigen Antworten zunehmen, ist Microsoft bekannt. „Lange Chat-Sitzungen können das zugrunde liegende Modell durcheinander bringen“, hatte Microsoft schon eine Woche nach dem Start 2023 eingeräumt. Als am Anfang dadurch viele fragwürdige Dialoge entstanden, wurde die Zahl der Antworten pro Sitzung auf 5 beschränkt, inzwischen sind es wieder 30.

Bayer Leverkusen hat die Wahl in Berlin gewonnen

Und so entstehen auch haarsträubende Fehler: Als Antwort, wie die Wiederholungswahl in Berlin ausgegangen ist, nennt Microsoft auf dem ersten Platz Bayer 04 Leverkusen, dann FC Bayern München – nachdem zuvor Fußballfragen gestellt wurden.

Warum die Zahl der Fragemöglichkeiten wieder so stark ausgeweitet wurde, beantwortet Microsoft nicht. „Wir sind bestrebt, die Genauigkeit der Ergebnisse dieser Technologie weiter zu verbessern“, erklärt das Unternehmen stattdessen. Dabei habe man mit verschiedenen technischen Mitteln Fortschritte gemacht. „Auch wenn diese Ansätze die Ungenauigkeiten in den Modellergebnissen erheblich reduzieren, sind Fehler immer noch möglich, und wir bemühen uns, unsere Nutzer deutlich darauf hinzuweisen“, heißt es weiter.

Wiederholungswahl in Berlin: Die Ergebnisse der KI-Suchmaschine überraschen © Screenshot/Tagesspiegel

Es ist ein immanentes Problem generativer KI, dass sogenannte Halluzinationen entstehen. Denn so gut formuliert die Antworten auch klingen, fehlt dem System ein tatsächliches Faktenverständnis, sondern es werden nur Wörter auf der Grundlage von Wahrscheinlichkeiten aneinandergereiht.

Auch bei den Erstantworten ist Microsofts Copilot daher fehlerhaft. Politische Implikationen können solche Probleme besonders im Kontext von Wahlen haben. Wie unzuverlässig Bing dabei als Informationsquelle ist, haben die NGOs Algorithmwatch und AI Forensics für die Landtagswahlen in Bayern und Hessen, sowie die Eidgenössischen Wahlen in der Schweiz im Vorjahr gezeigt.

In der Studie enthielten ein Drittel der Antworten von Microsofts KI-gestützter Suchmaschine sachliche Fehler, von falschen Wahldaten bis zu erfundenen Skandalen. Selbst die Frage nach den Spitzenkandidaten der Parteien für die Hessenwahl konnte Bing kein einziges Mal richtig beantworten. Auch zu den Umfragewerten gab es realistisch wirkende, jedoch massiv abweichende Angaben.

Und viele Fehler haben dauerhaft Bestand. „Microsoft ist die Probleme nicht systematisch angegangen, obwohl versprochen wurde, sie zu beheben“, schreibt Algorithmwatch im Abschlussbericht. So wurden einige Antworten zu Hubert Aiwangers Flugblattaffäre korrigiert und Empfehlungen extremistischer Telegram-Channel entfernt, dagegen gebe es weiterhin falsche Antworten zu Schweizer Politikern, die KI erfindet dabei auch Korruptionsskandale.

Auch deswegen hat Algorithmwatch nun auf Grundlage des Digital Services Acts Zugang zu Microsoft-Daten beantragt. „So können wir vielleicht das tatsächliche Ausmaß der Desinformation durch Bing Chat erkennen und prüfen, ob die Gegenmaßnahmen von Microsoft etwas gebracht haben“, sagt Oliver Marsh, Leiter des AlgorithmWatch-Projekts „Systemische Risiken von Algorithmen“. Zudem soll auch im Zuge der Europawahl geprüft werden, ob die Suchmaschine Falschinformationen produziert und verbreitet.

Das Bürgergeld wird zunehmend zu einem Migrantengeld Microsoft Copilot

Problematisch können die generativen Antworten auch bei polarisierenden Themen sein, wie der Frage: Wie viele Menschen erhalten Bürgergeld? „Zum Stichtag 1. August 2023 erhielten insgesamt rund 5,5 Millionen Menschen in Deutschland Bürgergeld“, heißt es. „Die Gesamtausgaben für Bürgergeldleistungen betrugen im selben Zeitraum 44,1 Milliarden Euro. Interessanterweise geht fast die Hälfte dieser Leistungen an Ausländer, darunter auch geflüchtete Ukrainer und Asylsuchende, die sich seit mindestens fünf Jahren dauerhaft in Deutschland aufhalten“, folgt dann.

Fragt man konkret, wie viel Bürgergeld für Ausländer ausgegeben wird, beziffert Bing den Anteil auf 40 Prozent und verweist darauf, dass Ausländerinnen und Ausländer aber nur etwa 14 Prozent der Gesamtbevölkerung ausmachen. Erklärt wird es mit der hohen Zahl von Asylberechtigten und ukrainischen Flüchtlingen. „Diese Gruppen haben ebenfalls Anspruch auf Bürgergeldleistungen, was dazu führt, dass das Bürgergeld zunehmend zu einem Migrantengeld wird“, schreibt Bing Copilot.

Die entsprechenden Aussagen stammen von einem Test am 5. Februar. Später ließen sie sich nicht replizieren, die Antworten zum Thema Bürgergeld und dem Anteil von Flüchtlingen sind deutlich sachlicher. Offenbar hat Microsoft zumindest hier Korrekturen an der KI-Suche vorgenommen.

Fehler nun auch in klassischen Suchergebnissen

Obwohl die Fehler des Copilot systematisch sind, weitet Microsoft den Einsatz der KI immer weiter aus. Inzwischen werden auch in der normalen Bing-Suche die Kurztexte der angezeigten Ergebnislinks KI-generiert. Dabei wurde die CSU beim Link zur eigenen Parteiwebsite als „rechtsextrem“ bezeichnet. Nach vielen Berichten dazu hat Microsoft das korrigiert.

Doch der Tagesspiegel hat viele weitere Fehler gefunden. So heißt es zu Peter Altmaier unter einem Link der Konrad-Adenauer-Stiftung, er „ist der aktuelle Bundesminister für Verkehr und digitale Infrastruktur“. Die Website des kürzlich verstorbenen Wolfgang Schäuble bezeichnete ihn laut Bing als „ehemaligen Bundeskanzler“. Und die FDP-Spitzenkandidatin zur Europawahl, Marie-Agnes Strack-Zimmermann, wird unter dem Link zu ihrer eigenen Homepage als Ex-Vorsitzende der kommunistischen Jugendorganisation FDJ bezeichnet.

Die Fehler stehen seit Wochen unverändert im Netz. Dass ein Großteil der Suchergebnisinformationen von Bing inzwischen offenbar KI-generiert ist, wird zudem nicht klar kenntlich gemacht. Und Fragen dazu, ob inzwischen alle Link-Texte in den Suchergebnissen KI-generiert sind und welche Kontrollmechanismen es dabei gibt, hat Microsoft nicht beantwortet.