Warum Sprachmodelle halluzinieren
„Why language models hallucinate“ heißt ein Beitrag auf dem OpenAI-Blog. Dort lässt sich das Unternehmen in die Karten blicken und erklärt genau das – also wie es dazu kommt, dass Sprachmodelle wie Gemini, Grok oder eben auch ChatGPT halluzinieren. Wer nicht im Thema ist: Mit „Halluzinieren“ ist gemeint, dass das Sprachmodell die richtige Antwort nicht kennt und nicht nennt, sondern sich stattdessen sehr souverän eine alternative, aber faktisch leider komplett falsche Antwort ausdenkt.
Tatsächlich ist die Antwort auf die Frage, wieso die LLMs (Large Language Models) halluzinieren, sogar erschreckend einfach: Weil sie es so beigebracht bekommen! Beim Training werden die LLMs so geschult, dass sie eben lieber eine beliebige Antwort geben, als stumpf den Mund zu halten.
OpenAI betont, dass Halluzinationen kein bloßer Bug sind – sondern eine systemische Folge von Sprachmodellen, die auf Wahrscheinlichkeiten trainiert und bewertet werden. Weil sie dafür optimiert sind, möglichst präzise Antworten zu geben, werden diese präzisen Antworten – selbst wenn sie falsch sind – belohnt. Das ist in der Konsequenz für ein so trainiertes Modell die deutlich richtigere Antwort als ein „Ich weiß es nicht“.
Ein Beispiel, wieso Halluzinieren für eine KI richtig ist
Stellt Euch eine Klassenarbeit vor, für die Ihr nicht gelernt habt. Ihr sollt bei einer Aufgabe etwas ins Feld schreiben, habt aber keinen blassen Schimmer, wie die Antwort lautet. Schreibt Ihr nichts hinein, sind es null Punkte für die Aufgabe. Schreibt Ihr stattdessen irgendetwas hinein, was Euch schlüssig erscheint, habt Ihr zwei Chancen:
- Entweder ist das Geschriebene einfach zufällig richtig, dann gibt es die volle Punktzahl.
- Oder Ihr ratet falsch, habt aber vielleicht einen Teilaspekt richtig, der immerhin mit einer geringeren Punktzahl geahndet wird.
Im allerschlimmsten Fall schreibt Ihr kompletten Quatsch, aber auch das wäre nicht schlimmer, als das Feld leer zu lassen. Genau so arbeitet auch eine KI: Sie wägt Wahrscheinlichkeiten ab und sagt lieber etwas theoretisch Mögliches als zu erklären, dass sie absolut keine Ahnung hat.
Eine Mitschuld tragen also auch die Benchmark-Tests, für die KI-Modelle ebenfalls optimiert werden, und die ähnlich funktionieren wie in dem genannten Beispiel. Somit werden die LLMs durch diese falschen Anreize zum Raten verleitet, was dann zu den Halluzinationen führt.
Und was kann man gegen das Halluzinieren unternehmen?
Die Wissenschaftler:innen, die an dieser Studie beteiligt waren, sind sich einig, dass man das Halluzinieren nie zu 100 Prozent verhindern kann. Aber zumindest gibt es Ideen, wie man das Risiko minimieren kann. Dazu müssten beim Training lediglich falsche Antworten auch tatsächlich negativ bewertet werden. Nicht beantwortete Fragen sollen hingegen auch Teilpunkte erhalten können.
Bei OpenAI heißt es dazu: „Es gibt eine einfache Lösung: Bestrafen Sie selbstbewusste Fehler stärker als Unsicherheit und vergeben Sie Teilpunkte für angemessene Begründungen dieser Unsicherheit“. So soll das blinde Raten verhindert werden, indem man die KI eben auch dafür belohnt, wenn sie lieber keine als eine falsche Antwort äußert. Dazu braucht es aber auch ganz neue Tests und Testmethoden – und bis die etabliert sind, wird sicher noch Zeit vergehen.
Was bedeutet das für uns? Dass wir weiterhin haargenau aufpassen müssen, was uns ChatGPT oder ein anderes KI-Modell vorsetzt. Das ist übrigens generell eine gute Idee, bevor man sich blind den Antworten ausliefert, die eine KI oder wer auch immer einem auftischt.
Einige LLMs haben schon einen recht belehrenden Ton drauf und holen mit ihren Antworten und Erklärungen auch gerne noch mal weit aus. Da wäre mir eine KI lieber, die auch mal zugibt, bei einem Thema unsicher zu sein, weil es da wenig oder widersprüchliche Erfahrungen (im Falle der KI Quellen) gemacht hat (zur Verfügung stehen). Wir Menschen lernen, wann wir lügen, schummeln oder übertreiben können und wann wir es besser bleiben lassen in der Interaktion mit anderen.
Ist es ein wildfremder Mensch, den ich nicht mehr wiedersehen werde oder interagiere ich mit Leuten, mit denen ich in sozialen oder anderen Beziehungen stehe? Das fehlt LLMs noch völlig, eine wirkliche Interaktion gibt’s nicht, wenn die Reaktionen nicht gespeichert werden und das Modell auch nicht versteht, dass es immer wieder auf den gleichen Gesprächspartner trifft. Man kann da sicher noch mit dem Belohnungsprinzip nachjustieren, allerdings sollten das nicht nur die Entwickler tun, sondern es sollte auch die Möglichkeit für den Nutzer geben.
Ich finde auch, LLMs sollte man nicht unnötigerweise "vermenschlichen", indem man sie "lügen" lasst, und das sind Halluzinationen nun mal, und nicht etwa Irrtümer.
Lügen bei Menschen können auch gerechtfertigt sein, wenn die Wahrheit in unnötiger Weise Gefühle verletzt oder Ängste hervorrufen würde (z.B. bei Kindern). Und auch die in einer Prüfung erratene Lösung, die in den Kasten geschrieben wird, ist gewissermaßen eine Form der legitimierten Lüge. Man nimmt in Kauf die Unwahrheit zu sagen, um ein paar Punkte zu ergattern, aber was solls, wenn das Erfolg hat?
Wenn man aber LLMs nicht gerade als Partnerersatz oder Psychologenersatz nimmt, was ohnehin eine fragwürdige Anwendung ist, schaden Halluzinatinen oder aus anderen Gründen falsche Informationen die sie liefern weitaus mehr, als sie nutzen. LLMs sollten also nur sagen, was sie aus angelerntem Wissen oder anderen Quellen auch belegen können, zumindest sollten sie so einstellbar sein, dass sie sich so verhalten. LLMs sind keine Menschen sondern robotische Assistenten und sie sollten, zumindest in ihrem derzeitigem Entwicklungsstand, auch gar nicht erst versuchen, welche zu sein.
Ich habe kürzlich die Einbindung von KI in die Juris-Datenbank gesehen. Die ist darauf trainiert, ausschließlich die Juris-Inhalte zu nutzen (Gesetze, Kommentierenden und Urteile…). Die ist auch darauf Trainiert nicht zu haluzinieren und man bekommt daher auch mal die Antwort, dass eine Frage nicht beantwortete werden kann. Das macht das Werkzeug tatsächlich besonders nützlich.