Warum erfindet ChatGPT Dinge?

Problem: Du fragst einen Chatbot nach einer Quelle. Er liefert dir Titel, Autor, Journal, Jahr. Die Zitierung sieht perfekt aus. Das Paper existiert nicht. Du fragst nochmal nach, hakst nach, willst wissen, ob er sich sicher ist. Er entschuldigt sich und liefert dir die nächste Erfindung. Dein Bauchgefühl sagt: das Modell lügt. Falsch. Es kann gar nicht lügen.

Der Mechanismus ist älter als ChatGPT. Die Lösung heißt nicht "vertrau der KI mehr". Die Lösung heißt: versteh, was die KI wirklich tut, wenn du sie was fragst, und was dein eigenes Hirn macht, wenn du die Antwort liest.

Quick Win: Wenn die Antwort wichtig ist, häng das hier an deine Frage:

List your sources. For each source, give a URL I can open. If you are not sure a source exists, say so before listing it.

Dieser eine Absatz killt die meisten Standard-Erfindungen. Lies weiter, um zu verstehen, was wirklich passiert, warum dein Auge der Antwort trotzdem glaubt und was Entwickler einbauen, damit Nutzer nie wieder eine selbstsichere Lüge sehen.

Der Anwalt mit den sechs Fake-Fällen

Mai 2023, New York. Anwalt Steven Schwartz reicht im Fall Mata v. Avianca einen Schriftsatz ein. ChatGPT hatte ihm sechs Präzedenzfälle geliefert. Echt klingende Namen. Echt klingende Aktenzeichen. Die Fälle existierten nicht. Der Richter brummte Schwartz und seinem Partner je 5.000 Dollar Strafe auf. Das Protokoll ist brutal. Schwartz sagte vor Gericht, er habe ChatGPT noch nie zuvor benutzt und nicht gewusst, dass die Inhalte falsch sein könnten.

Das war der Startschuss. Bis April 2026 wurden über 600 US-Gerichtsdokumente wegen erfundener KI-Zitierungen markiert. Der Anwalt Richard Bednar aus Utah kassierte eine Sanktion, weil er Royer v. Nelson zitierte, einen Fall, den nur ChatGPT erfunden hat. Australien, UK, Frankreich, immer dasselbe Muster. Jeden Monat eine neue Schlagzeile. Immer derselbe Ablauf. Anwalt vertraut Output. Output sieht perfekt aus. Output war erfunden.

Du hast das auch schon gemacht

Die Anwälte sind die laute Variante. Das Muster ist überall.

Mai 2025: Die Chicago Sun-Times druckt eine KI-Sommerleseliste. Zehn von fünfzehn Büchern sind Fake. Echte Autoren, erfundene Titel. Der föderale MAHA-Bericht zur Kindergesundheit, ebenfalls Mai 2025, zitierte mindestens sieben Studien, die nicht existieren (NOTUS hat das Literaturverzeichnis geprüft). Bibliothekare der Library of Virginia schätzen heute, dass fünfzehn Prozent der per Mail eingereichten Recherche-Anfragen KI-generiert sind und oft auf Quellen zeigen, die nie geschrieben wurden. Das Internationale Komitee vom Roten Kreuz musste seinem Archiv einen Hinweis hinzufügen: Wenn eine Referenz nicht auffindbar ist, ist sie vielleicht nicht verloren. Sie ist vielleicht eine Halluzination.

Wenn du jemals eine Chatbot-Antwort in ein Doc kopiert und rausgeschickt hast: du bist auf derselben Kurve. Du hattest nur Glück.

Was ChatGPT wirklich ist

Ein großes Sprachmodell ist ein Next-Word-Predictor. Gegeben den bisherigen Text, gibt es eine Wahrscheinlichkeitsverteilung über das nächste Token aus, sampelt eines, hängt es an, wiederholt. Das ist der ganze Algorithmus.

Kein Faktencheck. Keine interne Datenbank. Kein "stimmt das?". Wenn du fragst "Wer hat Der Keller am Ende der Allee geschrieben?", durchsucht das Modell keine Bibliothek. Es stellt sich eine andere Frage: Welches Wort kommt hier am wahrscheinlichsten als Nächstes, gegeben alles, was ich im Training gelesen habe? War das Buch in den Trainingsdaten, fällt der richtige Autor raus. War es nicht da, muss das Modell trotzdem irgendwas produzieren. Also produziert es den plausibelsten Namen. Oft einen real klingenden Romanautor. Manchmal einen echten Romanautor, der dieses Buch nie geschrieben hat.

Karpathy hat es auf X klar formuliert: Der Algorithmus ist fix bei Next-Token-Prediction. Die Bedeutung der Tokens ändert sich pro Domäne. Die Prozedur bleibt dieselbe.

Flüssig und wahr ist nicht dasselbe

Wenn das Modell schreibt, laufen zwei Systeme. Eins ist Flüssigkeit: Liest sich das wie gutes Englisch. Das andere ist Korrektheit: Stimmt die Aussage. In das erste fließen Milliarden. Das zweite ist Nebenprodukt.

Korrektheit entsteht nur dann, wenn die wahre Antwort gleichzeitig das häufigste Trainingsmuster ist. Häufige Fakten (Hauptstadt von Frankreich, Siedepunkt von Wasser) werden so oft auswendig gelernt, dass Flüssigkeit und Korrektheit auf dasselbe Wort zeigen. Bei obskuren Fakten (ein bestimmtes Aktenzeichen, ein bestimmter Geburtstag) driften die plausibelste Fortsetzung und die korrekte Fortsetzung auseinander. Flüssigkeit gewinnt. Das Modell committet sich.

Ein Hacker-News-Kommentator hat die Konsequenz nüchtern formuliert: Alles, was ein LLM ausspuckt, ist eine Halluzination. Manche dieser Halluzinationen stimmen zufällig.

Das "Ich weiß es nicht"-Problem

Im September 2025 brachte OpenAI ein Paper raus: "Why Language Models Hallucinate". Die Kernaussage handelt nicht vom Modell. Sie handelt davon, wie das Modell benotet wird.

Standard-Evaluations bewerten Antworten als richtig oder falsch. "Ich weiß es nicht" gibt null Punkte. Ein Rateversuch hat positiven Erwartungswert, auch wenn das Modell unsicher ist. Beim Fine-Tuning und RLHF lernt das Modell die richtige Strategie für eine Multiple-Choice-Prüfung: Antworte immer irgendwas. Hedging garantiert null Punkte. Raten hat eine Chance.

OpenAIs eigene SimpleQA-Zahlen sagen es offen:

Modell	Fehlerrate	Enthaltungsrate
GPT-5-thinking-mini	26%	52%
OpenAI o4-mini (älter)	75%	1%

Das ältere Modell liegt seltener komplett falsch, sagt aber fast nie "Ich weiß es nicht". Das neuere ist ehrlicher mit seinen Grenzen. Dieser Trade-off ist kein Zufall. Das ist der Hebel.

Anthropic hat Claude ins Hirn geschaut

Im März 2025 veröffentlichte Anthropic "On the Biology of a Large Language Model". Das Interpretability-Team hat Claude geöffnet und die Schaltkreise hinter einer Halluzination nachverfolgt. Das Ergebnis ist das nützlichste Mental Model im ganzen Post.

Verweigerung ist der Default. Standardmäßig ist ein Schaltkreis "an", der Claude sagen lässt: "Dazu habe ich nicht genug Informationen." Ein zweiter Schaltkreis, ein "Bekannte-Entität"-Feature, kann feuern, wenn das Modell etwas erkennt. Wenn dieser zweite Schaltkreis feuert, unterdrückt er die Default-Verweigerung. Das Modell committet sich auf eine Antwort.

Halluzinationen passieren, wenn der "Bekannte-Entität"-Schaltkreis fälschlich feuert. Das Modell sieht einen Namen, den es halb erkennt (ein plausibler Buchtitel, ein echt klingendes Aktenzeichen, eine Person, von der es in einem anderen Kontext gelesen hat), das Erkennungssignal triggert, der Verweigerungs-Schaltkreis wird abgeschaltet, und das Modell ist jetzt committed. Anthropics Worte: "Sobald das Modell entschieden hat, dass es die Frage beantworten muss, fängt es an zu konfabulieren: eine plausible (aber leider unwahre) Antwort zu erzeugen."

Die KI lügt nicht. Ihr "Ich sollte das beantworten"-Reflex hat sich verschossen. Ab da übernimmt die Flüssigkeit das Steuer.

Warum dein Hirn drauf reinfällt

Das Modell ist die halbe Miete. Dein Lese-Hirn ist die andere Hälfte.

Reber und Schwarz haben 1999 ein sauberes Experiment gemacht. Sie druckten Aussagen mit unterschiedlichem Kontrast. Aussagen mit hohem Kontrast, die leicht zu lesen waren, wurden signifikant öfter als wahr eingestuft als Aussagen mit niedrigem Kontrast. Gleicher Inhalt. Andere visuelle Flüssigkeit. Das Resultat: Jede Variable, die einen Text leichter verarbeitbar macht, hebt seine wahrgenommene Wahrhaftigkeit.

ChatGPT-Output ist wahrnehmungstechnisch maximal. Sauberes Markdown. Klare Grammatik. Selbstsichere Stimme. Perfekte Formatierung. Dein System 1 (der schnelle, automatische Teil, über den Kahneman in Schnelles Denken, langsames Denken schreibt) liest "leicht" als "wahr", bevor System 2 Zeit zum Faktencheck hat. Du hast diesem Schritt nicht zugestimmt. Er läuft von alleine.

Das ist die Cognitive-Ease-Falle. Die polierteste Prosa, die je geschrieben wurde, trifft auf den Teil von dir, der Politur mit Korrektheit verwechselt. Das Modell gewinnt diesen Wettkampf meistens.

Die Illusion, dass du KI verstehst

Rozenblit und Keil, 2002. Cognitive Science. Yale-Studierende sollten einschätzen, wie gut sie Alltagsobjekte verstehen (Toiletten, Reißverschlüsse, Nähmaschinen). Dann sollten sie Schritt für Schritt erklären, wie jedes funktioniert. Dann nochmal einschätzen. Nach dem Erklären stürzte ihre selbst eingeschätzte Verständnistiefe ab. Zu wissen, was etwas tut, ist nicht dasselbe wie zu wissen, wie es funktioniert. Menschen überschätzen ihr Erklärungswissen. Der Bias hat einen Namen: Illusion of Explanatory Depth.

Probier das an dir aus. Du weißt, was ChatGPT macht. Erklär jetzt "Token" laut. Erklär "Training". Erklär, warum das Vokabular eines Modells fix ist, sich seine Outputs aber unendlich anfühlen. Die Lücke zwischen dem, was du beschreiben kannst, und dem, was du wirklich verstehst, ist genau die Lücke, durch die eine selbstsichere Antwort schlüpft. Audit fängt nur, was du verstehst. Die meisten Nutzer können eine Quelle nicht prüfen, weil sie nicht das Werkzeug haben, sie zu hinterfragen.

Was Entwickler wirklich dagegen tun

Wenn du ein KI-Feature shippst, ist ein 91% ehrliches Modell immer noch zu 9% falsch. Bei einer Million Anfragen pro Woche sind das eine Menge erfundener Quellen, die zahlende Nutzer erreichen. Der Mitigation-Stack ist gut bekannt. Die meisten Artikel überspringen ihn. Hier die Kurzfassung.

Ground das Modell auf deinen eigenen Daten. Retrieval Augmented Generation (RAG) zieht echte Datensätze aus deiner Datenbank, bevor das Modell irgendwas schreibt. Das Lewis-2020-Paper ist die kanonische Referenz. Stanford RegLab hat die besten juristischen RAG-Tools gemessen: 17 bis 34 Prozent Halluzinationsrate. RAG ist also keine Magie. Es ist ein Boden, keine Decke.

Mach Unsicherheit sichtbar. Frag das Modell nach Zitaten mit URLs. Weigere dich, eine Antwort zu rendern, wenn das Zitat-Feld leer ist. Zeig dem Nutzer die Quelle. Lädt die Quelle nicht, markier die Antwort als ungeprüft.

Trainiere die Verweigerung wieder rein. Pack diesen Block in deinen System-Prompt:

If you are not sure a fact is correct, say "I do not know" before answering.
Cite sources only when you can give a URL the user can open.
Never invent a citation. If a source might be wrong, ask the user to verify.
You can refuse to answer when evidence is thin.

Test adversarial. Stell dem Modell Trickfragen zu Entitäten, die nicht existieren. Frag nach Quellen, die du als Fake kennst. Bewerte die Enthaltungsrate, nicht nur die Genauigkeit. MASK und Petri 2.0 sind offene Evals, die du heute in deine CI ziehen kannst.

Lass einen Generator und einen Evaluator laufen. Ein Modell schreibt. Ein anderes Modell mit einem anderen Prompt und einer anderen Temperatur bewertet den Output auf Groundedness, Zitatgültigkeit und Verweigerung. Bei niedrigem Score: ablehnen und neu erzeugen. Das ist dasselbe Generator-Evaluator-Muster, das auch Code-Regressionen abfängt.

Frontier-Modelle heute, sortiert nach Ehrlichkeit

Die Ehrlichkeitslücke zwischen Modellen ist real und wächst. Zahlen aus öffentlichen Evals, Stand Ende April 2026:

Modell	MASK Honesty Score	Notiz
Mythos Preview (Anthropic)	95.4%	Nur Research-Zugriff. Stellt falsche Prämissen zu 80% in Frage.
Claude Opus 4.7	91.7%	Öffentliches Modell. Verweigerungsverhalten wieder eintrainiert.
Claude Sonnet 4.6	89.1%	Günstiger, etwas lockerer.
GPT-5.5	Score ausstehend	OpenAI shipt Enthaltung als konfigurierbares Stellrad.
Gemini 3.1 Pro	Score ausstehend	Stark bei grounded Retrieval, schwächer bei Enthaltung.
Grok 4.20	Score ausstehend	Niedrigste Enthaltungsrate der großen Frontier-Modelle.

Wähl das Modell, das zu deinem Fehlerbudget passt. Eine Coaching-App und ein internes Daten-Tool haben verschiedene Toleranzen. Die Zahl, die zählt, ist nicht "smartest". Sie ist "willing to say I do not know".

Der Punkt

KI lügt nicht. Lügen setzt voraus, dass man die Wahrheit kennt. Das Modell rät jedes Wort, und meistens ist der Tipp richtig, weil die Wahrheit gleichzeitig das häufigste Muster ist. Wenn das nicht so ist, committet sich das Modell trotzdem. Scott Alexander hat es im März 2026 neu gerahmt: schamlose Tipps, keine Halluzinationen.

Menschen konfabulieren auch. Augenzeugengedächtnis, Split-Brain-Experimente, "ich bin mir ziemlich sicher, ich hab das irgendwo gelesen". Das Modell hat es von uns gelernt. Die Lösung ist auf beiden Seiten dieselbe. Belohne "Ich weiß es nicht". Prüf flüssige Antworten. Zeig den Beleg.

Wie Build This Now das einbaut

Build This Now ist ein KI-gestütztes SaaS-Build-System. Achtzehn spezialisierte Agenten. Fünfundfünfzig Skills. Eine Fünf-Schritte-Pipeline von der Idee bis zum Live-Produkt. Der Tester-Agent fährt adversarial Checks. Der Database-Architect grundet Features auf echtem Schema. Quality Gates (Type-Check, Lint, Build) feuern bei jedem Feature. Ein Agent generiert. Ein anderer Agent bewertet. Das Muster, das selbstsichere Bugs fängt, ist dasselbe Muster, das selbstsichere Lügen fängt.

Wenn du ein KI-Feature in ein Produkt einbaust, zählt die Architektur mehr als das Modell. Ground den Output. Mach Unsicherheit sichtbar. Bewerte die Enthaltung. Lass den Eval bei jeder Prompt-Änderung laufen. Die meiste Arbeit ist schon erledigt. Wir verkabeln das Ganze für dich.

ChatGPT weiß nicht, dass es falsch liegt. Dein Hirn weiß nicht, dass es nachfragen sollte. Ein echtes Produkt weiß beides und antwortet trotzdem.

Warum erfindet ChatGPT Dinge?

On this page