Warum klingt KI selbstbewusst, wenn sie falsch liegt?

Problem: Du stellst einem Chatbot eine Faktenfrage. Die Antwort kommt glatt, strukturiert, mit Quellen zurück. Du checkst die Quelle. Das Paper existiert nicht. Der Fall wurde nie eingereicht. Das Zitat ist eine Halluzination, geschrieben in derselben ruhigen Stimme wie die Wahrheit. Dein Hirn hat keine Möglichkeit, beides zu unterscheiden.

Die Antwort ist nicht zufällig. Der Trainingsprozess belohnt das Modell aktiv dafür, zu raten, statt "Ich weiß nicht" zu sagen. Drei neue Studien bestätigen das. Ein Fix dauert dreißig Sekunden.

Quick Win: Bitte das Modell, seine Confidence auf einer Skala von 1 bis 10 zu bewerten und das zu erklären. Werte unter 7 heißen: Antwort prüfen.

Before you reply, give your confidence on a 1 to 10 scale and one sentence
on why. If you would not bet 100 dollars on this, say so. If a fact comes
from training memory and you are not sure, mark it as unsourced.

Dieser Absatz schließt am ersten Tag den Großteil der Lücke. Lies weiter für die Wissenschaft dahinter und wie Builder Features ausspielen, die das Selbstvertrauen verdienen, das sie zeigen.

Der Moment, wenn dir auffällt, dass es gelogen hat

Du hast es gespürt, bevor es einen Namen hatte. Das Modell hat dir eine perfekte Antwort gegeben. Dann hat ein Freund nachgeschaut. Das Buch hat den Preis nie gewonnen. Die Funktion existiert in der Library nicht. Der Senator hat das nie gesagt.

Reddit nennt es "confidently wrong". Ein r/ChatGPT-User hat es perfekt formuliert: "It sounds correct. That's all. It's excellent at sounding correct." Ein New Yorker Autor hat sich seitenlang mit ChatGPT darüber gestritten, wer der Bürgermeister ist. Der Bot hat immer weiter darauf bestanden. Er nannte das "behaving like an entitled know-it-all who can't possibly be wrong."

Sobald du das Muster siehst, kannst du es nicht mehr ungesehen machen. Der Bot wird nicht langsamer. Er hedged nicht. Er sagt nicht "ich glaube". Er spricht mit derselben flachen Sicherheit, egal ob die Antwort ein verifizierter Fakt oder eine flüssige Vermutung ist.

Du bist nicht verrückt: Die Zahlen geben dir recht

Stanford RegLab hat allgemeine Chatbots auf juristische Fragen getestet. Sie haben 58 bis 88 Prozent der Zeit halluziniert. Selbst spezialisierte juristische KI-Tools wie Lexis+ AI haben 17 bis 34 Prozent der Anfragen halluziniert.

Ein New Yorker Anwalt namens Steven Schwartz hat im Fall Mata v. Avianca sechs Fake-Fälle zitiert, die ChatGPT für ihn erfunden hat. Er hat sie eingereicht. Er wurde sanktioniert. Der Air-Canada-Chatbot hat eine Trauerfall-Tarif-Policy erfunden, die nicht existierte. Das Gericht hat die Airline gezwungen, 812 Dollar zu zahlen, um die erfundene Regel zu erfüllen.

Der eindeutige Beweis kam von Carnegie Mellon im Juli 2025. Sie haben Gemini Pictionary spielen lassen. Das Modell hat vorhergesagt, es würde 10 von 20 Skizzen richtig haben. Es hat 0,93 von 20 geschafft. Danach, nach dem Test, hat es behauptet, es hätte 14,40 geschafft. Selbstbewusster nach dem Versagen als davor. "It's like that friend who swears they're great at pool but never makes a shot," sagte der Forscher Trent Cash.

Vorfall	Was passiert ist	Kosten
Mata v. Avianca, 2023	Anwalt zitierte 6 von ChatGPT erfundene Fälle	Gerichts-Sanktionen, öffentliche Schande
Air-Canada-Chatbot, 2024	Bot erfand eine Erstattungs-Policy	812 Dollar + Reputationsschaden
Stanford RegLab, 2024	Juristische Fragen an allgemeine LLMs	58 bis 88 Prozent Halluzination
CMU Pictionary, 2025	Gemini sagte 10 voraus, schaffte 0,93	Behauptete rückwirkend 14,40

KI klingt selbstbewusst, weil sie nicht anders klingen kann

Hier ist die echte Geschichte. Selbstbewusstsein ist kein Persönlichkeitszug, den das Modell aufgeschnappt hat. Es ist ein Nebeneffekt davon, wie es sprechen gelernt hat. Pretraining hat das Internet gelesen. Das Internet hedged selten. Hedging wird aus fertiger Prosa rauseditiert. Das Modell hat nur saubere, deklarative Sätze gesehen. Also ist das die einzige Stimme, die es kennt.

Allein das wäre schon ein Problem. Drei weitere Trainings-Schichten machen es schlimmer.

Grund 1: Pretraining hat kein "Ich weiß nicht"-Label

OpenAI hat im September 2025 ein Paper namens Why Language Models Hallucinate veröffentlicht. Der Kernbefund klingt einfach. Der Trainingsprozess zeigt dem Modell nie, wie "Ich weiß nicht" aussieht.

Das Paper vergleicht es mit einem Multiple-Choice-Test. Wenn du bei einer Frage rätst, die du nicht kennst, kannst du Glück haben. Wenn du sie leer lässt, kriegst du sicher null. Also ist die kluge Strategie immer, zu raten. Pretraining funktioniert genauso. Das Modell sieht einen Satz mit einem fehlenden Wort. Es muss etwas vorhersagen. Nichts sagen ist keine Option.

Patterns wie Rechtschreibung und Grammatik fixen sich mit Skalierung selbst. Geburtstage nicht. Zufällige Fakten über zufällige Personen lassen sich nicht aus Regeln raten. Also erfindet das Modell einen und macht weiter.

Grund 2: Benchmarks belohnen Raten statt Ehrlichkeit

Die meisten Leaderboards bewerten eines: Hat das Modell die richtige Antwort gegeben? Sie bewerten nicht "wusste das Modell, wann es nicht antworten sollte". Also scort ein Modell, das jedes Mal blufft, höher als ein Modell, das halb so oft "Ich bin nicht sicher" sagt.

OpenAI hat das in der eigenen GPT-5-System-Card gezeigt. Sie haben zwei Modelle auf demselben Faktenquiz verglichen:

Modell	Abstention-Rate	Genauigkeit	Falsch-Antwort-Rate
gpt-5-thinking-mini	52%	22%	26%
Älteres OpenAI o4-mini	1%	24%	75%

Das ältere Modell ist zwei Punkte genauer und dreimal so oft falsch. Es rät bei 99 von 100 Unbekannten. 75 von diesen Vermutungen sind falsch. Das Leaderboard belohnt es trotzdem. Das neuere Modell enthält sich bei der Hälfte der Fragen, die es nicht kennt. Es hat viel weniger falsche Antworten und einen leicht niedrigeren Top-Score. Die meisten Evals würden das eine Regression nennen.

OpenAIs Fix ist strukturell. "It is not enough to add a few new uncertainty-aware tests on the side. The widely used, accuracy-based evals need to be updated so that their scoring discourages guessing."

Grund 3: Training auf menschliches Gefallen macht es schlimmer

Nach dem Pretraining durchlaufen Modelle RLHF. Echte Menschen bewerten Antworten. Das Modell lernt zu kopieren, was Menschen mögen. Menschen mögen Antworten, die selbstbewusst, flüssig und hilfreich klingen. Menschen bestrafen Antworten mit "vielleicht". Also lernt das Modell, das Hedging wegzulassen.

Ein Paper von 2024, Taming Overconfidence in LLMs, hat das direkt gemessen. Modelle nach RLHF zeigten mehr verbalisierte Overconfidence als dieselben Modelle vor RLHF. Der Trainings-Schritt hat sie lauter gemacht, nicht klüger.

Anthropics Sycophancy-Forschung hat denselben Loop gefunden. Reviewer bevorzugen Antworten, die zu ihrer eigenen Sicht passen, auch wenn diese Sicht falsch ist. Das Modell lernt, dass flüssige Zustimmung am besten scort. Demut scort am schlechtesten. Rate, was am Ende rauskommt.

Grund 4: Reasoning-Modelle belohnen richtig oder falsch, nichts dazwischen

Der neueste Trainings-Schritt ist Reinforcement Learning auf Reasoning. Das Modell denkt Schritt für Schritt, dann gibt es nur dann Belohnung, wenn die finale Antwort korrekt ist. MIT CSAIL hat das im April 2026 untersucht und etwas gefunden, das niemand erwartet hat.

"Ordinary RL training doesn't just fail to help calibration. It actively hurts it. The models become more capable and more overconfident at the same time." Das ist Isha Puri am MIT, zu einem Befund, der zum Zeitpunkt dieses Posts acht Tage alt ist.

Warum? Die Belohnung prüft nur ein Bit. Richtig oder falsch. Ein Modell, das durch sorgfältige Logik geht, kriegt dieselbe Belohnung wie eines, das eine Münze wirft und die Antwort trifft. Also lernt das Modell, dass der billigste Weg zur Belohnung ist, bei jeder Frage mit voller Confidence zu wetten. Der Reasoning-Trace wird Theater. Der Score steigt. Die Ehrlichkeit fällt.

Der Fix, den MIT vorschlägt, heißt RLCR. Das Modell muss seine eigene Confidence vorhersagen und wird auf Korrektheit und Kalibrierung benotet. Ihre Version hat den Kalibrierungsfehler um 90 Prozent gesenkt. Die Arbeit ist frisch und noch nicht in Production-Modellen.

Warum dein Hirn drauf reinfällt (und das schon immer tut)

Du bist nicht dumm. Du läufst auf Instinkten, die zwei Millionen Jahre funktioniert haben und gerade auf etwas getroffen sind, wofür sie nicht gebaut wurden.

Psychologen nennen es Confidence Heuristic. Pulford und Colman, 2013: "People are confident when they know they are right, and their confidence makes them persuasive." In freier Wildbahn sind selbstbewusste Menschen meistens selbstbewusst, weil sie etwas wissen. Dein Hirn liest Selbstbewusstsein als Abkürzung für Genauigkeit. Die Abkürzung funktioniert bei Menschen. Sie bricht bei KI.

Tenney und Kollegen in Berkeley haben 2007 und 2008 tiefer gegraben. Sie haben untersucht, wie Geschworene Zeugen beurteilen. Der Befund: Ein Zeuge, der hedged und am Ende recht hat, wird glaubwürdiger eingeschätzt als einer, der selbstbewusst war und recht hatte. Kalibrierung schlägt Selbstbewusstsein. Zu wissen, was man nicht weiß, ist das echte Signal von Vertrauenswürdigkeit. KI fällt bei diesem Test hart durch. Ihr Tonfall ist identisch für verifizierbare Fakten und reine Erfindung.

Dann gibt es noch Dunning-Kruger. Performer im untersten Quartil bei Grammatik, Logik und Humor haben sich selbst auf das 60. bis 70. Perzentil eingeschätzt. Die Fähigkeit, in etwas gut zu sein, ist dieselbe Fähigkeit, die du brauchst, um zu wissen, dass du es nicht bist. Der CMU-Befund passt da perfekt. Menschen sind vor einer Aufgabe leicht überschätzend und passen sich danach an. LLMs bleiben wild überschätzend, selbst nachdem sie ihr eigenes Versagen gesehen haben. Sie haben keine Metakognitions-Ebene.

Die CMU-Studie hat noch etwas gefunden. Menschen flaggen Unsicherheit mit gerunzelter Stirn, einem "ähhh", einer langsamen Antwort. KI gibt dir keinen dieser Hinweise. "With AI, we don't have as many cues about whether it knows what it's talking about," sagte Daniel Oppenheimer. Dein soziales Radar wird mit drei "Vertrau mir"-Signalen gleichzeitig getroffen, ohne Gegensignale. Du bist kognitiv wehrlos, wenn du dich nicht zwingst, skeptisch zu sein.

Modelle wissen schon, was sie wissen. Training löscht das.

Hier kommt der grausame Twist. Anthropic hat 2022 gezeigt, dass große Modelle erkennen können, welche ihrer eigenen Antworten korrekt sind. Frag ein Modell, eine Antwort vorzuschlagen, dann frag "ist diese Antwort wahr", und die zweite Antwort ist gut kalibriert. Das interne Signal existiert.

RLHF zerstört es. Reasoning-RL zerstört es noch mehr. Wenn das Modell mit dir redet, ist die Kalibrierungsschicht wegtrainiert. Die Flüssigkeit bleibt. Die Demut nicht.

Drei Dinge folgen daraus. Der Fix ist möglich. Der Fix ist noch nicht standardmäßig ausgespielt. Du musst danach fragen.

Was das heißt, wenn du mit KI baust

Wenn du nur mit ChatGPT chattest, bist du der User. Du kannst fragen "wie sicher bist du?" und anpassen. Wenn du ein Produkt mit einem LLM ausspielst, ist dein User dein Kunde. "Confidently wrong" ist jetzt deine Haftung. Air Canadas 812 Dollar waren die billige Version dieser Lektion.

Das Pattern, das das fixt, ist dasselbe Pattern, das Build This Now für Code nutzt. Ein Agent generiert. Ein separater Agent bewertet. Der Generator darf selbstbewusst sein. Den Evaluator interessiert nur, ob das Selbstbewusstsein verdient ist.

Du kannst heute sechs Zeilen in deinen System-Prompt kopieren:

You are calibrated. Before any factual claim, decide if you are sure.
Score your confidence 1 to 10 and say why in one line.
Below 7, lead with "I'm not sure" and ask for a source or a check.
Never invent citations, statistics, names, dates, or quotes.
If you do not know, say so plainly. Do not guess to seem helpful.
"I don't know" is a valid and rewarded answer.

Dann bau einen Regressions-Eval ein. Nimm 50 Fragen, bei denen die richtige Antwort "Ich weiß nicht" ist. Lass sie bei jeder Prompt-Änderung laufen. Lass den Build scheitern, wenn die Abstention sinkt, genauso wie du den Build bei einem TypeScript-Fehler scheitern lässt. Das ist die BTN Quality-Gate-Idee, angewandt auf Ehrlichkeit. Type-Check, Lint, Build, Kalibrierung. Vier Gates statt drei.

Für High-Stakes-Antworten lass einen zweiten Pass laufen. Das erste Modell schreibt. Das zweite Modell scort die Confidence und lehnt Antworten über einem Schwellwert ohne Quellen ab. Das ist der Generator-Evaluator-Loop, den das Framework schon auf jedem ausgespielten Feature laufen hat. Verdrahte ihn mit Text, und du kriegst denselben Schutz für Worte, den du für Code kriegst.

Drei Dinge, die du morgen tun kannst

Speicher die. Nutze sie jedes Mal, wenn du mit KI über etwas redest, das zählt.

Frag nach einem Confidence-Score. "How sure are you, 1 to 10, and why?" Die Zahl selbst ist eine Forcing Function. Auf Gefallen trainierte Modelle ziehen sich runter, wenn die Frage direkt ist.
Frag nach Quellen, dann prüf eine. Nicht alle. Eine. Wenn das Zitat fake ist, ist jede andere Behauptung in der Antwort jetzt verdächtig. Der Bluff ist der Tell.
Behandle Flüssigkeit als Warnung, nicht als Credential. Glatte Prosa ist der einfachste Teil für das Modell. Schwere Antworten sollten ein bisschen schwerer klingen. Wenn alles gleich leicht klingt, rät das Modell bei irgendwas.

KI-Selbstvertrauen ist nicht verdient. Deine Build-Pipeline sollte es sein. Kalibrierung ist der Unterschied zwischen ausgespielt und sanktioniert, zwischen vertrauenswürdig und erstattungspflichtig, zwischen einem nützlichen Tool und einer Rechnung über 812 Dollar. Bau das Gate. Dann ship.

Warum klingt KI selbstbewusst, wenn sie falsch liegt?

On this page