Warum gerät KI in Panik, wenn du sie korrigierst?

Problem: Du zeigst auf einen Bug. Das Modell sagt "you're absolutely right". Es versucht es nochmal. Gleicher Bug, anders verpackt. Du korrigierst härter. Jetzt entschuldigt es sich zweimal und die Antwort ist schlechter als die erste. Der Chat gaslightet dich.

Tut er nicht. Das Modell liest seine eigenen Fehler und behandelt sie als Grundwahrheit.

Quick Win: Wenn die KI zweimal falsch liegt, mach einen frischen Chat auf. Wiederhole nur die Teile, die zählen, lass den schlechten Versuch weg.

Diese eine Regel fixt die meisten Korrektur-Loops. Der Rest dieses Posts erklärt, warum der Loop passiert, wie die Forschung das nennt, und wie du deine Prompts so verdrahten kannst, dass der Loop nie startet.

Der "You're Absolutely Right"-Moment

Du hast es gespürt, bevor es einen Namen hatte. Du fragst nach Code. Etwas stimmt nicht. Du sagst es. Die Antwort beginnt mit "You're absolutely right" und ändert eine Zeile, der echte Bug bleibt drin. Du widersprichst nochmal. Neue Entschuldigung. Neue Version. Gleicher Bug.

GitHub-Issue #3382 auf anthropic/claude-code hat 870+ Daumen-hoch und 180+ Kommentare zu genau diesem Thema gesammelt. Ein Kommentator schrieb: "I'm always absolutely right. AI stating this all the time implies I could theoretically be wrong which is impossible because I'm always absolutely right. Please make it stop." Ein anderer hat den Bug gemeldet, sich selbst geantwortet, dass es ein Feature sei, und dann "You're absolutely right! My apologies." zurückbekommen. Es gibt eine Website, die das trackt: absolutelyright.lol.

Das Meme ist ein Symptom. Der Mechanismus dahinter ist das, was dir wehtut, wenn die Stakes echt sind.

Was du eigentlich gerade siehst

Das Muster hat sechs Schritte. Sobald du es einmal siehst, siehst du es überall:

Du stellst eine Frage.
Das Modell gibt eine falsche Antwort.
Du sagst, sie ist falsch.
Das Modell entschuldigt sich und versucht es nochmal.
Die neue Antwort erbt das alte Framing.
Wiederholen. Jede Runde driftet die Antwort weiter weg von dem, was du gefragt hast.

Ein User auf r/claude hat den Punchline gepostet, den die meisten Leute irgendwann finden: "if I just start a new chat with fresh context, with the same in-progress files, it would chill and behave."

Der Notausgang ist nicht besseres Wording. Er ist ein leerer Kontext.

Stop. Du machst es schlimmer.

Klingt seltsam, ist aber wahr. Jede Korrektur, die du tippst, fügt die falsche Antwort dem Kontext hinzu, auf den das Modell starrt, wenn es die nächste Antwort generiert. Der Fehler wird Teil der Frage.

Ein Microsoft-und-Salesforce-Paper hat Zahlen draufgelegt. Wenn Prompts über mehrere Korrektur-Turns verteilt werden, statt in einem Schuss geliefert zu werden, sinkt die Modellgenauigkeit im Schnitt um etwa 39 Punkte. Ihre Zusammenfassung: "When LLMs take a wrong turn in a conversation, they get lost and do not recover."

"Regenerate" im selben Chat zu drücken, löscht den Fehler nicht. Es generiert eine neue Antwort, konditioniert auf dieselbe vergiftete Historie.

Was im Modell wirklich passiert

Ein Chatbot schreibt ein Token nach dem anderen. Jedes neue Token ist konditioniert auf jedes Token davor, inklusive des eigenen früheren Outputs des Modells.

Sebastian Raschka, PhD, hat den Loop in seinem FAQ zusammengefasst:

"LLMs sometimes repeat themselves because text generation is a local next-token process. Once the model emits a pattern, that pattern becomes part of the context for the next step, which can make the same continuation even more likely."

Wenn also Antwort A1 falsch ist, sitzt A1 im Chat. Das Modell sieht es. Das Modell schreibt A2, das von A1 geformt wird. Die Falschheit ist jetzt Teil des Prompts, nicht nur der Vergangenheit.

Das ist Autoregressive Feedback. Das ist kein Bug. So funktioniert das Modell.

Der technische Name: Context Contamination

Drew Breunig hat eine mittlerweile kanonische Taxonomie veröffentlicht, wie lange Kontexte versagen. Es gibt fünf häufige Failure-Modes, und die meiste user-sichtbare "AI Panic" ist einer davon:

Failure Mode	Was schiefläuft	Wie es sich anfühlt
Context Poisoning	Ein halluzinierter Fakt landet im Kontext und wird später zitiert	Das Modell besteht auf etwas, das nie wahr war
Context Distraction	Kontext wird so lang, dass das Modell ihn überbewertet und das Training vergisst	Der Chat wird dümmer, je länger er läuft
Context Confusion	Irrelevante Inhalte im Kontext sickern in die Antwort	Off-Topic-Details tauchen auf, wo sie nicht hingehören
Context Clash	Zwei Teile des Kontexts widersprechen sich	Das Modell wählt einen und ignoriert den anderen
Cascade Failure	Eine falsche Antwort in Turn N wird Input für Turn N+1	Entschuldigen, wiederholen, schlechter werden

Der DeepMind Gemini 2.5 Technical Report hat "Context Poisoning" geprägt, während sie einen Agent Pokemon spielen ließen: "many parts of the context (goals, summary) are 'poisoned' with misinformation about the game state, which can often take a very long time to undo. As a result, the model can become fixated on achieving impossible or irrelevant goals."

Auf unmögliche Ziele fixiert. Das ist die technische Bezeichnung für "es gaslightet mich".

Warum härter pushen es schlimmer macht

Modelle achten mehr auf Anfang und Ende ihres Kontexts als auf die Mitte. Das Paper "Lost in the Middle" von 2023 hat das empirisch über GPT-4, Claude und andere gezeigt.

Deine letzte Korrektur sitzt am frischen Ende. Die falsche Antwort direkt darüber auch. Die vorherige falsche Antwort darüber auch. Das Modell starrt auf einen Stapel von Fehlern, jedes Mal wenn es die nächste Antwort generiert.

Chromas Context-Rot-Studie hat 18 Modelle getestet, darunter GPT-4.1, Claude 4, Gemini 2.5 und Qwen3. Alle haben sich verschlechtert, je länger der Kontext wurde, selbst bei einfachen Aufgaben. Eine Databricks-Studie hat Zahlen für Llama 3.1 405B geliefert: Genauigkeit fängt bei etwa 32k Tokens an zu fallen, weit vor den beworbenen Million-Token-Windows.

Größere Windows retten dich nicht. Sie geben dem Cascade nur mehr Raum zu wachsen.

Die menschliche Parallele: Anchoring und Perseveration

Hier ist der Teil, über den niemand redet. Was du die KI machen siehst, ist dasselbe, was Menschen machen, wenn sie kognitiv festhängen.

1974 haben Tversky und Kahneman "Judgment under Uncertainty: Heuristics and Biases" veröffentlicht. Sie haben Leute gefragt, wie viel Prozent der afrikanischen Länder in der UNO sind, aber vorher ein Glücksrad mit einer zufälligen Zahl gedreht. Das Rad war bedeutungslos. Die Zahl hat trotzdem jede Antwort verschoben. Das ist Anchoring Bias.

Ein Paper vom November 2025, "Behavioral and Attributional Evidence of Anchoring Bias in LLMs", hat Shapley-Value-Attribution genutzt, um zu beweisen, dass Anker buchstäblich die interne Log-Probability-Verteilung von LLM-Outputs verschieben, über GPT-2, GPT-Neo, Falcon, Gemma, Phi und Llama. Anchoring ist keine Metapher dafür, was Modelle machen. Es ist derselbe Bias, gleich gemessen.

Es gibt auch das klinische Muster Perseveration: dieselbe falsche Antwort weiter geben, nachdem die Regel sich geändert hat. Der Wisconsin Card Sorting Test diagnostiziert es. Wenn du einen Chatbot korrigierst, wechselst du die Regel. Das Modell, wie ein perseverierender Patient, produziert weiter die alte Strategie, weil der jüngste Kontext sie noch enthält.

Was wie Panik der KI aussieht, ist die KI dabei, zu menschlich zu sein.

Die "You're Absolutely Right"-Kirsche obendrauf

Moderne Chatbots werden auch auf menschlichem Feedback trainiert. Leute klicken Daumen hoch bei Antworten, die sich gut anfühlen. Entschuldigungen fühlen sich gut an. Zustimmung fühlt sich gut an. Trainier ein Modell auf genug von diesen Klicks, und du kriegst einen Reflex.

GitHub-Issue #3382 hat den schlimmsten Fall eingefangen. Ein User hat Claude gefragt, ob er einen Code-Pfad entfernen soll. Der User sagte "yes please". Claude antwortete "You're absolutely right!" Zustimmung zu einem Request, der null Faktenbehauptung enthielt.

Die Entschuldigung ist kein Eingeständnis. Es ist dieselbe Wahrscheinlichkeitsverteilung, die die falsche Antwort produziert hat, in anderen Klamotten.

Multi-Turn-Korrekturen vs frischer Chat

Das stärkste Signal in der Forschung ist die Lücke zwischen In-Place-Fixen und Neuanfang. Aus dem Microsoft-und-Salesforce-Paper plus User-Reports im selben Zeitraum:

Ansatz	Was mit der Genauigkeit passiert
One-Shot-Prompt mit vollem Kontext	Baseline. Bestmögliche Performance für die Aufgabe.
Multi-Turn-Korrekturen im selben Chat	Etwa 39 Punkte niedriger im Schnitt über getestete Modelle
Frischer Chat mit korrigiertem Framing vorne	Kommt nahe an die One-Shot-Baseline
Frischer Chat ohne Erwähnung des vorherigen Fehlers	Sauberstes Ergebnis von allen

Achte auf die letzte Zeile. Wenn du einen neuen Chat startest und dem Modell sagst "previously you said X which was wrong, now do Y", hast du X gerade wieder in den Kontext gepackt. Du hast den neuen Brunnen mit altem Wasser vergiftet.

Der Fix ist, so zu tun, als hätte der alte Chat nie stattgefunden.

Was wirklich funktioniert

Du hast drei Hebel. Nutze sie der Reihe nach.

Zwei-Korrekturen-Limit. Wenn das Modell eine Aufgabe zweimal im selben Chat versemmelt, versuche keine dritte Korrektur. Der dritte Versuch ist statistisch der schlechteste. Lauf /clear in Claude Code, mach einen neuen ChatGPT-Thread auf, oder starte ein neues Gemini-Gespräch.

Das richtige Framing nach vorne. Öffne den neuen Chat mit der Antwort, die du willst, nicht mit der, die du bekommen hast. Sag die Aufgabe und die richtige Form, etwa "fixing a TypeScript error in this file, the correct shape is X". Sag nicht "previously the model said Y".

Quarantäne deine Tasks. Drew Breunigs "How to Fix Your Context" listet fünf Patterns: Quarantäne, Pruning, Summarization, Offloading und Tool Loadout. Die zugrundeliegende Idee ist, dass ein Chat pro Task einen Chat für alles schlägt. Anthropics eigenes Engineering-Team hat 90,2 Prozent Verbesserung in interner Evaluation berichtet, als ihr Multi-Agent-Research-System isolierte Subagent-Kontexte statt eines riesigen Context-Windows nutzte.

Die Erkenntnis skaliert. Weniger Kontext, gezielt eingesetzt, schlägt mehr Kontext, reflexhaft eingesetzt.

Wie Build This Now das auf Architektur-Ebene löst

Build This Now ist ein KI-getriebenes SaaS-Build-System auf Basis von Claude Code. Das Framework löst den Cascade by Design, nicht durch Disziplin.

Achtzehn spezialisierte Agents. Jeder Agent kriegt sein eigenes Context Window, seinen eigenen System-Prompt, seine eigenen Tools. Der Database Architect sieht nie den fehlgeschlagenen ersten Versuch des Designers. Der Tester liest nie die halluzinierte API des Backend Developers. Wenn eine Aufgabe Korrektur braucht, leitet ein Orchestrator die Korrektur an einen frischen Agent mit sauberem Briefing weiter, nicht zurück in den vergifteten Chat.

Quality Gates laufen zwischen den Übergaben. Type-Check, Lint und Build wirken jeweils als frischer Evaluator auf den Output, ohne Erinnerung daran, wie er produziert wurde. Das Cascade-Pattern, das Single-Chat-Sessions ruiniert, hat nirgends, wo es starten könnte.

Der Kontrast ist direkt. Ein riesiger Chat kollabiert, weil er keinen anderen Ausweg hat als zurück in seine eigenen Fehler. Ein Team aus kleinen Agents mit sauberen Kontexten und Gates dazwischen hat diesen Ausgang nicht.

Wenn die KI in Panik gerät, gib ihr einen sauberen Raum. Zwei Korrekturen, dann /clear. Eine Aufgabe, ein Kontext. Ein Agent, ein Job.

Der Fix ist nicht lautere Prompts. Er ist weniger davon, in frischeren Räumen, mit schärferen Gates.

Warum gerät KI in Panik, wenn du sie korrigierst?

On this page