Warum vergisst die KI, worüber wir gerade geredet haben?

Problem: Du verbringst eine Stunde damit, ChatGPT durch dein Projekt zu führen. Es checkt den Ton, die Constraints, das Ziel. Zwanzig Nachrichten später vergisst es den Dateinamen. Dreißig Nachrichten später widerspricht es einer Regel, die es selbst geschrieben hat. Bei Nachricht fünfzig lobt es einen Plan, vor dem es dich vor einer Stunde gewarnt hat. Ein Redditor hat es im GPT-5-Launch-Thread perfekt zusammengefasst: "It's like my chatGPT suffered a severe brain injury and forgot how to read."

Quick Win: Mach nach jeder falschen Antwort einen frischen Chat auf. Wiederhole die Frage mit nur dem Kontext, der zählt.

Diese eine Gewohnheit schließt am ersten Tag den Großteil der Lücke. Lies weiter für das, was wirklich passiert, was die kognitive Psychologie dazu sagt, und wie die Architektur unter Build This Now gebaut ist, um den Failure-Mode zu umgehen.

Der Brain-Injury-Moment

Du hast das gespürt, bevor es einen Namen hatte. Eine lange Session, die scharf startet, wird langsam. Das Modell loopt. Es wiederholt frühere Fragen. Es vergisst die Variable, die du gerade umbenannt hast. Es erfindet munter einen Fakt, den du drei Nachrichten vorher korrigiert hast.

Das ist nicht deine Schuld. Das ist kein Pech. Das ist eine strukturelle Eigenschaft jedes Chatbots auf dem Markt, auch derer mit einer Million Token Context Window. Das Phänomen hat jetzt einen Namen. Hacker-News-Kommentatoren haben ihn im Juni 2025 geprägt. Anthropic Engineering nutzt ihn. Chroma auch. OpenAI-Doku auch. Der Name ist Context Rot.

Der Notizblock, nicht das Gehirn

Deine KI hat kein Gedächtnis. Lies das nochmal. Keine Session, kein Recall, kein gespeicherter Eindruck deines letzten Chats. Jedes Wort, das du tippst, und jedes Wort, das das Modell antwortet, wird in kleine Stücke namens Tokens zerschnitten. Das ganze Gespräch ist ein langes Band aus diesen Tokens.

Das Context Window ist die maximale Länge dieses Bandes, die das Modell auf einmal lesen kann. Es ist ein fester Notizblock. Bei jedem neuen Turn liest das Modell das ganze Band von vorne und schreibt das nächste Token. Wenn du den Tab schließt, ist das Band weg.

Die "Memory"-Features in ChatGPT und Claude ändern daran nichts. Sie speichern eine kleine Zusammenfassung von dir an einem separaten Ort und kleben sie am Anfang jedes neuen Chats in den System-Prompt. Schlau. Aber kein Gedächtnis.

Warum der Scheinwerfer dunkler wird

Bevor das Modell sein nächstes Token schreibt, vergleicht ein Attention Mechanism dieses Token mit jedem anderen Token, das schon auf dem Band steht. Stell dir einen Scheinwerfer vor, der den ganzen Streifen neu durchwischt und entscheidet, was zählt. Das ist der Durchbruch hinter Transformers. Das T in GPT.

Attention ist quadratisch. Ein Chat mit 100 Tokens braucht etwa 100 Attention-Operationen pro neuem Token. Ein Chat mit 1.000 Tokens braucht etwa 1.000. Ein Chat mit 100.000 Tokens braucht etwa 100.000. Die Kosten sind pro Token, also kostet eine Session, die zehnmal länger ist, etwa hundertmal mehr Compute.

Anthropic sagt es im Engineering-Blog ganz klar:

"Like humans, who have limited working memory capacity, LLMs have an 'attention budget' that they draw on when parsing large volumes of context. Every new token introduced depletes this budget by some amount."

Das ist das ganze Problem. Das Window kann eine Million Tokens halten. Das Attention-Budget kann das nicht.

Lost In The Middle

2023 hat Liu mit Kollegen in Stanford das kanonische Paper dazu veröffentlicht. Der Titel sagt alles: Lost in the Middle: How Language Models Use Long Contexts (arXiv:2307.03172).

Der Befund:

"Performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts, even for explicitly long-context models."

Eine U-förmige Kurve. Das Modell merkt sich den Anfang. Das Modell merkt sich das Ende. Die Mitte verschwindet. Genau wie ein Mensch in Stunde zwei eines Meetings driftet.

Context Rot ist real, sogar bei einer Million Tokens

Größere Windows haben den Bug nicht gefixt. Sie haben ihn sichtbarer gemacht.

Chromas Studie 2025 hat 18 Frontier-Modelle auf zunehmend langen Inputs getestet. Jedes einzelne hat sich verschlechtert. Selbst Modelle mit 1M Token Window zeigten messbaren Rot schon bei 50.000 Tokens. Adobe Research hat im selben Jahr einen Multi-Hop-Reasoning-Test gefahren und die Genauigkeit kollabieren sehen, als der Kontext wuchs:

Modell	Kurzer Kontext	Langer Kontext
GPT-4o	99%	70%
Claude 3.5 Sonnet	88%	30%
Llama 4 Scout	82%	22%

Eine Phrase in einem langen Dokument finden, da halten die Modelle. Über mehrere in einem langen Chat verstreute Fakten schließen, da fällt die Genauigkeit von der Klippe. Der zweite Fall passt zu deiner echten Nutzung.

So sieht das Angebot der großen Chatbots 2026 aus:

Modell	Context Window
Claude Opus 4.7	1.000.000 Tokens (GA)
Claude Sonnet 4.6	1.000.000 Tokens (GA)
GPT-5.5	1.000.000+ Tokens
Gemini 3.1 Pro	1.000.000 Tokens
Mythos Preview	1.000.000 Tokens (nur Research)

Achte auf das Muster. Die Decke ist in vier Jahren um etwa Faktor 244 gestiegen. User-Beschwerden übers Vergessen sind auf Allzeithoch. Das Window ist nicht der Engpass.

Dein Hirn hat denselben Bug

Kognitionspsychologen erforschen das beim Menschen seit siebzig Jahren.

George Miller, 1956, "The Magical Number Seven, Plus or Minus Two." Menschen halten etwa 7 plus/minus 2 Items im Kurzzeitgedächtnis gleichzeitig. Telefonnummern wurden um diese Grenze herum designt. Nelson Cowan hat die Mathematik 2001 nochmal angesehen und argumentiert, dass die echte Obergrenze, ohne Wiederholungstricks, näher bei 4 plus/minus 1 liegt. Alan Baddeley und Graham Hitch hatten das Arbeitsgedächtnis vorher schon in eine phonologische Schleife, einen visuell-räumlichen Notizblock und eine zentrale Exekutive aufgeteilt, die entscheidet, was Aufmerksamkeit kriegt.

Die Parallele ist exakt in der Form und absurd im Maßstab:

Eigenschaft	Menschliches Arbeitsgedächtnis	LLM Context Window
Harte Grenze für "aktiv"	~4 Chunks	~1.000.000 Tokens
Beste Recall-Position	Anfang und Ende (Primacy und Recency)	Anfang und Ende (Lost in the Middle)
Items in der Mitte zerfallen	Ja	Ja
Umgehbar durch Aufschreiben	Ja	Ja

Ein Mensch hält vier Chunks. Ein Modell hält eine Million Tokens. Beide vergessen die Mitte eines langen Gesprächs. Der Engpass ist nicht Speicher. Der Engpass ist Aufmerksamkeit. Du kompensierst limitierten Speicher durch aggressives Vergessen und Aufschreiben. Das Modell hat riesigen Speicher, aber ein dünnes Attention-Budget, und es muss sich alles ansehen, bevor es irgendetwas generiert.

Warum dich größere Windows nicht gerettet haben

Drei Failure-Modes stapeln sich, wenn ein Chat wächst.

Kapazität. Wenn das Band das Limit erreicht, werden alte Tokens abgeschnitten oder zusammengefasst. Das Modell kann buchstäblich nicht sehen, was weg ist.

Attention-Verdünnung. Schon vor dem Limit muss der Scheinwerfer zu viel scannen. Signal-zu-Rauschen sinkt mit jedem neuen Turn.

Lost in the Middle. Das Modell überbewertet die frischesten und die frühesten Tokens. Alles dazwischen verblasst.

Compaction macht das auf hinterhältige Weise schlimmer. Wenn Claude oder ChatGPT etwa 95% des Limits erreicht, fasst es die früheren Turns zusammen und ersetzt die Historie durch diese Zusammenfassung. Die Zusammenfassung behält die Entscheidungen. Sie verliert die Korrekturen, die Arbeitsweisen, den Ton, den du dir vierzig Nachrichten lang aufgebaut hast. Ein GitHub-Bug vom Oktober 2025 hat es auf den Punkt gebracht: Regeln vor der Compaction perfekt befolgt, danach zu 100% verletzt.

Die Fixes, die wirklich funktionieren

Du hast drei Hebel als User. Nutze sie der Reihe nach.

Mach für jede neue Frage einen frischen Chat auf. Veralteter Kontext ist die größte Ursache für schlechte Antworten in langen Sessions. Ein neuer Chat ist gratis.

Wiederhol den relevanten Kontext in deiner neuen Frage. Sag nicht "remember the file we discussed". Paste die Datei rein. Paste die Regel rein. Paste das Constraint rein. Das Modell hat kein Gedächtnis. Es hat nur, was du heute aufs Band legst.

Pack die tragende Anweisung an den Anfang und ans Ende deines Prompts. Liu et al. haben gezeigt: Das Modell überbewertet beide Enden. Nutze beide Enden.

Für Builder ist die Antwort architektonisch. Karpathy hat es im Juni 2025 auf X benannt:

"Context engineering is the delicate art and science of filling the context window with just the right information for the next step."

Drei Patterns machen die meiste Arbeit:

Pattern	Was es macht
Sub-Agents	Jeder Agent läuft in einem sauberen Window und gibt eine kurze Zusammenfassung zurück. Der Hauptthread sieht das Rauschen nie.
Just-in-Time Retrieval	Files, Suchergebnisse und Memory leben außerhalb des Windows. Der Agent liest sie on demand.
Persistentes Projekt-Memory	Eine kleine Datei, die der Agent zu Beginn jeder Session neu lädt. Übersteht Compaction, weil sie außerhalb des Chats lebt.

Genau das empfiehlt Anthropics eigenes Engineering-Team. Genau das macht dein Hirn. Du lernst deine Inbox nicht auswendig. Du suchst sie.

Was das heißt, wenn du mit KI baust

Ein Solo-Founder, der seinen MVP per Vibe-Coding in einem einzelnen ChatGPT-Thread baut, läuft nach drei Stunden in Context Rot. Das Modell fängt an, sich selbst zu widersprechen. Der Plan, an dem sie den ganzen Vormittag gearbeitet haben, löst sich auf. Sie geben dem Tool die Schuld. Das Tool macht genau das, was die Architektur erlaubt.

Build This Now ist ein KI-getriebenes SaaS-Build-System auf Basis von Claude Code. Achtzehn spezialisierte Agents, fünfundfünfzig plus Skills, eine Fünf-Schritt-Pipeline von Idee zu Live-Produkt. Die Architektur ist um das Lost-in-the-Middle-Paper herum gebaut, nicht trotzdem.

Jeder der achtzehn Agents läuft in seinem eigenen frischen Context Window. Der Database Architect sieht nicht die Notizen des Designers. Der Tester erbt nicht die fehlgeschlagenen Versuche des Backend Developers. Der Orchestrator bekommt eine kurze, kondensierte Zusammenfassung von jedem zurück. Sub-Agent-Architektur ist das Pattern, das Anthropic explizit gegen Context Rot empfiehlt, und es ist standardmäßig verdrahtet.

Skills leben außerhalb des Windows. Fünfundfünfzig plus wiederverwendbare Mini-Anweisungen werden on demand neu geladen. CLAUDE.md ist die permanente Memory-Datei des Projekts, von jedem Agent zu Beginn jeder Session gelesen, und ein /auto-memory Skill fängt Entscheidungen über Sessions hinweg ein, sodass der nächste Chat dort startet, wo der letzte aufgehört hat. Files werden mit Glob und Grep gelesen, nicht in den Prompt gestopft. Das Framework behandelt das Context Window als die endliche Ressource, die es ist.

Der Fix ist nicht ein größeres Window

Sycophancy war das erste KI-Dark-Pattern. Context Rot ist das zweite. Du hast es gespürt, bevor es jemand benannt hat. Den Begriff gibt es jetzt. Nutze ihn. Sag deinem Team, warum lange Sessions dümmer werden. Sag deinen Usern, warum ein frischer Chat die Antwort ist.

Die Wissenschaft ist klar. Menschen und Modelle vergessen beide die Mitte. Beide kompensieren durchs Aufschreiben. Build This Now shippt mit dem Notizbuch schon offen. Mach einen frischen Chat auf. Paste rein, was zählt. Oder gib die Arbeit an ein System ab, das beides für dich macht.

Warum vergisst die KI, worüber wir gerade geredet haben?

On this page