Build This Now
Build This Now
Qu'est-ce que le code Claude ?Installer Claude CodeL'installateur natif de Claude CodeTon premier projet Claude Code
La Technique Ralph WiggumL'ingénierie par threadsClaude Code AutonomeL'ingénierie robots-firstClaude Code /simplify et /batchLe développement piloté par spec avec Claude CodePourquoi ChatGPT est-il toujours d'accord avec toi ?Pourquoi ChatGPT invente-t-il des trucs ?Pourquoi l'IA est-elle aussi addictive ?Pourquoi l'IA donne-t-elle l'impression d'un ami ?Pourquoi je deviens plus con à cause de ChatGPT ?Pourquoi tu fais plus confiance à l'IA qu'à Google ?Pourquoi l'IA oublie ce qu'on vient de se dire ?Pourquoi l'IA a l'air si sûre d'elle quand elle se plante ?Pourquoi l'IA panique quand tu la corriges ?
speedy_devvkoen_salo
Blog/Handbook/Core/Why Does AI Forget What We Just Talked About?

Pourquoi l'IA oublie ce qu'on vient de se dire ?

L'IA oublie en pleine conversation à cause des fenêtres de contexte, des budgets d'attention, et d'un phénomène appelé context rot. Voici la science, et le fix.

Arrêtez de configurer. Commencez à construire.

Templates SaaS avec orchestration IA.

Published Apr 30, 202610 min de lectureHandbook hubCore index

Problème : tu passes une heure à expliquer ton projet à ChatGPT. Il capte le ton, les contraintes, l'objectif. Vingt messages plus tard, il oublie le nom du fichier. Trente messages plus tard, il contredit une règle qu'il a écrite lui-même. Au message cinquante, il vante un plan qu'il te déconseillait il y a une heure. Un Redditor a parfaitement résumé ça sur le fil de lancement de GPT-5 : "It's like my chatGPT suffered a severe brain injury and forgot how to read."

La technique rapide : ouvre un nouveau chat dès qu'une réponse est fausse. Repose la question avec uniquement le contexte qui compte.

Ce seul réflexe ferme la moitié du gap dès le premier jour. Continue à lire pour comprendre ce qui se passe vraiment, ce que la psycho cognitive en dit, et comment l'archi de Build This Now est construite pour esquiver ce mode d'échec.

Le moment "lésion cérébrale"

Tu l'as ressenti avant d'avoir un mot pour le décrire. Une longue session qui démarre nette devient lente. Le modèle boucle. Il répète des questions déjà posées. Il oublie la variable que tu viens de renommer. Il invente joyeusement un fait que tu as corrigé trois messages plus tôt.

C'est pas ta faute. C'est pas la malchance. C'est une propriété structurelle de tous les chatbots du marché, y compris ceux avec une fenêtre d'un million de tokens. Le phénomène a un nom maintenant. Des commentateurs sur Hacker News l'ont forgé en juin 2025. Anthropic engineering l'utilise. Chroma aussi. Et la doc OpenAI. Le nom : context rot.

Le bloc-notes, pas le cerveau

Ton IA n'a pas de mémoire. Relis-le. Pas de session, pas de rappel, aucune impression stockée de ton dernier chat. Chaque mot que tu tapes et chaque mot que le modèle répond est découpé en petits morceaux appelés tokens. Toute la conversation est un long ruban de ces tokens.

La fenêtre de contexte, c'est la longueur max de ce ruban que le modèle peut lire d'un coup. C'est un bloc-notes de taille fixe. À chaque nouveau tour, le modèle relit le ruban entier depuis le début et écrit le token suivant. Quand tu fermes l'onglet, le ruban disparaît.

Les fonctions "memory" de ChatGPT et Claude ne changent pas ça. Elles stockent un petit résumé de toi à part, qu'elles recollent dans le system prompt au début de chaque chat. Malin. Mais pas de la mémoire.

Pourquoi le projecteur baisse

Avant d'écrire son token suivant, un mécanisme d'attention compare ce token à tous les autres tokens déjà sur le ruban. Imagine un projecteur qui rebalaye toute la bande en décidant ce qui compte. C'est l'avancée derrière les transformers. Le T dans GPT.

L'attention est quadratique. Un chat de 100 tokens demande environ 100 opérations d'attention par nouveau token. 1 000 tokens, environ 1 000. 100 000 tokens, environ 100 000. Le coût est par token, donc une session dix fois plus longue coûte environ cent fois plus de calcul.

Anthropic le dit en clair sur son blog engineering :

"Like humans, who have limited working memory capacity, LLMs have an 'attention budget' that they draw on when parsing large volumes of context. Every new token introduced depletes this budget by some amount."

C'est tout le problème. La fenêtre peut tenir un million de tokens. Le budget d'attention, non.

Lost in the middle

En 2023, Liu et ses collègues à Stanford ont publié l'article canonique sur le sujet. Le titre dit tout : Lost in the Middle: How Language Models Use Long Contexts (arXiv:2307.03172).

La conclusion :

"Performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts, even for explicitly long-context models."

Une courbe en U. Le modèle se souvient bien du tout début. Il se souvient bien de la toute fin. Le milieu disparaît. Comme un humain qui décroche pendant la deuxième heure d'une réunion.

Le context rot est réel, même à un million de tokens

Les fenêtres plus grandes n'ont pas réparé le bug. Elles l'ont rendu plus visible.

L'étude de Chroma en 2025 a testé 18 modèles frontier sur des inputs de plus en plus longs. Tous ont dégradé. Même les modèles à 1M tokens montraient une rot mesurable dès 50 000 tokens. Adobe Research a fait un test de raisonnement multi-saut la même année, et a vu la précision s'écrouler quand le contexte grossissait :

ModèleContexte courtContexte long
GPT-4o99%70%
Claude 3.5 Sonnet88%30%
Llama 4 Scout82%22%

Trouver une phrase dans un long doc, les modèles tiennent. Raisonner sur plusieurs faits enfouis dans un long chat, la précision tombe d'une falaise. Ce deuxième cas, c'est celui qui correspond à ton usage réel.

Voici ce que chaque chatbot majeur propose en 2026 :

ModèleFenêtre de contexte
Claude Opus 4.71 000 000 tokens (GA)
Claude Sonnet 4.61 000 000 tokens (GA)
GPT-5.51 000 000+ tokens
Gemini 3.1 Pro1 000 000 tokens
Mythos Preview1 000 000 tokens (recherche seulement)

Note le pattern. Le plafond a fait x244 en quatre ans. Les plaintes utilisateurs sur l'oubli sont au plus haut. La fenêtre n'est pas le goulot.

Ton cerveau a le même bug

Les psychologues cognitifs étudient ça chez les humains depuis soixante-dix ans.

George Miller, 1956, "The Magical Number Seven, Plus or Minus Two." Les humains tiennent environ 7 plus ou moins 2 items en mémoire immédiate à la fois. Les numéros de tél ont été conçus autour de cette limite. Nelson Cowan a refait les calculs en 2001 et a soutenu que la vraie cap, une fois les astuces de répétition retirées, est plutôt de 4 plus ou moins 1. Alan Baddeley et Graham Hitch avaient déjà découpé la mémoire de travail en boucle phonologique, calepin visuo-spatial, et exécutif central qui décide ce qui passe à l'attention.

Le parallèle est exact dans la forme, et absurde dans l'échelle :

PropriétéMémoire de travail humaineFenêtre de contexte LLM
Plafond dur sur ce qui est "actif"~4 chunks~1 000 000 tokens
Meilleure position de rappelDébut et fin (primauté et récence)Début et fin (lost in the middle)
Décroissance des items du milieuOuiOui
Contournée en écrivantOuiOui

Un humain tient quatre chunks. Un modèle tient un million de tokens. Les deux oublient le milieu d'une longue conversation. Le goulot, c'est pas le stockage. C'est l'attention. Tu compenses le stockage limité en oubliant agressivement et en notant tout. Le modèle a un stockage énorme mais un budget d'attention fin, et il doit tout regarder avant de générer quoi que ce soit.

Pourquoi des fenêtres plus grandes ne t'ont pas sauvé

Trois modes d'échec s'empilent quand un chat grandit.

Capacité. Quand le ruban touche la limite, les vieux tokens sont jetés ou résumés. Le modèle ne peut littéralement plus voir ce qui a été coupé.

Dilution d'attention. Même avant la limite, le projecteur a trop à scanner. Le rapport signal/bruit chute à chaque tour.

Lost in the middle. Le modèle surpondère les tokens les plus frais et les plus anciens. Tout ce qui est entre s'efface.

La compaction empire ça en douce. Quand Claude ou ChatGPT atteint environ 95% de la limite, il résume les tours précédents et remplace l'historique par ce résumé. Le résumé garde les décisions. Il perd les corrections, les patterns en cours, le ton que tu as mis quarante messages à établir. Un bug GitHub déposé en octobre 2025 a tout dit : règles parfaitement suivies avant compaction, violées 100% du temps après.

Les fixes qui marchent vraiment

Tu as trois leviers en tant qu'user. Utilise-les dans l'ordre.

Ouvre un nouveau chat pour toute nouvelle question. Le contexte rance, c'est la première cause de mauvaises réponses dans les longues sessions. Un nouveau chat est gratuit.

Répète le contexte pertinent dans ta nouvelle question. Dis pas "rappelle-toi du fichier dont on a parlé". Colle le fichier. Colle la règle. Colle la contrainte. Le modèle n'a pas de mémoire. Il a juste ce que tu mets sur le ruban aujourd'hui.

Mets l'instruction porteuse en haut et en bas de ton prompt. Liu et al. ont montré que le modèle surpondère les deux bouts. Utilise les deux bouts.

Côté builders, la réponse est architecturale. Karpathy l'a nommée sur X en juin 2025 :

"Context engineering is the delicate art and science of filling the context window with just the right information for the next step."

Trois patterns font la majorité du boulot :

PatternCe que ça fait
Sub-agentsChaque agent tourne dans une fenêtre propre et renvoie un court résumé. Le thread principal ne voit jamais le bruit.
Just-in-time retrievalFichiers, résultats de recherche, mémoire vivent en dehors de la fenêtre. L'agent les lit à la demande.
Mémoire projet persistanteUn petit fichier que l'agent recharge au début de chaque session. Survit à la compaction parce qu'il vit en dehors du chat.

C'est exactement ce que recommande l'équipe engineering d'Anthropic. C'est exactement ce que fait ton cerveau. Tu ne mémorises pas ta boîte mail. Tu la cherches.

Ce que ça veut dire si tu builds avec l'IA

Un solo founder en train de vibe-coder son MVP avec un seul thread ChatGPT touche le context rot à la troisième heure. Le modèle commence à se contredire. Le plan sur lequel ils s'étaient alignés le matin se dissout. Ils accusent l'outil. L'outil fait exactement ce que l'archi permet.

Build This Now est un système de build SaaS piloté par IA qui tourne sur Claude Code. Dix-huit agents spécialistes, plus de cinquante-cinq skills, un pipeline en cinq étapes de l'idée au produit live. L'archi est construite autour du papier lost-in-the-middle, pas malgré lui.

Chacun des dix-huit agents tourne dans sa propre fenêtre fraîche. Le Database Architect ne voit pas le brouillon du Designer. Le Tester n'hérite pas des essais ratés du Backend Developer. L'orchestrateur récupère un court résumé condensé de chacun. L'archi sub-agents est le pattern qu'Anthropic recommande explicitement contre le context rot, et c'est câblé par défaut.

Les skills vivent en dehors de la fenêtre. Plus de cinquante-cinq mini-instructions réutilisables se rechargent à la demande. CLAUDE.md est le fichier mémoire permanent du projet, lu par chaque agent au début de chaque session, et un skill /auto-memory capture les décisions entre sessions pour que le prochain chat reparte là où le précédent s'est arrêté. Les fichiers sont lus avec glob et grep, pas fourrés dans le prompt. Le framework traite la fenêtre de contexte comme la ressource finie qu'elle est.

Le fix, c'est pas une fenêtre plus grande

La sycophantie a été le premier dark pattern de l'IA. Le context rot est le deuxième. Tu l'as senti avant qu'on lui donne un nom. L'expression existe maintenant. Sers-t'en. Dis à ton équipe pourquoi les longues sessions deviennent plus bêtes. Dis à tes utilisateurs pourquoi un nouveau chat est la réponse.

La science est tranchée. Humains et modèles oublient le milieu. Les deux compensent en notant. Build This Now est livré avec le carnet déjà ouvert. Ouvre un nouveau chat. Colle ce qui compte. Ou confie le boulot à un système qui fait les deux pour toi.

Continue in Core

  • La Fenêtre de Contexte 1M dans Claude Code
    Anthropic a activé la fenêtre de contexte 1M tokens pour Opus 4.6 et Sonnet 4.6 dans Claude Code. Sans header beta, sans surcharge, tarification fixe, et moins de compactions.
  • AGENTS.md vs CLAUDE.md : expliqué
    Deux fichiers de contexte, une seule base de code. Comment AGENTS.md et CLAUDE.md diffèrent, ce que chacun fait, et comment utiliser les deux sans rien dupliquer.
  • Auto Dream
    Claude Code nettoie ses propres notes de projet entre les sessions. Les entrées obsolètes sont supprimées, les contradictions résolues, les fichiers thématiques réorganisés. Lance /memory.
  • Mémoire automatique dans le code Claude
    La mémoire automatique permet à Claude Code de conserver des notes de projet en cours. Où se trouvent les fichiers, ce qui est écrit, comment /memory le fait basculer, et quand le choisir par rapport à CLAUDE.md.
  • Stratégies d'auto-planning
    Le mode Auto Plan utilise --append-system-prompt pour forcer Claude Code dans une boucle plan-d'abord. Les opérations sur les fichiers sont mises en pause pour approbation avant de toucher quoi que ce soit.
  • Claude Code Autonome
    Une stack unifiée pour des agents qui livrent des fonctionnalités la nuit. Les threads te donnent la structure, les boucles Ralph te donnent l'autonomie, la vérification garde ça honnête.

More from Handbook

  • Principes de base de l'agent
    Cinq façons de construire des agents spécialisés dans le code Claude : Sous-agents de tâches, .claude/agents YAML, commandes slash personnalisées, personas CLAUDE.md, et invites de perspective.
  • L'ingénierie du harness agent
    Le harness, c'est toutes les couches autour de ton agent IA sauf le modèle lui-même. Découvre les cinq leviers de contrôle, le paradoxe des contraintes, et pourquoi le design du harness détermine les performances de l'agent bien plus que le modèle.
  • Patterns d'agents
    Orchestrateur, fan-out, chaîne de validation, routage par spécialiste, raffinement progressif, et watchdog. Six formes d'orchestration pour câbler des sub-agents Claude Code.
  • Meilleures pratiques des équipes d'agents
    Patterns éprouvés pour les équipes d'agents Claude Code. Prompts de création riches en contexte, tâches bien calibrées, propriété des fichiers, mode délégué, et correctifs v2.1.33-v2.1.45.

Arrêtez de configurer. Commencez à construire.

Templates SaaS avec orchestration IA.

Pourquoi tu fais plus confiance à l'IA qu'à Google ?

Une réponse de chatbot bien assurée te paraît plus vraie que dix liens classés. Voici la science cognitive derrière ce basculement, et ce que ça te coûte.

Pourquoi l'IA a l'air si sûre d'elle quand elle se plante ?

L'IA balance ses suppositions du même ton qu'elle balance des faits. La cause, c'est le tableau de score d'entraînement. Voici ce que dit la recherche, et comment te défendre.

On this page

Le moment "lésion cérébrale"
Le bloc-notes, pas le cerveau
Pourquoi le projecteur baisse
Lost in the middle
Le context rot est réel, même à un million de tokens
Ton cerveau a le même bug
Pourquoi des fenêtres plus grandes ne t'ont pas sauvé
Les fixes qui marchent vraiment
Ce que ça veut dire si tu builds avec l'IA
Le fix, c'est pas une fenêtre plus grande

Arrêtez de configurer. Commencez à construire.

Templates SaaS avec orchestration IA.