Pourquoi l'IA oublie ce qu'on vient de se dire ?
L'IA oublie en pleine conversation à cause des fenêtres de contexte, des budgets d'attention, et d'un phénomène appelé context rot. Voici la science, et le fix.
Arrêtez de configurer. Commencez à construire.
Templates SaaS avec orchestration IA.
Problème : tu passes une heure à expliquer ton projet à ChatGPT. Il capte le ton, les contraintes, l'objectif. Vingt messages plus tard, il oublie le nom du fichier. Trente messages plus tard, il contredit une règle qu'il a écrite lui-même. Au message cinquante, il vante un plan qu'il te déconseillait il y a une heure. Un Redditor a parfaitement résumé ça sur le fil de lancement de GPT-5 : "It's like my chatGPT suffered a severe brain injury and forgot how to read."
La technique rapide : ouvre un nouveau chat dès qu'une réponse est fausse. Repose la question avec uniquement le contexte qui compte.
Ce seul réflexe ferme la moitié du gap dès le premier jour. Continue à lire pour comprendre ce qui se passe vraiment, ce que la psycho cognitive en dit, et comment l'archi de Build This Now est construite pour esquiver ce mode d'échec.
Le moment "lésion cérébrale"
Tu l'as ressenti avant d'avoir un mot pour le décrire. Une longue session qui démarre nette devient lente. Le modèle boucle. Il répète des questions déjà posées. Il oublie la variable que tu viens de renommer. Il invente joyeusement un fait que tu as corrigé trois messages plus tôt.
C'est pas ta faute. C'est pas la malchance. C'est une propriété structurelle de tous les chatbots du marché, y compris ceux avec une fenêtre d'un million de tokens. Le phénomène a un nom maintenant. Des commentateurs sur Hacker News l'ont forgé en juin 2025. Anthropic engineering l'utilise. Chroma aussi. Et la doc OpenAI. Le nom : context rot.
Le bloc-notes, pas le cerveau
Ton IA n'a pas de mémoire. Relis-le. Pas de session, pas de rappel, aucune impression stockée de ton dernier chat. Chaque mot que tu tapes et chaque mot que le modèle répond est découpé en petits morceaux appelés tokens. Toute la conversation est un long ruban de ces tokens.
La fenêtre de contexte, c'est la longueur max de ce ruban que le modèle peut lire d'un coup. C'est un bloc-notes de taille fixe. À chaque nouveau tour, le modèle relit le ruban entier depuis le début et écrit le token suivant. Quand tu fermes l'onglet, le ruban disparaît.
Les fonctions "memory" de ChatGPT et Claude ne changent pas ça. Elles stockent un petit résumé de toi à part, qu'elles recollent dans le system prompt au début de chaque chat. Malin. Mais pas de la mémoire.
Pourquoi le projecteur baisse
Avant d'écrire son token suivant, un mécanisme d'attention compare ce token à tous les autres tokens déjà sur le ruban. Imagine un projecteur qui rebalaye toute la bande en décidant ce qui compte. C'est l'avancée derrière les transformers. Le T dans GPT.
L'attention est quadratique. Un chat de 100 tokens demande environ 100 opérations d'attention par nouveau token. 1 000 tokens, environ 1 000. 100 000 tokens, environ 100 000. Le coût est par token, donc une session dix fois plus longue coûte environ cent fois plus de calcul.
Anthropic le dit en clair sur son blog engineering :
"Like humans, who have limited working memory capacity, LLMs have an 'attention budget' that they draw on when parsing large volumes of context. Every new token introduced depletes this budget by some amount."
C'est tout le problème. La fenêtre peut tenir un million de tokens. Le budget d'attention, non.
Lost in the middle
En 2023, Liu et ses collègues à Stanford ont publié l'article canonique sur le sujet. Le titre dit tout : Lost in the Middle: How Language Models Use Long Contexts (arXiv:2307.03172).
La conclusion :
"Performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts, even for explicitly long-context models."
Une courbe en U. Le modèle se souvient bien du tout début. Il se souvient bien de la toute fin. Le milieu disparaît. Comme un humain qui décroche pendant la deuxième heure d'une réunion.
Le context rot est réel, même à un million de tokens
Les fenêtres plus grandes n'ont pas réparé le bug. Elles l'ont rendu plus visible.
L'étude de Chroma en 2025 a testé 18 modèles frontier sur des inputs de plus en plus longs. Tous ont dégradé. Même les modèles à 1M tokens montraient une rot mesurable dès 50 000 tokens. Adobe Research a fait un test de raisonnement multi-saut la même année, et a vu la précision s'écrouler quand le contexte grossissait :
| Modèle | Contexte court | Contexte long |
|---|---|---|
| GPT-4o | 99% | 70% |
| Claude 3.5 Sonnet | 88% | 30% |
| Llama 4 Scout | 82% | 22% |
Trouver une phrase dans un long doc, les modèles tiennent. Raisonner sur plusieurs faits enfouis dans un long chat, la précision tombe d'une falaise. Ce deuxième cas, c'est celui qui correspond à ton usage réel.
Voici ce que chaque chatbot majeur propose en 2026 :
| Modèle | Fenêtre de contexte |
|---|---|
| Claude Opus 4.7 | 1 000 000 tokens (GA) |
| Claude Sonnet 4.6 | 1 000 000 tokens (GA) |
| GPT-5.5 | 1 000 000+ tokens |
| Gemini 3.1 Pro | 1 000 000 tokens |
| Mythos Preview | 1 000 000 tokens (recherche seulement) |
Note le pattern. Le plafond a fait x244 en quatre ans. Les plaintes utilisateurs sur l'oubli sont au plus haut. La fenêtre n'est pas le goulot.
Ton cerveau a le même bug
Les psychologues cognitifs étudient ça chez les humains depuis soixante-dix ans.
George Miller, 1956, "The Magical Number Seven, Plus or Minus Two." Les humains tiennent environ 7 plus ou moins 2 items en mémoire immédiate à la fois. Les numéros de tél ont été conçus autour de cette limite. Nelson Cowan a refait les calculs en 2001 et a soutenu que la vraie cap, une fois les astuces de répétition retirées, est plutôt de 4 plus ou moins 1. Alan Baddeley et Graham Hitch avaient déjà découpé la mémoire de travail en boucle phonologique, calepin visuo-spatial, et exécutif central qui décide ce qui passe à l'attention.
Le parallèle est exact dans la forme, et absurde dans l'échelle :
| Propriété | Mémoire de travail humaine | Fenêtre de contexte LLM |
|---|---|---|
| Plafond dur sur ce qui est "actif" | ~4 chunks | ~1 000 000 tokens |
| Meilleure position de rappel | Début et fin (primauté et récence) | Début et fin (lost in the middle) |
| Décroissance des items du milieu | Oui | Oui |
| Contournée en écrivant | Oui | Oui |
Un humain tient quatre chunks. Un modèle tient un million de tokens. Les deux oublient le milieu d'une longue conversation. Le goulot, c'est pas le stockage. C'est l'attention. Tu compenses le stockage limité en oubliant agressivement et en notant tout. Le modèle a un stockage énorme mais un budget d'attention fin, et il doit tout regarder avant de générer quoi que ce soit.
Pourquoi des fenêtres plus grandes ne t'ont pas sauvé
Trois modes d'échec s'empilent quand un chat grandit.
Capacité. Quand le ruban touche la limite, les vieux tokens sont jetés ou résumés. Le modèle ne peut littéralement plus voir ce qui a été coupé.
Dilution d'attention. Même avant la limite, le projecteur a trop à scanner. Le rapport signal/bruit chute à chaque tour.
Lost in the middle. Le modèle surpondère les tokens les plus frais et les plus anciens. Tout ce qui est entre s'efface.
La compaction empire ça en douce. Quand Claude ou ChatGPT atteint environ 95% de la limite, il résume les tours précédents et remplace l'historique par ce résumé. Le résumé garde les décisions. Il perd les corrections, les patterns en cours, le ton que tu as mis quarante messages à établir. Un bug GitHub déposé en octobre 2025 a tout dit : règles parfaitement suivies avant compaction, violées 100% du temps après.
Les fixes qui marchent vraiment
Tu as trois leviers en tant qu'user. Utilise-les dans l'ordre.
Ouvre un nouveau chat pour toute nouvelle question. Le contexte rance, c'est la première cause de mauvaises réponses dans les longues sessions. Un nouveau chat est gratuit.
Répète le contexte pertinent dans ta nouvelle question. Dis pas "rappelle-toi du fichier dont on a parlé". Colle le fichier. Colle la règle. Colle la contrainte. Le modèle n'a pas de mémoire. Il a juste ce que tu mets sur le ruban aujourd'hui.
Mets l'instruction porteuse en haut et en bas de ton prompt. Liu et al. ont montré que le modèle surpondère les deux bouts. Utilise les deux bouts.
Côté builders, la réponse est architecturale. Karpathy l'a nommée sur X en juin 2025 :
"Context engineering is the delicate art and science of filling the context window with just the right information for the next step."
Trois patterns font la majorité du boulot :
| Pattern | Ce que ça fait |
|---|---|
| Sub-agents | Chaque agent tourne dans une fenêtre propre et renvoie un court résumé. Le thread principal ne voit jamais le bruit. |
| Just-in-time retrieval | Fichiers, résultats de recherche, mémoire vivent en dehors de la fenêtre. L'agent les lit à la demande. |
| Mémoire projet persistante | Un petit fichier que l'agent recharge au début de chaque session. Survit à la compaction parce qu'il vit en dehors du chat. |
C'est exactement ce que recommande l'équipe engineering d'Anthropic. C'est exactement ce que fait ton cerveau. Tu ne mémorises pas ta boîte mail. Tu la cherches.
Ce que ça veut dire si tu builds avec l'IA
Un solo founder en train de vibe-coder son MVP avec un seul thread ChatGPT touche le context rot à la troisième heure. Le modèle commence à se contredire. Le plan sur lequel ils s'étaient alignés le matin se dissout. Ils accusent l'outil. L'outil fait exactement ce que l'archi permet.
Build This Now est un système de build SaaS piloté par IA qui tourne sur Claude Code. Dix-huit agents spécialistes, plus de cinquante-cinq skills, un pipeline en cinq étapes de l'idée au produit live. L'archi est construite autour du papier lost-in-the-middle, pas malgré lui.
Chacun des dix-huit agents tourne dans sa propre fenêtre fraîche. Le Database Architect ne voit pas le brouillon du Designer. Le Tester n'hérite pas des essais ratés du Backend Developer. L'orchestrateur récupère un court résumé condensé de chacun. L'archi sub-agents est le pattern qu'Anthropic recommande explicitement contre le context rot, et c'est câblé par défaut.
Les skills vivent en dehors de la fenêtre. Plus de cinquante-cinq mini-instructions réutilisables se rechargent à la demande. CLAUDE.md est le fichier mémoire permanent du projet, lu par chaque agent au début de chaque session, et un skill /auto-memory capture les décisions entre sessions pour que le prochain chat reparte là où le précédent s'est arrêté. Les fichiers sont lus avec glob et grep, pas fourrés dans le prompt. Le framework traite la fenêtre de contexte comme la ressource finie qu'elle est.
Le fix, c'est pas une fenêtre plus grande
La sycophantie a été le premier dark pattern de l'IA. Le context rot est le deuxième. Tu l'as senti avant qu'on lui donne un nom. L'expression existe maintenant. Sers-t'en. Dis à ton équipe pourquoi les longues sessions deviennent plus bêtes. Dis à tes utilisateurs pourquoi un nouveau chat est la réponse.
La science est tranchée. Humains et modèles oublient le milieu. Les deux compensent en notant. Build This Now est livré avec le carnet déjà ouvert. Ouvre un nouveau chat. Colle ce qui compte. Ou confie le boulot à un système qui fait les deux pour toi.
Arrêtez de configurer. Commencez à construire.
Templates SaaS avec orchestration IA.
Pourquoi tu fais plus confiance à l'IA qu'à Google ?
Une réponse de chatbot bien assurée te paraît plus vraie que dix liens classés. Voici la science cognitive derrière ce basculement, et ce que ça te coûte.
Pourquoi l'IA a l'air si sûre d'elle quand elle se plante ?
L'IA balance ses suppositions du même ton qu'elle balance des faits. La cause, c'est le tableau de score d'entraînement. Voici ce que dit la recherche, et comment te défendre.