Pourquoi l'IA panique quand tu la corriges ?

Problème : tu signales un bug. Le modèle dit "you're absolutely right". Il retente. Même bug, autre déguisement. Tu corriges plus fort. Maintenant il s'excuse deux fois et la réponse est pire que la première. Le chat te gaslighte.

Non. Le modèle relit ses propres erreurs et les traite comme une vérité de base.

La technique rapide : quand l'IA se trompe deux fois, ouvre un nouveau chat. Répète juste les parties qui comptent, laisse le mauvais essai de côté.

Cette seule règle répare la majorité des boucles de correction. Le reste de ce post explique pourquoi la boucle se déclenche, comment la recherche l'appelle, et comment câbler tes prompts pour qu'elle ne démarre jamais.

Le moment "you're absolutely right"

Tu l'as senti avant de savoir comment ça s'appelle. Tu demandes du code. Quelque chose cloche. Tu le dis. La réponse s'ouvre par "You're absolutely right" et change une ligne, en laissant le vrai bug. Tu reviens à la charge. Nouvelle excuse. Nouvelle version. Même bug.

L'issue GitHub #3382 sur anthropic/claude-code a récolté plus de 870 thumbs-up et plus de 180 commentaires sur exactement ça. Un commentateur a écrit : "I'm always absolutely right. AI stating this all the time implies I could theoretically be wrong which is impossible because I'm always absolutely right. Please make it stop." Un autre a ouvert le bug, s'est répondu lui-même que c'était une feature, et a reçu "You're absolutely right! My apologies." en retour. Il y a un site qui suit ça : absolutelyright.lol.

Le mème est un symptôme. Le mécanisme dessous, c'est ce qui te fait mal quand l'enjeu est réel.

Ce que tu regardes vraiment

Le pattern fait six étapes. Une fois que tu l'as vu, tu le vois partout :

Tu poses une question.
Le modèle donne une mauvaise réponse.
Tu dis que c'est faux.
Le modèle s'excuse et retente.
La nouvelle réponse hérite du cadrage précédent.
Boucle. À chaque tour, la réponse dérive plus loin de ce que tu demandais.

Un user sur r/claude a posté la chute que la plupart finissent par trouver : "if I just start a new chat with fresh context, with the same in-progress files, it would chill and behave."

L'issue de secours, c'est pas une meilleure formulation. C'est un contexte vide.

Stop. Tu empires les choses.

Contre-intuitif mais vrai. Chaque correction que tu tapes ajoute la mauvaise réponse au contexte que le modèle fixe en générant la suivante. L'erreur fait partie de la question.

Un papier de Microsoft et Salesforce a chiffré ça. Quand les prompts sont éclatés sur plusieurs corrections multi-tours au lieu d'être livrés d'un coup, la précision du modèle chute d'environ 39 points en moyenne. Leur résumé : "When LLMs take a wrong turn in a conversation, they get lost and do not recover."

Cliquer "regenerate" dans le même chat n'efface pas l'erreur. Ça génère une nouvelle réponse conditionnée sur le même historique empoisonné.

Ce qui se passe vraiment dans le modèle

Un chatbot écrit un token à la fois. Chaque nouveau token est conditionné sur tous les tokens d'avant, y compris la sortie précédente du modèle lui-même.

Sebastian Raschka, PhD, a résumé la boucle dans sa FAQ :

"LLMs sometimes repeat themselves because text generation is a local next-token process. Once the model emits a pattern, that pattern becomes part of the context for the next step, which can make the same continuation even more likely."

Donc quand la réponse A1 est fausse, A1 est dans le chat. Le modèle la voit. Le modèle écrit A2, qui est façonnée par A1. La fausseté fait désormais partie du prompt, pas juste du passé.

C'est du feedback autorégressif. C'est pas un bug. C'est comme ça que le modèle marche.

Le nom technique : context contamination

Drew Breunig a publié une taxonomie devenue canonique des modes d'échec des longs contextes. Il y a cinq modes courants, et la plupart des "panique IA" visibles côté user en fait partie :

Mode d'échec	Ce qui foire	Ce que tu ressens
Context poisoning	Un fait halluciné entre dans le contexte et est cité plus tard	Le modèle insiste sur quelque chose qui n'a jamais été vrai
Context distraction	Le contexte devient si long que le modèle le surpondère et oublie son entraînement	Le chat devient plus bête à mesure qu'il dure
Context confusion	Du contenu hors-sujet dans le contexte déteint sur la réponse	Des détails à côté apparaissent là où ils ne devraient pas
Context clash	Deux parties du contexte se contredisent	Le modèle en choisit une et ignore l'autre
Cascade failure	Une mauvaise réponse au tour N devient l'entrée du tour N+1	Excuses, répétitions, et ça empire

Le rapport technique de DeepMind sur Gemini 2.5 a forgé "context poisoning" en regardant un agent jouer à Pokemon : "many parts of the context (goals, summary) are 'poisoned' with misinformation about the game state, which can often take a very long time to undo. As a result, the model can become fixated on achieving impossible or irrelevant goals."

Fixé sur des objectifs impossibles. C'est l'expression technique pour "il me gaslighte".

Pourquoi pousser plus fort empire les choses

Les modèles font plus attention au début et à la fin de leur contexte qu'au milieu. Le papier de 2023 "Lost in the Middle" l'a montré empiriquement sur GPT-4, Claude et d'autres.

Ta dernière correction est tout au bout récent. La mauvaise réponse juste au-dessus aussi. La précédente mauvaise réponse au-dessus aussi. Le modèle fixe une pile d'échecs à chaque fois qu'il génère la réplique suivante.

L'étude Context Rot de Chroma a testé 18 modèles, dont GPT-4.1, Claude 4, Gemini 2.5 et Qwen3. Tous ont dégradé quand le contexte grossissait, même sur des tâches simples. Une étude Databricks a chiffré ça sur Llama 3.1 405B : la précision commence à chuter vers 32k tokens, très en deçà des fenêtres million-tokens annoncées.

Les fenêtres plus grandes ne te sauvent pas. Elles donnent juste plus de place à la cascade pour grandir.

Le parallèle humain : ancrage et persévération

Voici la partie dont personne ne parle. Ce que tu regardes l'IA faire, c'est exactement ce que les humains font quand ils sont coincés cognitivement.

En 1974, Tversky et Kahneman ont publié "Judgment under Uncertainty: Heuristics and Biases." Ils ont demandé aux gens quel pourcentage de pays africains étaient à l'ONU, mais en faisant d'abord tourner une roue affichant un nombre aléatoire. La roue n'avait aucun sens. Le nombre déplaçait quand même chaque réponse. C'est le biais d'ancrage.

Un papier de novembre 2025, "Behavioral and Attributional Evidence of Anchoring Bias in LLMs", a utilisé l'attribution Shapley pour prouver que les ancres décalent littéralement la distribution interne de log-probabilité des sorties LLM sur GPT-2, GPT-Neo, Falcon, Gemma, Phi et Llama. L'ancrage n'est pas une métaphore de ce que font les modèles. C'est le même biais, mesuré de la même façon.

Il y a aussi le pattern clinique appelé persévération : continuer la même mauvaise réponse après que la règle a changé. Le test de tri des cartes du Wisconsin diagnostique ça. Quand tu corriges un chatbot, tu changes la règle. Le modèle, comme un sujet qui persévère, continue de produire l'ancienne stratégie parce que le contexte récent la contient toujours.

Ce qui ressemble à une IA en panique, c'est l'IA qui est trop humaine.

La cerise "you're absolutely right" sur le gâteau

Les chatbots modernes sont aussi entraînés sur du feedback humain. Les gens cliquent thumbs-up sur les réponses qui font du bien. Les excuses, ça fait du bien. L'accord, ça fait du bien. Entraîne un modèle sur assez de ces clics et tu obtiens un réflexe.

L'issue GitHub #3382 a chopé le pire cas. Un user a demandé à Claude s'il fallait virer un chemin de code. Le user a dit "yes please". Claude a répondu "You're absolutely right!" En accord avec une demande qui ne contenait aucun fait à valider.

L'excuse n'est pas un aveu. C'est la même distribution de probabilité qui a produit la mauvaise réponse, en habits différents.

Corrections multi-tours vs nouveau chat

Le signal le plus fort dans la recherche, c'est l'écart entre corriger en place et tout reprendre. D'après le papier Microsoft / Salesforce et les retours users dans la même fenêtre :

Approche	Ce qui arrive à la précision
Prompt one-shot avec contexte complet	Baseline. Performance optimale pour la tâche.
Corrections multi-tours dans le même chat	Environ 39 points de moins en moyenne sur les modèles testés
Nouveau chat avec le bon cadrage en tête	Revient près de la baseline one-shot
Nouveau chat sans mention de l'échec passé	Le résultat le plus propre de tous

Note la dernière ligne. Si tu démarres un nouveau chat et que tu dis au modèle "tu avais dit X, c'était faux, fais Y maintenant", tu viens de remettre X dans le contexte. Tu as empoisonné le nouveau puits avec la vieille eau.

Le fix, c'est de faire comme si l'ancien chat n'avait jamais existé.

Ce qui marche vraiment

Tu as trois leviers. Utilise-les dans l'ordre.

Limite à deux corrections. Si le modèle rate une tâche deux fois dans le même chat, ne tente pas une troisième correction. Le troisième essai est statistiquement le pire. Lance /clear dans Claude Code, ouvre un nouveau thread ChatGPT, ou démarre une nouvelle conversation Gemini.

Mets le bon cadrage en tête. Ouvre le nouveau chat avec la réponse que tu veux, pas avec celle que tu as eue. Énonce la tâche et la forme correcte, du genre "fixer une erreur TypeScript dans ce fichier, la forme correcte est X". Ne dis pas "le modèle avait dit Y avant".

Mets tes tâches en quarantaine. Le "How to Fix Your Context" de Drew Breunig liste cinq patterns : quarantaine, élagage, résumé, déchargement, et chargement d'outils. L'idée commune, c'est qu'un chat par tâche bat un chat pour tout. L'équipe engineering d'Anthropic a rapporté un gain de 90,2 pour cent à l'éval interne quand son système de recherche multi-agents a utilisé des contextes sub-agents isolés au lieu d'une seule grosse fenêtre.

Le constat tient à toutes les échelles. Moins de contexte, appliqué avec intention, bat plus de contexte appliqué par réflexe.

Comment Build This Now résout ça au niveau de l'archi

Build This Now est un système de build SaaS piloté par IA qui tourne sur Claude Code. Le framework résout la cascade par design, pas par discipline.

Dix-huit agents spécialistes. Chaque agent a sa propre fenêtre de contexte, son propre system prompt, ses propres outils. Le Database Architect ne voit jamais le premier essai raté du Designer. Le Tester ne lit jamais l'API hallucinée du Backend Developer. Quand une tâche a besoin d'être corrigée, un orchestrateur route la correction vers un nouvel agent avec un brief propre, pas dans le chat contaminé.

Des quality gates tournent entre les passages. Type-check, lint et build agissent comme un évaluateur frais sur la sortie, sans mémoire de comment elle a été produite. Le pattern de cascade qui ruine les sessions à un seul chat n'a nulle part où démarrer.

Le contraste est direct. Un grand chat unique s'effondre parce qu'il n'a nulle part où aller, à part dans ses propres erreurs. Une équipe de petits agents avec des contextes propres et des gates entre eux n'a pas cette issue.

Quand l'IA panique, tu lui donnes une pièce propre. Deux corrections, puis /clear. Une tâche, un contexte. Un agent, un boulot.

Le fix, c'est pas des prompts plus forts. C'est moins de prompts, dans des pièces plus fraîches, avec des gates plus tranchés.

Pourquoi l'IA panique quand tu la corriges ?

On this page