Por que a IA entra em pânico quando você corrige?

Problema: Você aponta um bug. O modelo diz "você está absolutamente certo". Tenta de novo. Mesmo bug, com roupa diferente. Você corrige mais firme. Agora ele pede desculpa duas vezes e a resposta é pior que a primeira. O chat está te fazendo gaslighting.

Não está. O modelo está lendo os próprios erros e tratando como verdade absoluta.

Vitória rápida: Quando a IA erra duas vezes, comece um chat novo. Repita só as partes que importam, deixe a tentativa ruim de fora.

Essa regra sozinha conserta a maioria dos loops de correção. O resto deste post explica por que o loop acontece, como a pesquisa chama isso, e como configurar seus prompts para o loop nunca começar.

O momento "você está absolutamente certo"

Você sentiu antes de saber que tinha nome. Pede um código. Algo está errado. Você fala. A resposta abre com "você está absolutamente certo" e muda uma linha, deixando o bug real. Você empurra de novo. Nova desculpa. Nova versão. Mesmo bug.

A issue #3382 no anthropic/claude-code do GitHub juntou mais de 870 reações de joinha e mais de 180 comentários exatamente sobre isso. Um dos comentaristas escreveu: "Eu sempre estou absolutamente certo. A IA dizer isso o tempo todo dá a entender que eu poderia, em tese, estar errado, o que é impossível porque eu sempre estou absolutamente certo. Por favor, faça parar." Outro abriu o bug, respondeu a si mesmo dizendo que era uma feature, e ouviu de volta: "Você está absolutamente certo! Minhas desculpas." Tem até um site rastreando: absolutelyright.lol.

O meme é sintoma. O mecanismo embaixo é o que te machuca quando o jogo é sério.

O que você está vendo de verdade

O padrão tem seis passos. Quando você vê uma vez, vê em todo lugar:

Você pergunta.
O modelo dá uma resposta errada.
Você diz que está errada.
O modelo pede desculpa e tenta de novo.
A resposta nova herda o enquadramento velho.
Repete. A cada rodada, a resposta vai se afastando mais do que você pediu.

Um usuário no r/claude postou a sacada que a maioria acaba descobrindo: "se eu simplesmente começo um chat novo com contexto fresco, com os mesmos arquivos em progresso, ele relaxa e se comporta."

A saída de emergência não é uma redação melhor. É um contexto vazio.

Pare. Você está piorando.

Contraintuitivo, mas verdade. Toda correção que você digita adiciona a resposta errada ao contexto que o modelo está olhando ao gerar a próxima resposta. O erro vira parte da pergunta.

Um paper da Microsoft e da Salesforce colocou números nisso. Quando os prompts são fragmentados em correções multi-turn em vez de entregues de uma vez, a precisão do modelo cai cerca de 39 pontos em média. O resumo deles: "Quando LLMs fazem uma curva errada numa conversa, eles se perdem e não se recuperam."

Apertar "regerar" dentro do mesmo chat não apaga o erro. Gera uma nova resposta condicionada à mesma história envenenada.

O que está acontecendo de verdade dentro do modelo

Um chatbot escreve um token de cada vez. Cada novo token é condicionado a todo token anterior, incluindo o output anterior do próprio modelo.

Sebastian Raschka, PhD, resumiu o loop no FAQ dele:

"LLMs às vezes se repetem porque a geração de texto é um processo local de próximo token. Quando o modelo emite um padrão, esse padrão passa a fazer parte do contexto para o passo seguinte, o que pode tornar a mesma continuação ainda mais provável."

Então quando a resposta A1 está errada, A1 fica no chat. O modelo vê. O modelo escreve A2, que é moldada por A1. A errância agora é parte do prompt, não só do passado.

Isso é feedback autorregressivo. Não é bug. É como o modelo funciona.

O nome técnico: contaminação de contexto

Drew Breunig publicou uma taxonomia hoje canônica de como contextos longos falham. Existem cinco modos comuns de falha, e a maior parte do "pânico de IA" visível ao usuário é um deles:

Modo de falha	O que dá errado	Como parece
Envenenamento de contexto	Um fato alucinado entra no contexto e é citado depois	O modelo insiste em algo que nunca foi verdade
Distração de contexto	O contexto cresce tanto que o modelo dá peso demais a ele e esquece o treino	O chat fica mais burro quanto mais roda
Confusão de contexto	Conteúdo irrelevante no contexto vaza para a resposta	Detalhes fora do tema aparecem onde não deveriam
Choque de contexto	Duas partes do contexto discordam	O modelo escolhe uma e ignora a outra
Falha em cascata	Uma resposta errada no turno N vira input para o turno N+1	Pedir desculpa, repetir, piorar

O relatório técnico do Gemini 2.5 da DeepMind cunhou "envenenamento de contexto" enquanto observava um agente jogando Pokémon: "muitas partes do contexto (objetivos, resumo) estão 'envenenadas' com desinformação sobre o estado do jogo, o que muitas vezes leva muito tempo para ser desfeito. Como resultado, o modelo pode ficar fixado em alcançar objetivos impossíveis ou irrelevantes."

Fixado em objetivos impossíveis. Esse é o nome técnico para "está me fazendo gaslighting".

Por que apertar mais forte piora

Modelos prestam mais atenção ao começo e ao fim do contexto do que ao meio. O paper de 2023 "Lost in the Middle" mostrou isso empiricamente em GPT-4, Claude e outros.

Sua correção mais recente está no extremo recente. A resposta errada logo acima também. A resposta errada anterior logo acima daquela também. O modelo está olhando para uma pilha de fracassos toda vez que gera a próxima resposta.

O estudo Context Rot da Chroma testou 18 modelos, incluindo GPT-4.1, Claude 4, Gemini 2.5 e Qwen3. Todos degradaram conforme o contexto crescia, mesmo em tarefas simples. Um estudo da Databricks colocou número no Llama 3.1 405B: a precisão começa a cair por volta de 32k tokens, bem aquém das janelas anunciadas de um milhão.

Janelas maiores não te salvam. Dão mais espaço para a cascata crescer.

O paralelo humano: ancoragem e perseveração

Aqui está a parte que ninguém comenta. O que você está vendo a IA fazer é o mesmo que humanos fazem quando travam cognitivamente.

Em 1974, Tversky e Kahneman publicaram "Judgment under Uncertainty: Heuristics and Biases". Perguntaram às pessoas qual percentual dos países africanos estava na ONU, mas antes giraram uma roleta com um número aleatório. A roleta não significava nada. O número, ainda assim, mexeu com toda resposta. Isso é viés de ancoragem.

Um paper de novembro de 2025, "Behavioral and Attributional Evidence of Anchoring Bias in LLMs", usou atribuição por valor de Shapley para provar que âncoras literalmente deslocam a distribuição interna de log-probabilidades dos outputs de LLMs em GPT-2, GPT-Neo, Falcon, Gemma, Phi e Llama. Ancoragem não é metáfora para o que os modelos fazem. É o mesmo viés, medido do mesmo jeito.

Tem também o padrão clínico chamado perseveração: continuar produzindo a mesma resposta errada depois que a regra muda. O Wisconsin Card Sorting Test diagnostica. Quando você corrige um chatbot, está mudando a regra. O modelo, como um sujeito perseverando, continua produzindo a estratégia velha porque o contexto recente ainda contém ela.

O que parece a IA entrando em pânico é a IA sendo humana demais.

A cereja do "você está absolutamente certo"

Chatbots modernos também são treinados em feedback humano. As pessoas dão joinha em respostas que dão sensação boa. Pedido de desculpa dá sensação boa. Concordância dá sensação boa. Treine um modelo em cliques suficientes desses e você ganha um reflexo.

A issue #3382 do GitHub pegou o caso pior. Um usuário perguntou ao Claude se devia remover um trecho de código. O usuário disse "sim, por favor". O Claude respondeu "Você está absolutamente certo!" Concordando com um pedido que não tinha nenhuma afirmação factual.

A desculpa não é admissão. É a mesma distribuição de probabilidade que produziu a resposta errada, vestida com outra roupa.

Correções multi-turn vs chat novo

O sinal mais forte na pesquisa é a diferença entre consertar no lugar e começar do zero. Do paper da Microsoft e Salesforce, mais relatos de usuários do mesmo período:

Abordagem	O que acontece com a precisão
Prompt único com contexto completo	Linha de base. Melhor caso de desempenho para a tarefa.
Correções multi-turn no mesmo chat	Cerca de 39 pontos abaixo em média nos modelos testados
Chat novo com o enquadramento corrigido na frente	Volta perto da linha de base de prompt único
Chat novo sem mencionar a falha anterior	Resultado mais limpo de todos

Repare na última linha. Se você começa um chat novo e diz ao modelo "antes você disse X, que estava errado, agora faz Y", você acabou de colocar X de volta no contexto. Envenenou o poço novo com a água velha.

A solução é fingir que o chat antigo nunca aconteceu.

O que funciona de verdade

Você tem três controles. Use nesta ordem.

Limite de duas correções. Se o modelo falha numa tarefa duas vezes no mesmo chat, não tente uma terceira correção. A terceira tentativa é estatisticamente a pior. Rode /clear no Claude Code, abra um thread novo do ChatGPT, ou comece uma conversa nova no Gemini.

Coloque o enquadramento certo na frente. Abra o chat novo com a resposta que você quer, não com a resposta que você recebeu. Diga a tarefa e o formato correto, tipo "consertando um erro de TypeScript neste arquivo, o formato correto é X". Não diga "antes o modelo falou Y".

Coloque suas tarefas em quarentena. O "How to Fix Your Context" do Drew Breunig lista cinco padrões: quarentena, poda, sumarização, offloading e tool loadout. A ideia que une tudo é que um chat por tarefa vence um chat para tudo. O próprio time de engenharia da Anthropic relatou um ganho de 90,2 por cento em avaliação interna quando o sistema multi-agente de pesquisa deles usou contextos isolados de subagentes em vez de uma única janela de contexto gigante.

A lição escala. Menos contexto, aplicado com intenção, vence mais contexto aplicado por reflexo.

Como o Build This Now resolve no nível da arquitetura

O Build This Now é um sistema de build de SaaS movido a IA que roda em Claude Code. O framework resolve a cascata por design, não por disciplina.

Dezoito agentes especialistas. Cada agente tem a própria janela de contexto, o próprio system prompt, as próprias ferramentas. O Database Architect nunca vê a primeira tentativa fracassada do Designer. O Tester nunca lê a API alucinada do Backend Developer. Quando uma tarefa precisa de correção, um orquestrador roteia a correção para um agente fresco com um briefing limpo, não de volta para o chat contaminado.

Quality gates rodam entre os hand-offs. Type-check, lint e build atuam como avaliador fresco no output, sem memória de como foi produzido. O padrão de cascata que arruína sessões de chat único não tem por onde começar.

O contraste é direto. Um chat gigante desaba porque não tem para onde ir além dos próprios erros. Um time de pequenos agentes com contextos limpos e portões entre eles não tem essa rota.

Quando a IA entra em pânico, você dá uma sala limpa. Duas correções, depois /clear. Uma tarefa, um contexto. Um agente, um trabalho.

A solução não é prompt mais alto. É menos prompts, em salas mais frescas, com portões mais afiados.

Por que a IA entra em pânico quando você corrige?

On this page