Por que a IA esquece o que acabamos de conversar?
A IA esquece no meio da conversa por causa de janelas de contexto, orçamentos de atenção e um fenômeno chamado context rot. Aqui está a ciência, e o conserto.
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.
Problema: Você passa uma hora levando o ChatGPT pelo seu projeto. Ele pega o tom, as restrições, o objetivo. Vinte mensagens depois esquece o nome do arquivo. Trinta mensagens depois contradiz uma regra que ele mesmo escreveu. Na mensagem cinquenta está elogiando um plano contra o qual te avisou uma hora atrás. Um redditor resumiu na thread de lançamento do GPT-5: "É como se meu chatGPT tivesse sofrido um trauma craniano grave e esquecido como ler."
Vitória rápida: Comece um chat novo depois de toda resposta errada. Repita a pergunta só com o contexto que importa.
Esse hábito sozinho fecha a maior parte do gap no primeiro dia. Continue lendo para ver o que está acontecendo de verdade, o que a psicologia cognitiva diz sobre isso, e como a arquitetura por trás do Build This Now é construída para escapar dessa falha.
O momento do "trauma craniano"
Você sentiu isso antes de ter um nome. Uma sessão longa que começou afiada vai ficando lenta. O modelo entra em loop. Repete perguntas anteriores. Esquece a variável que você acabou de renomear. Inventa alegremente um fato que você corrigiu três mensagens atrás.
A culpa não é sua. Não é azar. É uma propriedade estrutural de todo chatbot do mercado, incluindo os com janela de um milhão de tokens. O fenômeno tem nome agora. Comentaristas do Hacker News cunharam em junho de 2025. A engenharia da Anthropic usa. A Chroma também. A documentação da OpenAI também. O nome é context rot.
A folha de rascunho, não o cérebro
Sua IA não tem memória. Leia de novo. Não existe sessão, lembrança nem impressão guardada do seu último chat. Cada palavra que você digita e cada palavra que o modelo responde é cortada em pedacinhos chamados tokens. A conversa inteira é uma fita longa desses tokens.
A janela de contexto é o tamanho máximo dessa fita que o modelo consegue ler de uma vez. É um bloco de rascunho com tamanho fixo. A cada turno novo o modelo relê a fita inteira do zero e escreve o próximo token. Quando você fecha a aba, a fita some.
Os recursos de "memória" do ChatGPT e do Claude não mudam isso. Eles guardam um pequeno resumo sobre você num lugar separado e colam de volta no system prompt no início de cada novo chat. Esperto. Mas não é memória.
Por que o holofote vai apagando
Antes de o modelo escrever o próximo token, um mecanismo de atenção compara esse token com cada outro token que já está na fita. Imagine um holofote varrendo a fita inteira de novo, decidindo o que importa. Esse é o avanço por trás dos transformers. O T do GPT.
A atenção é quadrática. Um chat de 100 tokens custa cerca de 100 operações de atenção por novo token. Um chat de 1.000 tokens, cerca de 1.000. Um chat de 100.000 tokens, cerca de 100.000. O custo é por token, então uma sessão dez vezes mais longa custa em torno de cem vezes mais computação.
A Anthropic coloca isso em palavras simples no blog de engenharia:
"Como humanos, que têm capacidade limitada de memória de trabalho, os LLMs têm um 'orçamento de atenção' que recorrem ao processar grandes volumes de contexto. Cada novo token introduzido drena esse orçamento."
Esse é o problema inteiro. A janela aguenta um milhão de tokens. O orçamento de atenção, não.
Perdido no meio
Em 2023, Liu e colegas em Stanford publicaram o paper canônico sobre isso. O título já entrega: Lost in the Middle: How Language Models Use Long Contexts (arXiv:2307.03172).
O achado:
"O desempenho costuma ser maior quando a informação relevante aparece no início ou no fim do contexto de entrada, e degrada significativamente quando os modelos precisam acessar informação relevante no meio de contextos longos, mesmo em modelos explicitamente de contexto longo."
Uma curva em U. O modelo lembra do começo. O modelo lembra do final. O meio some. Igualzinho um humano vagando pela segunda hora de uma reunião.
Context rot é real, mesmo a um milhão de tokens
Janelas maiores não consertaram o bug. Tornaram o bug mais óbvio.
O estudo da Chroma de 2025 testou 18 modelos de fronteira em entradas cada vez mais longas. Todos degradaram. Modelos com janelas de 1M de tokens já mostravam rot mensurável a apenas 50.000 tokens. A Adobe Research fez um teste de raciocínio multi-hop no mesmo ano e viu a precisão desabar conforme o contexto crescia:
| Modelo | Contexto curto | Contexto longo |
|---|---|---|
| GPT-4o | 99% | 70% |
| Claude 3.5 Sonnet | 88% | 30% |
| Llama 4 Scout | 82% | 22% |
Achar uma frase num documento longo, os modelos seguram. Raciocinar entre vários fatos espalhados num chat longo, a precisão despenca. Esse segundo caso é justamente o que casa com o seu uso real.
Aqui está o que cada chatbot grande oferece em 2026:
| Modelo | Janela de contexto |
|---|---|
| Claude Opus 4.7 | 1.000.000 tokens (GA) |
| Claude Sonnet 4.6 | 1.000.000 tokens (GA) |
| GPT-5.5 | 1.000.000+ tokens |
| Gemini 3.1 Pro | 1.000.000 tokens |
| Mythos Preview | 1.000.000 tokens (só pesquisa) |
Repare no padrão. O teto subiu cerca de 244x em quatro anos. As reclamações de usuário sobre esquecimento atingiram máxima histórica. A janela não é o gargalo.
Seu cérebro tem o mesmo bug
Psicólogos cognitivos estudam isso em humanos há setenta anos.
George Miller, 1956, "The Magical Number Seven, Plus or Minus Two." Humanos seguram cerca de 7 mais ou menos 2 itens em memória imediata ao mesmo tempo. Os números de telefone foram desenhados em torno desse limite. Nelson Cowan revisitou a conta em 2001 e argumentou que o teto real, sem truques de repetição, é mais perto de 4 mais ou menos 1. Alan Baddeley e Graham Hitch já tinham dividido a memória de trabalho em loop fonológico, esboço visuoespacial e um executivo central que decide o que ganha atenção.
O paralelo é exato em forma e absurdo em escala:
| Propriedade | Memória de trabalho humana | Janela de contexto de LLM |
|---|---|---|
| Limite duro do que está "ativo" | ~4 chunks | ~1.000.000 tokens |
| Melhor posição de recall | Início e fim (primazia e recência) | Início e fim (perdido no meio) |
| Itens do meio decaem | Sim | Sim |
| Resolvido escrevendo as coisas | Sim | Sim |
Um humano segura quatro chunks. Um modelo segura um milhão de tokens. Os dois esquecem o meio de uma conversa longa. O gargalo não é armazenamento. É atenção. Você lida com armazenamento limitado esquecendo agressivamente e escrevendo as coisas. O modelo tem armazenamento gigante e orçamento de atenção fino, e tem que olhar para tudo antes de gerar qualquer coisa.
Por que janelas maiores não te salvaram
Três modos de falha se empilham conforme o chat cresce.
Capacidade. Quando a fita encosta no limite da janela, tokens antigos são descartados ou resumidos. O modelo literalmente não consegue ver o que foi cortado.
Diluição da atenção. Mesmo antes do limite, o holofote tem coisa demais para varrer. A relação sinal-ruído cai a cada novo turno.
Perdido no meio. O modelo dá peso demais aos tokens mais novos e aos mais antigos. Tudo no meio desbota.
A compactação piora isso de um jeito sorrateiro. Quando o Claude ou o ChatGPT chega a uns 95% do limite, ele resume os turnos antigos e troca o histórico por esse resumo. O resumo guarda as decisões. Perde as correções, os padrões de trabalho, o tom que você passou quarenta mensagens estabelecendo. Um bug aberto no GitHub em outubro de 2025 cravou: regras seguidas perfeitamente antes da compactação, violadas 100% das vezes depois.
Os consertos que funcionam de verdade
Você tem três controles como usuário. Use nesta ordem.
Comece um chat novo para qualquer pergunta nova. Contexto velho é a maior causa isolada de respostas ruins em sessões longas. Chat novo é grátis.
Repita o contexto relevante na sua nova pergunta. Não diga "lembra daquele arquivo que discutimos." Cole o arquivo. Cole a regra. Cole a restrição. O modelo não tem memória. Só tem o que você coloca na fita hoje.
Coloque a instrução crítica no topo e no final do prompt. Liu et al. mostraram que o modelo dá peso extra aos dois lados. Use os dois.
Para quem constrói, a resposta é arquitetural. Karpathy batizou no X em junho de 2025:
"Engenharia de contexto é a arte e a ciência delicadas de preencher a janela de contexto exatamente com a informação certa para o próximo passo."
Três padrões resolvem a maior parte:
| Padrão | O que faz |
|---|---|
| Sub-agentes | Cada agente roda numa janela limpa e devolve um resumo curto. A thread principal nunca vê o ruído. |
| Retrieval just-in-time | Arquivos, resultados de busca e memória vivem fora da janela. O agente lê sob demanda. |
| Memória persistente do projeto | Um arquivo pequeno que o agente recarrega no início de cada sessão. Sobrevive à compactação porque vive fora do chat. |
É exatamente o que o time de engenharia da própria Anthropic recomenda. É exatamente o que seu cérebro faz. Você não memoriza sua caixa de entrada. Você busca nela.
O que isso significa se você está construindo com IA
Um founder solo "vibe-codando" o MVP num único thread do ChatGPT bate em context rot na hora três. O modelo começa a se contradizer. O plano que passaram a manhã alinhando se dissolve. Eles culpam a ferramenta. A ferramenta está fazendo exatamente o que a arquitetura permite.
O Build This Now é um sistema de build de SaaS movido a IA que roda em Claude Code. Dezoito agentes especialistas, cinquenta e cinco mais skills, um pipeline de cinco passos da ideia ao produto vivo. A arquitetura é construída em cima do paper "lost-in-the-middle", não apesar dele.
Cada um dos dezoito agentes roda na própria janela de contexto fresca. O Database Architect não vê o rascunho do Designer. O Tester não herda as tentativas falhas do Backend Developer. O orquestrador recebe um resumo curto e condensado de cada um. Arquitetura de sub-agentes é o padrão que a Anthropic endossa explicitamente para context rot, e vem ligada por padrão.
As skills vivem fora da janela. Mais de cinquenta e cinco mini-instruções reutilizáveis recarregam sob demanda. CLAUDE.md é o arquivo permanente de memória do projeto, lido por todo agente no início de toda sessão, e uma skill /auto-memory captura decisões entre sessões para que o próximo chat comece de onde o anterior parou. Arquivos são lidos com glob e grep, não enfiados no prompt. O framework trata a janela de contexto como o recurso finito que ela é.
O conserto não é uma janela maior
Sycophancy foi o primeiro padrão sombrio da IA. Context rot é o segundo. Você sentiu antes de alguém nomear. A frase existe agora. Use. Conta para o seu time por que sessões longas ficam mais burras. Conta para os seus usuários por que um chat novo é a resposta.
A ciência está fechada. Humanos e modelos esquecem o meio. Os dois lidam escrevendo as coisas. O Build This Now já vem com o caderno aberto. Comece um chat novo. Cole o que importa. Ou entregue o trabalho a um sistema que faz as duas coisas por você.
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.
Por que você confia mais na IA do que no Google?
Uma resposta confiante de chatbot parece mais verdadeira do que dez links rankeados. Aqui está a ciência cognitiva por trás dessa virada, e o que ela te custa.
Por que a IA soa confiante quando está errada?
A IA chuta no mesmo tom em que cita fatos. O motivo é o placar do treinamento. Aqui está o que a pesquisa diz, e como se defender.