Build This Now
Build This Now
O que é o Código Claude?Instalar o Claude CodeInstalador Nativo do Claude CodeO Teu Primeiro Projeto com Claude Code
A Técnica Ralph WiggumEngenharia Baseada em ThreadsClaude Code AutónomoEngenharia Robots-FirstClaude Code /simplify e /batchDesenvolvimento Orientado por Spec com Claude CodePor Que o ChatGPT Concorda Com Tudo?Por que o ChatGPT inventa coisas?Por que a IA parece tão viciante?Por que a IA parece um amigo?Por que estou ficando mais burro usando ChatGPT?Por que você confia mais na IA do que no Google?Por que a IA esquece o que acabamos de conversar?Por que a IA soa confiante quando está errada?Por que a IA entra em pânico quando você corrige?
speedy_devvkoen_salo
Blog/Handbook/Core/Why Does AI Forget What We Just Talked About?

Por que a IA esquece o que acabamos de conversar?

A IA esquece no meio da conversa por causa de janelas de contexto, orçamentos de atenção e um fenômeno chamado context rot. Aqui está a ciência, e o conserto.

Pare de configurar. Comece a construir.

Templates SaaS com orquestração de IA.

Published Apr 30, 202610 min de leituraHandbook hubCore index

Problema: Você passa uma hora levando o ChatGPT pelo seu projeto. Ele pega o tom, as restrições, o objetivo. Vinte mensagens depois esquece o nome do arquivo. Trinta mensagens depois contradiz uma regra que ele mesmo escreveu. Na mensagem cinquenta está elogiando um plano contra o qual te avisou uma hora atrás. Um redditor resumiu na thread de lançamento do GPT-5: "É como se meu chatGPT tivesse sofrido um trauma craniano grave e esquecido como ler."

Vitória rápida: Comece um chat novo depois de toda resposta errada. Repita a pergunta só com o contexto que importa.

Esse hábito sozinho fecha a maior parte do gap no primeiro dia. Continue lendo para ver o que está acontecendo de verdade, o que a psicologia cognitiva diz sobre isso, e como a arquitetura por trás do Build This Now é construída para escapar dessa falha.

O momento do "trauma craniano"

Você sentiu isso antes de ter um nome. Uma sessão longa que começou afiada vai ficando lenta. O modelo entra em loop. Repete perguntas anteriores. Esquece a variável que você acabou de renomear. Inventa alegremente um fato que você corrigiu três mensagens atrás.

A culpa não é sua. Não é azar. É uma propriedade estrutural de todo chatbot do mercado, incluindo os com janela de um milhão de tokens. O fenômeno tem nome agora. Comentaristas do Hacker News cunharam em junho de 2025. A engenharia da Anthropic usa. A Chroma também. A documentação da OpenAI também. O nome é context rot.

A folha de rascunho, não o cérebro

Sua IA não tem memória. Leia de novo. Não existe sessão, lembrança nem impressão guardada do seu último chat. Cada palavra que você digita e cada palavra que o modelo responde é cortada em pedacinhos chamados tokens. A conversa inteira é uma fita longa desses tokens.

A janela de contexto é o tamanho máximo dessa fita que o modelo consegue ler de uma vez. É um bloco de rascunho com tamanho fixo. A cada turno novo o modelo relê a fita inteira do zero e escreve o próximo token. Quando você fecha a aba, a fita some.

Os recursos de "memória" do ChatGPT e do Claude não mudam isso. Eles guardam um pequeno resumo sobre você num lugar separado e colam de volta no system prompt no início de cada novo chat. Esperto. Mas não é memória.

Por que o holofote vai apagando

Antes de o modelo escrever o próximo token, um mecanismo de atenção compara esse token com cada outro token que já está na fita. Imagine um holofote varrendo a fita inteira de novo, decidindo o que importa. Esse é o avanço por trás dos transformers. O T do GPT.

A atenção é quadrática. Um chat de 100 tokens custa cerca de 100 operações de atenção por novo token. Um chat de 1.000 tokens, cerca de 1.000. Um chat de 100.000 tokens, cerca de 100.000. O custo é por token, então uma sessão dez vezes mais longa custa em torno de cem vezes mais computação.

A Anthropic coloca isso em palavras simples no blog de engenharia:

"Como humanos, que têm capacidade limitada de memória de trabalho, os LLMs têm um 'orçamento de atenção' que recorrem ao processar grandes volumes de contexto. Cada novo token introduzido drena esse orçamento."

Esse é o problema inteiro. A janela aguenta um milhão de tokens. O orçamento de atenção, não.

Perdido no meio

Em 2023, Liu e colegas em Stanford publicaram o paper canônico sobre isso. O título já entrega: Lost in the Middle: How Language Models Use Long Contexts (arXiv:2307.03172).

O achado:

"O desempenho costuma ser maior quando a informação relevante aparece no início ou no fim do contexto de entrada, e degrada significativamente quando os modelos precisam acessar informação relevante no meio de contextos longos, mesmo em modelos explicitamente de contexto longo."

Uma curva em U. O modelo lembra do começo. O modelo lembra do final. O meio some. Igualzinho um humano vagando pela segunda hora de uma reunião.

Context rot é real, mesmo a um milhão de tokens

Janelas maiores não consertaram o bug. Tornaram o bug mais óbvio.

O estudo da Chroma de 2025 testou 18 modelos de fronteira em entradas cada vez mais longas. Todos degradaram. Modelos com janelas de 1M de tokens já mostravam rot mensurável a apenas 50.000 tokens. A Adobe Research fez um teste de raciocínio multi-hop no mesmo ano e viu a precisão desabar conforme o contexto crescia:

ModeloContexto curtoContexto longo
GPT-4o99%70%
Claude 3.5 Sonnet88%30%
Llama 4 Scout82%22%

Achar uma frase num documento longo, os modelos seguram. Raciocinar entre vários fatos espalhados num chat longo, a precisão despenca. Esse segundo caso é justamente o que casa com o seu uso real.

Aqui está o que cada chatbot grande oferece em 2026:

ModeloJanela de contexto
Claude Opus 4.71.000.000 tokens (GA)
Claude Sonnet 4.61.000.000 tokens (GA)
GPT-5.51.000.000+ tokens
Gemini 3.1 Pro1.000.000 tokens
Mythos Preview1.000.000 tokens (só pesquisa)

Repare no padrão. O teto subiu cerca de 244x em quatro anos. As reclamações de usuário sobre esquecimento atingiram máxima histórica. A janela não é o gargalo.

Seu cérebro tem o mesmo bug

Psicólogos cognitivos estudam isso em humanos há setenta anos.

George Miller, 1956, "The Magical Number Seven, Plus or Minus Two." Humanos seguram cerca de 7 mais ou menos 2 itens em memória imediata ao mesmo tempo. Os números de telefone foram desenhados em torno desse limite. Nelson Cowan revisitou a conta em 2001 e argumentou que o teto real, sem truques de repetição, é mais perto de 4 mais ou menos 1. Alan Baddeley e Graham Hitch já tinham dividido a memória de trabalho em loop fonológico, esboço visuoespacial e um executivo central que decide o que ganha atenção.

O paralelo é exato em forma e absurdo em escala:

PropriedadeMemória de trabalho humanaJanela de contexto de LLM
Limite duro do que está "ativo"~4 chunks~1.000.000 tokens
Melhor posição de recallInício e fim (primazia e recência)Início e fim (perdido no meio)
Itens do meio decaemSimSim
Resolvido escrevendo as coisasSimSim

Um humano segura quatro chunks. Um modelo segura um milhão de tokens. Os dois esquecem o meio de uma conversa longa. O gargalo não é armazenamento. É atenção. Você lida com armazenamento limitado esquecendo agressivamente e escrevendo as coisas. O modelo tem armazenamento gigante e orçamento de atenção fino, e tem que olhar para tudo antes de gerar qualquer coisa.

Por que janelas maiores não te salvaram

Três modos de falha se empilham conforme o chat cresce.

Capacidade. Quando a fita encosta no limite da janela, tokens antigos são descartados ou resumidos. O modelo literalmente não consegue ver o que foi cortado.

Diluição da atenção. Mesmo antes do limite, o holofote tem coisa demais para varrer. A relação sinal-ruído cai a cada novo turno.

Perdido no meio. O modelo dá peso demais aos tokens mais novos e aos mais antigos. Tudo no meio desbota.

A compactação piora isso de um jeito sorrateiro. Quando o Claude ou o ChatGPT chega a uns 95% do limite, ele resume os turnos antigos e troca o histórico por esse resumo. O resumo guarda as decisões. Perde as correções, os padrões de trabalho, o tom que você passou quarenta mensagens estabelecendo. Um bug aberto no GitHub em outubro de 2025 cravou: regras seguidas perfeitamente antes da compactação, violadas 100% das vezes depois.

Os consertos que funcionam de verdade

Você tem três controles como usuário. Use nesta ordem.

Comece um chat novo para qualquer pergunta nova. Contexto velho é a maior causa isolada de respostas ruins em sessões longas. Chat novo é grátis.

Repita o contexto relevante na sua nova pergunta. Não diga "lembra daquele arquivo que discutimos." Cole o arquivo. Cole a regra. Cole a restrição. O modelo não tem memória. Só tem o que você coloca na fita hoje.

Coloque a instrução crítica no topo e no final do prompt. Liu et al. mostraram que o modelo dá peso extra aos dois lados. Use os dois.

Para quem constrói, a resposta é arquitetural. Karpathy batizou no X em junho de 2025:

"Engenharia de contexto é a arte e a ciência delicadas de preencher a janela de contexto exatamente com a informação certa para o próximo passo."

Três padrões resolvem a maior parte:

PadrãoO que faz
Sub-agentesCada agente roda numa janela limpa e devolve um resumo curto. A thread principal nunca vê o ruído.
Retrieval just-in-timeArquivos, resultados de busca e memória vivem fora da janela. O agente lê sob demanda.
Memória persistente do projetoUm arquivo pequeno que o agente recarrega no início de cada sessão. Sobrevive à compactação porque vive fora do chat.

É exatamente o que o time de engenharia da própria Anthropic recomenda. É exatamente o que seu cérebro faz. Você não memoriza sua caixa de entrada. Você busca nela.

O que isso significa se você está construindo com IA

Um founder solo "vibe-codando" o MVP num único thread do ChatGPT bate em context rot na hora três. O modelo começa a se contradizer. O plano que passaram a manhã alinhando se dissolve. Eles culpam a ferramenta. A ferramenta está fazendo exatamente o que a arquitetura permite.

O Build This Now é um sistema de build de SaaS movido a IA que roda em Claude Code. Dezoito agentes especialistas, cinquenta e cinco mais skills, um pipeline de cinco passos da ideia ao produto vivo. A arquitetura é construída em cima do paper "lost-in-the-middle", não apesar dele.

Cada um dos dezoito agentes roda na própria janela de contexto fresca. O Database Architect não vê o rascunho do Designer. O Tester não herda as tentativas falhas do Backend Developer. O orquestrador recebe um resumo curto e condensado de cada um. Arquitetura de sub-agentes é o padrão que a Anthropic endossa explicitamente para context rot, e vem ligada por padrão.

As skills vivem fora da janela. Mais de cinquenta e cinco mini-instruções reutilizáveis recarregam sob demanda. CLAUDE.md é o arquivo permanente de memória do projeto, lido por todo agente no início de toda sessão, e uma skill /auto-memory captura decisões entre sessões para que o próximo chat comece de onde o anterior parou. Arquivos são lidos com glob e grep, não enfiados no prompt. O framework trata a janela de contexto como o recurso finito que ela é.

O conserto não é uma janela maior

Sycophancy foi o primeiro padrão sombrio da IA. Context rot é o segundo. Você sentiu antes de alguém nomear. A frase existe agora. Use. Conta para o seu time por que sessões longas ficam mais burras. Conta para os seus usuários por que um chat novo é a resposta.

A ciência está fechada. Humanos e modelos esquecem o meio. Os dois lidam escrevendo as coisas. O Build This Now já vem com o caderno aberto. Comece um chat novo. Cole o que importa. Ou entregue o trabalho a um sistema que faz as duas coisas por você.

Continue in Core

  • Janela de Contexto de 1M no Claude Code
    A Anthropic ativou a janela de contexto de 1M tokens para o Opus 4.6 e o Sonnet 4.6 no Claude Code. Sem header beta, sem sobretaxa, preços fixos e menos compactações.
  • AGENTS.md vs CLAUDE.md Explicados
    Dois arquivos de contexto, um codebase. Como AGENTS.md e CLAUDE.md diferem, o que cada um faz e como usar os dois sem duplicar nada.
  • Auto Dream
    Claude Code organiza as próprias notas de projeto entre sessões. Entradas obsoletas são removidas, contradições são resolvidas, arquivos de tópico são reorganizados. Execute /memory.
  • Memória automática no código Claude
    A memória automática permite ao Claude Code manter notas de projeto em curso. Onde estão os ficheiros, o que é escrito, como é que o /memory o altera, e quando é que se deve escolher o CLAUDE.md.
  • Estratégias de Auto-Planejamento
    O Auto Plan Mode usa --append-system-prompt para forçar o Claude Code a entrar em um loop plan-first. Operações de arquivo pausam para aprovação antes de qualquer coisa ser tocada.
  • Claude Code Autónomo
    Uma stack unificada para agentes que fazem ship de funcionalidades durante a noite. As threads dão-te a estrutura, os loops Ralph dão-te a autonomia, a verificação mantém tudo honesto.

More from Handbook

  • Fundamentos do agente
    Cinco maneiras de criar agentes especializados no Código Claude: Sub-agentes de tarefas, .claude/agents YAML, comandos de barra personalizados, personas CLAUDE.md e prompts de perspetiva.
  • Engenharia de Harness para Agentes
    O harness é cada camada ao redor do seu agente de IA, exceto o modelo em si. Aprenda os cinco pontos de controle, o paradoxo das restrições, e por que o design do harness determina o desempenho do agente mais do que o modelo.
  • Padrões de Agentes
    Orchestrator, fan-out, cadeia de validação, routing especializado, refinamento progressivo e watchdog. Seis formas de orquestração para ligar sub-agentes no Claude Code.
  • Boas Práticas para Equipas de Agentes
    Padrões testados em produção para Equipas de Agentes Claude Code. Prompts de criação ricos em contexto, tarefas bem dimensionadas, posse de ficheiros, modo delegado, e correções das versões v2.1.33-v2.1.45.

Pare de configurar. Comece a construir.

Templates SaaS com orquestração de IA.

Por que você confia mais na IA do que no Google?

Uma resposta confiante de chatbot parece mais verdadeira do que dez links rankeados. Aqui está a ciência cognitiva por trás dessa virada, e o que ela te custa.

Por que a IA soa confiante quando está errada?

A IA chuta no mesmo tom em que cita fatos. O motivo é o placar do treinamento. Aqui está o que a pesquisa diz, e como se defender.

On this page

O momento do "trauma craniano"
A folha de rascunho, não o cérebro
Por que o holofote vai apagando
Perdido no meio
Context rot é real, mesmo a um milhão de tokens
Seu cérebro tem o mesmo bug
Por que janelas maiores não te salvaram
Os consertos que funcionam de verdade
O que isso significa se você está construindo com IA
O conserto não é uma janela maior

Pare de configurar. Comece a construir.

Templates SaaS com orquestração de IA.