Janela de Contexto de 1M no Claude Code
A Anthropic ativou a janela de contexto de 1M tokens para o Opus 4.6 e o Sonnet 4.6 no Claude Code. Sem header beta, sem sobretaxa, preços fixos e menos compactações.
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.
Os limites de contexto têm sido a irritação constante no Claude Code desde o lançamento. Essa dor acabou de diminuir. A Anthropic ativou a janela de 1M tokens para o Opus 4.6 e o Sonnet 4.6, sem flag beta, sem sobretaxa e sem lista de espera. Os planos Max, Team e Enterprise já a têm ativada.
Pensa nisto menos como uma atualização de versão e mais como 5x a memória de trabalho que o teu agente carrega. Essa memória contém a tua codebase, o histórico de chamadas de ferramentas e a cadeia de raciocínio em execuções longas. Os preços também ficam iguais. Um pedido de 900K tokens custa o mesmo por token que um de 9K.
Usa esta página para entender o que a janela de 1M mudou ao nível do produto e do fluxo de trabalho. Se a tua questão real é quando a compactação dispara e como o buffer reservado se comporta, lê Claude Code Context Buffer. Se a tua questão é se continuar, compactar, retroceder ou reiniciar uma sessão, lê Context Management.
200K vs 1M em Resumo
| Métrica | Antes (200K) | Depois (1M) |
|---|---|---|
| Tokens utilizáveis | ~167K | ~830K |
| Frequência de compactação | A cada 20-30 min em tarefas complexas | 15% menos eventos |
| Ficheiros carregáveis | Projeto pequeno | Monorepo inteiro |
| Itens de media por pedido | 100 | 600 |
| Preço de contexto longo | Premium ($10/$37,50 para Opus) | Mesma taxa que pedidos curtos |
| Header beta necessário | Sim (acima de 200K) | Não |
O que Mudou Realmente no GA
A janela grande já estava em beta há meses. O GA é sobre remover o atrito que fazia o beta parecer de segunda classe.
Preços fixos em toda a janela. O contexto longo já não tem premium. O Opus 4.6 é $5/$25 por milhão de tokens (input/output). O Sonnet 4.6 é $3/$15. O teu pedido de 10K e o teu pedido de 950K são faturados à mesma taxa por token.
Limites de taxa completos em todo o lado. Pedidos mais longos costumavam ser mais limitados durante o beta. Esse cap foi removido. Uma chamada de 1M tokens tem o mesmo throughput que uma curta.
600 itens de media num pedido. Imagens e páginas de PDF costumavam ter um cap de 100. O novo teto é 6x mais alto, em 600. Para trabalho em sistemas de design, revisão de documentação ou pilhas de contratos, isto é um avanço real.
Sem toggle de header. Pedidos acima de 200K costumavam precisar de um header anthropic-beta. Quaisquer headers existentes são simplesmente ignorados agora. A API trata disso.
Em direto em multi-cloud. Tens a janela de 1M na Plataforma Claude, Microsoft Azure Foundry e Google Cloud Vertex AI.
Por que o Claude Code Parece Diferente Agora
Os utilizadores da API têm aqui uma vitória de preços e conveniência. Os utilizadores do Claude Code têm algo estrutural.
Compactação Dispara Menos Frequentemente
Quem já empurrou o Claude Code em trabalho real conhece o imposto de compactação. Carregas ficheiros, encadeias chamadas de ferramentas, acumulas raciocínio, e depois a auto-compactação dispara. O Claude aperta a conversa para libertar espaço. Nuances perdem-se. Casos extremos desaparecem. Tarefas de múltiplos passos perdem o fio a meio.
Jon Bell, CPO da Anthropic, pôs um número nisso: eventos de compactação caíram 15% desde que a janela grande foi lançada. Não é um benchmark de laboratório. Está medido em tráfego real do Claude Code. Os agentes mantêm o seu contexto e avançam durante horas de trabalho sem esquecer o que carregaram no início.
Curioso sobre a mecânica de quando a compactação dispara? Consulta o guia de gestão de buffer de contexto. A versão curta: o Claude Code reserva um buffer de cerca de 33K tokens, depois compacta quando o uso atinge aproximadamente 83,5%. Um teto de 1M significa que tens cerca de 5x o espaço antes de atingires essa linha.
Codebases Inteiras de Uma Vez
Com 200K, tinhas cerca de 150K tokens de espaço de trabalho depois de o buffer ser reservado. Adequado para um repo pequeno. Doloroso em qualquer coisa maior, porque estavas constantemente a escolher ficheiros.
Aumenta para 1M e a tua margem de manobra utilizável é ~830K. São milhares de ficheiros fonte. Um monorepo inteiro. Documentação completa ao lado do código que descreve. O Claude pode ter a camada de API e o frontend que a chama, a migração e o esquema que muda, o ficheiro de teste e o código sob teste. Tudo ao mesmo tempo. Paras de escolher manualmente quais os ficheiros a carregar.
Traces de Agente que Realmente Terminam
Este é o benefício para equipas de agentes e execuções de orquestração complexas. Cada chamada de ferramenta, cada passo de raciocínio, cada leitura de ficheiro acumula-se em contexto. Com 200K, uma sessão multi-agente em trabalho real consumia o orçamento em 20 a 30 minutos.
Anton Biryukov, engenheiro de software na Ramp, descreveu o padrão antigo: "O Claude Code pode gastar 100K+ tokens a pesquisar no Datadog, Braintrust, bases de dados e código-fonte. Depois a compactação entra." Com 1M, ele pesquisa, pesquisa novamente, recolhe casos extremos e lança correções. Tudo dentro de uma sessão. Nada é descartado no caminho.
O Modelo Consegue Realmente Usar 1M Tokens?
Uma janela de contexto enorme é inútil se o modelo não conseguir de facto recordar e raciocinar sobre o que está dentro dela. A Anthropic correu dois benchmarks construídos para testar exatamente isso ao nível de 1M.
O Opus 4.6 obtém 78,3% no MRCR v2 com 1M tokens. O MRCR (Multi-Round Coreference Resolution) verifica se um modelo consegue rastrear entidades e as ligações entre elas ao longo de um prompt enorme. Quase 80% de precisão sobre um milhão de tokens significa que o modelo não está apenas a armazenar as palavras. Ainda sabe como peças distantes se conectam.
O Sonnet 4.6 obtém 68,4% no GraphWalks BFS com 1M tokens. Este teste mede quão bem o modelo percorre estruturas de grafo plantadas fundo em inputs longos. Consegue rastrear cadeias de referências através de centenas de milhares de tokens? Ambas as pontuações são listadas como as melhores para modelos de fronteira nesses comprimentos de contexto.
Na prática, isto significa que o Claude ainda consegue localizar a função auxiliar que definiste 500K tokens atrás e ver como se conecta ao componente que estás a editar agora.
Como Usar no Teu Fluxo de Trabalho
Muda o Que Fazes
Para de gerir manualmente a inclusão de ficheiros. Cada chamada @file costumava ser um compromisso com 200K. Com 1M, carrega simplesmente o que precisas e segue em frente. Traz o ficheiro de teste com a implementação. Traz os tipos com o componente. Dá ao Claude a imagem completa.
Corre sessões mais longas. O hábito de reiniciar a cada 30 minutos veio da sobrevivência, não da preferência. Com 5x o teto, uma sessão pode correr durante horas em tarefas difíceis. Reinicia quando genuinamente mudas de foco, não porque estás nervoso sobre o buffer. Para regras sobre quando compactar e quando continuar, consulta o guia de gestão de contexto.
Apoia-te em agentes de múltiplos passos. O benefício real não é a edição rápida. É o tipo de trabalho onde o Claude tem de pesquisar, planear, implementar e verificar em muitos ficheiros. Essa cadeia costumava partir quando a compactação disparava a meio da tarefa. Agora cabe numa janela sem drama.
Repensa o teu playbook de engenharia de contexto. As tuas estratégias de carregamento e preservação ainda contam. Apenas têm mais oxigênio. Os fundamentos do nosso guia de gestão de contexto ainda se aplicam. A pressão muda de "mantém-te vivo abaixo de 200K" para "usa 1M bem."
Onde a Janela de 1M Realmente Muda Resultados
A melhor forma de pensar em contexto de 1M não é "o Claude consegue ler mais". É "classes inteiras de tarefas deixam de parecer frágeis."
1. Caças a bugs entre camadas
Padrão antigo com 200K:
- carrega o frontend
- nota que o problema pode estar na API
- descarrega alguns ficheiros
- carrega a API
- percebe que o bug também depende do esquema ou de uma migração
- compacta a meio e perde pistas iniciais
Com 1M, muitas vezes podes manter o componente de página, o handler da API, o esquema, a migração e o teste falhado tudo numa sessão. Não é apenas conveniente. Muda a qualidade da análise de causa raiz.
2. Revisão de segurança em todo um limite de sistema real
As revisões de segurança são famintas de contexto porque o problema raramente está num ficheiro.
Uma revisão séria pode precisar de:
- middleware de auth
- gestão de sessão
- fluxo de reset de password
- lógica de rate-limit
- logs de auditoria
- os route handlers que expõem a superfície
Com 200K, estavas a escolher qual camada omitir. Com 1M, podes rever todo o fluxo e fazer melhores perguntas sobre risco de takeover, risco de replay e erros de fronteira de privilégios.
3. Alterações em monorepo sem curar manualmente cada ficheiro
Com 200K, o trabalho em repos grandes muitas vezes tornava-se gestão de contexto. Passavas metade da sessão a decidir o que o Claude tinha permissão para ver.
Com 1M, uma migração em:
- tipos partilhados
- contratos de API
- chamadores frontend
- testes de integração
encaixa muito mais naturalmente. Ainda precisas de disciplina de âmbito. Apenas paras de fazer triagem de tokens a cada dez minutos.
4. Revisão de documentos e design longos
A janela maior importa também fora do código. Especificações de produto, documentos de design, notas de arquitetura, PDFs, capturas de ecrã e ficheiros de implementação relacionados podem todos ficar no mesmo pedido. Isso torna o trabalho "especificação para implementação" e "design para código" muito mais estável.
Como Saber se Realmente Precisas de 1M
Provavelmente beneficias da janela maior se as tuas sessões envolvem regularmente um ou mais destes:
| Sinal | Por que Aponta para 1M |
|---|---|
| Continuas a escolher manualmente quais os ficheiros que o Claude pode carregar | O conjunto de trabalho é maior do que a janela antiga tolerava confortavelmente |
| A compactação interrompe trabalho real, não apenas rambling | O gargalo é contexto útil, não prompting descuidado |
| A tua tarefa abrange código + docs + testes + configs | Tarefas transversais consomem 200K rapidamente |
| Corres traces longas de agentes ou fluxos de trabalho com muitos subagentes | O histórico de ferramentas acumula-se depressa |
| Revisas PDFs, capturas de ecrã ou grandes conjuntos de referência | Os tetos de media também importam |
Se o teu trabalho é principalmente edições rápidas, repos pequenos ou sessões curtas e focadas, 1M é agradável mas não transformador. O aumento mostra-se em tarefas mais amplas onde o contexto costumava ser a principal restrição.
O que Não Muda
A higiene de contexto ainda importa. Um teto de 1M não é um sinal para empilhar tudo e esperar que o Claude trate disso. Ficheiros irrelevantes queimam tokens e diluem o sinal que o Claude usa para se focar.
CLAUDE.md, carregamento de skills em primeiro lugar e gestão limpa de sessões são ainda as melhores práticas. Apenas têm mais espaço para respirar. Se já segues os padrões de otimização de uso, a janela grande paga-te de volta ainda mais.
Quem Tem a Janela de 1M
No Claude Code, os planos Max, Team e Enterprise têm a janela de 1M automaticamente com o Opus 4.6. Nada a ativar. A alocação de uso extra que os pedidos de contexto longo costumavam precisar já não existe.
Os utilizadores da API têm-na às taxas standard por token. Opus 4.6 a $5/$25 por milhão de tokens. Sonnet 4.6 a $3/$15. Sem nível premium para contexto longo.
A janela de 200K ainda está disponível como padrão para pedidos de API standard e planos de nível inferior. A opção de 1M está ligada especificamente ao Opus 4.6 e ao Sonnet 4.6.
O que Isto Sinaliza
A Anthropic não está apenas a tornar as janelas de contexto maiores. Estão a eliminar as compensações que tornavam as janelas grandes irritantes de usar. Os preços fixos significam que não orças pedidos longos de forma diferente. Os limites de taxa completos significam que não perdes throughput. Matar o header beta significa que o código existente simplesmente corre.
A direção é óbvia. A gestão de contexto está a passar de um trabalho do utilizador para um trabalho de infraestrutura. Os modelos ficam cada vez melhores a usar contexto longo. Os preços mantêm a porta aberta. As ferramentas tratam de si mesmas.
Para utilizadores do Claude Code, a conclusão é simples. Os teus agentes pensam mais tempo e lembram-se mais. Constrói os teus fluxos de trabalho com isso, e as tarefas que costumavam exigir gestão cuidadosa de sessões e contexto escolhido a dedo começam a simplesmente funcionar. Do início ao fim. Numa janela.
Recursos Relacionados
- Context Buffer Management -- Como funciona a auto-compactação e o buffer de 33K tokens
- Context Engineering -- O framework de seis pilares para carregar contexto estrategicamente
- Context Management -- Estratégias para manter contexto crítico intacto entre sessões
- Model Selection Guide -- Escolher entre o Opus 4.6 e o Sonnet 4.6 para diferentes tarefas
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.