Claude Opus 4.6

Opus 4.6 é o novo modelo topo de gama da Anthropic. O planeamento é mais cuidado. As sessões de agente mantêm a coerência por mais tempo. Grandes bases de código deixam de ser tão frustrantes. E o Claude encontra os seus próprios bugs antes de você. É também o primeiro lançamento da classe Opus com uma janela de 1M de tokens disponível para todos, e o output agora chega a 128K tokens.

O código é a grande novidade, e o preço mantém-se em $5/$25 por milhão de tokens enquanto as pontuações nas avaliações mais difíceis subiram em todas as categorias. Os números estão na secção de benchmarks abaixo.

Especificações Principais

Especificação	Detalhes
API ID	`claude-opus-4-6`
Data de Lançamento	5 de fevereiro de 2026
Janela de Contexto	1M tokens (disponível desde março de 2026)
Output Máximo	128.000 tokens
Preço	$5 input / $25 output por 1M tokens
Estado	Ativo, Opus recomendado atualmente

O Que Mudou: As Melhorias no Código

A Anthropic usa o Claude internamente. Cada engenheiro da Anthropic vive dentro do Claude Code todos os dias, e nada é lançado sem sobreviver ao caso de uso interno primeiro. Os ganhos do 4.6 são concretos e práticos.

O planeamento é mais cuidado. Antes de se comprometer com uma abordagem, o modelo pensa mais sobre o problema, volta atrás no seu próprio raciocínio, detetar erros de lógica mais cedo, e chega a um primeiro rascunho mais sólido nas tarefas difíceis.

As sessões de agente mantêm a coerência. Os modelos mais antigos perdiam o fio com o tempo. Aqui, o foco mantém-se ao longo de sessões longas. Um fluxo de trabalho que dispara chamada após chamada de ferramentas, dezenas delas seguidas, chega mais vezes ao fim.

Grandes bases de código deixam de ser tão hostis. Navegar em projetos grandes, lê-los e modificá-los melhorou. O Claude mantém uma imagem mais clara da estrutura e das convenções ao longo de uma sessão longa.

Revisão e depuração com mais impacto. Encontrar os seus próprios erros está visivelmente melhor, e as revisões são mais completas. Rastrear um bug numa cadeia de dependências agora precisa de muito menos orientação da tua parte.

O trabalho fácil fica mais rápido. O raciocínio mais profundo é guardado para os passos difíceis, e o Opus 4.6 já não demora nos óbvios. Se o apanhas a pensar demais em algo simples? Muda o nível padrão de alto para médio com /effort.

Resultados dos Benchmarks

Foram estabelecidos novos recordes em várias categorias.

Benchmark	Pontuação	Comparação Notable
Terminal-Bench 2.0	65,4%	GPT-5.2: 64,7%
GDPval-AA Elo	1.606	144 Elo acima do GPT-5.2, 190 acima do Opus 4.5
Humanity's Last Exam	Líder	O mais alto entre todos os modelos de fronteira
BrowseComp	Líder	Melhor a encontrar informação difícil de localizar online
OSWorld	72,7%	Estado da arte em uso de computador
MRCR v2 (8-needle)	78,3%	O mais alto entre modelos de fronteira com contexto de 1M

Dentro do Claude Code, o benchmark a observar é o Terminal-Bench 2.0. Avalia trabalho real no terminal em codificação, tarefas de sysadmin e gestão de ficheiros. Liderar aqui significa que o Opus 4.6 é a escolha mais forte para o que um developer realmente faz na linha de comandos todo o dia.

O GDPval-AA está no extremo oposto do espectro de avaliações. Mede trabalho de conhecimento que gera valor económico real, em finanças, jurídico e no resto da área de trabalho do colarinho branco. A vantagem sobre o modelo da indústria seguinte é grande.

O número MRCR v2 importa por uma razão diferente. "Context rot" é a queixa habitual, onde as respostas degradam à medida que a conversa se estende. Essa deriva diminui aqui. Em janelas muito longas, o Opus 4.6 mantém a sua presa em pequenos detalhes e recupera factos enterrados que a versão anterior perdia. A pontuação de 78,3% é uma mudança real em quanto da janela o Claude consegue usar efetivamente.

Humanity's Last Exam testa raciocínio multidisciplinar amplo, e nenhum modelo de fronteira supera o Opus 4.6 nisso. BrowseComp avalia quão bem o modelo encontra informação que é genuinamente difícil de encontrar online. OSWorld classifica o uso real de computador de secretária. O novo lançamento conquista o primeiro lugar nas três.

Janela de Contexto de 1M Tokens e Output de 128K

Desde março de 2026, a janela completa de 1M está disponível para todos, e o preço por token é igual em toda a sua extensão. A taxa por token numa chamada de 900K tokens é igual à de uma chamada de 9K. Não é necessário nenhum cabeçalho beta. Os cabeçalhos beta antigos são silenciosamente ignorados.

Os limites de media cresceram 6x no lançamento. O teto por pedido é agora 600 imagens ou páginas de PDF, versus 100 antes. Os limites de taxa mantêm-se nos seus valores totais independentemente do comprimento do contexto.

O output também cresceu. O teto passou de 16K tokens para 128K, o que permite ao Claude terminar trabalhos com output maior numa única chamada. Módulos inteiros ou análises longas podem agora voltar numa única resposta em vez de serem cortados em muitas.

Dentro do Claude Code, a janela completa de 1M é ativada por padrão nos planos Max, Team e Enterprise. A Anthropic reporta uma queda de 15% nos eventos de compactação, por isso as conversas longas agora sobrevivem do início ao fim sem que a sumarização com perdas entre em ação. Qualquer fluxo de trabalho de gestão de contexto que já uses continua a funcionar. Simplesmente encontras o teto com menos frequência.

Perfil de Segurança

Ser mais inteligente não significa ser menos seguro. A Anthropic executa uma auditoria comportamental automatizada, e o Opus 4.6 obteve pontuação baixa nos comportamentos que importam: engano, sycophancy, reforçar delírios do utilizador e aceitar uso indevido. O seu alinhamento está ao nível do Opus 4.5, o anterior detentor do recorde de lançamento de fronteira mais alinhado.

Os pedidos legítimos também passam mais vezes. O Opus 4.6 tem a taxa mais baixa de recusas excessivas de qualquer lançamento recente do Claude. Os pedidos reais são bloqueados com menos frequência.

O número de cibersegurança é o destaque. Numa execução interna, o modelo encontrou mais de 500 falhas zero-day de alta gravidade anteriormente desconhecidas em bibliotecas open-source. A Anthropic está a ir mais longe nisto, direcionando o modelo para projetos OSS para caçar e corrigir as falhas enterradas dentro. As equipas de segurança podem colocar o Opus 4.6 na revisão de código como um scanner de vulnerabilidades de primeira passagem.

Novas Funcionalidades de API e Produto

A atualização do modelo chegou junto com várias novas funcionalidades.

Pensamento adaptativo. O pensamento estendido costumava ser um interruptor binário. Agora o Claude escolhe os seus próprios momentos para pensar mais. Com o esforço definido como alto (o padrão), o pensamento estendido entra em ação onde quer que ajude. Quatro níveis estão disponíveis para developers: baixo, médio, alto (padrão) e máximo.

Compactação de contexto (beta). Quando uma conversa longa se aproxima do teto do contexto, o Claude agora sumariza e compacta por conta própria. Tarefas de longa duração continuam em vez de ficar sem espaço.

Equipas de agentes (pré-visualização de investigação do Claude Code). Múltiplas instâncias do Claude podem agora correr em paralelo como uma equipa coordenada. Tarefas com muita leitura que se expandem em partes independentes, como revisões de bases de código, são o ponto ideal. Tudo o resto está no guia de equipas de agentes.

Claude no PowerPoint (pré-visualização de investigação). Layouts, tipos de letra e slides mestres são todos analisados pelo Claude para que o output se mantenha com a identidade da marca, seja a preencher um modelo ou a criar uma apresentação do zero. Disponível nos planos Max, Team e Enterprise.

Preços

Sem aumento de preço. A janela de 1M é lançada com preços unificados em todo o comprimento do contexto. O antigo nível premium para mais de 200K foi retirado.

Nível	Custo
Todos os contextos	$5 input / $25 output por 1M tokens
Plano Pro	$20/mês
Plano Max	$100/mês

Já no Opus 4.5 com os teus gastos definidos? A mudança para 4.6 é um ganho gratuito ao preço antigo. E se as chamadas de contexto longo estavam a pagar o nível premium, a fatura acabou de cair.

Como Usar o Opus 4.6 no Claude Code

Um comando muda o modelo padrão:

claude config set model claude-opus-4-6

Para uma única sessão, substitui sem tocar no padrão:

claude --model claude-opus-4-6

O modelo está disponível em todo o lado: claude.ai, a API de Mensagens, AWS Bedrock e Google Vertex AI. Na API, o identificador a usar é claude-opus-4-6.

Opus 4.6 vs Opus 4.5: O Que Mudou

Funcionalidade	Opus 4.5	Opus 4.6
Janela de contexto	200K (padrão), 1M (beta API)	1M (disponível para todos, preços unificados)
Tokens de output máximos	16.384	128.000
Terminal-Bench 2.0	Não testado em v2.0	65,4% (o mais alto)
GDPval-AA Elo	1.416	1.606 (+190 pontos)
MRCR v2	Não testado	78,3%
Recusas excessivas	Baixo	O mais baixo de qualquer modelo recente
Pensamento adaptativo	Não disponível	Integrado
Compactação de contexto	Auto a 95%	Limiar configurável (beta)
Preços padrão	$5/$25 por 1M	$5/$25 por 1M (sem alteração)

A qualidade do código e as sessões de agente mais longas são os ganhos principais. Tudo o que o 4.5 já fazia bem também continua: delegação multi-agente, eficiência de tokens, o parâmetro de esforço. No dia a dia, as vitórias práticas no Claude Code são o teto de output maior e o pensamento adaptativo.

A seleção de modelos é simples. Usa o Opus 4.6 quando a profundidade de raciocínio é o que o trabalho precisa. O Sonnet é a escolha certa em tarefas menores que querem velocidade em vez de profundidade. Os preços estão agora em paridade, por isso já não há razão na fatura para ficar com o modelo mais antigo.

Claude Opus 4.6

On this page