Claude Opus 4.7
Claude Opus 4.7, o flagship da Anthropic de abril de 2026: programação difícil mais forte, raciocínio sobre documentos, tarefas de agentes de longa duração, mesmo preço de $5/$25 que o Opus 4.6.
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.
O Claude Opus 4.7 é o primeiro lançamento do Claude em algum tempo que parece maior do que uma atualização de ponto. O preço está inalterado. A janela de contexto de 1M está inalterada. O teto de output de 128K está inalterado. O que mudou é a parte que as pessoas realmente sentem dentro do Claude Code: o modelo é melhor em trabalho difícil, ambíguo, de longa duração que costumava precisar de supervisão constante.
Isso aparece em três lugares.
- Encontra mais dos seus próprios erros antes de agir.
- Mantém-se coerente por mais tempo dentro de loops de agentes multi-passo.
- Aterra melhor em domínios que não são apenas "escrever código": workflows de segurança informática, revisão de código, screenshots densos, documentos empresariais, contratos, diagramas, e outro trabalho ambíguo rico em fontes.
Se já vives no Claude Code, a resposta curta é simples: o Opus 4.7 é o novo upgrade padrão para sessões de engenharia de alto risco. Se quiseres os conselhos de workflow, lê o guia de melhores práticas do Opus 4.7. Se quiseres exemplos concretos por domínio, lê a página de casos de uso do Opus 4.7.
Veredicto Rápido
Usa o Opus 4.7 quando o trabalho é caro de errar:
- refatorações complexas em muitos ficheiros
- depuração com evidências incompletas ou contraditórias
- revisão de código onde bugs subtis importam
- ciberdefesa, pesquisa de vulnerabilidades, ou auditoria de segurança
- trabalho pesado em documentos de direito, finanças, e operações
- tarefas multimodais com screenshots densos, diagramas, ou maquetes de UI
Fica no Sonnet para edições diárias menores onde velocidade e custo importam mais do que profundidade máxima de raciocínio.
Especificações Principais
| Especificação | Detalhes |
|---|---|
| ID da API | claude-opus-4-7 |
| Data de lançamento | 16 de abril de 2026 |
| Janela de contexto | 1M tokens |
| Output máximo | 128 000 tokens |
| Preços | $5 input / $25 output por 1M tokens |
| Modo de pensamento | Pensamento adaptativo |
| Níveis de esforço | low, medium, high, xhigh, max |
| Esforço padrão no Claude Code | xhigh |
| Data de corte de conhecimento | Janeiro de 2026 |
| Estado | Opus flagship atual |
Claude Opus 4.7 vs Opus 4.6
A história básica não é "um pouco mais inteligente." É "mais fiável na fatia difícil do trabalho."
| Área | Opus 4.6 | Opus 4.7 |
|---|---|---|
| CursorBench | 58% | 70% |
| Rakuten-SWE-Bench | Linha de base | 3x mais tarefas de produção resolvidas |
| XBOW visual-acuity | 54,5% | 98,5% |
| OfficeQA Pro | Linha de base | 21% menos erros |
| BigLaw Bench | Inferior | 90,9% com esforço high |
| Erros de ferramenta do Notion Agent | Linha de base | cerca de um terço |
| Suporte de resolução | 1568px / 1,15MP | 2576px / 3,75MP |
| Esforço padrão no Claude Code | high | xhigh |
| Controlo de pensamento | adaptativo, caminho de migração antigo | apenas adaptativo, pensamento de orçamento fixo removido |
| Estilo de uso de ferramentas | mais propenso a usar ferramentas | mais seletivo, mais raciocínio primeiro |
| Comportamento de subagentes | delega mais livremente | delega mais seletivamente |
A parte importante é comportamental, não apenas numérica. A Anthropic e os parceiros de lançamento descrevem o Opus 4.7 como mais literal com instruções, mais disposto a verificar suposições, melhor em completar tarefas longas, e menos propenso a ficar em loop ou a falhar silenciosamente a meio.
O Que Realmente Melhorou na Prática
1. A auto-verificação aparece com mais frequência
Um dos sinais de lançamento mais claros é que o Opus 4.7 faz mais verificação antes de se comprometer com uma resposta ou uma mudança de código.
A página de lançamento da Anthropic inclui o Vercel descrevendo um novo comportamento: o modelo faz provas em código de sistemas antes de começar o trabalho. O Hex diz que é melhor a admitir quando os dados estão em falta em vez de inventar lógica de fallback plausível. Isso importa porque muita dor de engenharia real não é falha de sintaxe. É raciocínio confiante-mas-errado em contexto incompleto.
Dentro do Claude Code, isso tende a parecer:
- ler mais um ficheiro antes de editar
- verificar um call site antes de mudar um tipo
- confirmar uma suposição sobre a forma do estado ou do schema
- pausar para validar um caminho de concorrência ou migração
Esse passo extra é frequentemente a diferença entre uma primeira passagem limpa e um loop de 40 minutos.
2. O trabalho agentic de longa duração desvia menos
O Devin reportou que o Opus 4.7 funciona de forma coerente durante horas e empurra através de tarefas difíceis em vez de desistir cedo. O Notion reportou um ganho de 14% em workflows complexos multi-passo com cerca de um terço dos erros de ferramenta do Opus 4.6. O Genspark destacou resistência a loops, consistência, e recuperação graciosa como os três traços de produção que mais importam.
Isso torna o Opus 4.7 uma escolha melhor para:
- refatorações mais longas
- agentes de programação assíncronos
- workflows de CI e automação
- passagens de revisão ao nível do serviço
- investigações onde o modelo tem de ler, comparar, e rever repetidamente
3. A programação difícil moveu-se, não apenas a programação fácil
O CursorBench a subir de 58% para 70% importa porque está mais próximo dos prompts vagos, confusos e reais que os developers realmente entregam a agentes de programação. A melhoria 3x do Rakuten em tarefas SWE de produção importa porque sugere que o ganho não se limita a exemplos simples ou problemas amigáveis para benchmarks.
O CodeRabbit reportou mais de 10% de melhor recall em workloads de revisão enquanto mantinha a precisão estável. O Warp e o Qodo destacaram classes de bugs mais difíceis que o 4.7 agora encontra ou resolve. O Factory reportou um aumento de 10-15% no sucesso de tarefas para Droids com menos erros de ferramenta e follow-through mais fiável.
O padrão é consistente: o Opus 4.7 não é apenas "mais eloquente." Limpa uma classe mais difícil de trabalho de engenharia.
4. Os inputs visuais densos são finalmente de primeira classe
O salto de resolução é uma das mudanças mais subavaliadas no lançamento. Mover de 1568px / 1,15MP para 2576px / 3,75MP não é cosmético. Muda o que podes confiar ao modelo para ler sem cortar.
Isso ajuda especialmente quando o input é:
- um screenshot de dashboard cheio
- uma captura de terminal com texto pequeno
- um diagrama técnico
- uma maquete de design com rótulos densos
- uma tabela de contrato digitalizada ou excerto de documento
- uma figura de química ou ciências da vida
O salto de acuidade visual do XBOW de 54,5% para 98,5% é a prova mais clara de que os pixels adicionais se traduzem em utilidade real.
5. É mais forte fora da programação pura
O lançamento da Anthropic posicionou o Opus 4.7 como mais forte em programação, workflows empresariais, e tarefas agentic de longa duração. Os exemplos de parceiros confirmam isso:
- Cibersegurança: O XBOW diz que o maior ponto de dor visual em pentesting autónomo desapareceu efetivamente.
- Direito: O Harvey reporta 90,9% no BigLaw Bench com esforço
high, com melhor raciocínio em edições ambíguas e tabelas de revisão. - Documentos e raciocínio empresarial: O Databricks reportou 21% menos erros no OfficeQA Pro.
- Finanças e investigação: Testadores de IA aplicada destacaram disciplina de divulgação mais forte e melhor desempenho em contexto longo.
- Ciências da vida: A Solve Intelligence destacou ganhos em estruturas químicas e diagramas técnicos.
- Design e UI: O Lovable disse que o gosto de design é suficientemente bom que o modelo faz escolhas que eles realmente lançariam.
Isso torna o Opus 4.7 um modelo mais amplo de "trabalho de conhecimento de alto risco," não apenas um modelo de programação.
Resultados de Benchmark que Importam
A parede completa de benchmarks é útil para o dia do lançamento, mas apenas alguns números mapeiam claramente para valor do utilizador.
| Benchmark | Porque importa |
|---|---|
| CursorBench: 70% | Mais próximo de prompts reais de agentes de programação do que evals de programação estreitas |
| Rakuten-SWE-Bench: 3x mais resolvidos | Sinaliza movimento em tarefas de engenharia de produção, não apenas repos de brinquedo |
| XBOW visual-acuity: 98,5% | Prova que a compreensão de imagens densas é materialmente melhor |
| BigLaw Bench: 90,9% | Sinal forte para casos de uso de revisão de contratos e jurídica |
| OfficeQA Pro: 21% menos erros | Proxy útil para documentos empresariais e raciocínio sobre documentos |
| Notion Agent: +14%, menos erros de ferramenta | Bom indicador para fiabilidade de agentes multi-passo |
| CodeRabbit: recall +10% | Sinal forte para workflows de revisão e caça de bugs |
Se estás a escolher um modelo para o Claude Code, CursorBench, Rakuten, Notion, CodeRabbit, e XBOW são os sinais mais acionáveis neste lançamento.
Onde o Opus 4.7 Aterra com Mais Força
Sessões de engenharia no Claude Code
Este é o óbvio. O Opus 4.7 é melhor quando a tarefa é vaga, multi-ficheiro, ou cara de refazer. Migrações de API, refatorações transversais, bugs de concorrência, revisões de arquitetura, e limpezas ao nível do codebase beneficiam todos do modelo ser mais literal, mais paciente, e mais focado em verificação.
Workflows de segurança e ciberdefesa
O Opus 4.7 importa em segurança porque a capacidade de programação e a capacidade de segurança informática estão agora estreitamente ligadas. O Project Glasswing, anunciado a 7 de abril de 2026, é sobre o Mythos Preview, não sobre o Opus 4.7. Mas a Anthropic referencia explicitamente o Glasswing no lançamento do Opus 4.7 de 16 de abril de 2026 para explicar porque novas salvaguardas de segurança informática importam aqui: o Opus 4.7 é o primeiro modelo público onde estão a testar algumas dessas salvaguardas no mundo real.
Isso dá-te duas conclusões:
- o modelo é suficientemente forte para ser útil em trabalho sério de segurança defensiva
- o modelo é suficientemente forte para que a Anthropic esteja ativamente a limitar o uso indevido arriscado
Se fazes investigação legítima de vulnerabilidades, penetration testing, ou red-teaming, a Anthropic direciona profissionais para o Cyber Verification Program.
Direito, finanças, e operações empresariais
O Opus 4.7 é um forte encaixe quando o trabalho é: comparar, verificar, resumir, e evitar alucinar as peças que faltam. Contratos, trilhas de auditoria, tabelas de revisão, memorandos financeiros, documentos de política, e documentos operacionais internos beneficiam todos da calibração mais forte e do raciocínio sobre documentos do modelo.
Trabalho multimodal de produto, design, e I&D
A melhor leitura de screenshots e o melhor tratamento de diagramas tornam-no mais útil para crítica de design, QA de produto, workflows de ciências da vida, patentes, e documentação técnica. Se o material fonte costumava precisar de zoom manual ou recorte, o Opus 4.7 é muito mais utilizável.
Para exemplos de domínio mais concretos e ideias de prompt, vê Casos de uso do Claude Opus 4.7.
Segurança Informática, Risco, e Segurança: Porque Este Lançamento É Diferente
As mensagens de lançamento da Anthropic em torno do Opus 4.7 são incomuns porque não apenas celebra capacidade. Coloca o lançamento dentro de uma história viva de risco de segurança informática.
A Anthropic diz que o Opus 4.7 é menos capaz do que o Mythos Preview, mas ainda suficientemente forte para que tenham experimentado durante o treino com a redução diferencial de capacidades de segurança informática em relação ao Mythos. Também lançaram salvaguardas automáticas que detetam e bloqueiam pedidos que indicam uso de segurança informática proibido ou de alto risco.
Isso importa para qualquer pessoa que escreva sobre o modelo porque muda o ângulo:
- O Opus 4.7 não é apenas um copiloto mais rápido.
- Situa-se na categoria onde o benefício de segurança informática e o risco de segurança informática agora se movem juntos.
- Os workflows defensivos são uma área de força legítima.
- Os workflows ofensivos inseguros ou não permitidos são uma preocupação explícita de deployment.
Em termos práticos, isso significa que deves posicionar o Opus 4.7 como forte para:
- revisão de código seguro
- passagens de auditoria defensiva
- modelagem de ameaças
- triagem de vulnerabilidades
- suporte de pentest dentro de programas aprovados
- documentação de segurança e planeamento de remediação
Não como um motor genérico de "faz qualquer coisa em segurança informática."
Visão: O Upgrade de Resolução 3x
O Opus 4.7 é o primeiro lançamento do Claude onde o pipeline de imagem merece a sua própria decisão de compra.
O novo teto de resolução significa:
- menos recorte antes de enviar screenshots
- melhor fiabilidade em texto pequeno e UIs densas
- interpretação mais forte de diagramas técnicos
- mapeamento mais limpo de coordenadas devolvidas para pixels reais
A troca é o custo de tokens. A Anthropic nota que uma imagem de resolução completa pode consumir aproximadamente 4 784 tokens em vez do intervalo de aproximadamente 1 600 tokens a que as pessoas estavam habituadas. Para workflows com muitas imagens, o downsampling é agora parte do controlo de custos.
Melhores Práticas para o Opus 4.7 no Claude Code
A orientação da própria Anthropic para o Opus 4.7 dentro do Claude Code é mais comportamental do que técnica. O tema é: delegar melhor, processar contexto mais cedo em batch, e reduzir vai-e-vem desnecessário.
Os hábitos de alto sinal são:
- coloca a tarefa real na primeira volta: intenção, restrições, caminhos de ficheiros, critérios de aceitação
- reduz as voltas do utilizador onde possível, porque o vai-e-vem interativo adiciona overhead de raciocínio
- mantém
xhighcomo padrão para trabalho de programação sério - desce para
highquando precisas de controlar gastos em muitas sessões paralelas - reserva
maxpara trabalho muito difícil e teste de teto ao estilo de avaliação - diz explicitamente ao modelo quando usar ferramentas e quando ramificar para subagentes
- usa o modo automático quando a tarefa está bem delimitada e confias na direção geral
- corre a nova skill
/fewer-permission-promptsapós algumas sessões para transformar prompts seguros repetidos numa política de allowlist - usa recapitulações ao regressar a uma sessão de longa duração para poder recuperar o estado rapidamente sem re-ler toda a transcrição
- usa a vista focada quando confias no modelo e só queres o resultado final em vez de cada passo intermédio
- ajusta
/effortdeliberadamente em vez de tratar o padrão como sempre correto - começa uma sessão nova quando a tarefa muda, em vez de arrastar contexto stale para a frente
Esses últimos quatro pontos são exatamente o tipo de conselho de "pequena mudança de workflow, grande salto de qualidade" que Boris Cherny começou a enfatizar na sua thread X do dia do lançamento do Opus 4.7. O padrão subjacente é consistente com os docs oficiais também: menos interrupções, recuperação de sessão mais limpa, menos ruído de transcrição, e controlo de esforço mais deliberado importam mais uma vez que o modelo é capaz de execuções autónomas mais longas.
A versão completa de workflow está em Melhores práticas do Claude Opus 4.7.
Notas de Migração do Opus 4.6
Se estás a mover workloads de API do 4.6 para o 4.7, não apenas troca o nome do modelo e lança.
O pensamento adaptativo substitui o pensamento de orçamento fixo
O fluxo antigo thinking: { type: "enabled", budget_tokens: N } desapareceu para o Opus 4.7. Usa pensamento adaptativo e níveis de esforço.
Os parâmetros de amostragem não padrão desapareceram
Se o teu código ainda define temperature, top_p, ou top_k com valores não padrão, o Opus 4.7 devolve um 400. Remove esses controlos e molda o comportamento através de prompting e esforço.
A exibição de pensamento mudou
Os blocos de pensamento estão vazios por padrão a menos que optes explicitamente pela exibição resumida. Se a tua UI dependia de texto de pensamento visível, precisas de a atualizar.
O tokenizador mudou
A Anthropic diz que o mesmo input pode mapear para aproximadamente 1,0x a 1,35x a contagem anterior de tokens dependendo do conteúdo. Recalibra estimativas de custo e tokens antes de assumir que os orçamentos antigos ainda se aplicam.
As imagens de alta resolução custam mais
Se anteriormente enviavas screenshots casualmente, o 4.7 torna a qualidade de imagem muito melhor e o custo de tokens de imagem materialmente mais alto. Trata o downsampling como um alavanca consciente.
Os orçamentos de tarefa valem a pena testar
A Anthropic introduziu orçamentos de tarefa como beta público para que os modelos possam auto-ritmizar ao longo de uma execução agentic completa. Se executas loops mais longos, testa-os agora em vez de esperar até que uma sessão descontrolada te morda.
Preços e Custo
O Opus 4.7 manteve os mesmos preços de título que o Opus 4.6:
| Nível | Custo |
|---|---|
| Input | $5 por 1M tokens |
| Output | $25 por 1M tokens |
Isso não significa que o custo é idêntico na prática.
A tua fatura real é moldada por:
- o novo tokenizador
- gastos de raciocínio mais altos a níveis de esforço mais altos
- imagens de resolução completa mais caras
- se executas sessões multi-volta interativas ou tarefas delegadas de uma vez
A leitura otimista vem de parceiros de lançamento como Hex e Replit: melhor qualidade com menor esforço pode compensar uma parte do aumento bruto de tokens. O movimento correto não é assumir. Mede em workloads reais.
Deves Atualizar para o Claude Opus 4.7?
Sim, se os teus pontos de dor são:
- agentes que param a meio
- modelos que parecem plausíveis mas adivinham demasiado
- trabalho difícil de revisão de código e depuração
- inputs visuais ou documentais densos
- workflows multi-passo com ferramentas
Talvez não imediatamente, ou não como padrão, se a tua carga de trabalho é maioritariamente:
- pequenos ciclos de edição
- automação em massa barata
- geração de conteúdo de baixo risco
- Q&A rápido onde o Sonnet já funciona
Para a maioria dos utilizadores sérios do Claude Code, a estratégia certa é simples: mantém o Sonnet como a opção rápida do dia a dia, e usa o Opus 4.7 como flagship para trabalho sensível à inteligência.
Perguntas Frequentes
O Claude Opus 4.7 vale a pena em relação ao Opus 4.6?
Para engenharia difícil, revisão, trabalho pesado em documentos, e trabalho agentic de longa duração, sim. Os ganhos mais importantes não são os números brutos de benchmark. São a melhor calibração, auto-verificação mais forte, menor taxa de erros de ferramenta, e melhor comportamento em tarefas ambíguas.
Qual é a melhor configuração de esforço do Claude Code para o Opus 4.7?
xhigh é o padrão no Claude Code e o ponto de partida certo para a maioria das sessões de programação sérias. Usa high quando precisas de melhor controlo de custos em muitas sessões. Usa max deliberadamente para o trabalho mais difícil, não como padrão geral.
O Claude Opus 4.7 é melhor para cibersegurança?
É melhor para workflows legítimos de segurança defensiva, revisão de código, triagem de vulnerabilidades, e análise relacionada com segurança informática. A Anthropic também lançou salvaguardas explícitas de segurança informática com o modelo, o que é parte de porque o lançamento importa.
O Opus 4.7 custa mais do que o Opus 4.6?
O preço de lista está inalterado, mas o custo prático pode aumentar por causa do novo tokenizador, gastos de raciocínio mais altos a esforços mais altos, e inputs de imagem mais caros. Mede contra as tuas cargas de trabalho reais.
Quando devo ainda usar o Sonnet em vez do Opus 4.7?
Usa o Sonnet para programação diária rápida, edições menores, trabalho em massa mais barato, e sessões onde a velocidade importa mais do que raciocínio de nível frontier.
Fontes
- Introducing Claude Opus 4.7
- Best practices for using Claude Opus 4.7 with Claude Code
- Using Claude Code: session management and 1M context
- Project Glasswing
- Claude Code best practices docs
Páginas Relacionadas
Pare de configurar. Comece a construir.
Templates SaaS com orquestração de IA.