Claude Opus 4.7 vs GPT-5.5

GPT-5.5 chegou hoje. 23 de abril de 2026. É agora o modelo mais capaz da OpenAI em produção, e o primeiro concorrente real ao Claude Opus 4.7 desde que Opus 4.7 estreou há uma semana. Ambos estão na fronteira. Ambos custam $5 por milhão de tokens de entrada. E ambos reivindicam o topo dependendo do benchmark que olhas.

Este post usa o system card oficial da OpenAI, testes de terceiros da MindStudio e Scale AI, e decisões reais de roteamento para responder uma pergunta: qual modelo usas e quando?

Resposta Rápida: Qual Modelo Ganha por Tarefa

Se precisas da versão curta antes dos detalhes:

Tarefa	Melhor Modelo	Margem
Resolução de PRs e refactors reais	Claude Opus 4.7	64.3% vs 58.6% no SWE-Bench Pro
Agentes de linha de comando e terminal	GPT-5.5	82.7% vs 69.4% no Terminal-Bench 2.0
Orquestração de ferramentas multi-step (MCP)	Claude Opus 4.7	79.1% vs 75.3% no MCP Atlas
Pesquisa web e browsing	GPT-5.5 Pro	90.1% vs 79.3% no BrowseComp
Contexto longo com 1M tokens	GPT-5.5	74.0% vs 32.2% no MRCR v2 8-needle
Trabalho financeiro	Claude Opus 4.7	64.4% vs 60.0% no FinanceAgent v1.1
Matemática de fronteira (nível difícil)	GPT-5.5	35.4% vs 22.9% no FrontierMath Tier 4
Raciocínio abstrato	GPT-5.5	85.0% vs 75.8% no ARC-AGI-2

Nenhum modelo ganha em tudo. A tarefa é que decide.

O Que É o GPT-5.5

GPT-5.5 é um novo modelo de fronteira da OpenAI, não uma revisão menor do GPT-5.4. A OpenAI co-desenvolveu-o com os sistemas NVIDIA GB200 e GB300 NVL72. Mantém a mesma latência por token que o GPT-5.4, mas com inteligência superior, e usa significativamente menos tokens para completar as mesmas tarefas no Codex.

Especificações principais:

Especificação	GPT-5.5	Claude Opus 4.7
Janela de contexto (API)	1M tokens	1M tokens
Janela de contexto (Codex)	400K tokens	N/A
Preço de entrada (API)	$5 por 1M tokens	$5 por 1M tokens
Preço de saída (API)	$30 por 1M tokens	$25 por 1M tokens
Variante Pro/xhigh	$30/$180 por 1M tokens	Sem custo extra
Estado da API	Ainda não GA (ChatGPT + Codex disponíveis)	GA na API, Bedrock, Vertex, Foundry

Um número importante nos preços: Claude Opus 4.7 é 17% mais barato na saída, $25 por milhão de tokens contra $30 do GPT-5.5. Em workloads pesados em saída (geração de código longa, runs de agentes multi-turn, redação de documentos) essa diferença acumula rapidamente.

GPT-5.5 Pro a $30/$180 é uma camada de preços separada, destinada ao trabalho mais exigente em pesquisa e domínios regulados. São 6x o preço de saída padrão.

Programação: Quem Ganha Depende do Tipo de Tarefa

É aqui que a divisão é mais clara.

SWE-Bench Pro mede resolução de issues reais do GitHub: o tipo de bugs e pedidos de funcionalidades que developers submetem em repos de produção. Claude Opus 4.7 pontua 64.3%. GPT-5.5 pontua 58.6%. Gemini 3.1 Pro fica em 54.2%. Em trabalho de resolução de PRs (ler um codebase com bugs, encontrar a causa raiz, escrever um fix que passa nos testes) o Opus 4.7 lidera.

Terminal-Bench 2.0 mede tarefas de agentes em linha de comando: scripts de shell de longa duração, fluxos de trabalho CLI multi-step, trabalho automatizado de infraestrutura. GPT-5.5 pontua 82.7%. Claude Opus 4.7 pontua 69.4%. São 13 pontos de diferença. Para pipelines de agentes pesados em terminal, GPT-5.5 é a escolha certa.

Uma ressalva importante: a OpenAI correu Terminal-Bench com um harness Codex CLI. A Anthropic usou o scaffold Terminus-2. Os ambientes de avaliação diferem, por isso a diferença de 13 pontos é direcional, não precisa.

Expert-SWE é uma avaliação interna da OpenAI sobre uma classe mais difícil de problemas de engenharia de software. GPT-5.5 pontua 73.1%. Não existe figura comparável do Opus 4.7 para este benchmark. A Anthropic não publicou nenhuma.

O teste ao vivo da MindStudio (executado a 21 de abril, antes do lançamento do GPT-5.5) colocou Claude Opus 4.7 contra GPT-5.4 numa migração TypeScript de 465 ficheiros. Opus 4.7 produziu uma taxa de correção de 5.8%; GPT-5.4 chegou a 13.1%. Opus 4.7 sinalizou 14 ambiguidades que preveniram erros a jusante; GPT-5.4 sinalizou 3. GPT-5.4 terminou mais rápido. Esse teste cobre o GPT-5.4, não o GPT-5.5. O GPT-5.5 melhorou significativamente. Mas o padrão que mostra (Claude sinaliza mais, apanha mais, corre mais devagar) provavelmente mantém-se.

A divisão prática para programação:

Usa Opus 4.7 para resolução de PRs, refactors, codebases grandes e confusos, e tool chains pesadas em MCP. Usa GPT-5.5 para pipelines pesados em terminal, implementação de novas funcionalidades no Codex, e tarefas de implementação bem delimitadas com specs claras.

Agentes: Coerência de Longa Duração vs Performance em Terminal

Ambos os modelos foram construídos para trabalho agêntico. Mas não são igualmente bons no mesmo tipo de agentes.

MCP Atlas é o benchmark para orquestração de ferramentas em escala: agentes multi-turn a chamar muitas ferramentas em sequência, a lidar com resultados inesperados, a manter estado. Claude Opus 4.7 pontua 79.1%. GPT-5.5 pontua 75.3%. Gemini 3.1 Pro fica em 78.2%. Para fluxos de trabalho MCP-nativos onde o agente chama serviços externos, lê ficheiros, consulta APIs e sintetiza entre ferramentas, Opus 4.7 mantém a vantagem.

Terminal-Bench 2.0 (já coberto acima): GPT-5.5 lidera por 13 pontos em trabalho agêntico na linha de comando.

Toolathlon é uma avaliação de uso de ferramentas multi-modal. GPT-5.5 pontua 55.6%. Nenhuma figura comparável do Opus 4.7 foi publicada.

Tau2-bench Telecom (tarefas de agentes de serviço ao cliente): GPT-5.5 pontua 98.0%. Esse número vem com uma nota de rodapé: Tau2-bench foi executado para GPT-5.5 sem ajuste de prompt, enquanto as entradas de outros laboratórios foram avaliadas com ajustes de prompt. A comparação não é fiável sem metodologia equivalente.

OSWorld-Verified (uso de computador desktop, a clicar em UIs reais): GPT-5.5 pontua 78.7%, Opus 4.7 pontua 78.0%. Efetivamente empatados.

Para pipelines de agentes no Claude Code e na API do Claude, a disponibilidade imediata do Opus 4.7 no Bedrock, Vertex AI, Anthropic Foundry e na API do Claude é uma vantagem operacional. A API do GPT-5.5 está a ser lançada "muito em breve." Ainda não está disponível.

Contexto Longo: GPT-5.5 Afasta-se em Escala

Ambos os modelos têm uma janela de contexto de 1M tokens. Como usam bem essa janela é outra questão.

A OpenAI publicou pontuações MRCR v2 8-needle: um benchmark de recuperação que esconde 8 factos num documento longo e pede ao modelo que os encontre todos. Os resultados mostram uma diferença crescente com o aumento do contexto:

Intervalo de Janela	GPT-5.5	Claude Opus 4.7
4K–8K	98.1%	98.3%
32K–64K	90.0%	87.1%
128K–256K	87.5%	59.2%
512K–1M	74.0%	32.2%

Em contexto curto, são iguais. Acima de 128K, o GPT-5.5 mantém a precisão enquanto o Opus 4.7 cai a pique. Na janela completa de 1M, GPT-5.5 recupera com 74.0% de precisão. Opus 4.7 recupera com 32.2%.

Uma ressalva: os números Graphwalks do Opus 4.7 na tabela da OpenAI estão etiquetados como Opus 4.6, não Opus 4.7. A Anthropic não publicou de forma independente as pontuações de recuperação de contexto longo do Opus 4.7. As figuras MRCR v2 são mais fiáveis para esta comparação.

Para workloads que usam genuinamente uma grande fração de uma janela de 1M tokens (analisar um monorepo completo, ler um ano de registos legais, processar um grande corpus de dados de clientes) GPT-5.5 é o modelo mais fiável a essa escala.

Tarefas Profissionais e de Investigação

FinanceAgent v1.1 executa tarefas autónomas de análise financeira multi-step. Claude Opus 4.7 pontua 64.4%. GPT-5.5 pontua 60.0%. Para trabalho de agentes financeiros, Opus 4.7 lidera.

GDPval mede performance em 44 profissões: um proxy amplo para trabalho de conhecimento. GPT-5.5 pontua 84.9%. Opus 4.7 pontua 80.3%. GPT-5.5 lidera aqui.

OfficeQA Pro cobre fluxos de trabalho de escritório com documentos pesados. GPT-5.5 pontua 54.1%. Opus 4.7 pontua 43.6%. GPT-5.5 lidera por 10 pontos.

Humanity's Last Exam cobre questões académicas extremamente difíceis que requerem raciocínio de nível de pós-graduação. Sem ferramentas: Opus 4.7 com 46.9%, GPT-5.5 com 41.4%. Com ferramentas: Opus 4.7 com 54.7%, GPT-5.5 com 52.2%. Opus 4.7 lidera no raciocínio académico profundo.

FrontierMath cobre matemática de nível de competição. Tier 4 é a classe mais difícil. GPT-5.5 pontua 35.4% no Tier 4 contra 22.9% do Opus 4.7. Uma diferença de 12.5 pontos. Para trabalho quantitativo difícil, GPT-5.5 ganha.

ARC-AGI-2 é raciocínio abstrato em padrões visuais novos. GPT-5.5 pontua 85.0%. Opus 4.7 pontua 75.8%. Uma diferença clara de 9 pontos. GPT-5.5 é significativamente mais forte na generalização de padrões.

Custo por Workload

O preço de entrada é idêntico: $5 por milhão de tokens para ambos. O preço de saída difere.

Sessão de programação diária (200K tokens no total, 60% de saída):

Modelo	Custo por sessão
Claude Opus 4.7	$1.70
GPT-5.5	$2.00

Run de agente longa (500K tokens, 70% de saída):

Modelo	Custo
Claude Opus 4.7	$9.25
GPT-5.5	$10.75

Automação de alto volume (10M tokens por mês, 70% de saída):

Modelo	Custo mensal
Claude Opus 4.7	$185
GPT-5.5	$215

Em escala, o preço de saída mais barato do Opus 4.7 poupa dinheiro real. Essa diferença de 17% na saída não é um erro de arredondamento em pipelines de grande escala.

GPT-5.5 Pro a $30/$180 está numa categoria diferente. Visa casos de uso em domínios regulados (banca de investimento, revisão legal, pesquisa de alto risco) onde o custo por chamada é pequeno em relação ao valor da saída.

O Problema de Fiabilidade dos Dados

A maioria dos números neste post vem do próprio system card da OpenAI. Isso significa que a OpenAI correu os benchmarks de todos os modelos, incluindo o Opus 4.7, usando os seus próprios harnesses.

Alguns problemas específicos de fiabilidade:

Diferenças de harness. Terminal-Bench foi executado pela OpenAI com um scaffold Codex CLI e pela Anthropic com Terminus-2. A diferença de 13 pontos pode reduzir ou aumentar com harnesses equivalentes.

Figuras de contexto longo do Opus. As tabelas Graphwalks da OpenAI usam dados do Opus 4.6 para algumas células, como indicado. Os números de contexto longo do Opus 4.7 não foram publicados de forma independente pela Anthropic.

Expert-SWE. Benchmark interno da OpenAI, sem replicação externa possível.

Mismatch de metodologia no Tau2-bench. GPT-5.5 foi testado sem ajuste de prompt; outros modelos não. A figura de 98.0% não é comparável em igualdade de condições.

Pontuações do GPT-5.5 Pro. Vários benchmarks listam uma figura da variante "Pro" a par do número padrão do GPT-5.5. A variante Pro custa 6x mais. Comparar Pro com o Opus 4.7 padrão é comparar alhos com bugalhos no custo.

Benchmarks independentes de terceiros (HELM, LMSYS, Artificial Analysis) ainda não tinham indexado o GPT-5.5 hoje. Estes números vão mudar à medida que as avaliações externas chegarem.

Como Rotear Entre os Dois Modelos

Quatro regras de decisão claras:

Trabalho de PR estilo SWE-Bench, tool chains MCP, agentes financeiros e raciocínio académico. Opus 4.7. Mantém melhor precisão em tarefas reais de codebase e lidera na orquestração de ferramentas em escala. O preço de saída 17% mais barato torna-o o padrão para runs longas.

Agentes pesados em terminal, fluxos de trabalho Codex, matemática de fronteira, raciocínio estilo ARC-AGI e contextos grandes acima de 128K tokens. GPT-5.5. A vantagem no Terminal-Bench é grande. A precisão de contexto longo em 1M tokens não tem comparação.

Pesquisa web e síntese. GPT-5.5 Pro se a precisão importa. BrowseComp a 90.1% Pro vs 79.3% para Opus 4.7 é uma diferença real para fluxos de trabalho pesados em recuperação.

Pipelines sensíveis ao orçamento e pesados em saída. Opus 4.7. A diferença de $5 por milhão de tokens de saída acumula em automação de grande escala.

Ambos os modelos estão GA na API do Claude e nas plataformas cloud da Anthropic hoje. A API do GPT-5.5 ainda está a ser lançada. Se precisas de entregar algo agora, Opus 4.7 está disponível em todo o lado. GPT-5.5 vai chegar a breve prazo.

FAQ

Claude Opus 4.7 é melhor que o GPT-5.5?

Depende completamente da tarefa. Opus 4.7 lidera no SWE-Bench Pro (64.3% vs 58.6%), orquestração de ferramentas MCP Atlas (79.1% vs 75.3%), FinanceAgent (64.4% vs 60.0%) e Humanity's Last Exam. GPT-5.5 lidera no Terminal-Bench 2.0 (82.7% vs 69.4%), FrontierMath Tier 4, ARC-AGI-2 (85.0% vs 75.8%) e recuperação de contexto longo acima de 128K tokens. Para resolução de PRs reais e agentes MCP, Opus 4.7 ganha. Para agentes de terminal e investigação em escala, GPT-5.5 ganha.

Quanto custa o GPT-5.5?

A API padrão custa $5 por milhão de tokens de entrada e $30 por milhão de tokens de saída. GPT-5.5 Pro custa $30 de entrada e $180 de saída por milhão de tokens. Os preços Batch e Flex correm a metade da tarifa padrão. A API ainda não está disponível em geral a 23 de abril de 2026. Está a ser lançada nos endpoints Responses e Chat Completions. Acesso via ChatGPT e Codex está disponível agora para os planos Plus, Pro, Business e Enterprise.

Qual modelo é melhor para tarefas de programação agêntica?

Ambos são fortes. Claude Opus 4.7 tem vantagem na resolução de PRs estilo SWE-Bench, orquestração de ferramentas MCP e raciocínio multi-step coerente com ferramentas. GPT-5.5 lidera em tarefas de linha de comando no Terminal-Bench e implementação de novas funcionalidades no Codex, e usa menos tokens para completar tarefas Codex do que o GPT-5.4. O tipo de tarefa do agente é que determina qual modelo usar.

Qual modelo tem melhor performance em contexto longo?

GPT-5.5 em escala. Recuperação MRCR v2 em 512K-1M tokens: GPT-5.5 com 74.0% contra 32.2% do Opus 4.7. Ambos têm uma janela de contexto de 1M tokens, mas o GPT-5.5 mantém a precisão de recuperação em mais dessa janela. Para workloads que genuinamente precisam de ler e raciocinar sobre centenas de milhares de tokens, GPT-5.5 é a opção mais fiável acima de 128K.

GPT-5.5 já está disponível na API?

Não completamente. A 23 de abril de 2026, GPT-5.5 está disponível no ChatGPT (Plus, Pro, Business, Enterprise) e no Codex. O lançamento da API para Responses e Chat Completions é descrito como "muito em breve." Claude Opus 4.7 está GA na API da Anthropic, Amazon Bedrock, Google Vertex AI e Anthropic Foundry.

Páginas Relacionadas

Claude Opus 4.7 para a análise completa de capacidades e segurança do Opus 4.7
Claude Opus 4.7 vs Outros Modelos de Fronteira para uma comparação de cinco modelos incluindo DeepSeek e Gemini
Guia de seleção de modelos para switching por tarefa dentro do Claude Code
Todos os Modelos Claude para a linha do tempo completa de modelos da Anthropic

Claude Opus 4.7 vs GPT-5.5

On this page