Claude Opus 4.7 vs GPT-5.5

GPT-5.5 est sorti aujourd'hui. 23 avril 2026. C'est maintenant le modèle OpenAI le plus puissant en prod, et le premier vrai concurrent de Claude Opus 4.7 depuis son lancement il y a une semaine. Les deux modèles sont au sommet. Les deux coûtent 5 $ par million de tokens en entrée. Et les deux revendiquent la première place selon le benchmark que tu regardes.

Ce post s'appuie sur la system card officielle d'OpenAI, des tests tiers de MindStudio et Scale AI, et des décisions de routage réelles pour répondre à une seule question : quel modèle tu utilises, et quand ?

Réponse rapide : quel modèle gagne selon la tâche

La version courte avant les détails :

Tâche	Meilleur modèle	Écart
Résolution de PR et refactorings réels	Claude Opus 4.7	64,3 % vs 58,6 % sur SWE-Bench Pro
Agents ligne de commande et travail terminal	GPT-5.5	82,7 % vs 69,4 % sur Terminal-Bench 2.0
Orchestration d'outils multi-étapes (MCP)	Claude Opus 4.7	79,1 % vs 75,3 % sur MCP Atlas
Recherche web et navigation	GPT-5.5 Pro	90,1 % vs 79,3 % sur BrowseComp
Contexte long à 1M tokens	GPT-5.5	74,0 % vs 32,2 % sur MRCR v2 8-needle
Finance	Claude Opus 4.7	64,4 % vs 60,0 % sur FinanceAgent v1.1
Maths de pointe (niveau difficile)	GPT-5.5	35,4 % vs 22,9 % sur FrontierMath Tier 4
Raisonnement abstrait	GPT-5.5	85,0 % vs 75,8 % sur ARC-AGI-2

Aucun modèle ne gagne partout. La tâche détermine le choix.

Ce qu'est vraiment GPT-5.5

GPT-5.5 est un nouveau modèle frontier d'OpenAI, pas une révision mineure de GPT-5.4. OpenAI l'a co-conçu avec les systèmes NVIDIA GB200 et GB300 NVL72. Il égale la latence par token de GPT-5.4 avec une intelligence supérieure, et utilise bien moins de tokens pour accomplir les mêmes tâches Codex.

Specs clés :

Spec	GPT-5.5	Claude Opus 4.7
Fenêtre de contexte (API)	1M tokens	1M tokens
Fenêtre de contexte (Codex)	400K tokens	N/A
Prix API en entrée	5 $ par 1M tokens	5 $ par 1M tokens
Prix API en sortie	30 $ par 1M tokens	25 $ par 1M tokens
Variante Pro/xhigh	30 $/180 $ par 1M tokens	Pas de surcoût
Statut API	Pas encore GA (ChatGPT + Codex live)	GA sur API, Bedrock, Vertex, Foundry

Un chiffre à retenir sur le prix : Claude Opus 4.7 est 17 % moins cher en sortie à 25 $ par million de tokens contre 30 $ pour GPT-5.5. Sur les workloads où la sortie est volumineuse (génération de code longue, runs d'agents multi-tours, rédaction de documents) cet écart se creuse vite.

GPT-5.5 Pro à 30 $/180 $ est un palier tarifaire séparé, ciblant les travaux de recherche les plus exigeants et les domaines réglementés. C'est 6 fois le tarif de sortie standard.

Code : qui gagne dépend du type de tâche

C'est là que la séparation est la plus nette.

SWE-Bench Pro mesure la résolution de vrais tickets GitHub : les bug reports et demandes de features que les devs soumettent sur des repos en prod. Claude Opus 4.7 score 64,3 %. GPT-5.5 score 58,6 %. Gemini 3.1 Pro est à 54,2 %. Pour la résolution de PR (lire un codebase cassé, trouver la cause racine, écrire un fix qui passe les tests) Opus 4.7 est devant.

Terminal-Bench 2.0 mesure les tâches d'agents en ligne de commande : scripts shell longue durée, workflows CLI multi-étapes, infra automatisée. GPT-5.5 score 82,7 %. Claude Opus 4.7 score 69,4 %. C'est 13 points d'écart. Pour les pipelines d'agents lourds en terminal, GPT-5.5 est le meilleur choix.

Une nuance importante : OpenAI a fait tourner Terminal-Bench avec un harness Codex CLI. Anthropic a utilisé le scaffold Terminus-2. Les environnements d'évaluation diffèrent, donc l'écart de 13 points est indicatif, pas précis.

Expert-SWE est une évaluation interne OpenAI sur une classe plus difficile de problèmes de génie logiciel. GPT-5.5 score 73,1 %. Aucun chiffre comparable d'Opus 4.7 n'existe pour ce benchmark. Anthropic n'en a pas publié.

Le test live de MindStudio (lancé le 21 avril, avant la sortie de GPT-5.5) a mis Claude Opus 4.7 face à GPT-5.4 sur une migration TypeScript de 465 fichiers. Opus 4.7 a produit un taux de correction de 5,8 % ; GPT-5.4 a atteint 13,1 %. Opus 4.7 a levé 14 flags d'ambiguïté qui ont évité des erreurs en aval ; GPT-5.4 en a levé 3. GPT-5.4 a fini plus vite. Ce test porte sur GPT-5.4, pas GPT-5.5. GPT-5.5 est nettement amélioré. Mais le pattern observé (Claude signale plus, attrape plus, tourne plus lentement) va probablement se perpétuer.

Le découpage pratique pour le code :

Utilise Opus 4.7 pour la résolution de PR, les refactorings, les gros codebases désordonnés, et les chaînes d'outils MCP lourdes. Utilise GPT-5.5 pour les pipelines lourds en terminal, l'implémentation de nouvelles features dans Codex, et les tâches d'implémentation bien délimitées avec des specs propres.

Agents : cohérence longue portée vs performance terminal

Les deux modèles sont conçus pour le travail agentique. Ils ne sont pas également bons sur le même type d'agents.

MCP Atlas est le benchmark pour l'orchestration d'outils à grande échelle : agents multi-tours appelant de nombreux outils en séquence, gérant des résultats inattendus, maintenant l'état. Claude Opus 4.7 score 79,1 %. GPT-5.5 score 75,3 %. Gemini 3.1 Pro est à 78,2 %. Pour les workflows natifs MCP où l'agent appelle des services externes, lit des fichiers, interroge des APIs et synthétise à travers les outils, Opus 4.7 garde l'avantage.

Terminal-Bench 2.0 (déjà couvert plus haut) : GPT-5.5 mène de 13 points sur le travail agentique en ligne de commande.

Toolathlon est une évaluation d'usage d'outils multi-modal. GPT-5.5 score 55,6 %. Aucun chiffre comparable d'Opus 4.7 n'a été publié.

Tau2-bench Telecom (tâches d'agents service client) : GPT-5.5 score 98,0 %. Ce chiffre vient avec une note : Tau2-bench a été lancé pour GPT-5.5 sans tuning de prompt, alors que les entrées des autres labs ont été évaluées avec des ajustements de prompt. La comparaison n'est pas fiable sans méthodologie identique.

OSWorld-Verified (utilisation d'un ordinateur de bureau, navigation dans de vraies interfaces) : GPT-5.5 score 78,7 %, Opus 4.7 score 78,0 %. Pratiquement ex aequo.

Pour les pipelines d'agents dans Claude Code et l'API Claude, la disponibilité immédiate d'Opus 4.7 sur Bedrock, Vertex AI, Anthropic Foundry et l'API Claude est un avantage opérationnel concret. L'API de GPT-5.5 arrive "très bientôt." Elle n'est pas encore disponible.

Contexte long : GPT-5.5 prend le dessus à grande échelle

Les deux modèles ont une fenêtre de contexte de 1M tokens. Mais à quel point ils utilisent vraiment cette fenêtre, c'est une autre question.

OpenAI a publié les scores MRCR v2 8-needle : un benchmark de récupération qui cache 8 faits dans un long document et demande au modèle de tous les trouver. Les résultats montrent un écart qui se creuse avec la taille du contexte :

Taille de fenêtre	GPT-5.5	Claude Opus 4.7
4K–8K	98,1 %	98,3 %
32K–64K	90,0 %	87,1 %
128K–256K	87,5 %	59,2 %
512K–1M	74,0 %	32,2 %

Sur des contextes courts, ils sont à égalité. Au-delà de 128K, GPT-5.5 maintient sa précision pendant qu'Opus 4.7 chute fortement. À la fenêtre complète de 1M, GPT-5.5 récupère à 74,0 %. Opus 4.7 à 32,2 %.

Une nuance : les chiffres Graphwalks d'Opus 4.7 dans le tableau d'OpenAI sont étiquetés Opus 4.6, pas Opus 4.7. Anthropic n'a pas publié indépendamment les scores de récupération longue portée d'Opus 4.7. Les chiffres MRCR v2 sont plus fiables pour cette comparaison.

Pour les workloads qui utilisent vraiment une grande partie d'une fenêtre de 1M tokens (analyser un monorepo entier, lire une année de dossiers juridiques, traiter un grand corpus de données clients) GPT-5.5 est le modèle le plus fiable à cette échelle.

Tâches professionnelles et de recherche

FinanceAgent v1.1 fait tourner des tâches autonomes d'analyse financière multi-étapes. Claude Opus 4.7 score 64,4 %. GPT-5.5 score 60,0 %. Pour le travail d'agents financiers, Opus 4.7 est devant.

GDPval mesure la performance sur 44 professions : un proxy large pour le travail de connaissance. GPT-5.5 score 84,9 %. Opus 4.7 score 80,3 %. GPT-5.5 mène ici.

OfficeQA Pro couvre les workflows de bureau lourds en documents. GPT-5.5 score 54,1 %. Opus 4.7 score 43,6 %. GPT-5.5 mène de 10 points.

Humanity's Last Exam couvre des questions académiques extrêmement difficiles qui nécessitent un raisonnement de niveau doctoral. Sans outils : Opus 4.7 à 46,9 %, GPT-5.5 à 41,4 %. Avec outils : Opus 4.7 à 54,7 %, GPT-5.5 à 52,2 %. Opus 4.7 mène sur le raisonnement académique de fond.

FrontierMath couvre les maths de compétition. Le Tier 4 est la classe la plus difficile. GPT-5.5 score 35,4 % sur le Tier 4 contre 22,9 % pour Opus 4.7. Un écart de 12,5 points. Pour le travail quantitatif difficile, GPT-5.5 gagne.

ARC-AGI-2 est le raisonnement abstrait sur des motifs visuels nouveaux. GPT-5.5 score 85,0 %. Opus 4.7 score 75,8 %. Un écart clair de 9 points. GPT-5.5 est nettement plus fort sur la généralisation de patterns.

Coût par workload

Le prix en entrée est identique : 5 $ par million de tokens pour les deux. Le prix en sortie diffère.

Session de code quotidienne (200K tokens au total, 60 % en sortie) :

Modèle	Coût par session
Claude Opus 4.7	1,70 $
GPT-5.5	2,00 $

Run d'agent long (500K tokens, 70 % en sortie) :

Modèle	Coût
Claude Opus 4.7	9,25 $
GPT-5.5	10,75 $

Automatisation à haut volume (10M tokens par mois, 70 % en sortie) :

Modèle	Coût mensuel
Claude Opus 4.7	185 $
GPT-5.5	215 $

À l'échelle, le prix de sortie moins cher d'Opus 4.7 représente une économie réelle. Ces 17 % d'écart en sortie, c'est pas anodin sur de gros pipelines.

GPT-5.5 Pro à 30 $/180 $ est dans une catégorie à part. Il cible les cas d'usage en domaines réglementés (banque d'investissement, revue juridique, recherche à enjeux élevés) où le coût par appel est faible par rapport à la valeur de la sortie.

Le problème de fiabilité des données

La plupart des chiffres de ce post viennent de la system card d'OpenAI. Ça veut dire qu'OpenAI a fait tourner les benchmarks de tous les modèles, y compris Opus 4.7, avec ses propres harnesses.

Quelques problèmes de fiabilité spécifiques :

Différences de harness. Terminal-Bench a été lancé par OpenAI avec un scaffold Codex CLI et par Anthropic avec Terminus-2. L'écart de 13 points pourrait se réduire ou s'élargir sur un harness identique.

Chiffres Opus longue portée. Les tableaux Graphwalks d'OpenAI utilisent des données Opus 4.6 pour certaines cellules, étiquetées comme telles. Les chiffres de contexte long d'Opus 4.7 ne sont pas publiés indépendamment par Anthropic.

Expert-SWE. Benchmark interne OpenAI, impossible à répliquer en externe.

Décalage de méthodologie Tau2-bench. GPT-5.5 a été testé sans tuning de prompt ; les autres modèles ne l'ont pas été. Le chiffre de 98,0 % n'est pas comparable à égalité.

Scores GPT-5.5 Pro. Plusieurs benchmarks listent un chiffre variante "Pro" à côté du chiffre GPT-5.5 standard. La variante Pro coûte 6 fois plus. Comparer Pro avec Opus 4.7 standard, c'est comparer des pommes et des oranges sur le plan du coût.

Les benchmarks tiers indépendants (HELM, LMSYS, Artificial Analysis) n'avaient pas encore indexé GPT-5.5 aujourd'hui. Ces chiffres vont évoluer à mesure que les évaluations externes arrivent.

Comment router entre les deux modèles

Quatre règles de décision claires :

Travail PR style SWE-Bench, chaînes d'outils MCP, agents financiers, et raisonnement académique. Opus 4.7. Il tient mieux la précision sur les tâches de codebase réel et mène sur l'orchestration d'outils à grande échelle. Le prix de sortie 17 % moins cher en fait le défaut pour les runs longs.

Agents lourds en terminal, workflows Codex, maths de pointe, raisonnement style ARC-AGI, et grands contextes au-delà de 128K tokens. GPT-5.5. L'avantage sur Terminal-Bench est important. La précision de contexte long à 1M tokens n'est pas comparable.

Recherche web et synthèse. GPT-5.5 Pro si la précision compte. BrowseComp à 90,1 % Pro vs 79,3 % pour Opus 4.7, c'est un vrai écart pour les workflows lourds en récupération.

Pipelines à budget serré lourds en sortie. Opus 4.7. La différence de 5 $ par million de tokens en sortie s'accumule sur l'automatisation à grande échelle.

Les deux modèles sont GA sur l'API Claude et les plateformes cloud d'Anthropic aujourd'hui. L'API de GPT-5.5 est encore en déploiement. Si tu dois livrer quelque chose maintenant, Opus 4.7 est live partout. GPT-5.5 rattrapera son retard bientôt.

FAQ

Claude Opus 4.7 est-il meilleur que GPT-5.5 ?

Tout dépend de la tâche. Opus 4.7 mène sur SWE-Bench Pro (64,3 % vs 58,6 %), l'orchestration d'outils MCP Atlas (79,1 % vs 75,3 %), FinanceAgent (64,4 % vs 60,0 %), et Humanity's Last Exam. GPT-5.5 mène sur Terminal-Bench 2.0 (82,7 % vs 69,4 %), FrontierMath Tier 4, ARC-AGI-2 (85,0 % vs 75,8 %), et la récupération longue portée au-delà de 128K tokens. Pour la résolution de PR réelle et les agents MCP, Opus 4.7 gagne. Pour les agents terminal et la recherche à grande échelle, GPT-5.5 gagne.

Quel est le prix de GPT-5.5 ?

L'API standard coûte 5 $ par million de tokens en entrée et 30 $ par million en sortie. GPT-5.5 Pro coûte 30 $ en entrée et 180 $ en sortie par million de tokens. Les tarifs Batch et Flex tournent à la moitié du tarif standard. L'API n'est pas encore généralement disponible au 23 avril 2026. Elle se déploie sur les endpoints Responses et Chat Completions. L'accès ChatGPT et Codex est live maintenant pour les plans Plus, Pro, Business et Enterprise.

Quel modèle est meilleur pour les tâches de code agentique ?

Les deux sont solides. Claude Opus 4.7 garde l'avantage sur la résolution de PR style SWE-Bench, l'orchestration d'outils MCP, et le raisonnement multi-étapes cohérent avec des outils. GPT-5.5 mène sur les tâches de ligne de commande Terminal-Bench et l'implémentation de nouvelles features dans Codex, et utilise moins de tokens pour compléter les tâches Codex que GPT-5.4. Le type de tâche agent détermine quel modèle utiliser.

Quel modèle a les meilleures performances de contexte long ?

GPT-5.5 à grande échelle. Récupération MRCR v2 à 512K-1M tokens : GPT-5.5 à 74,0 % contre Opus 4.7 à 32,2 %. Les deux ont une fenêtre de contexte de 1M tokens, mais GPT-5.5 maintient sa précision de récupération sur une plus grande partie de cette fenêtre. Pour les workloads qui ont vraiment besoin de lire et raisonner sur des centaines de milliers de tokens, GPT-5.5 est l'option la plus fiable au-delà de 128K.

GPT-5.5 est-il disponible sur l'API ?

Pas entièrement. Au 23 avril 2026, GPT-5.5 est disponible dans ChatGPT (Plus, Pro, Business, Enterprise) et dans Codex. Le déploiement API sur Responses et Chat Completions est décrit comme "très bientôt." Claude Opus 4.7 est GA sur l'API Anthropic, Amazon Bedrock, Google Vertex AI, et Anthropic Foundry.

Pages associées

Claude Opus 4.7 pour le détail complet des capacités et de la sécurité d'Opus 4.7
Claude Opus 4.7 vs autres modèles frontier pour une comparaison en cinq modèles incluant DeepSeek et Gemini
Guide de sélection de modèle pour le switching par tâche dans Claude Code
Tous les modèles Claude pour la timeline complète des modèles Anthropic

Claude Opus 4.7 vs GPT-5.5

On this page