Claude Opus 4.6

Opus 4.6, c'est le nouveau flagship d'Anthropic. La planification est plus réfléchie. Les sessions agent restent cohérentes plus longtemps. Les grandes bases de code sont moins hostile à naviguer. Et Claude repère ses propres bugs avant toi. C'est aussi la première version de la gamme Opus à sortir avec une fenêtre de 1M tokens en disponibilité générale, et la sortie atteint maintenant 128K tokens.

Le code, c'est le grand changement. Et le prix reste fixe à $5/$25 par million de tokens, pendant que les scores sur les évaluations les plus difficiles ont monté partout. Les chiffres bruts sont dans la section benchmarks ci-dessous.

Specs clés

Spec	Détails
API ID	`claude-opus-4-6`
Date de sortie	5 février 2026
Fenêtre de contexte	1M tokens (GA depuis mars 2026)
Sortie max	128 000 tokens
Tarif	$5 entrée / $25 sortie par 1M tokens
Statut	Actif, Opus recommandé actuel

Ce qui a changé : les améliorations en code

Anthropic utilise Claude en interne. Chaque ingénieur Anthropic travaille dans Claude Code au quotidien, et rien ne sort tant que ça ne passe pas le test interne. Les gains de la 4.6 sont concrets et pratiques.

La planification est plus soignée. Avant de s'engager dans une approche, le modèle prend plus de temps avec le problème, relit son propre raisonnement, repère les erreurs logiques plus tôt, et produit un meilleur premier jet sur les tâches difficiles.

Les sessions agent restent cohérentes. Les anciens modèles dérivaient après un moment. Ici, la concentration tient tout au long des longues sessions. Un workflow qui enchaîne appel après appel d'outil, des dizaines de fois, arrive plus souvent au bout maintenant.

Les grandes bases de code sont moins hostiles. Naviguer dans de gros projets, les lire, et les modifier, tout ça s'est amélioré. Claude garde une vision plus claire de la structure et des conventions du projet tout au long d'une longue session.

La revue et le débogage frappent plus fort. Attraper ses propres erreurs est nettement meilleur, et les revues sont plus approfondies. Tracer un bug dans une chaîne de dépendances nécessite maintenant bien moins de guidage de ta part.

Le travail simple va vite. Le raisonnement profond est réservé aux étapes difficiles, et Opus 4.6 ne s'attarde plus sur les évidences. Tu le surprends à sur-réfléchir quelque chose de simple ? Baisse l'effort par défaut de high à medium avec /effort.

Résultats des benchmarks

De nouveaux records dans plusieurs catégories.

Benchmark	Score	Comparaison notable
Terminal-Bench 2.0	65,4%	GPT-5.2 : 64,7%
GDPval-AA Elo	1 606	144 Elo au-dessus de GPT-5.2, 190 au-dessus d'Opus 4.5
Humanity's Last Exam	Leader	Le plus haut parmi tous les modèles frontier
BrowseComp	Leader	Meilleur pour trouver des infos difficiles à localiser en ligne
OSWorld	72,7%	État de l'art pour l'utilisation informatique
MRCR v2 (8-needle)	78,3%	Le plus haut parmi les modèles frontier à 1M de contexte

Dans Claude Code, le benchmark à surveiller est Terminal-Bench 2.0. Il note le vrai travail en terminal : code, tâches sysadmin, et gestion de fichiers. La première place ici signifie qu'Opus 4.6 est le meilleur choix pour ce qu'un développeur fait réellement toute la journée en ligne de commande.

GDPval-AA est à l'opposé du spectre. Il mesure le travail intellectuel qui génère de la vraie valeur économique, en finance, en droit, et dans le reste des métiers du tertiaire. L'avance sur le meilleur modèle concurrent est large.

Le chiffre MRCR v2 compte pour une raison différente. La "context rot" (dégradation des réponses quand la conversation s'allonge) est la plainte habituelle. Cette dérive rétrécit ici. Sur de très longues fenêtres, Opus 4.6 garde sa prise sur les petits détails et retrouve des faits enfouis que la version précédente ratait. Le score de 78,3% est un vrai changement dans la façon dont Claude exploite la fenêtre de contexte.

Humanity's Last Exam teste le raisonnement multidisciplinaire, et aucun modèle frontier ne dépasse Opus 4.6. BrowseComp note comment le modèle déniche des informations vraiment difficiles à trouver en ligne. OSWorld évalue l'utilisation réelle d'un ordinateur de bureau. La nouvelle version prend la tête sur les trois.

Fenêtre de contexte 1M tokens et sortie 128K

Depuis mars 2026, la fenêtre complète de 1M est en disponibilité générale, et le tarif par token est unifié sur toute la longueur. Le taux par token d'un appel à 900K tokens est le même que pour 9K tokens. Aucun header beta n'est nécessaire. Les anciens headers beta sont silencieusement ignorés.

Les limites media ont été multipliées par 6 au lancement GA. Le plafond par requête est maintenant de 600 images ou pages PDF, contre 100 avant. Les limites de débit restent à leurs valeurs maximales quelle que soit la longueur du contexte.

La sortie a aussi grandi. Le plafond est passé de 16K à 128K tokens, ce qui permet à Claude de terminer des tâches de grande sortie en un seul appel. Des modules entiers ou de longues analyses peuvent maintenant revenir en une seule réponse au lieu d'être découpés sur plusieurs.

Dans Claude Code, la fenêtre complète de 1M est activée par défaut sur les plans Max, Team, et Enterprise. Anthropic rapporte une baisse de 15% des événements de compaction, donc les longues conversations survivent maintenant de bout en bout sans que la résumé avec pertes ne se déclenche. Quel que soit le workflow de gestion de contexte que tu utilises déjà, il fonctionne toujours. Tu butes juste moins souvent sur le plafond.

Profil de sécurité

Plus intelligent ne veut pas dire moins sûr. Anthropic effectue un audit comportemental automatisé, et Opus 4.6 a eu de faibles scores sur les comportements qui comptent : tromperie, sycophantie, renforcement des illusions des utilisateurs, et complicité dans les abus. Son alignement est au même niveau qu'Opus 4.5, le précédent record-holder pour la meilleure version frontier alignée.

Les requêtes légitimes passent aussi plus souvent. Opus 4.6 affiche le taux de sur-refus le plus bas de toutes les récentes versions de Claude. Les vraies demandes sont moins bloquées.

Le chiffre cybersécurité est le plus marquant. Sur une exécution interne, le modèle a trouvé 500+ failles zero-day de haute sévérité inconnues dans des bibliothèques open-source. Anthropic pousse plus fort dans cette direction, dirigeant le modèle vers les projets OSS pour chasser et corriger les failles enfouies. Les équipes sécurité peuvent déployer Opus 4.6 en revue de code comme scanner de vulnérabilités en premier passage.

Nouvelles fonctionnalités API et produit

La mise à jour du modèle est arrivée avec plusieurs nouvelles fonctionnalités.

Pensée adaptative. La pensée étendue était auparavant un interrupteur binaire. Claude choisit maintenant lui-même les moments pour réfléchir plus longtemps. Avec l'effort réglé sur high (par défaut), la pensée étendue se déclenche là où elle aide. Quatre niveaux sont disponibles pour les développeurs : low, medium, high (par défaut), et max.

Compaction de contexte (bêta). Quand une longue conversation approche du plafond de contexte, Claude la résume et la compacte maintenant de lui-même. Les tâches longues continuent au lieu de manquer d'espace.

Équipes d'agents (aperçu de recherche Claude Code). Plusieurs instances de Claude peuvent maintenant fonctionner en parallèle comme une équipe coordonnée. Les tâches très gourmandes en lecture qui se divisent en morceaux indépendants, comme les revues de bases de code, sont le point fort. Tout le reste est dans le guide des équipes d'agents.

Claude dans PowerPoint (aperçu de recherche). Les mises en page, polices et masques de diapositives sont tous analysés par Claude pour que la sortie reste dans la charte graphique, que ce soit pour remplir un template ou créer un deck de zéro. Disponible sur les plans Max, Team, et Enterprise.

Tarifs

Pas de hausse de prix. La fenêtre de 1M est livrée avec un tarif unifié sur toute la longueur de contexte. L'ancien niveau premium 200K+ a été supprimé.

Niveau	Coût
Tous les contextes	$5 entrée / $25 sortie par 1M tokens
Plan Pro	$20/mois
Plan Max	$100/mois

Tu utilises Opus 4.5 avec tes dépenses bien gérées ? Le passage à 4.6 est un gain gratuit au même prix. Et si les appels en long contexte payaient le niveau premium, la facture vient de baisser.

Comment utiliser Opus 4.6 dans Claude Code

Une seule commande change le modèle par défaut :

claude config set model claude-opus-4-6

Pour une session unique, remplace-le sans toucher au défaut :

claude --model claude-opus-4-6

Le modèle est disponible partout : claude.ai, l'API Messages, AWS Bedrock, et Google Vertex AI. Sur l'API, l'identifiant à utiliser est claude-opus-4-6.

Opus 4.6 vs Opus 4.5 : ce qui a changé

Fonctionnalité	Opus 4.5	Opus 4.6
Fenêtre de contexte	200K (standard), 1M (API bêta)	1M (GA, tarif unifié)
Tokens de sortie max	16 384	128 000
Terminal-Bench 2.0	Non testé sur v2.0	65,4% (le plus haut)
GDPval-AA Elo	1 416	1 606 (+190 points)
MRCR v2	Non testé	78,3%
Sur-refus	Faible	Le plus faible de tous les modèles récents
Pensée adaptative	Non disponible	Intégrée
Compaction de contexte	Auto à 95%	Seuil configurable (bêta)
Tarif standard	$5/$25 par 1M	$5/$25 par 1M (inchangé)

La qualité du code et les sessions agent plus longues sont les gains principaux. Tout ce qu'Opus 4.5 faisait déjà bien reste en place aussi : délégation multi-agents, efficacité des tokens, paramètre d'effort. Au quotidien, les vrais gains pratiques dans Claude Code, c'est le plafond de sortie plus élevé et la pensée adaptative.

Le choix de modèle est simple. Opte pour Opus 4.6 quand la profondeur de raisonnement est ce dont le travail a besoin. Sonnet est le bon choix pour les tâches plus petites qui préfèrent la vitesse à la profondeur. Les tarifs sont maintenant à parité, donc il n'y a plus aucune raison financière de rester sur l'ancien flagship.

Claude Opus 4.6

On this page