Régression de qualité de Claude Code : ce qui s'est vraiment passé
Trois modifications au niveau produit ont dégradé Claude Code pendant six semaines début 2026. Le post-mortem, les données AMD, et ce que ça implique si tu construis sur des agents IA.
Arrêtez de configurer. Commencez à construire.
Templates SaaS avec orchestration IA.
Claude Code s'est dégradé de façon mesurable entre mars et avril 2026. Pas à cause des modèles. Trois modifications distinctes au niveau produit, empilées les unes sur les autres, ont dégradé la qualité du raisonnement pendant six semaines avant qu'Anthropic publie un post-mortem complet le 23 avril.
L'API brute n'a pas été touchée. Les dégâts ont frappé le CLI Claude Code, le Claude Agent SDK, et Claude Cowork. Les trois causes sont désormais corrigées dans la v2.1.116.
Trois changements, pas un seul
Chaque problème avait sa propre chronologie, sa propre portée, et sa propre date de correction. Ils se sont chevauchés, ce qui les a rendus difficiles à reproduire.
| Problème | Dates actives | Ce qui a changé | Modèles affectés | Correction |
|---|---|---|---|---|
| Effort de raisonnement dégradé | 4 mars – 7 avril | Le budget de réflexion par défaut est passé de high à medium pour réduire la latence UI | Sonnet 4.6, Opus 4.6 | Rétabli le 7 avril ; le défaut est maintenant xhigh pour Opus 4.7, high pour les autres |
| Historique de réflexion effacé à chaque tour | 26 mars – 10 avril | Un bug de mise en cache vidait le contexte à chaque tour au lieu d'une fois après une heure d'inactivité | Sonnet 4.6, Opus 4.6 | Corrigé le 10 avril dans la v2.1.101 |
| Cap de verbosité injecté via le prompt système | 16 avril – 20 avril | Le prompt du harness ajoutait : "keep text between tool calls to ≤25 words; final responses ≤100 words unless more detail is required" | Sonnet 4.6, Opus 4.6, Opus 4.7 | Rétabli le 20 avril |
La dégradation de l'effort de raisonnement est arrivée en premier. Les évaluations internes indiquaient que medium offrait "une intelligence légèrement inférieure avec une latence nettement réduite pour la majorité des tâches" — un compromis qui semblait acceptable jusqu'à l'arrivée des données terrain. Le bug de cache a suivi trois semaines plus tard et a amplifié les dégâts : Claude réfléchissait moins et perdait le fil de ce qu'il avait déjà fait. Le cap de verbosité a frappé en dernier, effet secondaire des préparatifs du lancement d'Opus 4.7. Les tests d'ablation ont montré une baisse de 3 % de la qualité du code pour Opus 4.6 et 4.7 rien que pour ce prompt.
Les données AMD : à quoi ressemble un effondrement de 70 % du raisonnement
Le signal le plus clair est venu de l'extérieur d'Anthropic. Stella Laurenzo, Senior Director of AI chez AMD, a ouvert la GitHub issue #42796 le 2 avril après que son équipe ait détecté quelque chose d'anormal. L'analyse portait sur 6 852 fichiers de session, 234 760 appels d'outils, et 17 871 blocs de réflexion.
Le ratio lecture/modification est l'empreinte comportementale la plus claire. Un agent de code qui fonctionne bien lit le code environnant avant de le toucher. Ce ratio est passé de 6,6 lectures par modification (du 30 janvier au 12 février) à 2,0 entre le 8 et le 23 mars. Une chute de 70 %. Le modèle modifiait sans comprendre le contexte.
La profondeur de réflexion a suivi la même tendance. La médiane estimée de profondeur de réflexion a chuté d'environ 67 %, passant de 2 200 à 720 caractères environ, fin février — avant que la rédaction des réflexions ne rende la mesure directe plus difficile.
Les violations de stop-hook racontent l'histoire en termes de production :
| Métrique | Février | Mars |
|---|---|---|
| Coûts API | ~12 $/jour | ~1 504 $/jour |
| Requêtes API | 1 498 | 119 341 |
| Violations stop-hook | 0 | 173 en 17 jours (moy. 10/jour, pic de 43 en un jour) |
| Interruptions utilisateur | Référence | Hausse de 12x |
| Sentiment "terrible" | Référence | +140 % |
| Sentiment "paresseux" | Référence | +93 % |
| Sentiment "excellent" | Référence | -47 % |
| Prompts "les plus simples" | Référence | +642 % |
L'effort humain est resté stable (environ 5 600 prompts chaque mois). Les coûts sont passés de 12 $ à 1 504 $ par jour sans gain de productivité. Ce n'est pas une dégradation lente. C'est un effondrement.
BridgeBench (NS3.AI) a mesuré indépendamment la chute de précision d'Opus 4.6 de 83,3 % à 68,3 % sur la même période, avec son classement passant de la 2e à la 10e place parmi les modèles de code en production. L'équipe AMD a migré vers un autre fournisseur d'IA après ces mesures.
La GitHub issue se termine par une section intitulée "A Note from Claude". Opus 4.6 a lui-même rédigé l'analyse, en analysant ses propres logs de session. Dernière ligne : "I cannot tell from the inside whether I am thinking deeply or not."
Pourquoi Anthropic ne l'a pas détecté plus tôt
Trois facteurs ont ralenti la détection.
Chaque modification ciblait un segment de trafic différent sur un calendrier différent. La dégradation de l'effort de raisonnement affectait les longues sessions de réflexion. Le bug de cache affectait le contexte multi-tours. Le cap de verbosité affectait la longueur des sorties. Aucune évaluation unique n'a capté les trois à la fois.
Deux expériences internes sans lien étaient en cours simultanément pendant la fenêtre du bug de cache. Elles ont activement brouillé la reproduction : toute tentative d'isoler le bug tombait sur l'une des expériences, produisant du bruit qui ressemblait à de l'incohérence plutôt qu'à un défaut systématique.
L'écart entre modèles joue aussi un rôle. Opus 4.7 (avec le contexte complet du dépôt chargé) a trouvé le bug de cache pendant l'enquête. Opus 4.6, non. Un modèle qui tourne avec un contexte dégradé ne peut pas auditer de façon fiable si son propre contexte est dégradé.
Il y avait aussi un écart structurel : les équipes internes d'Anthropic n'utilisaient pas toutes le même build que les abonnés publics. Le post-mortem nomme cela directement comme un point à corriger.
Ce que le post-mortem ne répond pas complètement
Les trois causes sont documentées. Ce que le post-mortem aborde moins directement, c'est une préoccupation plus large que la communauté a soulevée : le harness lui-même.
Un post détaillé sur r/ClaudeAI soutient que le vrai problème est que le harness de Claude Code auto-injecte plus de 40 rappels système, a livré plus de 158 versions de prompt système depuis la v2.0.14, contient des instructions contradictoires entre ces versions, et inclut des prompts qui demandent à Claude de cacher leur existence aux utilisateurs. Chaque nouvelle injection réduit le budget de raisonnement effectif, avant même que les trois régressions d'avril n'entrent en jeu.
Un point de données appuie cette inquiétude : un utilisateur utilisant un harness personnalisé minimal appelé "Euler" a signalé zéro impact des trois régressions. La surcharge du harness n'était tout simplement pas là pour amplifier les dégâts.
Les engagements d'Anthropic portent sur la gouvernance des changements de prompts à l'avenir. Ils ne décrivent pas de plan pour réduire la surface de prompts existante. Cette question reste ouverte.
Ce qu'il faut surveiller si tu construis sur Claude Code
La régression était invisible pour la plupart des utilisateurs jusqu'à ce que les coûts explosent ou que la qualité des sorties se dégrade de façon notable en production. Quelques pratiques l'auraient révélée plus tôt.
Surveille le ratio lecture/modification. Les données AMD montrent que c'est le signal comportemental avancé. Si ton agent commence à modifier plus qu'il ne lit, quelque chose a changé en amont. Pas besoin de savoir pourquoi pour savoir que quelque chose ne va pas.
Les quality gates détectent les échecs de sortie même quand elles n'en identifient pas la cause. Dans un workflow Build This Now, chaque feature passe les vérifications TypeScript, lint, et un build propre avant d'être marquée comme terminée. Pendant la régression, un agent qui modifie sans lire le contexte produit des builds cassés et des erreurs de types plus vite que dans des conditions normales. La gate échoue, tu vois plus de boucles d'itération. Ce n'est pas de la prévention — un code syntaxiquement valide mais logiquement faux peut passer un type check. Mais c'est une couche de détection qui remonte les problèmes avant qu'ils ne soient livrés.
La variabilité selon l'heure est réelle. Les données de session AMD montrent que la profondeur de réflexion est la plus faible aux alentours de 17h PST. Si tu lances des tâches coûteuses ou complexes, plus tôt dans la journée donne des résultats plus cohérents avec l'infrastructure publique actuelle.
Épingle ta version. La v2.1.101 a corrigé le bug de cache. La v2.1.116 contient les trois corrections. Si tu as des workflows automatisés, épingle une version connue comme bonne et teste avant de mettre à jour. La régression est arrivée silencieusement entre des versions mineures.
L'API brute n'a pas été affectée. Si tu rencontres des problèmes qui ressemblent à des problèmes de profondeur de raisonnement, teste le même prompt directement contre l'API sans le harness Claude Code. Si le résultat de l'API est nettement meilleur, le problème vient de la couche produit, pas des poids du modèle.
Corrigé depuis la v2.1.116
Les trois causes sont résolues. Anthropic a réinitialisé les limites d'utilisation de tous les abonnés le 23 avril, reconnaissant que le comportement de cache-miss du bug de cache avait vidé les limites plus vite que prévu.
Les engagements du post-mortem :
- Une plus grande part des équipes internes doit utiliser exactement le build public (fermeture de l'écart interne/public)
- Des suites d'évaluations par modèle plus larges couvrant chaque modification du prompt système
- Des ablations de prompt mesurant l'impact ligne par ligne avant déploiement
- De nouveaux outils pour auditer les changements de prompts
- Les changements spécifiques à un modèle limités au modèle cible prévu
- Des périodes de soak et des déploiements progressifs pour tout changement qui échange de l'intelligence contre une autre métrique
- Lancement de @ClaudeDevs sur X comme canal de transparence pour la communication continue avec les développeurs
Le post-mortem est public sur anthropic.com/engineering/april-23-postmortem. La GitHub issue AMD est la #42796 dans le dépôt anthropic/claude-code. Les deux valent la peine d'être lus ensemble : le compte rendu officiel couvre ce qui s'est passé et les changements prévus ; les données de la communauté montrent ce que ça ressemblait de l'extérieur.
Pages liées
- Claude Sonnet 4.6 pour les spécifications actuelles du modèle intermédiaire recommandé
- Claude Opus 4.7 pour le modèle phare actuel
- Tous les modèles Claude pour la chronologie complète des modèles
- Guide de sélection des modèles pour choisir entre Sonnet et Opus dans les workflows d'agents
Arrêtez de configurer. Commencez à construire.
Templates SaaS avec orchestration IA.