La courbe d'autonomie : combien de liberté peux-tu donner à un agent IA ?

L'autonomie que tu peux donner à un agent IA tient à une seule variable : combien de temps un modèle tient une tâche sans dériver. Plus un modèle enchaîne raisonnement et appels d'outils de façon fiable, plus tu peux lui lâcher la bride en un seul passage. On fait tourner un moteur d'agent depuis presque deux ans, de Claude 3.5 Sonnet à Claude Fable 5 en passant par toute la lignée Sonnet et Opus, et chaque sortie a poussé cette ligne un peu plus loin. Un bon moteur, plus un modèle qui enchaîne les longues chaînes de façon fiable, c'est ce qui transforme « l'IA qui écrit du code » en « l'IA qui fait le boulot ».

Ce que « l'autonomie » veut vraiment dire pour un agent

L'autonomie n'est pas une option que tu actives. C'est la quantité de travail que tu peux déléguer en un seul passage avant de devoir revenir corriger.

Un agent à faible autonomie reçoit une consigne petite et bien cadrée, l'exécute, puis s'arrête. Tu relis, tu reformules, tu recommences. Un agent à forte autonomie reçoit un objectif, planifie les étapes lui-même, lance les outils, corrige ses propres erreurs, et revient quand tout est terminé. Ce qui sépare ces deux extrêmes, ce n'est pas le moteur tout seul. C'est la capacité du modèle à rester sur les rails au fil d'une longue chaîne de décisions.

Voilà la seule variable. Tout le reste en découle.

Deux définitions avant d'aller plus loin, parce que la suite du post s'appuie dessus :

Claude Fable 5 est le tout dernier modèle d'Anthropic, conçu pour le travail complexe, autonome et de longue haleine. Il coûte $10 par 1M de tokens en entrée et $50 par 1M de tokens en sortie, avec une fenêtre de contexte de 1M de tokens.
Claude Opus 4.8 (sorti en mai 2026) est le modèle Opus le plus capable d'Anthropic pour le code au quotidien et le travail d'agent. Il coûte $5 par 1M de tokens en entrée et $25 par 1M de tokens en sortie.

La courbe qu'on a vraiment vue grimper

On n'a pas théorisé ça. On l'a vécu. Notre moteur tourne sans interruption depuis Claude 3.5 Sonnet, et chaque sortie de modèle nous a laissés supprimer un peu de code de surveillance et lâcher un peu plus de bride à l'agent.

Voici la courbe, qualitativement, époque par époque. Aucun benchmark inventé. Juste ce que chaque palier nous a permis de faire.

Époque du modèle	La bride qu'on pouvait lâcher	À quoi ça ressemblait en pratique
Claude 3.5 Sonnet	Tâches courtes et très cadrées	Un fichier à la fois. Beaucoup de relecture humaine entre les étapes. Le moteur faisait l'essentiel du travail de cadrage.
Lignée Sonnet / Opus 4.x	Tâches moyennes, moins de points de contrôle	Des modifs multi-fichiers en un seul passage. Le modèle tenait un plan sur plusieurs appels d'outils avant de dériver.
Claude Opus 4.8	Longues tâches d'agent, choix par défaut au quotidien	Du travail long-terme à l'état de l'art, à un prix qui en fait le modèle de tous les jours pour coder.
Claude Fable 5	Tâches « tu lances et tu pars »	Les runs les plus longs et les plus durs. Plus de liberté en un passage, et ça tient sans dériver.

C'est la forme qui compte. Chaque époque n'est pas juste devenue « plus intelligente » dans l'abstrait. Elle est devenue meilleure sur la seule propriété qui décide de l'autonomie : enchaîner une longue chaîne de façon fiable.

Pourquoi un bon moteur compte toujours

Plus d'autonomie n'est pas qu'une affaire de modèle. C'est aussi une affaire de moteur.

Un modèle qui enchaîne de longues chaînes de façon fiable est gaspillé si le moteur autour de lui ne peut pas lui donner de marge. Et un super moteur enroulé autour d'un modèle qui dérive après trois étapes ne fait qu'échouer plus vite. C'est le duo qui décide jusqu'où tu peux aller.

Concrètement, le moteur est ce qui :

Donne à l'agent les bons outils, cadrés sur ce dont la tâche a besoin.
Attrape les erreurs et les renvoie au modèle pour qu'il se corrige au lieu de caler.
Maintient l'objectif stable pour que le modèle n'ait pas à re-déduire à chaque tour ce qu'il est censé faire.
Pose la limite, pour qu'un long run autonome ne parte pas vers quelque chose de coûteux ou de destructeur.

Quand le modèle devient plus fiable sur les longues chaînes, tu peux sortir du travail du moteur et le confier au modèle. C'est ce que chaque sortie sur la courbe nous a permis de faire. Moins de code de surveillance. Plus de confiance par passage.

C'est la même idée qu'on développait dans Le code n'est pas le goulot d'étranglement : le code est rarement le plus dur. Le plus dur, c'est tout ce qui entoure le code et qui décide si le travail finit vraiment en prod.

Ce qui change avec Claude Fable 5

La vraie différence avec Claude Fable 5, ce n'est pas un chiffre sur un graphique. C'est la marge que tu peux lui donner.

Tu peux lui confier une tâche plus longue, lui laisser plus de liberté en un seul passage, et ça tient sans dériver. Pour un moteur d'agent, cette seule propriété fait plus que relever le plafond. La fiabilité sur les longues chaînes absorbe une partie de la charge de QA, parce qu'un run qui ne dérive pas, c'est un run que tu n'as pas à surveiller et re-vérifier étape par étape.

Et ça compte, parce que la QA est l'endroit où se cache le plus gros du coût. On a détaillé tout l'argument dans La QA est le vrai goulot d'étranglement de l'IA, publié le même jour que ce post. Un modèle qui reste sur les rails plus longtemps n'est pas juste plus capable. Il réduit en silence la partie la plus chère de la boucle.

Le compromis : quand sortir Fable 5

Fable 5 n'est pas le choix par défaut. C'est l'outil que tu sors quand la tâche le mérite.

À $10 en entrée et $50 en sortie par 1M de tokens, il est fait pour les runs longs, durs et autonomes, pas pour chaque petite modif. Pour le code au quotidien, Claude Opus 4.8 à $5 en entrée et $25 en sortie par 1M de tokens reste le meilleur rapport, et il est vraiment solide sur le travail d'agent.

Voici la règle qu'on applique :

Prends Claude Opus 4.8 quand tu es dans la boucle. Code interactif, itération rapide, le modèle de tous les jours.
Prends Claude Fable 5 quand tu veux confier une longue tâche et partir. Les runs où la fiabilité sur une longue chaîne vaut le coût.

La version honnête : choisis le modèle selon la longueur et l'enjeu du run, pas selon le titre en gros. La plupart de ton travail n'a pas besoin de Fable 5. Le travail qui en a besoin, en a vraiment besoin.

FAQ

Combien d'autonomie peux-tu donner à un agent IA de code ?

Autant que le modèle peut en tenir sans dériver. La seule variable qui décide de l'autonomie d'un agent, c'est la fiabilité avec laquelle un modèle enchaîne une longue chaîne de raisonnement et d'appels d'outils en un seul passage. Un bon moteur pose les limites et renvoie les erreurs, mais c'est la fiabilité du modèle sur les longues chaînes qui détermine combien de travail tu peux déléguer avant de devoir revenir.

Claude Fable 5 est-il meilleur que Claude Opus 4.8 pour les agents ?

Pour les runs longs, durs et autonomes, oui. Claude Fable 5 est le tout dernier modèle d'Anthropic pour le travail complexe et de longue haleine ($10 en entrée / $50 en sortie par 1M de tokens) et il tient une tâche plus longue sans dériver. Pour le code interactif au quotidien, Claude Opus 4.8 ($5 en entrée / $25 en sortie par 1M de tokens, mai 2026) offre un meilleur rapport et reste solide sur le travail d'agent. Sors Fable 5 quand tu veux lancer et partir.

Quelle est la différence entre un modèle et un moteur dans l'autonomie d'un agent ?

Le modèle décide combien de temps il peut faire tourner une tâche de façon fiable. Le moteur décide combien de marge le modèle reçoit pour tourner. Un modèle fiable dans un moteur faible est privé de marge. Un super moteur autour d'un modèle qui dérive ne fait qu'échouer plus vite. L'autonomie est le produit des deux, et c'est pour ça qu'améliorer l'un ou l'autre te laisse déléguer plus de travail.

Plus d'autonomie réduit-elle la charge de QA ?

Oui, indirectement. Un modèle qui enchaîne une longue chaîne sans dériver produit un run que tu n'as pas à vérifier étape par étape, donc la fiabilité sur les longues chaînes absorbe une partie du coût de QA. C'est pour ça que la fiabilité long-terme compte plus, pour un moteur d'agent, que la capacité brute sur une seule étape.

On a vu la courbe d'autonomie grimper de Claude 3.5 Sonnet à Claude Fable 5, et le prochain palier la poussera encore. Si tu veux voir comment le choix du modèle s'inscrit dans le reste du tableau, commence par le meilleur modèle IA pour coder en 2026, ou lis les détails sur Claude Fable 5 et Claude Opus 4.8. Toute la gamme est dans tous les modèles.

La courbe d'autonomie : combien de liberté peux-tu donner à un agent IA ?

On this page