Les cas d'usage de Claude Fable 5

Dès ses premiers jours en accès anticipé, Claude Fable 5 a fait tourner une migration à l'échelle de toute la base de code Ruby de 50 millions de lignes de Stripe, en une seule journée. Un travail qu'une équipe entière aurait mis plus de deux mois à faire à la main. Il a aussi reconstruit le code source d'une web app à partir de simples captures d'écran, dépassé les 90 % sur le benchmark analytique de Hex, et livré une semaine entière de fonctionnalités de bibliothèque pour un développeur indépendant en un après-midi.

Ce n'est pas une liste de fonctionnalités. C'est une liste de preuves. Voici ce que de vraies équipes, et un testeur indépendant très public, ont réellement fait avec claude-fable-5 dans ses 48 premières heures, avec les noms et les chiffres qui vont avec.

Une remarque sur les sources avant de continuer. La plupart de ces récits viennent de clients en accès anticipé qu'Anthropic a cités dans son annonce de lancement. Ce sont donc des sources directes, sélectionnées par l'éditeur. On précise lesquelles à chaque fois. Le signal indépendant le plus fort vient du développeur Simon Willison, qui n'avait aucun accès anticipé et a fait tourner ses propres tests le jour du lancement.

La liste de preuves en un coup d'œil

Entreprise / test	Cas d'usage	Résultat
Stripe	Migration à l'échelle de la base de code, 50 M de lignes Ruby	1 jour contre plus de 2 mois pour une équipe entière
Cognition (Devin)	Éval de code FrontierCode	Le plus haut score de tous les modèles de pointe, même à effort medium
Cursor	Code longue durée (CursorBench)	État de l'art ; débloque des problèmes jusque-là hors de portée
GitHub	Code complexe longue durée	Autonomie et fiabilité au-delà des benchmarks précédents
Base44	Apps complètes en un seul prompt	Des apps qui demandaient 100 prompts il y a un an se font maintenant en un coup
Genspark	Design d'UI et code de jeux	Bat tous les autres modèles testés
Hebbia	Finance Benchmark (raisonnement senior)	Le plus haut score de tous les modèles
IMC	Évals d'analyse de trading	Carton plein, ou presque, sur toute la ligne
Hex	Benchmark analytique central	Premier modèle à dépasser les 90 %, un bond de 10 points par rapport à Opus
Labo de physique	Recherche de pointe en physique	Un tiers des tokens de raisonnement ; 36 heures pour s'approcher des 4 jours de GPT-5.5
Équipe juridique	Révision de contrats (relecture à l'aveugle)	Égale ou bat leur modèle actuel à chaque fois
Suite tableur	Tâches tableur du quotidien	Bat Opus 4.8 à tous les niveaux d'effort, 25 à 30 % plus vite
Rakuten	Opérations hautement autonomes	Valide son propre travail ; « la réflexion en plus se rentabilise toute seule »
Anthropic (vision)	Reconstruire une web app à partir de captures	Reconstitue le code source à partir des seules captures d'écran
Simon Willison	MicroPython vers CPython complet en WASM	Une wheel installable et fonctionnelle en un jour

Code, migrations et ingénierie longue durée

C'est la catégorie où l'avance de Fable 5 est la plus large, et Anthropic dit clairement pourquoi : plus la tâche est longue et complexe, plus l'avantage de Fable sur les autres modèles se creuse.

L'exemple phare, c'est Stripe. D'après l'annonce d'Anthropic, Stripe a rapporté que Fable 5 « a compressé des mois d'ingénierie en quelques jours ». Dans une base de code Ruby de 50 millions de lignes, le modèle a réalisé en un jour une migration à l'échelle de toute la base, qui aurait sinon pris plus de deux mois à une équipe entière à la main. Le genre de boulot qu'on planifie normalement en trimestres, pas en après-midis.

Les entreprises d'agents et d'éditeurs racontent toutes la même histoire. Cursor a rapporté que Fable 5 est « le modèle état de l'art sur CursorBench » et qu'« il a ouvert toute une classe de problèmes longue durée qui étaient hors de portée des modèles précédents ». Cognition, l'équipe derrière Devin, a dit que c'est le modèle au plus haut score sur leur éval de code FrontierBench, qu'il « excelle dans le raisonnement longue durée et généralise à des outils inconnus dès la sortie de boîte », et qu'il décroche le meilleur score parmi les modèles de pointe même à effort medium. GitHub a dit qu'en phase de test, il s'est attaqué à des tâches de code complexes et longue durée « avec un niveau d'autonomie et de fiabilité qui dépassait les benchmarks précédents ».

Pour les builders qui n'ont pas de grosse base de code legacy, ce sont plutôt les chiffres du vibe-coding qui comptent. Base44 a rapporté que « des apps qui demandaient une centaine de prompts il y a un an, il les fait maintenant en un coup », et a dit à TechCrunch que Fable est meilleur pour sortir des apps complètes en un seul prompt, avec un excellent appel d'outils. Genspark a dit à TechCrunch que Fable a battu tous les autres modèles dans ses évaluations et était nettement meilleur en design d'UI et en code de jeux.

Le seul récit totalement indépendant vient de Simon Willison, qui n'avait aucun accès anticipé. En environ cinq heures et demie le jour du lancement, il a utilisé Fable dans Claude Code pour ajouter à son projet Datasette Agent une fonctionnalité de pause-et-validation avec un humain dans la boucle. Quand il lui a dit que des changements dans sa bibliothèque LLM sous-jacente étaient aussi dans le périmètre, le modèle a implémenté quatre fonctionnalités en amont pour soutenir proprement le travail, puis les a livrées sous forme de release. Son verdict : « J'ai passé plusieurs heures dessus aujourd'hui, mais on dirait plusieurs jours de boulot », et il a salué la qualité du design de l'API, des tests, du code et de la documentation.

Ce que ça veut dire pour toi : le déblocage, ce n'est pas « écrit du code plus vite », c'est « reste cohérent sur un travail trop gros pour être surveillé ». Si tu as une migration, un refactoring ou une fonctionnalité qui s'étale sur plein de fichiers et qui te mangerait normalement un sprint, c'est le modèle que tu pointes dessus. Pour les petites retouches du quotidien, Sonnet reste le choix moins cher et plus rapide.

Travail intellectuel : finance, analytique et recherche

Fable 5 n'est pas qu'un modèle de code. Certains des résultats les plus tranchants des débuts viennent d'analystes.

Hex, la plateforme analytique, a dit que Fable 5 était « le premier à dépasser les 90 % sur notre benchmark analytique central de tâches analytiques complexes et longue durée », un bond de 10 points par rapport à Opus, ajoutant que « sur les questions les plus dures, il montre un jugement solide et une attention aux nuances ». TechCrunch a re-rapporté ce résultat de façon indépendante, ce qui en fait l'une des affirmations les mieux corroborées du lancement.

En finance, Hebbia a rapporté que Fable 5 décroche le plus haut score de tous les modèles sur son Finance Benchmark de raisonnement de niveau senior, avec des gains substantiels en raisonnement sur documents et en interprétation de graphiques et de tableaux. La société de trading IMC a dit que Fable « a cartonné sur leurs évaluations d'analyse de trading sur quasiment toute la ligne », y compris la recherche factuelle, le raisonnement conceptuel, l'analyse des causes racines et l'analyse de la valeur attendue.

Les résultats de recherche sont les plus frappants. Un labo de recherche en physique a dit à Anthropic que Fable 5 est « le modèle le plus fort qu'on ait testé en recherche de pointe en physique, tout en utilisant un tiers des tokens de raisonnement », et qu'« en 36 heures, il est presque arrivé là où GPT-5.5 a atterri après quatre jours ». Moins de calcul, moins de temps, une destination comparable.

Même le travail tableur ingrat s'est amélioré. Un client a rapporté que Fable bat Opus 4.8 sur leur suite tableur du quotidien à tous les niveaux d'effort, en bouclant les runs 25 à 30 % plus vite et avec moins de tours.

Ce que ça veut dire pour toi : si ton boulot consiste à lire des sources denses et à bien capter les détails — notes de finance, pipelines analytiques, synthèse de recherche — les gains ici portent sur le jugement dans l'ambiguïté, pas sur la vitesse brute. L'angle efficacité-tokens est réel lui aussi. Des runs plus rapides à des niveaux d'effort plus bas peuvent compenser le prix au token plus élevé.

Vision : captures en entrée, code en sortie

Anthropic qualifie Fable 5 de nouvel état de l'art pour les tâches de vision, et les exemples sont concrets plutôt qu'abstraits.

Le plus parlant pour les builders : Fable 5 peut reconstruire le code source d'une web app à partir des seules captures d'écran. Il peut aussi extraire des chiffres précis de figures scientifiques détaillées, le genre de lecture de graphique qui demande d'habitude un humain pour tout retranscrire.

La démonstration la plus claire de l'ampleur des gains en vision, c'est un jeu. Les modèles Claude précédents galéraient à jouer à Pokemon FireRed même quand on leur donnait tout un arsenal d'outils d'aide, de cartes et d'infos sur l'état du jeu. Fable 5 a fini le jeu avec un moteur minimal, vision seule, en partant de rien d'autre que des captures d'écran brutes. C'est le modèle qui fait lui-même la navigation et la planification, à partir des pixels, au lieu de s'appuyer sur un échafaudage construit pour lui.

Ce que ça veut dire pour toi : la capture-vers-code et l'extraction de figures sont maintenant assez fiables pour être mises dans un workflow. Si tu as des maquettes de design, des captures de dashboard ou des PDF scientifiques, tu peux les passer directement au lieu de tout retranscrire d'abord. Moins d'échafaudage requis, c'est le thème pratique : le modèle se débrouille avec des interfaces réelles et bordéliques avec moins d'outils sur mesure.

Agents longue durée, mémoire et auto-validation

Le trait qui rend tout ce qui précède utilisable, c'est ce qui se passe quand aucun humain ne regarde.

Rakuten l'a dit sans détour dans une déclaration rapportée par TechCrunch : « À l'effort le plus élevé, Claude Fable 5 réfléchit sur son propre travail et le valide. Pour nous, c'est ça qui rend possibles des opérations hautement autonomes. La réflexion en plus se rentabilise toute seule. » Cette auto-vérification, c'est la différence entre un agent que tu peux laisser tourner et un que tu dois re-vérifier ligne par ligne.

La mémoire amplifie l'effet. Dans le propre test d'Anthropic, le modèle a joué au jeu de deck-building Slay the Spire avec accès à une mémoire persistante basée sur des fichiers. Cette mémoire a amélioré les performances de Fable trois fois plus qu'elle n'a amélioré celles d'Opus 4.8, et Fable a atteint l'acte final du jeu trois fois plus souvent. Le modèle ne se contente pas de se souvenir, il améliore son propre jeu à partir de ses propres notes sur un run long.

Côté orchestration d'agents, la documentation d'Anthropic dit que Fable 5 est nettement plus fiable pour lancer et maintenir des sous-agents en parallèle et pour gérer la communication avec ceux qui tournent longtemps. Un client des débuts a rapporté qu'il « livre une ingénierie plus capable en moins de tours » tout en gérant les workflows multi-agents complexes de Claude Code que ses employés utilisent au quotidien.

Ce que ça veut dire pour toi : c'est le modèle pour le travail que tu lances avant de partir. Si tu fais tourner des agents la nuit, que tu déploies des sous-agents sur un gros job, ou que tu construis des pipelines autonomes, l'auto-validation est la fonctionnalité porteuse. C'est aussi pour ça que les gens l'utilisent sur des jobs qu'Opus 4.8 ne pouvait pas finir sans supervision.

Science, via le même modèle sous-jacent

Les résultats les plus spectaculaires viennent de Mythos 5, qui est le même modèle sous-jacent que Fable 5 mais avec les classificateurs de sécurité retirés. À lire avec une réserve : Fable 5 public bascule sur Opus 4.8 pour la plupart des requêtes de biologie et de chimie, donc tu ne peux pas forcément reproduire ça sur le modèle public. Ces résultats montrent ce dont cette classe de modèle est capable, pas ce qu'un appel d'API ouvert fera aujourd'hui.

Cette réserve posée, les chiffres sont notables. Les experts en design de protéines d'Anthropic ont rapporté avoir accéléré des parties du processus de conception de médicaments d'environ dix fois. En tournant avec des outils de design de protéines et de bio-informatique mais sans aucune aide humaine, le modèle a égalé ou battu des opérateurs humains qualifiés : il a choisi les sites de liaison, sélectionné et lancé les outils, et s'est remis de ses propres échecs. Neuf des 14 cibles protéiques de l'étude ont donné de solides candidats pour le design de médicaments.

En biologie moléculaire, les scientifiques d'Anthropic ont préféré les hypothèses du modèle environ 80 % du temps face aux modèles de classe Opus dans des comparaisons à l'aveugle, et une hypothèse — un mécanisme inédit pour une protéine d'E. coli — a été corroborée de façon indépendante par un autre labo qui travaillait sur le même problème. En génomique, le modèle a mené plus d'une semaine de travail largement autonome, assemblé des données monocellulaires sur 138 espèces animales, et entraîné un modèle sur mesure qui a surpassé un modèle récemment publié dans Science tout en étant 100 fois plus petit.

Ce que ça veut dire pour toi : sauf si tu fais partie d'un programme de recherche à accès restreint, prends ça comme une démo plafond plutôt qu'une capacité du quotidien. Le signal pour les builders, c'est la forme de la chose : un modèle qui peut tourner une semaine, se remettre de ses propres impasses et produire un résultat digne d'être publié, c'est le même moteur qui fait tes migrations.

Le hic : coût, garde-fous et une fenêtre qui se ferme

Fable 5 est le modèle le plus capable qu'Anthropic ait sorti au public, et les compromis sont honnêtes.

Il est cher. Le tarif est de $10 par million de tokens en entrée et $50 par million en sortie, le double d'Opus 4.8 et le même que la Mythos Preview, bien plus chère, à la moitié de son ancien tarif. Simon Willison a cramé $110 de tokens en une seule journée de test. Le modèle est aussi lent, le revers de la médaille du fait qu'il ressemble, selon ses mots, « à une sacrée bête ». Les gains d'efficacité-tokens que certains clients ont rapportés peuvent adoucir la facture, mais tu devrais mesurer sur tes propres charges avant de t'engager.

Il y a des garde-fous. Quand les classificateurs de Fable détectent une requête sur la cybersécurité, la biologie et la chimie, ou la distillation de modèle, la réponse est gérée par Opus 4.8 à la place et on te le dit. Les premières données d'Anthropic montrent que ça arrive dans moins de 5 % des sessions, donc pour la grande majorité du travail tu as la pleine capacité de Fable. Mais les bascules sont réglées de façon conservatrice et attrapent de temps en temps des requêtes inoffensives.

Il y a aussi un compte à rebours. Du lancement jusqu'au 22 juin 2026, Fable 5 est inclus sur les plans Pro, Max, Team et Enterprise par siège sans coût supplémentaire. Le 23 juin, il quitte ces plans et nécessite des crédits d'usage, Anthropic visant à le rétablir dans les abonnements standards dès que la capacité le permettra. Si tu veux le tester sur ton propre travail sans facture séparée, cette fenêtre, c'est le moment.

Foire aux questions

À quoi Claude Fable 5 a-t-il vraiment servi ?

À du vrai travail en accès anticipé, surtout de gros jobs de code et de l'analyse. Stripe a fait tourner une migration à l'échelle d'une base de code Ruby de 50 millions de lignes en une journée. Hex a dépassé les 90 % sur son benchmark analytique. Hebbia et IMC ont dominé leurs évals de finance et de trading. Anthropic l'a aussi montré en train de reconstruire le code source d'une web app à partir de captures et de jouer à Pokemon FireRed à partir de pixels bruts. La plupart des récits viennent de l'annonce de lancement d'Anthropic, ce sont donc des sources directes.

Claude Fable 5 est-il bon en code ?

Les premières preuves disent oui, surtout pour les gros jobs longue durée. Cursor l'a qualifié d'état de l'art sur CursorBench, Cognition l'a classé en tête de leur éval de code FrontierBench, et GitHub a rapporté une autonomie et une fiabilité au-delà des benchmarks précédents. Le testeur indépendant Simon Willison a livré une semaine de fonctionnalités de bibliothèque en un après-midi avec. Pour les petites retouches du quotidien, un modèle moins cher comme Sonnet est en général le meilleur choix.

Combien coûte Claude Fable 5 ?

C'est $10 par million de tokens en entrée et $50 par million en sortie, le double du prix d'Opus 4.8. L'ID du modèle est claude-fable-5. Il est inclus gratuitement sur les plans Pro, Max, Team et Enterprise par siège jusqu'au 22 juin 2026, après quoi il nécessite des crédits d'usage jusqu'à ce que la capacité permette un retour dans les plans standards.

Pourquoi Claude Fable 5 répond-il parfois comme un autre modèle ?

Fable 5 est livré avec des classificateurs de sécurité. Quand une requête touche à la cybersécurité, à la biologie et la chimie, ou tente de distiller le modèle, la réponse est gérée par Opus 4.8 à la place et tu es prévenu. Anthropic dit que cette bascule se déclenche dans moins de 5 % des sessions, donc la plupart du travail tourne sur Fable 5 en pleine capacité.

Claude Fable 5 peut-il faire les démos scientifiques montrées par Anthropic ?

Pas directement sur le modèle public dans la plupart des cas. Les résultats de design de protéines, de génomique et de biologie moléculaire ont été produits par Mythos 5, le même modèle sous-jacent avec les protections retirées, disponible uniquement via des programmes à accès restreint. Fable 5 public bascule sur Opus 4.8 pour la plupart des requêtes de biologie et de chimie. Prends ces résultats comme un plafond pour la classe de modèle, pas comme une capacité publique du quotidien.

Claude Fable 5 vaut-il le coup face à Opus 4.8 ?

Pour le travail longue durée, autonome ou à enjeux élevés, les premiers retours pointent vers un net cran au-dessus. Les clients ont systématiquement décrit qu'il résolvait des problèmes hors de portée des modèles précédents, et il bat Opus 4.8 sur des benchmarks comme la suite tableur à tous les niveaux d'effort. Les compromis sont réels : le double du prix et des runs plus lents. Pour le travail de routine, Opus 4.8 ou Sonnet reste le choix le plus économique.