Claude Fable 5 : tarifs et maîtrise des coûts

Claude Fable 5 coûte $10 par million de tokens en entrée et $50 par million de tokens en sortie. C'est exactement le double d'Opus 4.8 ($5/$25), et moins de la moitié du prix de Mythos Preview (~$30/$150), le modèle restreint dont il descend.

Une tâche représentative de 100K en entrée / 20K en sortie coûte $2.00 sur Fable 5 contre $1.00 sur Opus 4.8. L'étiquette affiche x2, mais ta facture réelle dépend de cinq leviers que tu contrôles : l'effort de raisonnement, les budgets de tâche, le prompt caching, l'API batch, et quel trafic tu envoies vers Fable tout court.

Fable 5 est le premier modèle de classe Mythos disponible publiquement, un cran au-dessus d'Opus. Le prix reflète ce cran, et il arrive à un moment où les entreprises sont de plus en plus critiques sur les coûts de l'IA. TechCrunch a noté que le tarif de $10/$50 « pourrait à lui seul faire office de frein à une adoption large ». Ce post, c'est le calcul et la méthode pour le garder sous contrôle.

La grille tarifaire

Chaque ligne de la tarification de Fable 5 est précisément le double d'Opus 4.8.

Type de token	Claude Fable 5	Claude Opus 4.8
Entrée	$10 / 1M	$5 / 1M
Sortie	$50 / 1M	$25 / 1M
Entrée API batch	$5 / 1M	$2.50 / 1M
Sortie API batch	$25 / 1M	$12.50 / 1M
Écriture cache 5 min	$12.50 / 1M	$6.25 / 1M
Écriture cache 1 h	$20 / 1M	$10 / 1M
Lectures et rafraîchissements de cache	$1 / 1M	$0.50 / 1M

Une façon de voir les choses à garder en tête : le tarif standard de $10/$50 de Fable 5, c'est le même prix au token que le fast mode d'Opus 4.8. Tu paies les prix du fast mode d'Opus pour un modèle qui se situe un cran entier au-dessus. Que ce soit une bonne affaire ou non dépend entièrement de la tâche, et c'est tout l'enjeu de la suite.

Ce qu'une tâche coûte réellement

Commence par le cas de base pour rendre l'étiquette concrète. Prends un appel de 100K en entrée / 20K en sortie.

Sur Fable 5 :

input:  100,000 tokens × $10/1M = $1.00
output:  20,000 tokens × $50/1M = $1.00
total                           = $2.00

Sur Opus 4.8 :

input:  100,000 tokens × $5/1M  = $0.50
output:  20,000 tokens × $25/1M = $0.50
total                           = $1.00

Exactement x2 à usage de tokens identique. Un appel de code plus petit de 50K en entrée / 10K en sortie revient à $1.00 sur Fable contre $0.50 sur Opus. Le ratio ne change jamais sur la grille. Ce qui change, c'est tout ce qui l'entoure.

Le cas qui fait mal, c'est le long contexte. Un prompt de près d'1M de tokens à $10 par million en entrée représente une facture d'entrée d'environ $9 avant même que Fable n'écrive un seul token utile :

input:  900,000 tokens × $10/1M =  $9.00
output:   5,000 tokens × $50/1M =  $0.25
total                           =  $9.25 par appel

Fais tourner ça sans cache à travers un workflow et la facture grimpe vite. D'où le premier levier.

Levier 1 : le caching, la remise x10 sur le contexte répété

Les lectures de cache sur Fable 5 coûtent $1 par million de tokens, contre $10 par million pour de l'entrée fraîche. Soit une réduction par 10 sur tout contexte que tu réutilises.

Reprends l'appel long-contexte à $9.25 ci-dessus et suppose que les 900K de contexte sont une lecture de cache :

cached input:  900,000 tokens × $1/1M  =  $0.90
output:          5,000 tokens × $50/1M =  $0.25
total                                  =  $1.15 par appel

De $9.25 à $1.15. Si ton agent relit le même gros repo, la même spec ou le même jeu de documents à travers plein d'appels, le caching est le plus gros levier de coût que tu aies. L'écriture du cache coûte une prime une fois ($12.50/1M pour le palier 5 minutes, $20/1M pour le palier 1 heure), puis chaque lecture est bon marché.

Levier 2 : l'effort, le cadran souple

L'effort est, selon les mots d'Anthropic, « le contrôle principal du compromis entre intelligence, latence et coût sur Claude Fable 5 ». Il détermine combien de tokens de réflexion le modèle dépense, et les tokens de réflexion sont facturés comme de la sortie à $50 par million.

Les niveaux sont low, medium, high (le défaut) et xhigh. La recommandation, c'est d'utiliser high pour la plupart des tâches, xhigh pour le travail le plus sensible à la capacité, et medium ou low pour les jobs de routine. L'idée clé côté coût : les réglages d'effort plus bas sur Fable 5 « tiennent encore très bien la route et dépassent souvent les performances de xhigh des modèles précédents ».

Relis ça deux fois. Fable 5 à effort medium bat souvent Opus 4.8 à son effort maximal. Le résultat FrontierCode d'Anthropic le confirme : Fable mène les modèles de pointe même à effort medium. Donc le levier de coût n'est souvent pas « passe à un modèle moins cher ». C'est « baisse l'effort de Fable ».

Imagine une tâche dure qui brûle environ 40K tokens de réflexion à xhigh et 12K à medium (à titre indicatif ; Anthropic ne publie pas les comptes exacts par niveau d'effort). À $50 par million, ça fait environ $2.00 de réflexion contre $0.60 sur le même job. Le propre conseil d'Anthropic est direct : « Réduis l'effort si une tâche aboutit mais prend plus de temps que nécessaire. » Note que la réflexion adaptative est toujours active, donc tu peux réduire la profondeur mais tu ne peux pas couper la réflexion.

Levier 3 : les budgets de tâche, le plafond dur

L'effort est un cadran. Les budgets de tâche sont un mur.

La bêta des budgets de tâche (header task-budgets-2026-03-13, minimum 20 000 tokens) te laisse plafonner le total de tokens qu'une boucle agentique peut consommer. Là où l'effort fait baisser la dépense en moyenne, un budget de tâche garantit qu'un seul run autonome ne peut pas dépasser un plafond que tu fixes.

Ça compte plus sur Fable 5 que sur n'importe quel modèle précédent, parce que ses tours sont longs par conception. Des requêtes dures isolées peuvent tourner plusieurs minutes à effort élevé, et les runs autonomes peuvent s'étendre sur des heures. Un utilisateur du jour de lancement a rapporté que Fable 5 « bouffait mon plan Max 20x à environ 2 % par minute ». Un budget de tâche, c'est comme ça que tu t'assures qu'une boucle qui s'emballe s'arrête à un chiffre que tu as choisi au lieu d'un chiffre choisi par le modèle.

Levier 4 : l'API batch, moitié prix pour le travail hors ligne

Tout ce qui n'a pas besoin de se passer en temps réel devrait passer par l'API batch. Elle coupe le tarif en deux : $5/$25 au lieu de $10/$50. Pour les évals de nuit, le traitement de documents en masse et les pipelines hors ligne, c'est un -50 % net sur la partie la plus chère de ta facture.

Levier 5 : le routage, seule la queue dure va vers Fable

Le plus gros levier est aussi le plus simple. La majorité du trafic n'a pas besoin d'un modèle de classe Mythos. Envoie par défaut le travail de routine vers Opus 4.8 ou Sonnet 4.6, et n'envoie vers Fable 5 que la queue dure, longue durée et sujette aux échecs.

À l'échelle entreprise, les enjeux sont réels. Sur de la sortie de pure routine, des analystes de facturation ont modélisé 5 milliards de tokens de sortie par an à environ $250,000 sur Fable 5 contre $125,000 sur Opus 4.8. Pour la classification, la synthèse et la récupération RAG, cet écart n'achète rien, parce qu'Opus passe déjà la barre de qualité. Ne fais monter une tâche vers Fable que quand un modèle moins cher échoue clairement, perd le fil en cours de route, ou brûle plus de tokens au total à cause des reprises.

La bizarrerie de tarification de la bascule

C'est la partie de la tarification de Fable 5 qui n'a d'équivalent nulle part ailleurs, et ça vaut le coup de la comprendre exactement.

Fable 5 fait tourner des classificateurs de sécurité pour la cybersécurité, la biologie et la chimie, et la distillation. Quand l'un d'eux se déclenche, la requête est gérée par Opus 4.8 à la place, et tu es facturé au tarif Opus. Anthropic dit que ça se déclenche dans moins de 5 % des sessions. Deux cas de facturation en découlent, droit sortis de la documentation de lancement d'AWS :

Une requête entière routée vers Opus 4.8. Si le classificateur se déclenche dès le départ, toute la réponse vient d'Opus 4.8 et est entièrement facturée aux prix Opus ($5/$25). Tu n'es pas facturé aux tarifs Fable du tout.

Une requête bloquée en cours de conversation. Si le blocage arrive en plein milieu, les tokens initiaux (traités par Fable avant le blocage) sont facturés aux tarifs Fable ($10/$50), et les tokens suivants (la réponse d'Opus) aux tarifs Opus ($5/$25). Une seule requête, répartie sur deux grilles tarifaires.

En pratique, ça veut dire que les charges proches du bio, de la chimie ou de la sécurité reçoivent une remise partielle et discrète chaque fois que le classificateur les réoriente. Pour ces domaines, le taux de bascule est plus élevé que la moyenne de 5 %, parce que les classificateurs sont délibérément larges. C'est imprévisible, ce qui est une raison de plus de router ce trafic vers Opus par choix plutôt que de le découvrir sur la facture.

Une note d'implémentation : les refus peuvent arriver sous forme d'un HTTP 200 réussi avec stop_reason: "refusal". Le code de production doit vérifier le stop reason au lieu de supposer que chaque 200 est une réponse Fable facturée, et les clients de l'API configurent une bascule côté serveur ou côté client vers Opus 4.8 de façon explicite. Ce n'est pas automatique comme dans les apps Claude.

Quand l'étiquette x2 ment

La grille dit le double. Sur la bonne tâche, ton coût effectif tombe sous celui du modèle moins cher.

Un labo de physique de pointe a rapporté que Fable 5 était son modèle le plus fort « tout en utilisant un tiers des tokens de raisonnement », s'approchant en 36 heures de là où GPT-5.5 a atterri après quatre jours. Le calcul est implacable en faveur de Fable : un tiers des tokens au double du prix par token, ça fait deux tiers du coût effectif. Sur cette classe de travail long et réfléchi, Fable 5 est moins cher, pas plus.

Le même schéma revient ailleurs. Une suite tableur a trouvé que Fable 5 bat Opus 4.8 à tous les niveaux d'effort avec moins de tours, en finissant 25 à 30 % plus vite. Base44 a dit que des apps qui « demandaient une centaine de prompts il y a un an, il les fait maintenant en un coup ». Rakuten : « la réflexion en plus se rentabilise toute seule ». Et Stripe a fait tourner une migration sur une base de code Ruby de 50 millions de lignes en un jour, estimée à plus de deux mois d'effort d'équipe, où la facture de tokens est dérisoire face au salaire qu'elle remplace.

Dianne Penn, d'Anthropic, l'a formulé pour CNBC : les clients veulent plus de précision et de bénéfice par dollar, les premiers clients « ont noté une amélioration de la dépense par tâche », et « on obtient simplement un meilleur ROI avec des modèles plus intelligents ». Le chiffre à optimiser, c'est le coût par tâche terminée, pas le coût par token.

Levier 6 : la fenêtre gratuite avant le 22 juin

Il y a un levier limité dans le temps qui se referme vite. Le déploiement par abonnement de Fable 5 est échelonné :

Du 9 juin au 22 juin, Fable 5 est inclus sur les plans Pro, Max, Team et Enterprise par siège sans coût supplémentaire.
Le 23 juin, Fable 5 quitte ces plans. L'utiliser après ça nécessite des crédits d'usage. Anthropic dit qu'il pourrait prolonger la fenêtre si la capacité le permet.
À terme, Anthropic vise à rétablir Fable 5 comme partie standard des plans d'abonnement, sans date engagée.

Sur l'API et les plans Enterprise à la consommation, Fable 5 est entièrement facturé à l'usage à $10/$50 dès le premier jour. Mais si tu es sur un abonnement, la fenêtre jusqu'au 22 juin est une période d'évaluation gratuite. Sers-t'en pour faire tourner tes vraies tâches sur Fable 5, mesurer la dépense par tâche terminée face à Opus 4.8, et décider s'il mérite une place sur des crédits d'usage après le 23. Après ça, l'usage occasionnel devient facturé en crédits, donc le moment de benchmarker, c'est maintenant.

La méthode de maîtrise des coûts

Mets les leviers bout à bout et la stratégie est courte :

Route par tâche. Envoie par défaut le trafic de routine vers Opus 4.8 ou Sonnet 4.6 ; réserve Fable 5 pour la queue dure et longue durée.
Baisse l'effort avant de changer de modèle. L'effort medium sur Fable bat souvent Opus à son effort maximal, pour une fraction de la dépense en tokens de réflexion.
Cache agressivement. Les lectures de cache sont à $1/1M contre $10/1M en frais, un levier x10 sur le contexte répété.
Plafonne les boucles avec des budgets de tâche. Le header bêta plafonne un run agentique (minimum 20 000 tokens) pour qu'il ne s'emballe pas.
Mets le travail hors ligne en batch. Moitié prix à $5/$25 pour tout ce qui n'a pas besoin du temps réel.
Benchmarke dans la fenêtre gratuite. Évalue sur de vraies tâches avant le 22 juin, tant que c'est gratuit sur les plans d'abonnement.

Le verdict

La tarification de Fable 5 est simple à énoncer et facile à mal lire. L'étiquette est exactement x2 Opus 4.8, mais l'étiquette est le mauvais chiffre. L'effort, les budgets de tâche, le caching, le batch, le routage et la propre efficacité-tokens de Fable courbent tous la facture réelle, parfois sous le modèle moins cher sur les tâches dures et bien au-dessus sur les tâches de routine.

Concentre ton attention sur les leviers, pas sur la grille tarifaire. Route le travail facile vers des modèles moins chers, n'envoie que la queue dure vers Fable, règle l'effort et plafonne les budgets, et sers-toi de la fenêtre gratuite pour apprendre ta propre dépense-par-tâche avant que le compteur ne démarre le 23 juin.

Foire aux questions

Combien coûte Claude Fable 5 ?

Claude Fable 5 coûte $10 par million de tokens en entrée et $50 par million en sortie, exactement le double d'Opus 4.8 ($5/$25). Une tâche de 100K en entrée / 20K en sortie revient à $2.00 sur Fable 5 contre $1.00 sur Opus 4.8. L'API batch divise le tarif par deux à $5/$25, et les lectures de cache font tomber l'entrée à $1 par million.

Pourquoi Claude Fable 5 coûte-t-il deux fois le prix d'Opus 4.8 ?

Fable 5 est le premier modèle de classe Mythos disponible publiquement, un cran de capacité au-dessus de la classe Opus, et le prix reflète ce cran. Il reste moins de la moitié du prix de Mythos Preview (~$30/$150), le modèle restreint dont il descend. Anthropic défend l'idée que le meilleur ROI par tâche terminée peut compenser la prime au token sur le travail dur.

Comment fonctionne la tarification de bascule de Claude Fable 5 ?

Quand les classificateurs de sécurité de Fable 5 routent une requête vers Opus 4.8, tu paies les tarifs Opus, pas les tarifs Fable. Si une requête est bloquée en cours de conversation, les tokens initiaux sont facturés aux tarifs Fable et les tokens suivants aux tarifs Opus. Cette bascule se déclenche dans moins de 5 % des sessions sur des charges typiques.

Comment maîtriser les coûts sur Claude Fable 5 ?

Utilise cinq leviers : baisse l'effort de raisonnement (medium bat souvent Opus à son effort max), plafonne les boucles agentiques avec des budgets de tâche (minimum 20 000 tokens), cache le contexte répété (les lectures de cache sont à $1/1M contre $10/1M), utilise l'API batch pour le travail hors ligne (moitié prix), et ne route que les tâches dures vers Fable tout en gardant le travail de routine sur Opus 4.8 ou Sonnet 4.6.

Claude Fable 5 est-il gratuit en ce moment ?

Sur les plans d'abonnement Pro, Max, Team et Enterprise par siège, Fable 5 est inclus sans coût supplémentaire du 9 juin au 22 juin 2026. Le 23 juin, il quitte ces plans et nécessite des crédits d'usage. Sur l'API et les plans Enterprise à la consommation, il est facturé à l'usage à $10/$50 dès le premier jour.

L'efficacité-tokens peut-elle rendre Claude Fable 5 moins cher qu'Opus 4.8 ?

Sur la bonne tâche, oui. Un labo de physique a rapporté que Fable 5 utilisait un tiers des tokens de raisonnement d'un modèle rival, ce qui, à 2x le prix par token, revient à deux tiers du coût effectif. Moins de tours et de meilleurs taux de réussite du premier coup réduisent la dépense par tâche terminée, même si la grille tarifaire est doublée.