Les safeguards de Claude Fable 5 expliqués

Certaines de tes réponses Claude Fable 5 viendront discrètement de Claude Opus 4.8 à la place. C'est voulu. Fable 5 embarque des safeguards qui détectent les prompts dans trois domaines à haut risque et confient ces réponses à Opus 4.8, et le modèle te le dit quand ça arrive.

Fable 5, sorti le 9 juin 2026, est le premier modèle de classe Mythos rendu public. C'est le même modèle sous-jacent que Claude Mythos 5, la version qu'Anthropic disait auparavant trop capable pour une diffusion large. La seule raison pour laquelle le grand public peut l'utiliser, c'est la couche de sécurité décrite dans ce post.

La version courte : une bascule vers Opus 4.8 n'est pas un refus. Tu obtiens quand même une réponse utile d'un modèle solide. Anthropic dit que plus de 95 pour cent des sessions Fable 5 n'impliquent aucune bascule, et que pour ces sessions Fable 5 fait à peu près aussi bien que Mythos 5.

Ce post explique ce que les safeguards couvrent, pourquoi la bascule se produit, le red-teaming qui les sous-tend, et la nouvelle politique de rétention des données à 30 jours que les entreprises doivent comprendre avant de faire passer des données sensibles par le modèle.

Le verdict rapide

Ce que tu as vraiment besoin de savoir :

Fable 5 redirige vers Opus 4.8 les prompts dans trois domaines : cybersécurité, biologie et chimie, et distillation
Les classifieurs sont volontairement prudents, donc ils attrapent parfois des requêtes inoffensives
Une bascule est une réponse d'Opus 4.8, pas un refus, et on te prévient quand ça arrive
Tout le trafic Fable 5 et de classe Mythos est désormais soumis à une rétention obligatoire des données de 30 jours, même là où tu avais auparavant un accord de rétention zéro
Mythos 5, le même modèle avec les safeguards cyber levés, n'est pas public. Il est réservé à Project Glasswing et aux partenaires en accès de confiance

Comment fonctionne la bascule

Quand tu envoies un prompt, des systèmes d'IA distincts appelés classifieurs l'examinent avant que Fable 5 réponde. Ces classifieurs détectent les usages potentiellement abusifs, y compris les tentatives de jailbreak. Si un prompt est signalé, les classifieurs empêchent Fable 5 de répondre et la réponse est prise en charge par Opus 4.8 à la place.

Le raisonnement d'Anthropic est simple. Opus 4.8 est un modèle très capable en soi, donc une réponse qui bascule sur Opus est une bien meilleure expérience qu'un refus pur et simple de Fable. Tu obtiens une vraie réponse à la plupart des questions signalées. Elle vient juste d'un modèle dont les capacités propres dans ces zones dangereuses sont bien plus faibles, et qui est lui-même protégé.

L'utilisateur est informé chaque fois que ça arrive, donc ce n'est pas silencieux. Sur l'API, une réponse redirigée porte un détail structuré, dont un champ de catégorie qui te dit si le déclencheur était cyber ou bio.

Le chiffre de fréquence est la partie rassurante. Les premières données montrent que plus de 95 pour cent des sessions Fable 5 n'impliquent aucune bascule. Pour ces sessions, tu as le modèle de classe Mythos au complet. La bascule est l'exception, pas la règle.

Les trois domaines des classifieurs

Les classifieurs de Fable 5 couvrent trois domaines. Voici ce qu'est chacun et pourquoi il existe.

Domaine	Ce qu'il couvre	Pourquoi	Étendue au lancement
Cybersécurité	Trouver et exploiter des failles logicielles, plus le travail cyber offensif et agentique au sens large, comme la reconnaissance et le déplacement latéral	Les compétences cyber de classe Mythos pourraient rendre les attaques nettement moins chères et plus faciles	Large. Aux tests, les classifieurs bloquent toute progression sur ces tâches
Biologie et chimie	La plupart des requêtes bio et chimie, pas seulement les questions étroites sur les armes biologiques	Risque d'uplift pour les acteurs malveillants, plus une vraie capacité scientifique à double usage	Très large et prudent. La plupart des requêtes basculent. Anthropic travaille à le resserrer
Distillation	Les requêtes signalées comme des tentatives d'extraire les capacités du modèle pour entraîner des modèles rivaux	Empêche la prolifération de modèles proches de la frontière diffusés sans safeguards	Ciblé sur l'extraction massive détectée, notamment depuis des pays autoritaires

Quelques détails à faire ressortir.

Sur la cybersécurité, les classifieurs sont volontairement larges. Ils n'attrapent pas seulement le développement d'exploits. Ils couvrent les tâches cyber offensives dans un sens plus large, parce que les modèles de classe Mythos sont forts en hacking agentique, c'est-à-dire qu'ils peuvent enchaîner les différentes étapes d'une attaque. Anthropic a conçu les classifieurs pour que le modèle ne fasse aucune progression sur ces tâches.

Sur la biologie et la chimie, les safeguards sont les plus larges et les plus prudents pour l'instant. Anthropic ne bloquait avant qu'un ensemble étroit de requêtes sur les armes biologiques. Ils ne pensent plus que ça suffit, en partie parce que des acteurs malveillants bien dotés pourraient gagner un vrai uplift, et en partie parce que les modèles sont maintenant assez bons sur de vraies tâches scientifiques pour que ça compte. Par exemple, des modèles de classe Mythos ont prédit des propriétés non publiées de l'enveloppe externe d'un virus, surpassant des modèles de protéines dédiés par le seul raisonnement biologique. C'est utile pour la thérapie génique et dangereux entre de mauvaises mains, donc pour l'instant la plupart des requêtes bio et chimie basculent. Anthropic est clair là-dessus : c'est temporaire et ils veulent resserrer ces safeguards aussi vite que possible, parce qu'ils ne veulent pas que des faux positifs bloquent la science légitime.

Sur la distillation, la cible, ce n'est pas toi. Ce sont les tentatives à grande échelle de copier les capacités de Fable 5 dans des modèles concurrents qui pourraient ensuite sortir sans aucun safeguard.

Pourquoi les classifieurs attrapent parfois des prompts inoffensifs

Anthropic a réglé ces safeguards de façon prudente exprès, pour sortir le modèle à la fois en sécurité et vite. Le compromis, c'est qu'ils sont plus stricts que l'idéal et attraperont parfois des requêtes inoffensives. L'entreprise le dit directement, qualifie ça de frustrant, et dit que réduire les faux positifs est l'objectif après le lancement.

Les builders le voient déjà. Sur Hacker News, des développeurs ont noté que les classifieurs sont assez agressifs pour se déclencher sur des tâches de code très inoffensives, sans rapport avec la sécurité. La planche de salut, c'est que la bascule vers Opus 4.8 fonctionne comme prévu, donc un faux positif te coûte l'avantage de classe Mythos sur ce prompt-là plutôt que de te bloquer complètement.

Si tu fais surtout du travail applicatif ordinaire, ça t'affectera rarement. Le chiffre de moins de 5 pour cent est le taux global par session, et c'est le terrain proche de la sécurité qui le déclenche. Le travail de fonctionnalité, de migration et de refactor classique ne le fait presque jamais.

Le bilan du red-teaming

Anthropic a mis de vrais moyens pour tester si les classifieurs tiennent face à des gens qui essaient de les casser. Les affirmations phares :

Un bug bounty externe a tourné plus de 1 000 heures et n'a produit aucun jailbreak universel
Des organisations de red-teaming externes ont elles aussi échoué à trouver des jailbreaks universels sur des tâches agentiques de longue forme
Un partenaire externe a jugé les safeguards cyber de Fable 5 les plus robustes de tous les modèles qu'il a testés, y compris Opus 4.8 et Opus 4.7
Fable 5 n'a accédé à aucune requête cyber nuisible en un seul tour sur 30 techniques de jailbreak publiques différentes

Il y a une réserve reconnue. L'UK AI Safety Institute a progressé vers un jailbreak universel dans une brève fenêtre de test initiale. Anthropic est honnête : empêcher complètement les jailbreaks universels est probablement impossible. Son objectif affiché est plus étroit : rendre tout jailbreak restant assez lent et coûteux pour le détecter et l'arrêter avant qu'il soit utilisé à grande échelle.

Sois lucide sur ce qui est affirmé et ce qui ne l'est pas. L'affirmation, c'est aucun jailbreak universel, c'est-à-dire aucune technique fiable unique qui casse les safeguards sur toute la ligne. Anthropic ne dit pas qu'aucun jailbreak partiel n'a été trouvé, et s'attend à ce que des attaquants motivés continuent d'essayer, vu que le gain financier d'une capacité cyber de classe Mythos est énorme. Vois ce bilan comme une preuve solide de robustesse, pas comme une garantie de perfection.

La nouvelle politique de rétention des données à 30 jours

C'est la partie que les entreprises doivent lire avec attention, parce qu'elle change la donne.

Anthropic exige désormais une rétention de 30 jours pour tout le trafic sur les modèles de classe Mythos, ce qui inclut Fable 5 et Mythos 5, sur les surfaces propriétaires comme tierces. Point crucial, ça s'applique même aux entreprises qui détenaient auparavant des accords de rétention zéro. Pour le trafic de classe Mythos, ces accords ne tiennent plus.

Voici ce qu'Anthropic s'engage à faire en échange. Les données ne servent pas à entraîner de nouveaux modèles Claude, ni à aucun usage hors sécurité. Tout accès humain aux données est journalisé. Elles sont supprimées après 30 jours dans la quasi-totalité des cas. Le but affiché est de se défendre contre des attaques complexes et inédites, y compris de nouveaux jailbreaks et des attaques qui s'étalent sur plein de requêtes, et d'identifier et réduire les faux positifs.

TechCrunch a présenté ça comme un possible précédent pour le secteur, où l'accès aux modèles les plus puissants vient avec une rétention obligatoire des données comme mesure de sécurité. C'est le motif plus large à surveiller.

Un point à garder au clair : cette politique de rétention est distincte du décret de la Maison-Blanche sur le partage des modèles de frontière avec le gouvernement avant leur sortie. Un porte-parole d'Anthropic a dit à CyberScoop que le changement de rétention est propre à son travail sur les safeguards et sans rapport avec ce décret. Ne confonds pas les deux fenêtres de 30 jours.

Ce que ça veut dire pour ton entreprise

Si tu sors des produits par-dessus Claude, ou que tu fais passer des données client ou réglementées par lui, le changement de rétention a des conséquences concrètes.

Ton accord de rétention zéro ne couvre pas Fable 5. Si tu as un arrangement ZDR avec Anthropic, il ne s'applique pas à Fable 5 ni à aucun trafic de classe Mythos. La rétention de 30 jours est obligatoire et passe outre. Supposer que tes conditions existantes se reportent, c'est l'erreur à éviter.

Ça s'applique aussi sur les surfaces tierces. Il ne s'agit pas seulement de l'API Claude directement. Le trafic de classe Mythos via des partenaires et des revendeurs est couvert aussi. Si tu accèdes à Fable 5 via un outil comme GitHub Copilot, l'exigence de rétention s'applique quand même, et tu peux voir une étape de consentement à la rétention des données.

Vérifie tes engagements en aval. Si tu as promis à tes propres clients une rétention zéro, ou que tu gères des PII, PHI, secrets commerciaux ou des données sous confidentialité contractuelle, faire passer ça par Fable 5 peut rompre une promesse que tu as faite. Fais relire ça par ton équipe conformité avant d'envoyer des données réglementées par le modèle.

Tu as une option de repli propre. Si tu as besoin de rétention zéro ou minimale pour une charge, garde-la sur Opus 4.8, où le ZDR reste disponible pour les clients entreprise éligibles selon la politique standard d'Anthropic. Réserve Fable 5 aux jobs non sensibles où la rétention de 30 jours est acceptable. Ce partage te laisse utiliser le modèle le plus capable là où c'est sûr et garde ton trafic sensible sur le modèle qui peut honorer des conditions plus strictes.

Le résumé honnête, c'est que la rétention est réelle et passe bien outre le ZDR antérieur pour ces modèles, mais elle a un but étroit. Ce n'est pas pour l'entraînement, c'est journalisé, et c'est supprimé après 30 jours dans la quasi-totalité des cas. L'alerte est justifiée comme un avertissement pour la conformité, pas comme une raison de supposer que les données sont exploitées.

Mythos 5 et les programmes d'accès de confiance

Fable 5 a un frère. Mythos 5 est le même modèle sous-jacent avec les safeguards cyber levés dans certains domaines. Il a les capacités de cybersécurité les plus fortes de tous les modèles au monde, et c'est précisément pour ça qu'il n'est pas public.

Mythos 5 est déployé via Project Glasswing, la collaboration d'Anthropic avec le gouvernement américain pour sécuriser les logiciels critiques. Les partenaires qui avaient accès à la précédente Mythos Preview peuvent maintenant passer à Mythos 5, à un coût nettement plus bas. Glasswing a démarré en avril 2026 avec un groupe restreint et s'est étendu début juin à environ 150 organisations dans plus de 15 pays.

L'accès s'élargit dans deux directions. Anthropic prévoit un programme d'accès de confiance plus systématique pour que les organisations de cybersécurité puissent candidater, en s'étendant avec le temps et en incluant les agences fédérales. Ils ouvrent aussi un programme d'accès de confiance distinct pour la biologie, qui donnera à un petit nombre de chercheurs en sciences de la vie une version de Fable 5 avec les safeguards bio et chimie retirés mais les safeguards cyber toujours en place.

Pour nous autres, le message à retenir est simple. La laisse sur Fable 5 est le prix de l'accès public. Le modèle sans laisse existe, mais il reste derrière un processus de validation. Et même le modèle de repli est en couches : Anthropic rapporte qu'Opus 4.8 seul peut reproduire la plupart des failles connues à partir d'une description, mais ses safeguards ramènent ce taux de réussite à environ 1 pour cent. Tout le système est bâti en couches, exprès.

Le tableau d'ensemble

Ça vaut le coup de nommer la tension. Fable 5 est sorti quelques jours après qu'Anthropic ait publiquement appelé les labos d'IA à s'accorder sur un frein coordonné au développement de frontière, en avertissant que les systèmes avancent assez vite pour risquer une auto-amélioration récursive. Puis ils ont sorti leur modèle public le plus puissant. Les safeguards, c'est ainsi qu'Anthropic résout cette contradiction, ce que sa responsable produit Dianne Penn appelle une course vers le haut : fournir la capacité tout en bâtissant les garde-fous pour que les bénéfices l'emportent sur les dégâts.

Tu n'as pas besoin de prendre parti dans ce débat pour bien utiliser le modèle. Ce qui compte en pratique, c'est de savoir pourquoi une réponse vient parfois d'Opus 4.8, de savoir que les classifieurs vont parfois se déclencher à tort sur des prompts inoffensifs, et de savoir que l'accord sur les données a changé. Ces trois faits, c'est toute l'histoire des safeguards côté utilisateur.

Questions fréquentes

Pourquoi Claude Fable 5 bascule-t-il sur Opus 4.8 ?

Fable 5 fait tourner des classifieurs qui détectent les prompts liés à la cybersécurité, à la biologie et chimie, ou à la distillation. Les prompts signalés sont traités par Opus 4.8 au lieu de Fable 5, et on te prévient quand ça arrive. Une bascule est une vraie réponse d'un modèle capable, pas un refus, et elle se produit dans moins de 5 pour cent des sessions.

Quels sont les trois domaines des classifieurs de Fable 5 ?

La cybersécurité, couvrant l'exploitation de failles et le travail cyber offensif et agentique au sens large ; la biologie et la chimie, couvrant actuellement la plupart des requêtes dans ces domaines ; et la distillation, couvrant les tentatives d'extraire les capacités du modèle pour entraîner des modèles rivaux. Les safeguards bio et chimie sont les plus larges au lancement et Anthropic prévoit de les resserrer.

Claude Fable 5 conserve-t-il mes données ?

Oui. Anthropic exige une rétention de 30 jours pour tout le trafic Fable 5 et de classe Mythos, sur les surfaces propriétaires comme tierces, même si tu avais auparavant un accord de rétention zéro. Les données ne servent pas à l'entraînement ni à aucun usage hors sécurité, l'accès humain est journalisé, et elles sont supprimées après 30 jours dans la quasi-totalité des cas.

Comment garder une rétention de données zéro en utilisant Claude ?

Fais passer les charges sensibles par Opus 4.8, où la rétention zéro reste disponible pour les clients entreprise éligibles selon la politique standard d'Anthropic, et réserve Fable 5 au travail non sensible. L'exigence de rétention de 30 jours est propre aux modèles de classe Mythos et ne passe outre le ZDR antérieur que pour ce trafic.

Qu'est-ce que Claude Mythos 5 ?

Mythos 5 est le même modèle sous-jacent que Fable 5 avec les safeguards cyber levés dans certains domaines, ce qui lui donne les capacités de cybersécurité les plus fortes de tous les modèles. Il n'est pas public. Il est réservé aux partenaires de Project Glasswing et à un programme d'accès de confiance en expansion, avec un programme biologie distinct à venir pour les chercheurs.

Quelqu'un a-t-il jailbreaké Claude Fable 5 ?

Un bug bounty externe de plus de 1 000 heures et des organisations de red-teaming externes n'ont trouvé aucun jailbreak universel, même si l'UK AI Safety Institute a progressé vers l'un d'eux dans une brève fenêtre. Anthropic affirme l'absence de jailbreak universel, pas l'absence totale de jailbreak, et dit que les empêcher complètement est probablement impossible. Son objectif est de rendre ceux qui restent trop lents et coûteux pour être utilisés à grande échelle.