Claude Fable 5 Safeguards erklärt

Manche deiner Claude-Fable-5-Antworten kommen still und leise stattdessen von Claude Opus 4.8. Das ist so gewollt. Fable 5 kommt mit Safeguards, die Prompts in drei Hochrisiko-Bereichen erkennen und diese Antworten an Opus 4.8 übergeben, und das Modell sagt dir, wenn das passiert.

Fable 5, gelauncht am 9. Juni 2026, ist das erste öffentlich verfügbare Modell der Mythos-Klasse. Es ist dasselbe zugrunde liegende Modell wie Claude Mythos 5, die Version, von der Anthropic zuvor sagte, sie sei zu leistungsfähig für eine breite Freigabe. Der ganze Grund, warum die Öffentlichkeit es überhaupt nutzen kann, ist die Sicherheitsschicht, die dieser Post beschreibt.

Die Kurzfassung: Ein Fallback auf Opus 4.8 ist keine Verweigerung. Du bekommst trotzdem eine brauchbare Antwort von einem starken Modell. Anthropic sagt, mehr als 95 Prozent der Fable-5-Sessions kommen ganz ohne Fallback aus, und in diesen Sessions liefert Fable 5 praktisch dasselbe wie Mythos 5.

Dieser Post erklärt, was die Safeguards abdecken, warum es zum Fallback kommt, das Red-Teaming dahinter und die neue 30-Tage-Datenspeicherung, die Unternehmen verstehen müssen, bevor sie sensible Daten durch das Modell schicken.

Kurzes Fazit

Was du wirklich wissen musst:

Fable 5 routet Prompts in drei Bereichen an Opus 4.8: Cybersecurity, Biologie und Chemie sowie Distillation
Die Classifier sind bewusst konservativ, also fangen sie manchmal harmlose Anfragen ein
Ein Fallback ist eine Opus-4.8-Antwort, keine Verweigerung, und es wird dir gesagt, wenn es passiert
Aller Fable-5- und Mythos-Klasse-Traffic trägt jetzt eine verpflichtende 30-Tage-Datenspeicherung, selbst wenn du vorher eine Zero-Retention-Vereinbarung hattest
Mythos 5, dasselbe Modell mit aufgehobenen Cyber-Safeguards, ist nicht öffentlich. Es ist auf Project Glasswing und Trusted-Access-Partner beschränkt

Wie der Fallback funktioniert

Wenn du einen Prompt schickst, schauen sich separate KI-Systeme namens Classifier ihn an, bevor Fable 5 antwortet. Diese Classifier erkennen potenziellen Missbrauch, einschließlich Jailbreak-Versuchen. Wird ein Prompt geflaggt, verhindern die Classifier, dass Fable 5 antwortet, und die Antwort wird stattdessen von Opus 4.8 übernommen.

Anthropics Begründung ist simpel. Opus 4.8 ist für sich genommen ein hochleistungsfähiges Modell, also ist eine Antwort, die auf Opus zurückfällt, ein weit besseres Erlebnis als eine glatte Verweigerung von Fable. Du bekommst auf die meisten geflaggten Fragen eine echte Antwort. Sie kommt nur von einem Modell, dessen eigene Fähigkeiten in diesen Gefahrenzonen deutlich schwächer und das selbst abgesichert ist.

Der Nutzer wird jedes Mal informiert, wenn das passiert, also läuft es nicht im Stillen. Auf der API trägt eine geroutete Antwort strukturierte Details, darunter ein Kategorie-Feld, das dir sagt, ob der Auslöser Cyber oder Bio war.

Die Zahl zur Häufigkeit ist der beruhigende Teil. Frühe Daten zeigen: Mehr als 95 Prozent der Fable-5-Sessions kommen ganz ohne Fallback aus. In diesen Sessions bekommst du das volle Modell der Mythos-Klasse. Der Fallback ist die Ausnahme, nicht die Regel.

Die drei Classifier-Domänen

Fable 5s Classifier decken drei Bereiche ab. Hier steht, was jeder ist und warum es ihn gibt.

Domäne	Was sie abdeckt	Warum	Breite beim Launch
Cybersecurity	Software-Schwachstellen finden und ausnutzen, dazu breitere offensive und agentische Cyber-Arbeit wie Reconnaissance und Lateral Movement	Cyber-Fähigkeiten der Mythos-Klasse könnten Angriffe deutlich billiger und einfacher machen	Breit. Im Test blockieren die Classifier jeden Fortschritt bei diesen Aufgaben
Biologie und Chemie	Die meisten Bio- und Chemie-Anfragen, nicht nur enge Bioweapons-Fragen	Uplift-Risiko für böswillige Akteure, dazu echte Dual-Use-Wissenschaftsfähigkeit	Sehr breit und konservativ. Die meisten Anfragen fallen zurück. Anthropic arbeitet daran, es einzugrenzen
Distillation	Anfragen, die als Versuch geflaggt werden, die Fähigkeiten des Modells zu extrahieren, um Rivalen-Modelle zu trainieren	Verhindert die Verbreitung von Near-Frontier-Modellen, die ohne Safeguards veröffentlicht werden	Gezielt auf erkannte großangelegte Extraktion, besonders aus autoritären Ländern

Ein paar Details, die es lohnt herauszustellen.

Bei Cybersecurity sind die Classifier bewusst breit. Sie fangen nicht nur Exploit-Entwicklung. Sie decken offensive Cyber-Aufgaben im weiteren Sinne ab, weil Modelle der Mythos-Klasse stark im agentischen Hacking sind, sie also die einzelnen Phasen eines Angriffs aneinanderketten können. Anthropic hat die Classifier so gebaut, dass das Modell bei diesen Aufgaben keinen Fortschritt macht.

Bei Biologie und Chemie sind die Safeguards gerade am breitesten und konservativsten. Früher blockierte Anthropic nur einen engen Satz an Bioweapons-Fragen. Das hält man nicht mehr für ausreichend, zum Teil, weil gut ausgestattete Bad Actors echten Uplift gewinnen könnten, und zum Teil, weil die Modelle inzwischen gut genug bei echten wissenschaftlichen Aufgaben sind, dass es zählt. Als Beispiel: Modelle der Mythos-Klasse haben unveröffentlichte Eigenschaften der äußeren Hülle eines Virus vorhergesagt und dabei dedizierte Protein-Modelle allein mit biologischem Reasoning übertroffen. Das ist nützlich für Gentherapie und gefährlich in den falschen Händen, also fallen vorerst die meisten Bio- und Chemie-Anfragen zurück. Anthropic sagt ausdrücklich, dass das vorübergehend ist und man diese Safeguards so schnell wie möglich eingrenzen will, weil man nicht will, dass False Positives legitime Wissenschaft blockieren.

Bei Distillation bist nicht du das Ziel. Es geht um großangelegte Versuche, Fable 5s Fähigkeiten in konkurrierende Modelle zu kopieren, die dann womöglich ganz ohne Safeguards ausgeliefert werden.

Warum die Classifier manchmal harmlose Prompts einfangen

Anthropic hat diese Safeguards mit Absicht konservativ eingestellt, um das Modell sowohl sicher als auch schnell freizugeben. Der Haken: Sie sind strenger als ideal und fangen manchmal harmlose Anfragen ein. Das Unternehmen sagt das direkt, nennt es frustrierend und sagt, False Positives zu reduzieren sei das Ziel nach dem Launch.

Builder erleben das bereits. Auf Hacker News haben Entwickler angemerkt, dass die Classifier aggressiv genug sind, um bei sehr harmlosen, nicht-sicherheitsbezogenen Coding-Aufgaben auszulösen. Der rettende Punkt: Der Fallback auf Opus 4.8 funktioniert wie vorgesehen, also kostet dich ein False Positive den Vorsprung der Mythos-Klasse bei genau diesem einen Prompt, statt dich komplett zu blockieren.

Wenn du überwiegend gewöhnliche Anwendungsarbeit machst, betrifft dich das selten. Die Unter-5-Prozent-Zahl ist die Gesamt-Session-Rate, und was sie auslöst, ist Security-nahes Terrain. Schlichte Feature-, Migrations- und Refactoring-Arbeit so gut wie nie.

Die Red-Teaming-Bilanz

Anthropic hat echten Aufwand reingesteckt, um zu testen, ob die Classifier gegen Leute standhalten, die sie knacken wollen. Die wichtigsten Aussagen:

Ein externes Bug-Bounty lief über 1.000 Stunden und produzierte keine universellen Jailbreaks
Externe Red-Teaming-Organisationen fanden ebenfalls keine universellen Jailbreaks bei langen agentischen Aufgaben
Ein externer Partner hielt Fable 5s Cyber-Safeguards für die robustesten aller getesteten Modelle, einschließlich Opus 4.8 und Opus 4.7
Fable 5 erfüllte null schädliche Single-Turn-Cyber-Anfragen über 30 verschiedene öffentliche Jailbreak-Techniken hinweg

Es gibt einen eingeräumten Vorbehalt. Das UK AI Safety Institute machte in einem kurzen ersten Test-Fenster Fortschritte in Richtung eines universellen Jailbreaks. Anthropic ist ehrlich, dass es vermutlich unmöglich ist, universelle Jailbreaks komplett zu verhindern. Das erklärte Ziel ist enger: jeden verbleibenden Jailbreak so langsam und teuer machen, dass man ihn erkennt und stoppt, bevor er in großem Maßstab genutzt wird.

Sei klarsichtig, was behauptet wird und was nicht. Die Aussage ist: keine universellen Jailbreaks, also keine einzelne zuverlässige Technik, die die Safeguards durch die Bank knackt. Anthropic sagt nicht, dass keine partiellen Jailbreaks gefunden wurden, und erwartet, dass motivierte Angreifer weiter probieren, weil der finanzielle Anreiz von Cyber-Fähigkeit der Mythos-Klasse groß ist. Nimm die Bilanz als starken Beleg für Robustheit, nicht als Garantie für Perfektion.

Die neue 30-Tage-Datenspeicherung

Das ist der Teil, den Unternehmen genau lesen müssen, weil er den Deal ändert.

Anthropic verlangt jetzt 30-Tage-Speicherung für allen Traffic auf Modellen der Mythos-Klasse, was Fable 5 und Mythos 5 einschließt, sowohl auf First-Party- als auch auf Third-Party-Oberflächen. Entscheidend: Das gilt sogar für Unternehmen, die vorher Zero-Retention-Vereinbarungen hatten. Für Mythos-Klasse-Traffic gelten diese Vereinbarungen nicht mehr.

Hier ist, was Anthropic im Gegenzug zusagt. Die Daten werden nicht genutzt, um neue Claude-Modelle zu trainieren, oder für irgendeinen Nicht-Sicherheits-Zweck. Jeder menschliche Zugriff auf die Daten wird protokolliert. Sie werden in fast allen Fällen nach 30 Tagen gelöscht. Der erklärte Zweck ist die Abwehr komplexer und neuartiger Angriffe, einschließlich neuer Jailbreaks und Angriffe, die sich über viele Anfragen erstrecken, sowie das Erkennen und Reduzieren von False Positives.

TechCrunch hat das als möglichen Branchen-Präzedenzfall eingeordnet, bei dem Zugang zu den leistungsstärksten Modellen mit verpflichtender Datenspeicherung als Sicherheitsmaßnahme gebündelt kommt. Das ist das größere Muster, das man im Auge behalten sollte.

Eines musst du auseinanderhalten: Diese Speicherrichtlinie ist getrennt von der Executive Order des Weißen Hauses, Frontier-Modelle vor der Freigabe mit der Regierung zu teilen. Ein Anthropic-Sprecher sagte CyberScoop, die Speicheränderung sei spezifisch für die Safeguards-Arbeit und stehe nicht im Zusammenhang mit dieser Order. Verwechsle die beiden 30-Tage-Fenster nicht.

Was das für dein Unternehmen heißt

Wenn du Produkte auf Claude aufbaust oder Kunden- oder regulierte Daten durch Claude schickst, hat die Speicheränderung konkrete Folgen.

Deine Zero-Retention-Vereinbarung deckt Fable 5 nicht ab. Wenn du eine ZDR-Abmachung mit Anthropic hast, gilt sie nicht für Fable 5 oder irgendeinen Mythos-Klasse-Traffic. Die 30-Tage-Speicherung ist verpflichtend und setzt sie außer Kraft. Anzunehmen, deine bestehenden Bedingungen würden weitergelten, ist der Fehler, den du vermeiden musst.

Es gilt auch auf Third-Party-Oberflächen. Das betrifft nicht nur die Claude API direkt. Mythos-Klasse-Traffic über Partner und Reseller ist ebenfalls abgedeckt. Wenn du Fable 5 über ein Tool wie GitHub Copilot erreichst, gilt die Speicherpflicht trotzdem, und du siehst womöglich einen Zustimmungsschritt zur Datenspeicherung.

Prüf deine nachgelagerten Zusagen. Wenn du deinen eigenen Kunden Zero Retention versprochen hast oder PII, PHI, Geschäftsgeheimnisse oder Daten unter vertraglicher Vertraulichkeit verarbeitest, könnte es ein Versprechen brechen, das durch Fable 5 zu schicken. Lass dein Compliance-Team das prüfen, bevor du regulierte Daten hindurchschickst.

Du hast eine saubere Fallback-Option. Wenn du für einen Workload Zero oder minimale Speicherung brauchst, lass ihn auf Opus 4.8, wo ZDR für qualifizierende Enterprise-Kunden unter Anthropics Standardrichtlinie verfügbar bleibt. Reservier Fable 5 für nicht-sensible Jobs, bei denen die 30-Tage-Speicherung akzeptabel ist. Diese Aufteilung lässt dich das leistungsfähigere Modell dort nutzen, wo es sicher ist, und hält deinen sensiblen Traffic auf dem Modell, das strengere Bedingungen einhalten kann.

Die ehrliche Zusammenfassung: Die Speicherung ist real und setzt frühere ZDR für diese Modelle tatsächlich außer Kraft, aber sie ist eng im Zweck. Sie dient nicht dem Training, sie wird protokolliert, und sie wird in fast allen Fällen nach 30 Tagen gelöscht. Die Alarmglocken sind als Hinweis für die Compliance berechtigt, nicht als Grund anzunehmen, die Daten würden ausgewertet.

Mythos 5 und die Trusted-Access-Programme

Fable 5 hat ein Geschwister. Mythos 5 ist dasselbe zugrunde liegende Modell, bei dem die Cyber-Safeguards in manchen Bereichen aufgehoben sind. Es hat die stärksten Cybersecurity-Fähigkeiten aller Modelle weltweit, was genau der Grund ist, warum es nicht öffentlich ist.

Mythos 5 wird über Project Glasswing eingesetzt, Anthropics Zusammenarbeit mit der US-Regierung, um kritische Software abzusichern. Partner, die Zugang zur früheren Mythos Preview hatten, können jetzt zu Mythos 5 upgraden, zu deutlich geringeren Kosten. Glasswing startete im April 2026 mit einer begrenzten Gruppe und wuchs Anfang Juni auf rund 150 Organisationen in mehr als 15 Ländern.

Der Zugang weitet sich in zwei Richtungen. Anthropic plant ein systematischeres Trusted-Access-Programm, damit Cybersecurity-Organisationen sich bewerben können, das mit der Zeit wächst und Bundesbehörden einschließt. Außerdem öffnet man ein separates Trusted-Access-Programm für Biologie, das einer kleinen Zahl von Life-Science-Forschern eine Version von Fable 5 gibt, bei der die Bio- und Chemie-Safeguards entfernt, die Cyber-Safeguards aber weiterhin aktiv sind.

Für den Rest von uns ist die Quintessenz simpel. Die Leine an Fable 5 ist der Preis für öffentlichen Zugang. Das Modell ohne Leine existiert, aber es bleibt hinter einem Prüfprozess. Und selbst das Fallback-Modell ist geschichtet: Anthropic berichtet, dass Opus 4.8 für sich genommen die meisten bekannten Schwachstellen aus einer Beschreibung reproduzieren kann, aber seine Safeguards drücken diese Erfolgsrate auf rund 1 Prozent. Das ganze System ist mit Absicht in Schichten gebaut.

Das größere Bild

Es lohnt sich, die Spannung beim Namen zu nennen. Fable 5 wurde wenige Tage nach Anthropics öffentlichem Appell gelauncht, KI-Labore sollten sich auf eine koordinierte Bremse bei der Frontier-Entwicklung einigen, mit der Warnung, dass die Systeme schnell genug voranschreiten, um rekursive Selbstverbesserung zu riskieren. Und dann hat man sein leistungsstärkstes öffentliches Modell ausgeliefert. Die Safeguards sind, wie Anthropic diesen Widerspruch auflöst, was Produktchefin Dianne Penn ein Race to the Top nennt: die Fähigkeit liefern und gleichzeitig die Leitplanken bauen, damit der Nutzen den Schaden überwiegt.

Du musst in dieser Debatte keine Seite einnehmen, um das Modell gut zu nutzen. Was in der Praxis zählt: zu wissen, warum eine Antwort gelegentlich von Opus 4.8 kommt, zu wissen, dass die Classifier gelegentlich bei harmlosen Prompts danebenliegen, und zu wissen, dass sich der Daten-Deal geändert hat. Diese drei Fakten sind die ganze für den Nutzer sichtbare Geschichte der Safeguards.

Häufig gestellte Fragen

Warum fällt Claude Fable 5 auf Opus 4.8 zurück?

Fable 5 betreibt Classifier, die Prompts in Cybersecurity, Biologie und Chemie oder Distillation erkennen. Geflaggte Prompts werden statt von Fable 5 von Opus 4.8 beantwortet, und es wird dir gesagt, wenn das passiert. Ein Fallback ist eine echte Antwort von einem leistungsfähigen Modell, keine Verweigerung, und er tritt in unter 5 Prozent der Sessions auf.

Was sind die drei Fable-5-Classifier-Domänen?

Cybersecurity, die das Ausnutzen von Schwachstellen und breitere offensive und agentische Cyber-Arbeit abdeckt; Biologie und Chemie, die derzeit die meisten Anfragen in diesen Bereichen abdeckt; und Distillation, die Versuche abdeckt, die Fähigkeiten des Modells zu extrahieren, um Rivalen-Modelle zu trainieren. Die Bio- und Chemie-Safeguards sind beim Launch die breitesten, und Anthropic plant, sie einzugrenzen.

Speichert Claude Fable 5 meine Daten?

Ja. Anthropic verlangt 30-Tage-Speicherung für allen Fable-5- und Mythos-Klasse-Traffic, sowohl auf First-Party- als auch Third-Party-Oberflächen, selbst wenn du vorher eine Zero-Retention-Vereinbarung hattest. Die Daten werden nicht fürs Training oder einen Nicht-Sicherheits-Zweck genutzt, menschlicher Zugriff wird protokolliert, und sie werden in fast allen Fällen nach 30 Tagen gelöscht.

Wie behalte ich Zero Data Retention, während ich Claude nutze?

Route sensible Workloads über Opus 4.8, wo Zero Data Retention für qualifizierende Enterprise-Kunden unter Anthropics Standardrichtlinie verfügbar bleibt, und reservier Fable 5 für nicht-sensible Arbeit. Die 30-Tage-Speicherpflicht ist spezifisch für Modelle der Mythos-Klasse und setzt frühere ZDR nur für diesen Traffic außer Kraft.

Was ist Claude Mythos 5?

Mythos 5 ist dasselbe zugrunde liegende Modell wie Fable 5, bei dem die Cyber-Safeguards in manchen Bereichen aufgehoben sind, was ihm die stärksten Cybersecurity-Fähigkeiten aller Modelle gibt. Es ist nicht öffentlich. Es ist auf Project-Glasswing-Partner und ein wachsendes Trusted-Access-Programm beschränkt, mit einem separaten Biologie-Programm, das für Forscher kommt.

Hat jemand Claude Fable 5 gejailbreakt?

Ein externes Bug-Bounty über 1.000 Stunden und externe Red-Teaming-Organisationen fanden keine universellen Jailbreaks, auch wenn das UK AI Safety Institute in einem kurzen Fenster Fortschritte in Richtung eines machte. Anthropic behauptet keinen universellen Jailbreak, nicht gar keinen Jailbreak, und sagt, sie komplett zu verhindern sei vermutlich unmöglich. Das Ziel ist, jeden verbleibenden zu langsam und zu teuer zu machen, um ihn in großem Maßstab zu nutzen.