Claude Fable 5 vs Opus 4.8

Claude Fable 5 schlägt Opus 4.8 in fast jedem Benchmark, den Anthropic veröffentlicht hat, und kostet genau das Doppelte ($10/$50 pro Million Tokens statt $5/$25). Die richtige Frage ist nicht „welches Modell ist besser" (Fable 5 ist es), sondern „wann bringt der doppelte Token-Preis mehr als den doppelten Wert".

Damit ist das eine Entscheidung pro Aufgabe, nicht pro Token. Fable 5 verdient seinen Aufpreis bei langen, komplexen oder fehleranfälligen Aufgaben, wo es in weniger Durchläufen fertig wird, beim ersten Versuch, ohne dass ein Mensch eingreifen muss. Bei routinemäßiger, klar umrissener Arbeit mit hohem Volumen ist Opus 4.8 zum halben Preis weiter die vernünftige Standardwahl.

Fable 5 ist das erste öffentlich verfügbare Modell der Mythos-Klasse, eine Stufe, die jetzt über der Opus-Klasse steht. Anthropic formuliert es ungewöhnlich direkt: Die Fähigkeiten „übertreffen die jedes Modells, das wir je allgemein verfügbar gemacht haben", und „je länger und komplexer die Aufgabe, desto größer Fable 5s Vorsprung gegenüber unseren anderen Modellen". Dieser letzte Satz ist die ganze Entscheidung in einem Satz.

Kurzes Fazit

Greif zu Fable 5, wenn die Aufgabe so schwer ist, dass sich Leistung aufsummiert:

große Codebase-Migrationen und Refactors über mehrere Repos
lang laufende autonome Agent-Runs, die du startest und dann sich selbst überlässt
komplexe finanzielle, analytische oder wissenschaftliche Recherche
bildlastige Arbeit (Screenshot zu Code, Zahlen aus dichten Diagrammen ziehen)
Analyse nahe an 1M Tokens, wo ein übersehenes Detail teuer wird

Bleib bei Opus 4.8, wenn die Arbeit routinemäßig, volumenstark, latenzkritisch oder an Zero Data Retention gebunden ist. Opus 4.8 ist immer noch ein starkes Frontier-Modell, vor GPT-5.5 bei hartem agentischem Coding. Es ist nicht schlechter geworden an dem Tag, an dem Fable 5 erschien.

Die wichtigsten Specs

Spec	Claude Fable 5	Claude Opus 4.8
API-ID	`claude-fable-5`	`claude-opus-4-8`
Modellklasse	Mythos-Klasse (Stufe über Opus)	Opus-Klasse, Flaggschiff
Release-Datum	9. Juni 2026	28. Mai 2026
Kontextfenster	1M Tokens	1M Tokens
Max. Output	128K Tokens	128K Tokens
Input-Preis	$10 / 1M Tokens	$5 / 1M Tokens
Output-Preis	$50 / 1M Tokens	$25 / 1M Tokens
Thinking	nur Adaptive thinking	nur Adaptive thinking
Effort-Level	low, medium, high (Standard), xhigh	low, medium, high, xhigh, max
Data Retention	30 Tage verpflichtend (covered model)	Zero Data Retention möglich
Safeguard-Fallback	cyber / bio-chem / Distillation gehen an Opus 4.8	keiner

Die zwei Zeilen, die die Entscheidung treiben, sind Preis (genau 2x) und Klasse (ein echter Stufensprung, kein Inkrement). Alles weiter unten erklärt, wie du die Lücke dazwischen liest.

Die Benchmark-Lücke ist echt, und sie wächst mit der Aufgabenlänge

Die meisten Point-Releases zeigen ein paar Punkte Bewegung. Das hier ist anders. Fable 5s Vorsprung gegenüber Opus 4.8 ist genau dort am größten, wo die Arbeit am schwersten ist.

Benchmark	Fable 5	Opus 4.8	Delta
SWE-Bench Pro (agentisches Coding)	80,3 %	69,2 %	+11,1 Pkt.
FrontierCode Diamond (Cognition)	29,3 %	13,4 %	+15,9 Pkt. (2,2x)
SWE-Bench Verified	95,0 %	88,6 %	+6,4 Pkt.
Terminal-Bench 2.1	88,0 %	82,7 %	+5,3 Pkt.
GDPval-AA (Wissensarbeit-Elo)	1932	1890	+42 Elo
GDP.pdf (Vision, ohne Tools)	29,8 %	22,5 %	+7,3 Pkt.

Lies diese Spanne genau, denn nicht jede Zeile bedeutet dasselbe.

SWE-Bench Pro ist die, die du am stärksten gewichten solltest. Das ist die harte End-to-End-Variante, bei der ein Coding-Agent echte GitHub-Issues lösen muss, und 80,3 % gegen 69,2 % ist das sauberste Signal dafür, dass Fable 5 harte Arbeit öfter hinbekommt. Zur Einordnung: Diese +11,1-Lücke gegenüber Opus ist größer als Opus 4.8s eigener Vorsprung vor Gemini 3.1 Pro (54,2 %).

SWE-Bench Verified mit 95,0 % sieht dramatisch aus, sagt aber weniger. Frontier-Modelle sind bei Verified nah an der Decke, also trägt die schwerere Pro-Zahl die echte Information.

FrontierCode Diamond ist der stille Überflieger. Er misst, ob Code wartbar und produktionsreif ist, nicht nur, ob Tests durchlaufen, und Fable 5 verdoppelt Opus 4.8 mehr als nur. Entscheidend: Anthropic berichtet, dass Fable 5 bei FrontierCode schon bei medium Effort vor den Frontier-Modellen liegt. Du musst nicht für maximalen Effort zahlen, um Opus zu schlagen, und das ist wichtig für die Kostenrechnung weiter unten.

Ein Vorbehalt, den man laut aussprechen sollte: Anthropic hat die meisten dieser Evaluationen selbst durchgeführt, und etliche frühe Kundenzahlen sind Testimonials, keine geprüften Ergebnisse. Mindestens ein Open-Source-Forscher hat öffentlich infrage gestellt, ob die Pre-Launch-Zahlen geschönt ausgewählt wurden. Nimm die Benchmarks als Richtungsweiser und validiere an deinen eigenen Aufgaben, bevor du Traffic darauf umlenkst.

ROI pro Aufgabe, nicht pro Token

Hier ist das Argument, das alles entscheidet. Auf dem Etikett steht 2x. Deine Rechnung ist nicht das Etikett.

Anthropics Head of Product Management für Research, Dianne Penn, hat es gegenüber CNBC klar gesagt: Preise sind „ganz oben im Kopf" der Kunden, aber sie jagen nicht nur niedrigeren Kosten hinterher. Sie wollen höhere Genauigkeit und mehr Nutzen pro Dollar, und frühe Fable-5-Kunden „bemerkten eine Verbesserung bei den Kosten pro Aufgabe". Ihr Fazit: „Mit intelligenteren Modellen bekommst du einfach einen höheren ROI."

Drei Dinge verschieben die Kosten pro Aufgabe zugunsten von Fable 5:

Weniger Durchläufe. Ein Kunde aus dem Bereich Spreadsheet-Automatisierung stellte fest, dass Fable 5 Opus 4.8 auf jedem Effort-Level schlägt und Runs 25 bis 30 % schneller mit weniger Durchläufen beendet. Weniger Durchläufe heißt weniger Tool-Aufrufe und weniger wiederholtes Erkunden, also weniger abgerechnete Tokens pro erledigtem Job.

Weniger Tokens für dasselbe Ergebnis. Ein Frontier-Physiklabor berichtete, Fable 5 sei das stärkste Modell, das es getestet hat, „und das mit einem Drittel der Reasoning-Tokens", und kam in 36 Stunden fast dorthin, wo GPT-5.5 erst nach vier Tagen landete. Rechne nach: ein Drittel der Tokens beim doppelten Preis pro Token sind zwei Drittel der effektiven Kosten. Bei dieser Art von Aufgabe ist Fable 5 trotz des 2x-Preisschilds günstiger.

Kein menschliches Eingreifen. Ein gescheiterter Opus-Run, bei dem eine Entwicklerin einspringen muss, kostet weit mehr als seine Token-Rechnung. Base44 beschrieb Apps, die „vor einem Jahr hundert Prompts gebraucht haben" und jetzt im ersten Versuch sitzen. Rakuten war noch deutlicher: „Das zusätzliche Nachdenken zahlt sich selbst aus."

Das klarste Einzelbeispiel ist Stripe. Auf einer Ruby-Codebase mit 50 Millionen Zeilen führte Fable 5 an einem Tag eine Migration über die gesamte Codebase durch, die auf über zwei Monate manuelle Teamarbeit geschätzt war. Bei $10/$50 ist die Token-Rechnung für diesen Tag ein Rundungsfehler gegen zwei Monate Entwicklergehälter. So sieht „ROI pro Aufgabe, nicht pro Token" im Extremfall aus.

Was eine Aufgabe auf jedem Modell wirklich kostet

Nimm einen repräsentativen agentischen Aufruf: 100K Tokens Kontext rein, 20K Tokens raus.

Auf Opus 4.8:

input:  100,000 tokens × $5/1M  = $0.50
output:  20,000 tokens × $25/1M = $0.50
total                           = $1.00

Auf Fable 5, gleiche Token-Nutzung:

input:  100,000 tokens × $10/1M = $1.00
output:  20,000 tokens × $50/1M = $1.00
total                           = $2.00

Genau 2x, das bestätigt das Etikett, aber nur, wenn Fable 5 dieselben Tokens verbrennt. Jetzt wende die Effizienz-Belege an.

Nimm an, die Aufgabe ist echt schwer. Opus 4.8 schafft sie beim ersten Versuch nur in der Hälfte der Fälle; Fable 5 sitzt sie beim ersten Versuch. Die Kosten pro Versuch bleiben $1,00 bei Opus und $2,00 bei Fable.

Opus 4.8: 2 Versuche × $1.00 = $2.00 an Tokens, plus ein Mensch, der den gescheiterten Run prüft
Fable 5:  1 Versuch   × $2.00 = $2.00 an Tokens, kein Eingreifen

Gleiche Token-Rechnung, aber der Opus-Weg hat zusätzlich den Nachmittag einer Entwicklerin gekostet. Das ist die Umkehrung bei den Kosten pro Aufgabe, die Penn beschrieben hat, und genau deshalb ist das Preisschild pro Token die falsche Zahl, die man optimieren sollte.

Die Kehrseite ist genauso real. Bei routinemäßigem Output mit hohem Volumen, den Opus schon gut erledigt, ist der 2x-Aufpreis reiner Overhead. Im Enterprise-Maßstab haben Abrechnungsanalysten das durchgerechnet: 5 Milliarden Output-Tokens pro Jahr kosten rund $125.000 auf Opus 4.8 gegen $250.000 auf Fable 5. Für Klassifizierung, Zusammenfassung und strukturierte Extraktion ist dieser Unterschied kein Rundungsfehler. Das ist das ganze Budgetgespräch.

Wann Opus 4.8 weiter die richtige Wahl ist

Dass Fable 5 die Benchmarks gewinnt, macht Opus 4.8 nicht zur falschen Standardwahl. Bleib bei Opus, wenn eines davon zutrifft:

Die Arbeit ist routinemäßig und volumenstark. Die Token-Ökonomie dominiert, und 2x summiert sich schnell über Millionen Aufrufe.

Latenz oder Kosten pro Anfrage haben Priorität. Opus ist günstiger und macht nicht die langen, bedächtigen Durchläufe, die Fable 5 bei höherem Effort braucht.

Du brauchst Zero Data Retention. Opus 4.8 unterstützt ZDR. Fable 5 ist ein covered model mit verpflichtender 30-Tage-Aufbewahrung, die nötig ist, um seine Safety-Klassifikatoren laufen zu lassen. Die Daten werden nicht zum Training genutzt, aber sie werden aufbewahrt, und für manche Unternehmen ist das ein hartes Beschaffungs-Kriterium, ganz egal, was die Benchmarks sagen.

Deine Arbeit liegt nahe an Cyber-, Bio- oder Chem-Grenzen. Fable 5 leitet markierte Anfragen in diesen Bereichen ohnehin an Opus 4.8 weiter. Du würdest den Fable-Aufpreis bis genau zu dem Moment zahlen, in dem der Fallback greift, und dann eine Opus-Antwort bekommen. Bei diesem Traffic nimm einfach Opus.

Und denk dran: Der Wechsel ist kein Drop-in. Fable 5 lässt Thinking immer an (du steuerst die Tiefe über Effort, abschalten kannst du es nicht), gibt Refusals als erfolgreiches HTTP 200 mit einem refusal-Stop-Grund zurück, den dein Code prüfen muss, und macht längere Durchläufe, die Client-Timeouts sprengen können. Plane die Migration; ändere nicht einfach nur den Modell-String.

Die Fallback-Beziehung

Es gibt ein Detail, das in keinem Opus-Release ein Gegenstück hat. Fable 5 kommt mit Klassifikatoren, die auf Cybersecurity-, Biologie-und-Chemie- sowie Modell-Distillation-Anfragen achten. Wenn einer davon anschlägt, beantwortet Opus 4.8 deine Anfrage stattdessen, und du wirst darüber informiert.

Anthropic sagt, das passiert in weniger als 5 % der Sessions, und mehr als 95 % der Sessions laufen komplett auf Fable 5. Anders gesagt: Etwa eine von zwanzig Sessions läuft vielleicht nicht auf dem Modell, das du gewählt hast. Bei den Themen, die es auslösen, verhält sich das ausgelieferte Fable 5 praktisch wie Opus 4.8, weil buchstäblich genau das antwortet.

Der Kostenvorteil: Diese umgeleiteten Antworten werden zu Opus-Raten abgerechnet, nicht zu Fable-Raten. Bio-, Chem- oder sicherheitsnahe Workloads, die den Klassifikator auslösen, bekommen also einen stillen Rabatt. Der Nachteil ist die Unberechenbarkeit, und das ist Grund genug, diesen Traffic bewusst auf Opus zu halten, statt aus Versehen.

Wie du wählst

Die Entscheidung läuft auf eine Routing-Regel hinaus. Nimm standardmäßig das günstigste Modell, das deine Qualitätslatte zuverlässig schafft, und stuf eine Aufgabe nur dann auf Fable 5 hoch, wenn Opus 4.8 nachweislich scheitert, mitten in der Aufgabe den Plan verliert oder durch Wiederholungen mehr Tokens insgesamt verbrennt.

Szenario	Wahl	Warum
Große Codebase-Migration oder Refactor über mehrere Repos	Fable 5	Größte gemessene Lücke; Stripes zwei Monate auf einen Tag
Lang laufende autonome Agent-Runs	Fable 5	Weniger Durchläufe, Plan-Erhalt, Memory summiert sich
Komplexe finanzielle oder analytische Recherche	Fable 5	Erstes Modell über 90 % bei Hex' Analytics-Benchmark
Bildlastige Extraktion oder Screenshot zu Code	Fable 5	Neuer State of the Art bei Vision
1M-Token-Analyse, wo ein übersehenes Detail teuer ist	Fable 5	Kontext plus Reasoning-Zuwächse
Routine-Code-Edits, Helper, Q&A	Opus 4.8 oder Sonnet 4.6	Fable ist bei 2x übertrieben
Budget-gedeckelte, volumenstarke Pipelines	Opus 4.8	Token-Ökonomie dominiert
ZDR-pflichtige Daten	Opus 4.8	Fable verlangt 30-Tage-Aufbewahrung
Cyber-, Bio- oder Chem-nahe Arbeit	Opus 4.8	Fable leitet das ohnehin an Opus weiter

Wenn du eine Agent-Flotte betreibst, wählst du nicht einmal. Setz Planner und die härtesten Builder auf Fable 5, lass Evaluatoren, Linter, Doc-Writer und Routine-Tester auf Opus 4.8, und lass jede Rolle genau die Intelligenz kaufen, die sie braucht. Die Modellwahl sitzt neben dem Agent, nicht im Projekt-Root.

Das Fazit

Fable 5 ist ein echter Stufensprung, kein Point-Release, und es ist auch so bepreist. Die Benchmark-Lücke ist echt, und sie wird breiter, je länger und schwerer die Aufgaben werden. Der Aufpreis ist auf dem Papier genau 2x, aber deine echte Zahl hängt davon ab, ob Fables weniger Durchläufe, weniger Tokens und höhere Erst-Versuch-Erfolgsrate mehr zurückkaufen als die verdoppelte Rate.

Für den harten, langfristigen Teil deiner Arbeit tun sie das meistens. Für alles Routinemäßige gewinnt Opus 4.8 zum halben Preis weiter. Route entsprechend, und lass die Aufgabe das Modell bestimmen.

Häufig gestellte Fragen

Lohnt sich Claude Fable 5 gegenüber Opus 4.8?

Für lange, komplexe oder fehleranfällige Aufgaben ja. Fable 5 liegt bei jedem veröffentlichten Benchmark vor Opus 4.8 (80,3 % gegen 69,2 % bei SWE-Bench Pro), und seine weniger Durchläufe und höhere Erst-Versuch-Erfolgsrate können die Kosten pro Aufgabe trotz des 2x-Preisschilds senken. Für routinemäßige, volumenstarke Arbeit ist Opus 4.8 zum halben Preis die bessere Wahl.

Wie viel teurer ist Claude Fable 5 als Opus 4.8?

Genau doppelt auf jeder Zeile der Preisliste: $10 gegen $5 pro Million Input-Tokens und $50 gegen $25 pro Million Output-Tokens. Eine Aufgabe mit 100K rein/20K raus kostet $2,00 auf Fable 5 gegen $1,00 auf Opus 4.8 bei identischer Token-Nutzung. Token-Effizienz kann diese Lücke bei harten Aufgaben verkleinern oder sogar umkehren.

Soll ich für Coding Claude Fable 5 oder Opus 4.8 nehmen?

Für große Migrationen, Refactors über mehrere Repos und lange autonome Runs nimm Fable 5, wo sich der SWE-Bench-Pro-Vorsprung und der Plan-Erhalt aufsummieren. Für Routine-Edits, Helper und volumenstarke Aufrufe nimm Opus 4.8 oder Sonnet 4.6. Viele Teams routen beides: Planner und harte Builder auf Fable, alles andere auf Opus.

Warum wurde meine Claude-Fable-5-Anfrage von Opus 4.8 beantwortet?

Fable 5s Safeguards leiten markierte Cybersecurity-, Biologie-, Chemie- und Distillation-Anfragen an Opus 4.8 und benachrichtigen dich. Anthropic sagt, das passiert in unter 5 % der Sessions. Diese Antworten werden zu Opus-Raten abgerechnet, nicht zu Fable-Raten.

Unterstützt Claude Fable 5 Zero Data Retention?

Nein. Fable 5 ist ein covered model mit verpflichtender 30-Tage-Aufbewahrung, die nötig ist, um seine Safety-Klassifikatoren laufen zu lassen. Aufbewahrte Daten werden nicht zum Training genutzt, aber sie werden aufbewahrt. Opus 4.8 unterstützt weiter Zero Data Retention, was bei regulierten Workloads das Zünglein an der Waage sein kann.

Ist die Benchmark-Lücke verlässlich?

Nimm sie als Richtungsweiser. Anthropic hat die meisten Evaluationen selbst durchgeführt, etliche frühe Kundenzahlen sind Testimonials statt geprüfter Ergebnisse, und mindestens ein Forscher hat die Pre-Launch-Zahlen infrage gestellt. Die SWE-Bench-Pro-Methodik ist öffentlich und wurde über mehrere Modelle angewandt, was 80,3 % gegen 69,2 % zum vertrauenswürdigsten Einzelvergleich macht. Validiere an deinen eigenen Aufgaben, bevor du Traffic umlenkst.