Claude Fable 5 vs Opus 4.8

Claude Fable 5 は Anthropic が公開したほぼすべてのベンチマークで Opus 4.8 を上回り、価格はちょうど2倍です（100万トークンあたり $10/$50 に対して $5/$25）。考えるべきは「どちらのモデルが優れているか」ではなく（答えは Fable 5 です）、「トークン単価を2倍払って、2倍以上の価値が返ってくるのはどんなときか」です。

つまりこれは、トークン単価ではなくタスクあたりのコストで判断する問題です。Fable 5 がそのプレミアムに見合うのは、長くて複雑、あるいは失敗しやすい仕事です。少ないターンで、一発で、人間の手助けなしに片付けてくれます。一方、定型的でスコープが明確な大量処理なら、半額の Opus 4.8 が今でも合理的なデフォルトです。

Fable 5 は、一般公開された初の Mythos クラスのモデルで、このクラスは Opus クラスのさらに上に位置します。Anthropic 自身の言い回しは珍しく直球です。その能力は「これまで一般提供してきたどのモデルをも超える」とし、「タスクが長く複雑になるほど、Fable 5 の他モデルに対するリードは大きくなる」と述べています。この最後の一文に、判断のすべてが詰まっています。

ざっくり結論

タスクが十分に難しく、能力差が効いてくる場面では Fable 5 を選びましょう。

大規模なコードベース移行や複数リポジトリにまたがるリファクタリング
起動したら放置できる、長時間の自律エージェント実行
複雑な財務・分析・科学研究
ビジョン中心の作業（スクリーンショットからのコード生成、密な図からの数値抽出）
1つの見落としが高くつく、1M トークン近くの分析

仕事が定型的で、大量処理で、レイテンシに敏感で、ゼロデータ保持が必須なら、Opus 4.8 にとどまりましょう。Opus 4.8 は今でも強力なフロンティアモデルで、難しいエージェント型コーディングでは GPT-5.5 を上回っています。Fable 5 が出た日に Opus 4.8 が劣化したわけではありません。

主要スペック

スペック	Claude Fable 5	Claude Opus 4.8
API ID	`claude-fable-5`	`claude-opus-4-8`
モデルクラス	Mythos クラス（Opus の上位ティア）	Opus クラスのフラッグシップ
リリース日	2026年6月9日	2026年5月28日
コンテキストウィンドウ	1M トークン	1M トークン
最大出力	128K トークン	128K トークン
入力価格	$10 / 1M トークン	$5 / 1M トークン
出力価格	$50 / 1M トークン	$25 / 1M トークン
思考	アダプティブ思考のみ	アダプティブ思考のみ
エフォートレベル	low, medium, high（デフォルト）, xhigh	low, medium, high, xhigh, max
データ保持	30日間の強制保持（covered model）	ゼロデータ保持に対応
セーフガードのフォールバック	サイバー / バイオ・化学 / 蒸留は Opus 4.8 へ転送	なし

判断を左右するのは、価格（ちょうど2倍）とクラス（小幅な刻みではなく、本物のティアの飛躍）の2行です。以下では、この2つのギャップをどう読むかを説明していきます。

ベンチマークの差は本物で、タスクが長くなるほど広がる

たいていのポイントリリースは数ポイントの動きにとどまります。今回はそうではありません。Fable 5 の Opus 4.8 に対するリードは、仕事が最も難しいところでこそ最大になります。

ベンチマーク	Fable 5	Opus 4.8	差
SWE-Bench Pro（エージェント型コーディング）	80.3%	69.2%	+11.1 pts
FrontierCode Diamond（Cognition）	29.3%	13.4%	+15.9 pts（2.2倍）
SWE-Bench Verified	95.0%	88.6%	+6.4 pts
Terminal-Bench 2.1	88.0%	82.7%	+5.3 pts
GDPval-AA（知識労働の Elo）	1932	1890	+42 Elo
GDP.pdf（ビジョン、ツールなし）	29.8%	22.5%	+7.3 pts

この一覧は注意して読んでください。すべての行が同じ意味を持つわけではないからです。

最も重く見るべきは SWE-Bench Pro です。これはコーディングエージェントが実際の GitHub の issue を解決しなければならない、難しいエンドツーエンドのバリアントで、80.3% 対 69.2% という差は、Fable 5 が難しい仕事をより高い確率でやり遂げることを示す最もクリーンなシグナルです。ちなみに、この Opus に対する +11.1 の差は、Opus 4.8 自身の Gemini 3.1 Pro（54.2%）に対するリードよりも大きいのです。

95.0% という SWE-Bench Verified の数字は派手に見えますが、意味するところは小さめです。フロンティアモデルは Verified では天井に近づいているので、より難しい Pro の数字こそが本当の情報を持っています。

FrontierCode Diamond は地味な伏兵です。これはテストが通るかどうかだけでなく、コードが保守可能で本番品質かどうかを測るもので、Fable 5 は Opus 4.8 の倍以上のスコアを出しています。重要なのは、Anthropic によれば Fable 5 は medium エフォートでも FrontierCode でフロンティアモデルをリードしている点です。Opus を上回るために最大エフォートの料金を払う必要はなく、これは後述するコスト計算で効いてきます。

声に出して言っておくべき注意点が1つあります。これらの評価のほとんどは Anthropic が実施したもので、早期顧客の数値のいくつかは監査された結果ではなく証言です。少なくとも1人のオープンソース研究者は、ローンチ前の数値が見栄えよく選ばれたのではないかと公に疑問を呈しています。ベンチマークはあくまで方向性として扱い、トラフィックを本格的に流す前に自分のタスクで検証してください。

トークンあたりではなく、タスクあたりの ROI

ここで、すべてを決める論点を紹介します。値札には2倍とあります。でも請求額は値札どおりではありません。

Anthropic のリサーチ担当プロダクトマネジメント責任者である Dianne Penn は、CNBC に対してこう率直に語っています。価格は顧客にとって「とても重要な関心事」だが、彼らは単に安いコストを追っているわけではない、と。求めているのは高い精度と、1ドルあたりの高い便益です。そして早期の Fable 5 顧客は「タスクあたりのコストが改善した」と述べたといいます。彼女のまとめはこうです。「より賢いモデルを使うことで、より高い ROI が得られるのです」。

タスクあたりのコストを Fable 5 有利に動かす要因は3つあります。

ターンが少ない。 あるスプレッドシート自動化の顧客は、Fable 5 がどのエフォートレベルでも Opus 4.8 を上回り、より少ないターンで実行が25〜30%速く終わると報告しました。ターンが少ないということは、ツール呼び出しが少なく、無駄な探索の繰り返しも減るということで、完了した1ジョブあたりの課金トークンが減ります。

同じ結果をより少ないトークンで。 あるフロンティア物理学研究所は、Fable 5 がテストした中で最強のモデルであり、しかも「推論トークンを3分の1しか使わずに」、GPT-5.5 が4日かけて到達した地点近くに36時間で達したと報告しました。計算してみましょう。トークンが3分の1で単価が2倍なら、実効コストは3分の2です。この種のタスクでは、料金表が2倍であっても Fable 5 のほうが安いのです。

人間の救出が不要。 Opus の実行が失敗して開発者が手を入れる必要があると、トークンの請求額をはるかに超えるコストがかかります。Base44 は「1年前なら100回のプロンプトが必要だった」アプリが、今では一発で仕上がるようになったと述べています。Rakuten はもっと端的でした。「余分に考えるぶんで元が取れる」。

最もわかりやすい1つの例が Stripe です。5,000万行の Ruby コードベースで、Fable 5 はコードベース全体の移行を1日でやり遂げました。チームが手作業でやれば2か月以上かかると見積もられていた作業です。$10/$50 のレートなら、その1日のトークン請求はエンジニア2か月分の給与に対して誤差レベルです。「トークンあたりではなくタスクあたりの ROI」が極端な形で現れると、こうなります。

各モデルでタスクが実際にいくらかかるか

代表的なエージェント呼び出しを考えます。入力10万トークン、出力2万トークンとしましょう。

Opus 4.8 の場合：

input:  100,000 tokens × $5/1M  = $0.50
output:  20,000 tokens × $25/1M = $0.50
total                           = $1.00

Fable 5 で同じトークン使用量の場合：

input:  100,000 tokens × $10/1M = $1.00
output:  20,000 tokens × $50/1M = $1.00
total                           = $2.00

ちょうど2倍で、値札どおりです。ただし Fable 5 が同じトークンを消費した場合に限ります。ここに、先ほどの効率の証拠を当てはめてみましょう。

タスクが本当に難しいとします。Opus 4.8 は一発で完了するのが半分の確率だけで、Fable 5 は一発で決めるとしましょう。試行あたりのコストは Opus が $1.00、Fable が $2.00 のままです。

Opus 4.8: 2 attempts × $1.00 = $2.00 in tokens, plus a human review of the failed run
Fable 5:  1 attempt  × $2.00 = $2.00 in tokens, no rescue

トークンの請求は同じですが、Opus のほうは加えて開発者の午後を1つ使っています。これが Penn の語ったタスクあたりコストの逆転であり、最適化すべき数字としてトークン単価が間違っている理由です。

逆の側面も同じくらい現実です。Opus がすでに十分こなせる定型的で大量の出力では、2倍のプレミアムは純粋なムダです。エンタープライズ規模では、請求アナリストがこう試算しています。年間50億の出力トークンは、Opus 4.8 でおよそ $125,000、Fable 5 で $250,000 になります。分類、要約、構造化抽出にとって、この差は誤差ではありません。予算の議論そのものです。

それでも Opus 4.8 が正解の場面

Fable 5 がベンチマークで勝つからといって、Opus 4.8 がデフォルトとして間違いになるわけではありません。次のいずれかに当てはまるなら Opus にとどまりましょう。

仕事が定型的で大量。 トークン単価の経済が支配的になり、何百万回もの呼び出しで2倍があっという間に積み上がります。

レイテンシやリクエストあたりのコストが最優先。 Opus のほうが安く、Fable 5 が高エフォートで行う長くて慎重なターンを取りません。

ゼロデータ保持が必要。 Opus 4.8 は ZDR に対応しています。Fable 5 は covered model で、安全分類器を動かすために30日間の保持が必須です。データは学習には使われませんが保持はされ、一部の企業にとってはベンチマークに関係なく、これが越えられない調達条件になります。

仕事がサイバー・バイオ・化学の境界近くにある。 Fable 5 はその領域でフラグの立ったクエリを、いずれにせよ Opus 4.8 へ転送します。フォールバックが発火するまで Fable のプレミアムを払い、そのあと Opus の回答を受け取ることになります。そのトラフィックなら、最初から Opus を使いましょう。

そして、この乗り換えは差し替えるだけでは済まないことも覚えておいてください。Fable 5 は思考が常にオンで（深さはエフォートで調整できますが、無効化はできません）、拒否を成功扱いの HTTP 200 とともに refusal という stop reason で返すのでコードでチェックが必要になり、長いターンを走るためクライアントのタイムアウトを破ることがあります。移行は計画的に進めましょう。モデル名の文字列を変えるだけで済ませてはいけません。

フォールバックの関係

どの Opus リリースにも対応物がないディテールが1つあります。Fable 5 は、サイバーセキュリティ、生物学・化学、モデル蒸留のリクエストを監視する分類器を搭載して出荷されています。いずれかが作動すると、あなたのクエリには代わりに Opus 4.8 が回答し、そのことが通知されます。

Anthropic によれば、これが発火するのはセッションの5%未満で、95%超のセッションは完全に Fable 5 で動くといいます。言い換えれば、おおよそ20セッションに1回は、あなたが選んだモデルで動いていない可能性があるということです。これを作動させる話題では、デプロイされた Fable 5 は実質的に Opus 4.8 として振る舞います。文字どおり、回答しているのが Opus だからです。

コスト面の利点もあります。こうして転送された応答は Fable ではなく Opus のレートで課金されます。なので、分類器を作動させるバイオ・化学・セキュリティ周辺のワークロードは、ひそかに割引を受けます。難点は予測しづらさで、これはこれで、そのトラフィックを偶然ではなく意図的に Opus に置いておくべき理由になります。

どう選ぶか

判断はルーティングのルールに収束します。あなたの品質基準を確実にクリアする最も安いモデルをデフォルトにし、Opus 4.8 が明らかに失敗する、タスクの途中で計画を見失う、あるいはリトライで総トークンを余計に消費する場合に限って、そのタスクを Fable 5 に昇格させましょう。

シナリオ	選択	理由
大規模コードベース移行や複数リポジトリのリファクタリング	Fable 5	計測された差が最大。Stripe の2か月→1日
長時間の自律エージェント実行	Fable 5	ターンが少なく、計画を保持し、メモリが積み上がる
複雑な財務・分析研究	Fable 5	Hex の分析ベンチマークで初めて90%を突破
ビジョン中心の抽出やスクリーンショットからのコード生成	Fable 5	ビジョンで新たな最高水準
1つの見落としが高くつく 1M トークンの分析	Fable 5	コンテキストと推論の両方で向上
定型的なコード編集、ヘルパー、Q&A	Opus 4.8 または Sonnet 4.6	2倍払う Fable はオーバースペック
予算上限つきの大量処理パイプライン	Opus 4.8	トークン単価の経済が支配的
ZDR が必須のデータ	Opus 4.8	Fable は30日保持が必須
サイバー・バイオ・化学に近い仕事	Opus 4.8	Fable はどのみち Opus へ転送する

エージェントの群れを運用しているなら、一度きりの選択ではありません。プランナーと最も難しいビルダーには Fable 5 を、評価者・リンター・ドキュメント作成・定型テスターには Opus 4.8 を割り当て、各ロールが必要なだけの知性を買えるようにしましょう。モデルの選択はプロジェクトのルートではなく、エージェントのすぐ隣に置くものです。

Claude Fable 5 vs Opus 4.8

ざっくり結論

主要スペック

ベンチマークの差は本物で、タスクが長くなるほど広がる

トークンあたりではなく、タスクあたりの ROI

各モデルでタスクが実際にいくらかかるか

それでも Opus 4.8 が正解の場面

フォールバックの関係

どう選ぶか

結論

よくある質問

Claude Fable 5 は Opus 4.8 より価値がありますか？

Claude Fable 5 は Opus 4.8 よりどれだけ高いですか？

コーディングには Claude Fable 5 と Opus 4.8 のどちらを選ぶべきですか？

Claude Fable 5 にリクエストしたのに Opus 4.8 が回答したのはなぜですか？

Claude Fable 5 はゼロデータ保持に対応していますか？

ベンチマークの差は信頼できますか？

出典

関連ページ

On this page