Claude Fable 5 vs Opus 4.8
Claude Fable 5 は公開されたほぼすべてのベンチマークで Opus 4.8 を上回り、価格はちょうど2倍です。長くて複雑、あるいは失敗しやすいタスクで、2倍のトークン単価が2倍以上の価値を生むときに元が取れます。
設定をやめて、構築を始めよう。
AIオーケストレーション付きSaaSビルダーテンプレート。
Claude Fable 5 は Anthropic が公開したほぼすべてのベンチマークで Opus 4.8 を上回り、価格はちょうど2倍です(100万トークンあたり $10/$50 に対して $5/$25)。考えるべきは「どちらのモデルが優れているか」ではなく(答えは Fable 5 です)、「トークン単価を2倍払って、2倍以上の価値が返ってくるのはどんなときか」です。
つまりこれは、トークン単価ではなくタスクあたりのコストで判断する問題です。Fable 5 がそのプレミアムに見合うのは、長くて複雑、あるいは失敗しやすい仕事です。少ないターンで、一発で、人間の手助けなしに片付けてくれます。一方、定型的でスコープが明確な大量処理なら、半額の Opus 4.8 が今でも合理的なデフォルトです。
Fable 5 は、一般公開された初の Mythos クラスのモデルで、このクラスは Opus クラスのさらに上に位置します。Anthropic 自身の言い回しは珍しく直球です。その能力は「これまで一般提供してきたどのモデルをも超える」とし、「タスクが長く複雑になるほど、Fable 5 の他モデルに対するリードは大きくなる」と述べています。この最後の一文に、判断のすべてが詰まっています。
ざっくり結論
タスクが十分に難しく、能力差が効いてくる場面では Fable 5 を選びましょう。
- 大規模なコードベース移行や複数リポジトリにまたがるリファクタリング
- 起動したら放置できる、長時間の自律エージェント実行
- 複雑な財務・分析・科学研究
- ビジョン中心の作業(スクリーンショットからのコード生成、密な図からの数値抽出)
- 1つの見落としが高くつく、1M トークン近くの分析
仕事が定型的で、大量処理で、レイテンシに敏感で、ゼロデータ保持が必須なら、Opus 4.8 にとどまりましょう。Opus 4.8 は今でも強力なフロンティアモデルで、難しいエージェント型コーディングでは GPT-5.5 を上回っています。Fable 5 が出た日に Opus 4.8 が劣化したわけではありません。
主要スペック
| スペック | Claude Fable 5 | Claude Opus 4.8 |
|---|---|---|
| API ID | claude-fable-5 | claude-opus-4-8 |
| モデルクラス | Mythos クラス(Opus の上位ティア) | Opus クラスのフラッグシップ |
| リリース日 | 2026年6月9日 | 2026年5月28日 |
| コンテキストウィンドウ | 1M トークン | 1M トークン |
| 最大出力 | 128K トークン | 128K トークン |
| 入力価格 | $10 / 1M トークン | $5 / 1M トークン |
| 出力価格 | $50 / 1M トークン | $25 / 1M トークン |
| 思考 | アダプティブ思考のみ | アダプティブ思考のみ |
| エフォートレベル | low, medium, high(デフォルト), xhigh | low, medium, high, xhigh, max |
| データ保持 | 30日間の強制保持(covered model) | ゼロデータ保持に対応 |
| セーフガードのフォールバック | サイバー / バイオ・化学 / 蒸留は Opus 4.8 へ転送 | なし |
判断を左右するのは、価格(ちょうど2倍)とクラス(小幅な刻みではなく、本物のティアの飛躍)の2行です。以下では、この2つのギャップをどう読むかを説明していきます。
ベンチマークの差は本物で、タスクが長くなるほど広がる
たいていのポイントリリースは数ポイントの動きにとどまります。今回はそうではありません。Fable 5 の Opus 4.8 に対するリードは、仕事が最も難しいところでこそ最大になります。
| ベンチマーク | Fable 5 | Opus 4.8 | 差 |
|---|---|---|---|
| SWE-Bench Pro(エージェント型コーディング) | 80.3% | 69.2% | +11.1 pts |
| FrontierCode Diamond(Cognition) | 29.3% | 13.4% | +15.9 pts(2.2倍) |
| SWE-Bench Verified | 95.0% | 88.6% | +6.4 pts |
| Terminal-Bench 2.1 | 88.0% | 82.7% | +5.3 pts |
| GDPval-AA(知識労働の Elo) | 1932 | 1890 | +42 Elo |
| GDP.pdf(ビジョン、ツールなし) | 29.8% | 22.5% | +7.3 pts |
この一覧は注意して読んでください。すべての行が同じ意味を持つわけではないからです。
最も重く見るべきは SWE-Bench Pro です。これはコーディングエージェントが実際の GitHub の issue を解決しなければならない、難しいエンドツーエンドのバリアントで、80.3% 対 69.2% という差は、Fable 5 が難しい仕事をより高い確率でやり遂げることを示す最もクリーンなシグナルです。ちなみに、この Opus に対する +11.1 の差は、Opus 4.8 自身の Gemini 3.1 Pro(54.2%)に対するリードよりも大きいのです。
95.0% という SWE-Bench Verified の数字は派手に見えますが、意味するところは小さめです。フロンティアモデルは Verified では天井に近づいているので、より難しい Pro の数字こそが本当の情報を持っています。
FrontierCode Diamond は地味な伏兵です。これはテストが通るかどうかだけでなく、コードが保守可能で本番品質かどうかを測るもので、Fable 5 は Opus 4.8 の倍以上のスコアを出しています。重要なのは、Anthropic によれば Fable 5 は medium エフォートでも FrontierCode でフロンティアモデルをリードしている点です。Opus を上回るために最大エフォートの料金を払う必要はなく、これは後述するコスト計算で効いてきます。
声に出して言っておくべき注意点が1つあります。これらの評価のほとんどは Anthropic が実施したもので、早期顧客の数値のいくつかは監査された結果ではなく証言です。少なくとも1人のオープンソース研究者は、ローンチ前の数値が見栄えよく選ばれたのではないかと公に疑問を呈しています。ベンチマークはあくまで方向性として扱い、トラフィックを本格的に流す前に自分のタスクで検証してください。
トークンあたりではなく、タスクあたりの ROI
ここで、すべてを決める論点を紹介します。値札には2倍とあります。でも請求額は値札どおりではありません。
Anthropic のリサーチ担当プロダクトマネジメント責任者である Dianne Penn は、CNBC に対してこう率直に語っています。価格は顧客にとって「とても重要な関心事」だが、彼らは単に安いコストを追っているわけではない、と。求めているのは高い精度と、1ドルあたりの高い便益です。そして早期の Fable 5 顧客は「タスクあたりのコストが改善した」と述べたといいます。彼女のまとめはこうです。「より賢いモデルを使うことで、より高い ROI が得られるのです」。
タスクあたりのコストを Fable 5 有利に動かす要因は3つあります。
ターンが少ない。 あるスプレッドシート自動化の顧客は、Fable 5 がどのエフォートレベルでも Opus 4.8 を上回り、より少ないターンで実行が25〜30%速く終わると報告しました。ターンが少ないということは、ツール呼び出しが少なく、無駄な探索の繰り返しも減るということで、完了した1ジョブあたりの課金トークンが減ります。
同じ結果をより少ないトークンで。 あるフロンティア物理学研究所は、Fable 5 がテストした中で最強のモデルであり、しかも「推論トークンを3分の1しか使わずに」、GPT-5.5 が4日かけて到達した地点近くに36時間で達したと報告しました。計算してみましょう。トークンが3分の1で単価が2倍なら、実効コストは3分の2です。この種のタスクでは、料金表が2倍であっても Fable 5 のほうが安いのです。
人間の救出が不要。 Opus の実行が失敗して開発者が手を入れる必要があると、トークンの請求額をはるかに超えるコストがかかります。Base44 は「1年前なら100回のプロンプトが必要だった」アプリが、今では一発で仕上がるようになったと述べています。Rakuten はもっと端的でした。「余分に考えるぶんで元が取れる」。
最もわかりやすい1つの例が Stripe です。5,000万行の Ruby コードベースで、Fable 5 はコードベース全体の移行を1日でやり遂げました。チームが手作業でやれば2か月以上かかると見積もられていた作業です。$10/$50 のレートなら、その1日のトークン請求はエンジニア2か月分の給与に対して誤差レベルです。「トークンあたりではなくタスクあたりの ROI」が極端な形で現れると、こうなります。
各モデルでタスクが実際にいくらかかるか
代表的なエージェント呼び出しを考えます。入力10万トークン、出力2万トークンとしましょう。
Opus 4.8 の場合:
input: 100,000 tokens × $5/1M = $0.50
output: 20,000 tokens × $25/1M = $0.50
total = $1.00Fable 5 で同じトークン使用量の場合:
input: 100,000 tokens × $10/1M = $1.00
output: 20,000 tokens × $50/1M = $1.00
total = $2.00ちょうど2倍で、値札どおりです。ただし Fable 5 が同じトークンを消費した場合に限ります。ここに、先ほどの効率の証拠を当てはめてみましょう。
タスクが本当に難しいとします。Opus 4.8 は一発で完了するのが半分の確率だけで、Fable 5 は一発で決めるとしましょう。試行あたりのコストは Opus が $1.00、Fable が $2.00 のままです。
Opus 4.8: 2 attempts × $1.00 = $2.00 in tokens, plus a human review of the failed run
Fable 5: 1 attempt × $2.00 = $2.00 in tokens, no rescueトークンの請求は同じですが、Opus のほうは加えて開発者の午後を1つ使っています。これが Penn の語ったタスクあたりコストの逆転であり、最適化すべき数字としてトークン単価が間違っている理由です。
逆の側面も同じくらい現実です。Opus がすでに十分こなせる定型的で大量の出力では、2倍のプレミアムは純粋なムダです。エンタープライズ規模では、請求アナリストがこう試算しています。年間50億の出力トークンは、Opus 4.8 でおよそ $125,000、Fable 5 で $250,000 になります。分類、要約、構造化抽出にとって、この差は誤差ではありません。予算の議論そのものです。
それでも Opus 4.8 が正解の場面
Fable 5 がベンチマークで勝つからといって、Opus 4.8 がデフォルトとして間違いになるわけではありません。次のいずれかに当てはまるなら Opus にとどまりましょう。
仕事が定型的で大量。 トークン単価の経済が支配的になり、何百万回もの呼び出しで2倍があっという間に積み上がります。
レイテンシやリクエストあたりのコストが最優先。 Opus のほうが安く、Fable 5 が高エフォートで行う長くて慎重なターンを取りません。
ゼロデータ保持が必要。 Opus 4.8 は ZDR に対応しています。Fable 5 は covered model で、安全分類器を動かすために30日間の保持が必須です。データは学習には使われませんが保持はされ、一部の企業にとってはベンチマークに関係なく、これが越えられない調達条件になります。
仕事がサイバー・バイオ・化学の境界近くにある。 Fable 5 はその領域でフラグの立ったクエリを、いずれにせよ Opus 4.8 へ転送します。フォールバックが発火するまで Fable のプレミアムを払い、そのあと Opus の回答を受け取ることになります。そのトラフィックなら、最初から Opus を使いましょう。
そして、この乗り換えは差し替えるだけでは済まないことも覚えておいてください。Fable 5 は思考が常にオンで(深さはエフォートで調整できますが、無効化はできません)、拒否を成功扱いの HTTP 200 とともに refusal という stop reason で返すのでコードでチェックが必要になり、長いターンを走るためクライアントのタイムアウトを破ることがあります。移行は計画的に進めましょう。モデル名の文字列を変えるだけで済ませてはいけません。
フォールバックの関係
どの Opus リリースにも対応物がないディテールが1つあります。Fable 5 は、サイバーセキュリティ、生物学・化学、モデル蒸留のリクエストを監視する分類器を搭載して出荷されています。いずれかが作動すると、あなたのクエリには代わりに Opus 4.8 が回答し、そのことが通知されます。
Anthropic によれば、これが発火するのはセッションの5%未満で、95%超のセッションは完全に Fable 5 で動くといいます。言い換えれば、おおよそ20セッションに1回は、あなたが選んだモデルで動いていない可能性があるということです。これを作動させる話題では、デプロイされた Fable 5 は実質的に Opus 4.8 として振る舞います。文字どおり、回答しているのが Opus だからです。
コスト面の利点もあります。こうして転送された応答は Fable ではなく Opus のレートで課金されます。なので、分類器を作動させるバイオ・化学・セキュリティ周辺のワークロードは、ひそかに割引を受けます。難点は予測しづらさで、これはこれで、そのトラフィックを偶然ではなく意図的に Opus に置いておくべき理由になります。
どう選ぶか
判断はルーティングのルールに収束します。あなたの品質基準を確実にクリアする最も安いモデルをデフォルトにし、Opus 4.8 が明らかに失敗する、タスクの途中で計画を見失う、あるいはリトライで総トークンを余計に消費する場合に限って、そのタスクを Fable 5 に昇格させましょう。
| シナリオ | 選択 | 理由 |
|---|---|---|
| 大規模コードベース移行や複数リポジトリのリファクタリング | Fable 5 | 計測された差が最大。Stripe の2か月→1日 |
| 長時間の自律エージェント実行 | Fable 5 | ターンが少なく、計画を保持し、メモリが積み上がる |
| 複雑な財務・分析研究 | Fable 5 | Hex の分析ベンチマークで初めて90%を突破 |
| ビジョン中心の抽出やスクリーンショットからのコード生成 | Fable 5 | ビジョンで新たな最高水準 |
| 1つの見落としが高くつく 1M トークンの分析 | Fable 5 | コンテキストと推論の両方で向上 |
| 定型的なコード編集、ヘルパー、Q&A | Opus 4.8 または Sonnet 4.6 | 2倍払う Fable はオーバースペック |
| 予算上限つきの大量処理パイプライン | Opus 4.8 | トークン単価の経済が支配的 |
| ZDR が必須のデータ | Opus 4.8 | Fable は30日保持が必須 |
| サイバー・バイオ・化学に近い仕事 | Opus 4.8 | Fable はどのみち Opus へ転送する |
エージェントの群れを運用しているなら、一度きりの選択ではありません。プランナーと最も難しいビルダーには Fable 5 を、評価者・リンター・ドキュメント作成・定型テスターには Opus 4.8 を割り当て、各ロールが必要なだけの知性を買えるようにしましょう。モデルの選択はプロジェクトのルートではなく、エージェントのすぐ隣に置くものです。
結論
Fable 5 は本物のティアの飛躍であり、ポイントリリースではありません。そして価格もそのように設定されています。ベンチマークの差は本物で、タスクが長く難しくなるほど広がります。プレミアムは紙の上ではちょうど2倍ですが、あなたの実際の数字は、Fable のターンの少なさ、トークンの少なさ、一発成功率の高さが、倍増したレート以上を取り返せるかどうかにかかっています。
難しく長期にわたる仕事のテール部分では、たいてい取り返せます。それ以外の定型的なものすべてでは、半額の Opus 4.8 が今でも勝ちます。それに応じてルーティングし、タスクにモデルを決めさせましょう。
よくある質問
Claude Fable 5 は Opus 4.8 より価値がありますか?
長くて複雑、あるいは失敗しやすいタスクなら、答えはイエスです。Fable 5 は公開されたすべてのベンチマークで Opus 4.8 を上回り(SWE-Bench Pro で 80.3% 対 69.2%)、ターンの少なさと一発成功率の高さによって、2倍の値札にもかかわらずタスクあたりのコストを下げられます。定型的で大量の仕事なら、半額の Opus 4.8 のほうが良い選択です。
Claude Fable 5 は Opus 4.8 よりどれだけ高いですか?
料金表のあらゆる行でちょうど2倍です。入力は100万トークンあたり $10 対 $5、出力は100万トークンあたり $50 対 $25 です。入力10万/出力2万のタスクは、同じトークン使用量なら Fable 5 で $2.00、Opus 4.8 で $1.00 です。難しいタスクでは、トークン効率がこの差を縮める、あるいは逆転させることもあります。
コーディングには Claude Fable 5 と Opus 4.8 のどちらを選ぶべきですか?
大規模な移行、複数リポジトリのリファクタリング、長時間の自律実行なら Fable 5 を選びましょう。SWE-Bench Pro のリードと計画保持が効いてきます。定型的な編集、ヘルパー、大量呼び出しなら Opus 4.8 か Sonnet 4.6 を選びましょう。多くのチームは両方をルーティングしています。プランナーと難しいビルダーは Fable に、それ以外はすべて Opus に振り分けます。
Claude Fable 5 にリクエストしたのに Opus 4.8 が回答したのはなぜですか?
Fable 5 のセーフガードは、フラグの立ったサイバーセキュリティ、生物学、化学、蒸留のリクエストを Opus 4.8 へ転送し、その旨を通知します。Anthropic によれば、これはセッションの5%未満で起こります。これらの応答は Fable ではなく Opus のレートで課金されます。
Claude Fable 5 はゼロデータ保持に対応していますか?
いいえ。Fable 5 は covered model で、安全分類器を動かすために30日間の保持が必須です。保持されたデータは学習には使われませんが、保持はされます。Opus 4.8 は今でもゼロデータ保持に対応しており、規制対象のワークロードではこれが決め手になることもあります。
ベンチマークの差は信頼できますか?
方向性として扱ってください。評価のほとんどは Anthropic が実施したもので、早期顧客の数値のいくつかは監査結果ではなく証言であり、少なくとも1人の研究者がローンチ前の数値に疑問を呈しています。SWE-Bench Pro の手法は公開されていて複数のモデルに適用されてきたので、80.3% 対 69.2% が最も信頼できる単一の比較になります。トラフィックを本格的に流す前に、自分のタスクで検証してください。
出典
- Claude Fable 5 and Claude Mythos 5
- Anthropic's Claude Fable 5 is a version of Mythos the public can access today (TechCrunch)
- Anthropic releases Mythos-like AI model to the public (CNBC)
- Claude Fable 5 on AWS (AWS News Blog)
- Claude Fable 5 and Mythos 5 benchmarks explained (Vellum)
- Claude Fable 5 vs Opus 4.8: Benchmarks, Pricing & When to Use Each (TrueFoundry)
- Prompting Claude Fable 5 (API docs)
関連ページ
設定をやめて、構築を始めよう。
AIオーケストレーション付きSaaSビルダーテンプレート。
Claude Fable 5 チートシート
Claude Fable 5 は Anthropic 初の一般公開された Mythos クラスのモデルで、Opus の上に位置する新しいティアです。Claude Mythos 5 と同じ重みを持ち、$10/$50 の料金、1M のコンテキスト、そしてリスクの高いクエリを Opus 4.8 に振り分けるセーフガードを備えています。何が新しく、誰が使うべきかを解説します。
Claude Fable 5 の活用事例
アーリーアクセス期間中に Claude Fable 5 で実際に何ができたのか。Stripe の移行を1日で完了、Hex の分析ベンチで90%突破、スクリーンショットだけから Web アプリを再構築、1週間分の作業を午後だけで仕上げたコーディングエージェント。名前と数字つきの実例を紹介します。