Claude Fable 5 の活用事例

アーリーアクセス開始からわずか数日のあいだに、Claude Fable 5 は Stripe の5,000万行におよぶ Ruby コードベース全体の移行を、たった1日でやってのけました。チーム総出で手作業なら2か月以上かかる仕事です。さらに、スクリーンショットだけから Web アプリのソースコードを再構築し、Hex の分析ベンチマークで90%を突破し、ある個人開発者のために1週間分のライブラリ機能を午後だけで仕上げました。

これは機能一覧ではありません。実績の一覧です。以下に紹介するのは、実在のチームと、ひとりの非常にオープンな個人テスターが、最初の48時間で claude-fable-5 を使って実際にやったことです。名前と数字つきで見ていきます。

読む前に、出典について一言。ここで紹介する話の多くは、Anthropic がローンチ発表で引用したアーリーアクセス顧客のものです。つまりベンダー側がキュレーションした一次情報です。どれがどれなのかは明記します。最も強い独立系のシグナルは、開発者の Simon Willison から得られたものです。彼はアーリーアクセスを持たず、ローンチ当日に自分でテストを走らせました。

実績リスト早見表

企業 / テスト	用途	結果
Stripe	コードベース全体の移行、5,000万行の Ruby コードベース	チーム総出で2か月以上のところを1日
Cognition (Devin)	FrontierCode コーディング評価	フロンティアモデルの中で最高スコア、medium effort でも
Cursor	長期コーディング(CursorBench)	最先端。これまで手の届かなかった問題を解放
GitHub	複雑な長期コーディング	これまでのベンチを超える自律性と信頼性
Base44	フルアプリのワンショット生成	1年前は100回のプロンプトが必要だったアプリを今はワンショット
Genspark	UI デザインとゲームコーディング	テストした他のすべてのモデルに勝利
Hebbia	Finance Benchmark(シニアレベルの推論)	どのモデルより高いスコア
IMC	トレーディング分析の評価	ほぼ全項目で圧勝
Hex	コア分析ベンチマーク	90%を初めて突破。Opus から10ポイントのジャンプ
物理研究所	フロンティア物理研究	推論トークンは3分の1。36時間で GPT-5.5 の4日分に肉薄
法務チーム	契約書のレッドライン(ブラインドレビュー)	毎回、現行モデルと同等かそれ以上
スプレッドシート一式	日常的なスプレッドシート作業	あらゆる effort で Opus 4.8 を上回り、25〜30%高速
Rakuten	高度に自律的なオペレーション	自分の作業を検証。「追加の思考はそのコストに見合う」
Anthropic(ビジョン)	スクリーンショットから Web アプリを再構築	スクリーンショットだけからソースを復元
Simon Willison	MicroPython を WASM 上のフル CPython へ	動作するインストール可能な wheel を1日で

コーディング、移行、そして長期エンジニアリング

Fable 5 のリードが最も大きいのがこのカテゴリです。Anthropic もその理由をはっきり述べています。タスクが長く複雑になるほど、他のモデルに対する Fable の優位が大きくなるのです。

代表例は Stripe です。Anthropic の発表によると、Stripe は Fable 5 が「数か月分のエンジニアリングを数日に圧縮した」と報告しています。5,000万行の Ruby コードベースで、本来ならチーム総出で2か月以上かかる移行を、モデルは1日でやり遂げました。普通なら四半期単位で見積もる仕事であって、午後の片手間でやる仕事ではありません。

エージェントやエディタの会社からも一貫した話が出ています。Cursor は Fable 5 を「CursorBench における最先端のモデル」とし、「以前のモデルでは手の届かなかった長期的な問題のクラスを切り開いた」と報告しました。Devin を手がける Cognition は、自社の FrontierBench コーディング評価で最高スコアのモデルだとし、「長期的な推論に優れ、未知のツールにも最初から対応できる」「medium effort でもフロンティアモデルの中で最高スコアを出す」と述べています。GitHub は、初期テストにおいて複雑な長期コーディングタスクを「これまでのベンチを超える自律性と信頼性」でこなしたと報告しました。

大規模なレガシーコードベースを持たないビルダーにとっては、いわゆる vibe-coding の数字のほうが重要でしょう。Base44 は「1年前は100回のプロンプトが必要だったアプリを、今はワンショットで作る」と報告し、TechCrunch には、Fable はフルアプリのワンショット生成が得意で、ツール呼び出しも優秀だと語っています。Genspark は TechCrunch に対し、Fable が評価で他のすべてのモデルに勝ち、UI デザインとゲームコーディングで明らかに優れていたと述べました。

完全に独立した唯一の証言は、アーリーアクセスを持たなかった Simon Willison のものです。ローンチ当日の約5時間半で、彼は Claude Code 内で Fable を使い、自分の Datasette Agent プロジェクトに human-in-the-loop の一時停止・承認機能を追加しました。基盤となる LLM ライブラリへの変更もスコープに入ると伝えると、モデルはその作業をきれいに支えるためのアップストリーム機能を4つ実装し、それらをリリースとして出荷しました。彼の評価はこうです。「今日は数時間費やしただけだが、数日分の仕事をした感覚だ」。API 設計、テスト、コード、ドキュメントの品質も称賛しています。

これがあなたにとって何を意味するか。 カギは「コードを速く書く」ことではなく、「目を離せないほど大きな仕事でも一貫性を保ち続ける」ことです。複数ファイルにまたがり、普通ならスプリント1回を食いつぶすような移行やリファクタリング、機能追加があるなら、それを任せるべきモデルです。日常の小さな編集なら、Sonnet のほうが安くて速い選択肢です。

ナレッジワーク:金融、分析、研究

Fable 5 はコーディング専用モデルではありません。最も鋭い初期成果のいくつかは、アナリストから出ています。

分析プラットフォームの Hex は、Fable 5 が「複雑で長時間にわたる分析タスクからなる当社のコア分析ベンチマークで、初めて90%を突破した」と述べました。Opus から10ポイントのジャンプです。「最も難しい問いでも、強い判断力とニュアンスへの注意を見せる」とも付け加えています。TechCrunch がこの結果を独立に再報道しており、ローンチ時の主張の中でも裏づけのしっかりしたもののひとつになっています。

金融分野では、Hebbia が、シニアレベルの推論を測る自社の Finance Benchmark で Fable 5 がどのモデルより高いスコアを記録し、文書ベースの推論やチャート・表の解釈で大幅な伸びを見せたと報告しました。トレーディング会社の IMC は、Fable が「トレーディング分析の評価でほぼ全項目を圧勝した」と述べ、事実の照会、概念的な推論、根本原因の分析、期待値の分析まで含めて高評価でした。

研究分野の結果が最も衝撃的です。ある物理研究所は Anthropic に対し、Fable 5 が「これまでテストしたフロンティア物理研究で最も強いモデルでありながら、推論トークンは3分の1しか使わなかった」とし、「36時間で、GPT-5.5 が4日かけてたどり着いた地点にほぼ到達した」と伝えました。計算量も時間も少なく、行き着く先は同等です。

地味なスプレッドシート作業でさえ改善しました。ある顧客は、日常的なスプレッドシート一式で Fable があらゆる effort レベルで Opus 4.8 を上回り、より少ないターンで25〜30%速く完了したと報告しています。

これがあなたにとって何を意味するか。 仕事の中身が、密度の高い資料を読み込んで細部を正確に押さえることなら――金融メモ、分析パイプライン、研究の統合など――ここでの伸びは、生のスピードではなく、曖昧さの中での判断力に効いてきます。トークン効率の話も本物です。低い effort レベルでの高速な実行が、トークン単価の高さを相殺してくれることもあります。

ビジョン:スクリーンショットを入れて、コードを出す

Anthropic は Fable 5 をビジョンタスクの新たな最先端と呼んでおり、その例は抽象的ではなく具体的です。

ビルダー向けの目玉はこれです。Fable 5 はスクリーンショットだけから Web アプリのソースコードを再構築できます。詳細な科学図表から正確な数値を抽出することもできます。通常なら人が転記する必要があるようなチャートの読み取りです。

ビジョンの進化がどこまで到達したかを最もよく示すのが、あるゲームです。これまでの Claude モデルは、補助ツールやマップ、ゲーム状態の情報を詰め込んだ harness を与えても、Pokemon FireRed をプレイするのに苦労していました。Fable 5 は最小限のビジョンのみの harness でこのゲームをクリアしました。生のスクリーンショット以外には何もなしです。モデルは誰かが作った足場に頼るのではなく、ピクセルからナビゲーションとプランニングを自分でこなしています。

これがあなたにとって何を意味するか。 スクリーンショットからコードへの変換と図表からの数値抽出は、ワークフローに組み込めるほど信頼できるものになりました。デザインモック、ダッシュボードのキャプチャ、科学系の PDF があるなら、先に転記する必要はなく、そのまま渡せます。実用上のテーマは「足場が少なくて済む」ことです。モデルはより少ないカスタムツールで、雑然とした実際のインターフェースに対応します。

長時間稼働するエージェント、メモリ、自己検証

ここまでのすべてを実用にするのは、誰も見ていないときに何が起こるか、です。

Rakuten は TechCrunch に報じられた声明で、はっきりこう述べています。「最高の effort では、Claude Fable 5 は自分の作業を振り返り、検証します。私たちにとって、それこそが高度に自律的なオペレーションを可能にするものです。追加の思考は、そのコストに見合います」。この自己チェックこそが、放置して走らせ続けられるエージェントと、1行ずつ再検証しなければならないエージェントの違いです。

メモリがこの効果を増幅します。Anthropic 自身のテストでは、モデルにファイルベースの永続メモリへのアクセスを与えて、デッキ構築ゲーム Slay the Spire をプレイさせました。そのメモリは Fable のパフォーマンスを、Opus 4.8 の場合の3倍も改善し、Fable はゲームの最終幕に3倍の頻度で到達しました。モデルは単に記憶しているだけでなく、長い実行のあいだ、自分のメモから自分のプレイを改善しているのです。

エージェントのオーケストレーションの面では、Anthropic のドキュメントによれば、Fable 5 は並列の subagents をディスパッチして維持すること、そして長時間稼働するものとの通信を管理することが格段に信頼できるようになっています。あるアーリー顧客は、従業員が日常的に走らせる複雑なマルチエージェントの Claude Code ワークフローをこなしながら、「より少ないターンで、より能力の高いエンジニアリングを届ける」と報告しました。

これがあなたにとって何を意味するか。 これは、走らせてから席を立つような仕事のためのモデルです。エージェントを一晩中走らせたり、大きな仕事に subagents をファンアウトさせたり、自律パイプラインを構築したりするなら、自己検証が屋台骨になります。だからこそ、Opus 4.8 では監視なしには終えられなかった仕事に、人々がこのモデルを手に取っているのです。

科学分野、同じ基盤モデルを通じて

最も劇的な結果は Mythos 5 から出ました。これは安全分類器を外した、Fable 5 と同じ基盤モデルです。ただし、ひとつ注意点とともに読む価値があります。公開版の Fable 5 は、生物学・化学のクエリの大半で Opus 4.8 にフォールバックするので、これらを公開モデルで必ずしも再現できるわけではありません。これらはモデルクラスに何ができるかを示すものであって、今日のオープンな API 呼び出しで何ができるかを示すものではありません。

その点を踏まえたうえで、数字は注目に値します。Anthropic 社内のタンパク質設計の専門家は、創薬プロセスの一部を約10倍に加速させたと報告しました。タンパク質設計とバイオインフォマティクスのツールを使い、人の手を借りずに走らせたところ、モデルは熟練した人間のオペレーターと同等かそれ以上の成績を出しました。結合部位を選び、ツールを選定して実行し、自分の失敗から立ち直りながらです。研究対象の14のタンパク質ターゲットのうち9つが、有力な創薬候補を生み出しました。

分子生物学では、Anthropic の科学者がブラインド比較で、Opus クラスのモデルよりもこのモデルの仮説を約80%の割合で好みました。そしてある仮説――大腸菌タンパク質の新しいメカニズム――は、同じ問題に取り組む別の研究所によって独立に裏づけられました。ゲノミクスでは、モデルは1週間以上ほぼ自律的に作業し、138の動物種にわたる単一細胞データを統合し、Science 掲載の最近のモデルを上回るカスタムモデルを訓練しました。しかもサイズは100分の1です。

これがあなたにとって何を意味するか。 信頼されたアクセスの研究プログラムに参加していない限り、これらは日常的な能力というより上限デモとして捉えてください。ビルダーにとってのシグナルは、その「かたち」です。1週間走り続け、自分の行き止まりから立ち直り、発表に値する成果を生み出せるモデル――それが、あなたの移行作業をこなすのと同じエンジンなのです。

落とし穴:コスト、ガードレール、そして閉じつつある窓

Fable 5 は Anthropic が一般公開した中で最も能力の高いモデルであり、そのトレードオフは正直なものです。

高価です。料金は入力100万トークンあたり$10、出力100万トークンあたり$50で、Opus 4.8 の2倍、そして以前は倍の料金だった高価な Mythos Preview と同額です。Simon Willison は1日のテストで$110分のトークンを使い切りました。モデルは遅くもあります。彼の言葉を借りれば「ちょっとした怪物」のように感じられることの裏返しです。一部の顧客が報告したトークン効率の向上が請求額を和らげてくれることはありますが、本格導入する前に自分のワークロードで測るべきです。

ガードレールもあります。Fable の分類器がサイバーセキュリティ、生物学・化学、あるいはモデルの蒸留に関するクエリを検出すると、その応答は代わりに Opus 4.8 が処理し、その旨が通知されます。Anthropic の初期データでは、これが起きるのはセッションの5%未満なので、大半の作業では Fable のフル能力が得られます。ただしフォールバックは保守的にチューニングされており、ときどき無害なリクエストまで引っかけます。

時計も動いています。ローンチから2026年6月22日まで、Fable 5 は Pro、Max、Team、シート単位の Enterprise プランに追加料金なしで含まれます。6月23日にはこれらのプランから外れ、使用クレジットが必要になります。Anthropic は容量に余裕ができ次第、標準のサブスクリプションに戻すことを目指しています。別途の請求なしに自分の仕事で試したいなら、この窓こそがそのタイミングです。

よくある質問

Claude Fable 5 は実際に何に使われたのですか?

実際のアーリーアクセスの仕事で、その大半は大規模なコーディングと分析です。Stripe は5,000万行の Ruby コードベースで、コードベース全体の移行を1日でこなしました。Hex は分析ベンチマークで90%を突破しました。Hebbia と IMC はそれぞれ金融とトレーディングの評価でトップになりました。Anthropic はまた、スクリーンショットから Web アプリのソースを再構築する様子や、生のピクセルから Pokemon FireRed をプレイする様子も示しました。話の大半は Anthropic のローンチ発表が出典なので、一次情報です。

Claude Fable 5 の活用事例

実績リスト早見表

コーディング、移行、そして長期エンジニアリング

ナレッジワーク:金融、分析、研究

ビジョン:スクリーンショットを入れて、コードを出す

長時間稼働するエージェント、メモリ、自己検証

科学分野、同じ基盤モデルを通じて

落とし穴:コスト、ガードレール、そして閉じつつある窓

よくある質問

Claude Fable 5 は実際に何に使われたのですか?

Claude Fable 5 はコーディングが得意ですか?

Claude Fable 5 の料金はいくらですか?

Claude Fable 5 はなぜ別のモデルのように答えることがあるのですか?

Claude Fable 5 で、Anthropic が見せた科学デモはできますか?

Claude Fable 5 は Opus 4.8 より価値がありますか?

出典

関連ページ

On this page