自律性のカーブ：AI エージェントにどこまで自由を渡せるのか

AI エージェントにどこまで自律性を渡せるか。これは結局、たった一つの変数に行き着きます。モデルが脱線せずにどれだけ長くタスクを保てるか、です。推論とツール呼び出しの連鎖を、モデルが安定して長く回せるほど、一回のパスで渡せる手綱も長くなります。私たちはほぼ2年にわたってエージェント用の harness を運用してきました。Claude 3.5 Sonnet から始まり、Sonnet と Opus の系統を経て、Claude Fable 5 まで。リリースのたびに、その境界線が少しずつ前へ動いてきました。優れた harness と、長い連鎖を安定して回せるモデル。この二つがそろってはじめて、「コードを書く AI」が「仕事をこなす AI」に変わります。

エージェントにとっての「自律性」とは何か

自律性は、オンオフで切り替えられる機能ではありません。あなたが一回のパスでどれだけの仕事を任せられるか。そして次に手を入れて直すまでに、どこまで進められるか。それが自律性です。

自律性の低いエージェントは、小さくきっちり範囲を決めた指示を一つ受け取り、それをこなして止まります。あなたが結果を確認し、もう一度指示を出し、また同じことを繰り返す。一方で自律性の高いエージェントは、ゴールだけを受け取って、自分で手順を計画し、ツールを動かし、自分のミスを直し、すべて終わってから戻ってきます。この二つの差は、harness だけで決まるものではありません。長い意思決定の連鎖の中で、モデルがレールから外れずにいられるかどうか。そこにかかっています。

これが唯一の変数です。あとはすべて、ここから導かれます。

先へ進む前に、この記事の残りが頼りにする二つの言葉を定義しておきます。

Claude Fable 5 は Anthropic 最新のモデルで、複雑で長時間にわたる自律的な作業のために作られています。価格は入力 100 万トークンあたり $10、出力 100 万トークンあたり $50。コンテキストウィンドウは 1M トークンです。
Claude Opus 4.8（2026 年 5 月リリース）は、日常的なコーディングとエージェント作業に向けた、Anthropic で最も実力のある Opus 系モデルです。価格は入力 100 万トークンあたり $5、出力 100 万トークンあたり $25 です。

実際に登っていくのを見たカーブ

これは机上の理屈ではありません。私たちが実地で体験したことです。私たちの harness は Claude 3.5 Sonnet のころからずっと回り続けていて、モデルがリリースされるたびに、お守り役のコードを少しずつ削り、エージェントに少しずつ長い手綱を渡せるようになってきました。

ここに、そのカーブを時代ごとに、定性的に並べてみます。でっち上げのベンチマークはありません。各ステップで何ができるようになったか、それだけです。

モデルの時代	渡せた手綱の長さ	実際にどう見えたか
Claude 3.5 Sonnet	短く、範囲をきっちり絞ったタスク	一度に一ファイル。ステップごとに人の重い確認が入る。保つ作業の大半は harness が担っていました。
Sonnet / Opus 4.x 系統	中くらいのタスク、確認回数は少なめ	一回のパスで複数ファイルの変更。脱線するまで、いくつかのツール呼び出しをまたいで計画を保てました。
Claude Opus 4.8	長いエージェントタスク、日常の標準	最先端の長時間作業を、コーディングの日常の相棒にできる価格で。
Claude Fable 5	任せて離れていけるタスク	最も長く、最も難しい実行。一回のパスでより多くの自由を渡しても、脱線せずまとまったままです。

大事なのはこの形です。それぞれの時代は、抽象的な意味で「賢く」なっただけではありません。自律性を決めるあの一つの性質、つまり長い連鎖を安定して回す力が、上がっていったのです。

それでも優れた harness が効く理由

自律性が高まるかどうかは、モデルだけの性質ではありません。harness の性質でもあります。

長い連鎖を安定して回せるモデルでも、まわりの harness が走る場所を用意できなければ宝の持ち腐れです。逆に、三歩で脱線するモデルをいくら立派な harness で包んでも、速く失敗するだけです。この二つがそろって、どこまで行けるかが決まります。

具体的に言うと、harness の役割はこうです。

タスクが必要とする範囲に絞って、エージェントに正しいツールを渡す。
エラーを拾って戻し、モデルが止まらずに自己修正できるようにする。
ゴールをぶらさず保ち、毎ターン「自分は何をするはずだったか」をモデルが導き直さずに済むようにする。
境界線を引き、長い自律実行が高くつく場所や壊しかねない場所へさまよわないようにする。

モデルが長い連鎖でより信頼できるようになると、仕事を harness からモデルへ移していけます。カーブ上のリリースが毎回もたらしてくれたのは、まさにこれでした。手取り足取りのコードを減らし、一回のパスにより多くの信頼を置けるようになる。

これは Building is not the bottleneck で書いたのと同じ考えです。難しいのはコードそのものではめったにありません。難しいのはコードのまわりすべて、つまり仕事が本当に出荷されるかどうかを左右する部分です。

Claude Fable 5 で何が変わるのか

Claude Fable 5 がもたらす実際の違いは、グラフ上の数字ではありません。どれだけの余地を渡せるか、です。

もっと長いタスクを渡し、一回のパスでより多くの自由を与えても、脱線せずまとまったままでいてくれます。エージェントの harness にとって、この一つの性質は天井を上げる以上のことをします。長い連鎖での信頼性が QA の負担を一部肩代わりしてくれるからです。脱線しない実行は、ステップごとにお守りして検証し直さなくていい実行だからです。

これが効くのは、QA こそコストの大半が隠れている場所だからです。私たちはこの主張を、この記事と同じ日に公開した QA is the real AI bottleneck で詳しく展開しました。レールから外れずに長く走れるモデルは、ただ実力が高いだけではありません。ループの中で最も高くつく部分を、静かに小さくしてくれます。

トレードオフ：いつ Fable 5 に手を伸ばすか

Fable 5 は標準ではありません。タスクがそれに値するときに手を伸ばす道具です。

入力 100 万トークンあたり $10、出力 100 万トークンあたり $50 という価格は、長く難しい自律実行のために作られていて、小さな変更すべてのためではありません。日常のコーディングなら、入力 $5・出力 $25（100 万トークンあたり）の Claude Opus 4.8 のほうがいまも割安ですし、エージェント作業でも本当に強いです。

私たちが使っているルールはこうです。

あなたがループの中にいるときは Claude Opus 4.8 を使う。対話的なコーディング、素早い反復、日常の相棒です。
長いタスクを任せて離れたいときは Claude Fable 5 を使う。長い連鎖での信頼性に対価を払う価値がある実行です。

正直に言うとこうです。モデルは見出しで選ぶのではなく、実行の長さと重みで選ぶ。あなたの仕事の大半に Fable 5 は要りません。でも要る仕事には、どうしても要るのです。

FAQ

AI コーディングエージェントにはどこまで自律性を渡せますか？

モデルが脱線せずに保てる範囲まで、です。エージェントの自律性を決める唯一の変数は、推論とツール呼び出しの長い連鎖を、一回のパスでモデルがどれだけ安定して回せるか。harness は境界を引き、エラーを戻してくれますが、あなたが手を入れ直すまでにどれだけ仕事を任せられるかは、長い連鎖でのモデルの信頼性が決めます。

エージェントには Claude Opus 4.8 より Claude Fable 5 のほうがいいですか？

長く難しい自律実行なら、はい。Claude Fable 5 は複雑で長時間の作業に向けた Anthropic 最新のモデルで（入力 $10 / 出力 $50、100 万トークンあたり）、長いタスクを脱線せずにまとめ続けます。日常の対話的なコーディングなら、Claude Opus 4.8（入力 $5 / 出力 $25、100 万トークンあたり、2026 年 5 月）のほうが割安で、エージェント作業でも十分に強いです。任せて離れたいときに Fable 5 を使いましょう。

エージェントの自律性における、モデルと harness の違いは何ですか？

モデルは、どれだけ長いタスクを安定して回せるかを決めます。harness は、モデルが走る余地をどれだけ与えるかを決めます。信頼できるモデルでも弱い harness の中では余地に飢えます。逆に、脱線するモデルをいくら立派な harness で包んでも、速く失敗するだけです。自律性はこの二つの掛け算です。だからこそ、どちらか一方を良くするだけで、もっと多くの仕事を任せられるようになります。

自律性が高まると QA の負担は減りますか？

はい、間接的に。長い連鎖を脱線せずに回すモデルは、ステップごとに検証しなくていい実行を生みます。だから長い連鎖での信頼性が、QA コストの一部を肩代わりしてくれます。エージェントの harness にとって、単発の素の能力よりも長時間の信頼性のほうが効いてくる理由がこれです。

自律性のカーブが Claude 3.5 Sonnet から Claude Fable 5 へと登っていくのを、私たちは見てきました。そして次のステップが、またそれを前へ動かすでしょう。モデル選びが全体像の中でどう収まるのかを知りたいなら、まずは the best AI coding model for 2026 から始めてみてください。あるいは Claude Fable 5 と Claude Opus 4.8 の詳細を読むのもいいでしょう。全ラインナップは all models にまとまっています。

自律性のカーブ：AI エージェントにどこまで自由を渡せるのか

On this page