Claude Fable 5 のセーフガード解説

Claude Fable 5 の回答のいくつかは、こっそり Claude Opus 4.8 から返ってきます。これは仕様です。Fable 5 には、3 つのハイリスク領域のプロンプトを検知して、その応答を Opus 4.8 に引き渡すセーフガードが付いていて、そうなったときにはモデルが知らせてくれます。

2026 年 6 月 9 日にローンチされた Fable 5 は、初めて一般公開された Mythos クラスのモデルです。中身は Claude Mythos 5 と同じモデルで、これは Anthropic が以前「広く公開するには能力が高すぎる」としていたバージョンです。そもそも一般の人が使えるようになった理由は、本記事で説明する安全レイヤーにあります。

要点はこうです。Opus 4.8 へのフォールバックは拒否ではありません。あなたは依然として強力なモデルから役に立つ回答を得られます。Anthropic によれば、Fable 5 のセッションの 95% 以上はフォールバックがまったく発生せず、それらのセッションでは Fable 5 は実質的に Mythos 5 と同じ性能を発揮します。

今回は、セーフガードが何をカバーするのか、なぜフォールバックが起きるのか、その裏にあるレッドチーミング、そして機微なデータをモデルに通す前に企業が理解しておくべき新しい 30 日間のデータ保持ポリシーを解説します。

ざっくり結論

実際に知っておくべきことはこれです。

Fable 5 は 3 つの領域のプロンプトを Opus 4.8 に振り分ける。サイバーセキュリティ、生物学と化学、蒸留 (distillation) の 3 つ
分類器はあえて保守的に作られているので、害のないリクエストを拾ってしまうこともある
フォールバックは Opus 4.8 の回答であって拒否ではなく、起きたときには知らされる
すべての Fable 5 と Mythos クラスのトラフィックに、以前ゼロ保持契約があった場合でも 30 日間のデータ保持が義務付けられる
サイバーのセーフガードを外した同じモデルである Mythos 5 は非公開。Project Glasswing と信頼済みアクセスのパートナーに限定されている

フォールバックの仕組み

プロンプトを送ると、Fable 5 が答える前に、分類器と呼ばれる別の AI システムがそれを確認します。これらの分類器は、ジェイルブレイクの試みを含む悪用の可能性を検知します。プロンプトがフラグ付けされると、分類器は Fable 5 が応答するのを防ぎ、代わりに Opus 4.8 が回答を処理します。

Anthropic の理屈は単純明快です。Opus 4.8 はそれ自体が非常に高性能なモデルなので、Opus にフォールバックする応答は、Fable からきっぱり拒否されるよりはるかに良い体験です。フラグ付けされた質問のほとんどには、ちゃんとした回答が返ってきます。ただ、その回答が、これらの危険領域では自身の能力がずっと弱く、しかも自身もセーフガードされているモデルから来るというだけです。

これが起きるたびにユーザーには知らされるので、無言ではありません。API では、振り分けられた応答に、トリガーがサイバーだったか生物だったかを伝える category フィールドなど、構造化された詳細が付いてきます。

頻度の数字が安心できる部分です。初期データでは、Fable 5 のセッションの 95% 以上でフォールバックがまったく発生していません。それらのセッションでは、フルの Mythos クラスのモデルを使えています。フォールバックは例外であって、常態ではありません。

3 つの分類器ドメイン

Fable 5 の分類器は 3 つの領域をカバーします。それぞれが何で、なぜ存在するのかを示します。

ドメイン	カバー範囲	理由	ローンチ時の広さ
サイバーセキュリティ	ソフトウェアの脆弱性の発見と悪用、加えて偵察や横展開といったより広範な攻撃的・エージェント的サイバー作業	Mythos クラスのサイバー能力は攻撃を大幅に安く簡単にしうる	広い。テストでは、分類器はこれらのタスクで一切の進行を阻止する
生物学と化学	狭義の生物兵器クエリだけでなく、ほとんどの生物・化学のリクエスト	悪意ある者への能力底上げリスクに加え、本物のデュアルユース科学能力	非常に広く保守的。ほとんどのリクエストがフォールバックする。Anthropic は範囲を狭める作業を進めている
蒸留 (distillation)	モデルの能力を抜き取って競合モデルを訓練しようとする試みとしてフラグ付けされたリクエスト	セーフガードなしで公開される、フロンティアに近いモデルの拡散を防ぐ	検知された大規模な抽出、特に権威主義的な国からのものを狙い撃ち

いくつか掘り下げておきたい点があります。

サイバーセキュリティについて、分類器はあえて広く取られています。エクスプロイト開発だけを拾うわけではありません。Mythos クラスのモデルはエージェント的ハッキングに強く、攻撃の別々の段階をつなぎ合わせられるので、より広い意味での攻撃的サイバータスクをカバーします。Anthropic は、モデルがこれらのタスクで一切前進しないように分類器を設計しました。

生物学と化学について、セーフガードは今のところ最も広く保守的です。Anthropic は以前、狭い範囲の生物兵器クエリだけをブロックしていました。今はそれでは不十分だと考えています。資金力のある悪意ある者が実際に能力の底上げを得られるかもしれないこと、そしてモデルが本物の科学的タスクで無視できないほど優秀になったことが理由です。一例として、Mythos クラスのモデルは、生物学的推論だけで専用のタンパク質モデルを上回り、あるウイルスの外殻の未発表の性質を予測しました。これは遺伝子治療に有用である一方、悪用されれば危険なので、今のところほとんどの生物・化学のリクエストはフォールバックします。Anthropic は、これは一時的なものであり、正当な科学を誤検知でブロックしたくないので、できるだけ早くこれらのセーフガードを狭めたいとはっきり述べています。

蒸留について、標的はあなたではありません。狙いは、Fable 5 の能力を競合モデルにコピーしようとする大規模な試みで、そうしたモデルがセーフガードなしで出荷されるかもしれないからです。

なぜ分類器がときどき害のないプロンプトを拾うのか

Anthropic は、モデルを安全かつ素早く公開するために、これらのセーフガードをあえて保守的に調整しました。トレードオフは、理想より厳しめで、良性のリクエストもときどき拾ってしまうことです。同社はこれを率直に認め、もどかしいと述べ、誤検知を減らすことがローンチ後の目標だとしています。

ビルダーはすでにこれを目にしています。Hacker News では、分類器が非常に良性でセキュリティと無関係なコーディングタスクにも反応するほど積極的だと開発者が指摘しました。救いは、Opus 4.8 へのフォールバックが意図どおりに機能することです。だから誤検知のコストは、完全にブロックされることではなく、そのプロンプト 1 つで Mythos クラスの優位を失うだけで済みます。

ほとんど普通のアプリケーション作業をしているなら、これが影響することはめったにありません。5% 未満という数字はセッション全体の割合で、引っかかるのはセキュリティ関連の領域です。素の機能・マイグレーション・リファクタリングの作業ではほとんど起きません。

レッドチーミングの実績

Anthropic は、分類器を破ろうとする人々に対して耐えられるかを、本気でテストしました。主な主張はこうです。

外部のバグバウンティが 1,000 時間以上かけても、ユニバーサルジェイルブレイクは出なかった
外部のレッドチーミング組織も、長文のエージェントタスクでユニバーサルジェイルブレイクを見つけられなかった
ある外部パートナーは、Fable 5 のサイバーセーフガードを、Opus 4.8 や Opus 4.7 を含めテストしたどのモデルよりも堅牢だと評価した
Fable 5 は、30 種類の公開ジェイルブレイク手法にわたって、有害なシングルターンのサイバーリクエストにゼロ件しか応じなかった

一つだけ認められている注意点があります。UK AI Safety Institute が、ごく短い初期テストの期間内にユニバーサルジェイルブレイクへ向けて前進しました。Anthropic は、ユニバーサルジェイルブレイクを完全に防ぐのはおそらく不可能だと正直に認めています。掲げる目標はもっと限定的です。残るジェイルブレイクがあっても、大規模に使われる前に検知して止められるくらい、遅く高コストにすることです。

何が主張されていて何が主張されていないかを冷静に見ましょう。主張は「ユニバーサルジェイルブレイクはない」、つまりセーフガードを横断的に破る信頼できる単一の手法はないということです。Anthropic は「部分的なジェイルブレイクは一切見つからなかった」とは言っていませんし、Mythos クラスのサイバー能力には大きな金銭的旨味があるので、意欲ある攻撃者が試み続けると見込んでいます。この実績は、堅牢性の強い証拠と捉えるべきで、完璧の保証ではありません。

新しい 30 日間のデータ保持ポリシー

ここは企業が注意して読むべき部分です。取引条件が変わるからです。

Anthropic は今や、Mythos クラスのモデル、つまり Fable 5 と Mythos 5 のすべてのトラフィックについて、ファーストパーティとサードパーティの両方の経路で 30 日間の保持を義務付けています。重要なのは、これが以前ゼロ保持契約を結んでいた企業にも適用されることです。Mythos クラスのトラフィックについては、それらの契約はもう効きません。

その引き換えに Anthropic が約束することはこうです。データは新しい Claude モデルの訓練にも、安全以外のいかなる目的にも使われません。データへの人間のアクセスはすべてログに記録されます。ほぼすべてのケースで 30 日後に削除されます。掲げられた目的は、新しいジェイルブレイクや多数のリクエストにまたがる攻撃を含む、複雑で新規の攻撃から防御すること、そして誤検知を特定して減らすことです。

TechCrunch はこれを、最も強力なモデルへのアクセスが安全策としての義務的なデータ保持と抱き合わせになる、業界の前例になりうるものと位置づけました。それが注視すべきより大きな流れです。

一つ混同しないようにしておきたい点があります。この保持ポリシーは、フロンティアモデルを公開前に政府と共有することに関するホワイトハウスの大統領令とは別物です。Anthropic の広報担当者は CyberScoop に対し、保持の変更は同社のセーフガード作業に特有のもので、その大統領令とは無関係だと述べました。2 つの「30 日」を混同しないでください。

これがあなたのビジネスにとって何を意味するか

Claude の上に製品を載せている場合、あるいは顧客データや規制対象のデータを Claude に通している場合、この保持の変更には具体的な影響があります。

あなたのゼロ保持契約は Fable 5 をカバーしません。 Anthropic と ZDR の取り決めがあっても、それは Fable 5 や Mythos クラスのトラフィックには適用されません。30 日間の保持は義務であり、それを上書きします。既存の条件がそのまま引き継がれると思い込むのが、避けるべき間違いです。

サードパーティの経路にも適用されます。 これは Claude API を直接使う場合だけの話ではありません。パートナーやリセラーを経由する Mythos クラスのトラフィックもカバーされます。GitHub Copilot のようなツール経由で Fable 5 に到達する場合でも保持要件は適用され、データ保持の同意ステップが表示されることがあります。

下流の約束を確認しましょう。 自分の顧客にゼロ保持を約束している場合や、PII・PHI・営業秘密・契約上の守秘義務下のデータを扱っている場合、それを Fable 5 に通すと、自分がした約束を破ることになるかもしれません。規制対象のデータを通す前に、コンプライアンスチームにレビューしてもらいましょう。

きれいなフォールバックの選択肢があります。 あるワークロードでゼロまたは最小限の保持が必要なら、それは Opus 4.8 に残しておきましょう。Opus 4.8 では、Anthropic の標準ポリシーのもと、対象となる企業顧客に ZDR が引き続き提供されます。Fable 5 は、30 日間の保持を許容できる機微でないジョブに取っておきます。この棲み分けによって、安全な場面ではより高性能なモデルを使いつつ、機微なトラフィックは、より厳しい条件を守れるモデルに残せます。

正直なまとめはこうです。保持は本物で、これらのモデルについては以前の ZDR を確かに上書きしますが、その目的は限定的です。訓練のためではなく、ログに残り、ほぼすべてのケースで 30 日後に削除されます。警戒はコンプライアンス上の注意喚起としては妥当ですが、データが掘り起こされていると決めつける理由にはなりません。

Mythos 5 と信頼済みアクセスプログラム

Fable 5 には兄弟がいます。Mythos 5 は、一部の領域でサイバーのセーフガードを外した同じ中身のモデルです。世界のどのモデルよりも強いサイバーセキュリティ能力を持っていて、まさにそれが非公開である理由です。

Mythos 5 は、重要なソフトウェアを守るための Anthropic と米国政府の協業である Project Glasswing を通じて提供されています。以前の Mythos Preview にアクセスできていたパートナーは、大幅に低いコストで Mythos 5 にアップグレードできます。Glasswing は 2026 年 4 月に限られたグループで始まり、6 月初めには 15 か国以上のおよそ 150 組織へと拡大しました。

アクセスは 2 方向に広がっています。Anthropic は、サイバーセキュリティ組織が申請できるよう、より体系的な信頼済みアクセスプログラムを計画していて、時間をかけて拡大し、連邦機関も含める予定です。また、生物学向けに別の信頼済みアクセスプログラムも開設しつつあります。これは、生物・化学のセーフガードを外し、サイバーのセーフガードは残したバージョンの Fable 5 を、少数のライフサイエンス研究者に提供するものです。

私たちその他大勢にとっての要点はシンプルです。Fable 5 のリードは、一般公開の代償です。リードを外したモデルは存在しますが、それは審査プロセスの向こうに留まります。そしてフォールバック先のモデルですら多層構造です。Anthropic の報告によれば、Opus 4.8 は単体でも既知の脆弱性のほとんどを説明から再現できますが、そのセーフガードが成功率をおよそ 1% まで下げます。システム全体が、意図的に層を重ねて作られているのです。

より大きな構図

ここにある緊張を名指ししておく価値があります。Fable 5 は、Anthropic が AI ラボに対しフロンティア開発の協調的なブレーキで合意するよう公に促し、システムが再帰的自己改善のリスクを冒すほど速く進歩していると警告した、その数日後にローンチされました。そしてその直後に、最も強力な公開モデルを出荷したのです。セーフガードは、Anthropic がこの矛盾を解く手段で、製品リードの Dianne Penn が「トップへの競争」と呼ぶもの、つまり能力を提供しつつ、便益が害を上回るようガードレールを築くやり方です。

この議論でどちらかの立場を取らなくても、モデルをうまく使うことはできます。実務で大事なのは、なぜ回答がときどき Opus 4.8 から来るのかを知ること、分類器がときどき害のないプロンプトで誤作動することを知ること、そしてデータの取り決めが変わったことを知ることです。この 3 つの事実が、セーフガードについてユーザーが知るべきことのすべてです。

Claude Fable 5 のセーフガード解説

ざっくり結論

フォールバックの仕組み

3 つの分類器ドメイン

なぜ分類器がときどき害のないプロンプトを拾うのか

レッドチーミングの実績

新しい 30 日間のデータ保持ポリシー

これがあなたのビジネスにとって何を意味するか

Mythos 5 と信頼済みアクセスプログラム

より大きな構図

よくある質問

Claude Fable 5 が Opus 4.8 にフォールバックするのはなぜですか?

Fable 5 の 3 つの分類器ドメインは何ですか?

Claude Fable 5 は私のデータを保持しますか?

Claude を使いながらゼロデータ保持を維持するにはどうすればいいですか?

Claude Mythos 5 とは何ですか?

Claude Fable 5 をジェイルブレイクした人はいますか?

ソース

関連ページ

On this page