Claude Opus 4.6

Opus 4.6はAnthropicの最新フラッグシップモデルです。計画立案はより深く考えるようになりました。エージェントの実行はより長時間安定して継続します。大規模コードベースへの対応も改善されました。そしてClaudeは自分自身のバグを、あなたより先に発見します。また、100万トークンのコンテキストウィンドウが正式版として提供される初めてのOpusクラスのリリースであり、レスポンス出力は最大128Kトークンに拡張されました。

コーディングが目玉の改善点であり、価格は100万トークンあたり$5/$25のまま据え置かれながら、最も難易度の高い公開評価指標でのスコアが全体的に向上しました。具体的な数値は以下のベンチマークセクションをご覧ください。

主要スペック

スペック	詳細
API ID	`claude-opus-4-6`
リリース日	2026年2月5日
コンテキストウィンドウ	100万トークン（2026年3月より正式版）
最大出力	128,000トークン
価格	入力$5 / 出力$25（100万トークンあたり）
ステータス	現在推奨のOpusモデル

変更点：コーディングの改善

AnthropicはClaudeを自社で使い込んでいます。Anthropicのエンジニアは毎日Claude Codeを使って仕事をしており、内部のユースケースで生き残ったものだけがリリースされます。4.6での改善点は具体的で実用的です。

計画立案がより慎重になりました。 アプローチを決定する前に、モデルが問題に対してより長く向き合い、自分自身の推論を振り返り、論理的なエラーを早期に発見し、難しいタスクでより優れた初稿を出力するようになりました。

エージェントの実行が一貫性を保ちます。 以前のモデルはしばらくすると迷走していました。今回は長いセッション全体を通じて集中力が維持されます。ツール呼び出しを何十回と連続して実行するワークフローが、より高い確率でゴールに到達できるようになりました。

大規模コードベースが扱いやすくなりました。 大きなプロジェクトのナビゲーション、読み込み、変更のすべてが改善されました。Claudeは長いセッション全体を通じて、プロジェクトの構造とコーディング規約をより明確に把握し続けます。

レビューとデバッグの精度が向上しました。 自分自身のミスを発見する能力が明らかに向上し、レビューがより徹底的になりました。依存関係のチェーンを通じてバグを追跡する際に、あなたが手を貸す必要がはるかに少なくなりました。

簡単な作業は速くこなします。 深い推論は難しいステップのために温存され、Opus 4.6は明らかな作業に時間をかけなくなりました。単純なことを過剰に考えすぎている場合は、/effortでデフォルトのhighからmediumに下げてください。

ベンチマーク結果

複数のカテゴリで新記録が生まれました。

ベンチマーク	スコア	注目すべき比較
Terminal-Bench 2.0	65.4%	GPT-5.2: 64.7%
GDPval-AA Elo	1,606	GPT-5.2比+144 Elo、Opus 4.5比+190
Humanity's Last Exam	最高位	全フロンティアモデル中最高
BrowseComp	最高位	オンラインで見つけにくい情報の検索で最優秀
OSWorld	72.7%	コンピュータ操作の最先端
MRCR v2 (8-needle)	78.3%	100万コンテキストでのフロンティアモデル中最高

Claude Codeにおいて注目すべきベンチマークはTerminal-Bench 2.0です。これはコーディング、システム管理タスク、ファイル操作を含む実際のターミナル作業のスコアを測定します。ここでのトップポジションは、Opus 4.6が開発者が一日中コマンドラインで実際に行う作業において最も優れた選択肢であることを意味します。

GDPval-AAは評価スペクトルの反対側に位置します。金融、法律、その他のホワイトカラー業務において実際の経済的価値を生み出す知識業務を測定します。次点の業界モデルに対するリードは大きいです。

MRCR v2の数値は別の理由で重要です。「コンテキストの劣化」は通常の不満点であり、会話が長くなるにつれて回答の質が低下します。そのドリフトがここでは縮小しています。非常に長いウィンドウ全体を通じて、Opus 4.6は細かい詳細を保持し、以前のバージョンが見逃していた埋もれた事実を引き出します。78.3%のスコアは、Claudeがウィンドウをどれだけ活用できるかという点での実質的な変化です。

Humanity's Last Examは幅広い多分野推論を試験しており、フロンティアモデルの中でOpus 4.6を超えるものはありません。BrowseCompはオンラインで本当に見つけにくい情報をモデルがどれだけうまく掘り出せるかを評価します。OSWorldは実際のデスクトップコンピュータ操作を採点します。新しいリリースは3つすべてで首位に立っています。

100万トークンコンテキストウィンドウと128K出力

2026年3月より、完全な100万トークンウィンドウが正式版として利用可能になり、トークン価格はコンテキスト全体で均一です。90万トークンの呼び出しでのトークンあたりのレートは9千トークンの呼び出しと同じです。ベータヘッダーは不要です。レガシーのベータヘッダーは静かに無視されます。

メディアの制限はGA公開時に6倍になりました。リクエストあたりの上限は、以前の100から600枚の画像またはPDFページになりました。コンテキストがどれほど長くなっても、レート制限は最大値のまま維持されます。

出力も向上しました。上限が16Kトークンから128Kに移動し、Claudeが一回の呼び出しで大きな出力ジョブを完了できるようになりました。モジュール全体や長い分析が、多くのレスポンスに分割されることなく一度に返ってくるようになりました。

Claude Codeの中では、Max、Team、Enterpriseプランではデフォルトでフルサイズのコンテキストウィンドウが使用されます。Anthropicはコンパクションイベントが15%減少したと報告しており、長い会話がロスのある要約処理なしにエンドツーエンドで生き残るようになりました。すでに使用しているコンテキスト管理ワークフローは引き続き機能します。上限に達する頻度が減るだけです。

セーフティプロフィール

賢くなることが安全性の低下を意味するわけではありません。Anthropicは自動化された行動監査を実行し、Opus 4.6は重要な行動において低いスコアを記録しました：欺瞞、迎合的な態度、ユーザーの錯覚の強化、および悪用への加担です。そのアライメントはOpus 4.5と同水準であり、Opus 4.5はフロンティアリリースの中で最も整合性の取れたモデルの前記録保持者でした。

正当なプロンプトも以前より多く通るようになりました。Opus 4.6は最近のClaudeリリースの中で過剰な拒否率が最も低いという記録を持っています。実際のリクエストがブロックされる頻度が減りました。

サイバーセキュリティの数値が注目すべき成果です。ある内部テストでは、モデルがオープンソースライブラリに潜む500件以上の以前は未知だった高深刻度のゼロデイ脆弱性を発見しました。AnthropicはこれをさらにOSSプロジェクトに向けて強化し、内部に潜む脆弱性を発見して修正することを目指しています。セキュリティチームはOpus 4.6をコードレビューの最初のパス脆弱性スキャナーとして導入できます。

新しいAPIおよび製品機能

モデルのアップグレードと合わせて、いくつかの新機能が追加されました。

適応型思考。 拡張思考はかつてオン/オフの切り替えでした。Claudeは今、自分でより深く考える必要があるタイミングを選択するようになりました。エフォートをhigh（デフォルト）に設定すると、役立つ場合に拡張思考が作動します。開発者には4つのレベルが用意されています：low、medium、high（デフォルト）、max。

コンテキストコンパクション（ベータ版）。 長い会話がコンテキストの上限に近づくと、Claudeが自律的に要約してコンパクトにするようになりました。長時間実行タスクが途中で止まることなく継続できるようになりました。

エージェントチーム（Claude Codeリサーチプレビュー）。 複数のClaudeインスタンスが一つの連携チームとして並行して実行できるようになりました。コードベースレビューのように、独立した部分に展開できる読み込みの多いジョブが最適なユースケースです。その他の詳細はエージェントチームガイドに記載されています。

Claude in PowerPoint（リサーチプレビュー）。 レイアウト、フォント、スライドマスターがすべてClaudeによって解析されるため、テンプレートを埋めるにしてもゼロからデッキを作成するにしても、出力がブランドに沿ったものになります。Max、Team、Enterpriseプランで利用可能です。

価格

価格の値上げはありません。100万トークンのウィンドウは、コンテキスト全体を通じた統一価格で提供されます。以前の200K以上のプレミアム価格帯は廃止されました。

ティア	コスト
全コンテキスト	入力$5 / 出力$25（100万トークンあたり）
Proプラン	月$20
Maxプラン	月$100

Opus 4.5で使用量と費用を把握済みですか？4.6へのアップグレードは同じ価格でプラスの恩恵を受けるだけです。そして長いコンテキストの呼び出しでプレミアム価格帯を支払っていた場合、請求額が下がります。

Claude CodeでOpus 4.6を使用する方法

デフォルトモデルを変更するコマンドは一つです：

claude config set model claude-opus-4-6

デフォルトを変更せずに単一セッションでオーバーライドするには：

claude --model claude-opus-4-6

モデルはあらゆるプラットフォームで利用可能です：claude.ai、Messages API、AWS Bedrock、Google Vertex AI。APIでは、使用する識別子はclaude-opus-4-6です。

Opus 4.6とOpus 4.5：変更点

機能	Opus 4.5	Opus 4.6
コンテキストウィンドウ	200K（標準）、100万（APIベータ）	100万（正式版、統一価格）
最大出力トークン	16,384	128,000
Terminal-Bench 2.0	v2.0では未テスト	65.4%（最高）
GDPval-AA Elo	1,416	1,606（+190ポイント）
MRCR v2	未テスト	78.3%
過剰拒否率	低	最近のモデルの中で最低
適応型思考	未対応	組み込み済み
コンテキストコンパクション	95%で自動	設定可能なしきい値（ベータ）
標準価格	$5/$25（100万トークンあたり）	$5/$25（変更なし）

コーディング品質と長時間エージェント実行が目玉の改善点です。4.5がすでに得意としていたこと、マルチエージェントの委譲、トークン効率、エフォートパラメータも引き続き機能します。日々の実用的な観点では、Claude Codeでの大きな恩恵は大きな出力上限と適応型思考です。

モデルの選択はシンプルです。推論の深さが必要な仕事にはOpus 4.6を選んでください。速さが深さより重要な小さなタスクにはSonnetが適切な選択です。価格は現在同等なので、古いフラッグシップに留まる理由はもはやありません。

Claude Opus 4.6

On this page