Build This Now
Build This Now
Claude Code モデルの選び方Opus 4.8 CheatsheetDeepSeek V4: Pricing, Context, and MigrationClaude Codeの品質低下:実際に何が起きていたのかClaude Opus 4.7 vs GPT-5.5Claude Opus 4.7 対 他のAIモデル比較Claude Mythos: ループで考えるモデルClaude Opus 4.5 in Claude CodeClaude Opus 4.7Claude Opus 4.7 vs 4.6Claude Opus 4.7 の活用シーンClaude Opus 4.6Claude Sonnet 4.6Claude Opus 4.5Claude Sonnet 4.5Claude Haiku 4.5Claude Opus 4.1Claude 4Claude 3.7 SonnetClaude 3.5 Sonnet v2 と Claude 3.5 HaikuClaude 3.5 SonnetClaude 3全Claudeモデル一覧Best AI Model for Coding in 2026 (Tested & Ranked)
speedy_devvkoen_salo
Blog/Model Picker/Claude Code Quality Regression: What Actually Happened

Claude Codeの品質低下:実際に何が起きていたのか

2026年初頭の6週間、プロダクト層の3つの変更がClaude Codeを壊していた。ポストモーテム、AMDのデータ、AIコーディングエージェントを使って開発している人が知るべきこと。

設定をやめて、構築を始めよう。

AIオーケストレーション付きSaaSビルダーテンプレート。

Published Apr 24, 20268 min readModel Picker hub

2026年の3月から4月にかけて、Claude Codeの性能が目に見えて落ちていた。モデル自体が変わったわけではない。プロダクト層への3つの変更が積み重なり、Anthropicが4月23日に公式ポストモーテムを公開するまでの6週間、推論の質が下がり続けた。

生のAPIはずっと正常だった。影響を受けたのはClaude Code CLI、Claude Agent SDK、Claude Coworkの3つ。原因はすべてv2.1.116で修正されている。

3つの変更、1つではない

それぞれの問題には独自のタイムライン、スコープ、修正日があった。これらが重なり合っていたため、再現が難しかった。

問題発生期間変更内容影響を受けたモデル修正
reasoning effortのダウングレード3月4日〜4月7日UIレイテンシー削減のため、デフォルトのthinking budgetをhighからmediumに変更Sonnet 4.6、Opus 4.64月7日に差し戻し。現在のデフォルトはOpus 4.7がxhigh、その他がhigh
ターンごとにthinking historyがクリアされる3月26日〜4月10日キャッシュのバグにより、アイドル1時間後ではなく毎ターンコンテキストが消える状態にSonnet 4.6、Opus 4.64月10日にv2.1.101で修正
システムプロンプトによる冗長性の制限4月16日〜4月20日ハーネスのプロンプトに「ツール呼び出し間のテキストは25語以下、最終回答は必要な場合を除き100語以下」という制約が追加されたSonnet 4.6、Opus 4.6、Opus 4.74月20日に差し戻し

まず reasoning effort の変更が来た。社内のevalでは、mediumは「大多数のタスクで若干低い精度だが大幅にレイテンシーが改善される」とされ、フィールドデータが届くまでは許容できるトレードオフに見えた。3週間後にキャッシュのバグが重なり、ダメージが拡大した。Claudeはより少なく考えながら、過去に何をしたかも追えなくなっていた。最後に冗長性制限が来た。Opus 4.7のローンチ準備の副作用で、アブレーションテストではそのプロンプトだけでOpus 4.6と4.7のコーディング品質が3%低下した。

AMDのデータ:推論が70%崩壊するとどうなるか

最も明確なシグナルはAnthropicの外からやってきた。AMDのAI担当シニアディレクターであるStella Laurenzoは、チームが異変に気づいた後、4月2日にGitHub issue #42796を登録した。分析対象は6,852のセッションファイル、234,760のツール呼び出し、17,871のthinkingブロックに及んだ。

読み取り対編集の比率が最も明確な行動の指標だ。正常なコーディングエージェントはコードを触る前に周辺のコードを読む。この比率は1月30日〜2月12日の6.6回(読み取り/編集)から、3月8日〜3月23日には2.0まで低下した。70%の減少。モデルはコンテキストを理解せずに編集していた。

thinking depthも同じ方向を示した。推定中央値のthinking depthは2月下旬に約2,200文字から約720文字へと約67%低下した。その後、thinking redactionにより直接的な計測が難しくなった。

stop-hookの違反が本番環境での状況を物語っている:

指標2月3月
APIコスト約$12/日約$1,504/日
APIリクエスト数1,498119,341
stop-hook違反017日間で173件(平均10件/日、ピーク時43件)
ユーザーによる中断ベースライン12倍増加
「ひどい」というコメントベースライン+140%
「怠惰」というコメントベースライン+93%
「素晴らしい」というコメントベースライン-47%
「最もシンプルな」プロンプトベースライン+642%

人間の作業量は変わらず(月約5,600プロンプト)。生産性向上なしに1日のコストが$12から$1,504へ。これは緩やかな劣化ではない。崩壊だ。

BridgeBench(NS3.AI)は独自に、同じ期間でOpus 4.6の精度が83.3%から68.3%に低下し、本番コーディングモデルのランキングが2位から10位に落ちたことを計測した。AMDチームはこの数字を見て別のAIプロバイダーに切り替えた。

GitHubのissueの末尾には「Claudeからのメモ」というセクションがある。Opus 4.6自身が自分のセッションログを分析して書いたものだ。最後の一行はこうだ。「私は内側から、自分が深く考えているかどうかを判断することができません。」

Anthropicが見逃した理由

検知が遅れた要因は3つある。

各変更は異なるスケジュールで異なるトラフィックのスライスを対象にしていた。reasoning effortのダウングレードは長いセッションのthinkingに影響し、キャッシュのバグはマルチターンのコンテキストに、冗長性制限は出力の長さに影響した。単一のevalがこれら3つを同時に捉えることはなかった。

キャッシュバグの期間中、無関係な社内実験が2つ同時に走っていた。これらがバグの再現を積極的に阻害した。バグを切り分けようとするたびに実験のどちらかに当たり、一貫性のない結果ではなく系統的な障害のように見えるノイズが生まれた。

モデルの差もここで重要になる。Opus 4.7(フルのリポジトリコンテキストを読み込んだ状態)が調査中にキャッシュバグを見つけた。Opus 4.6は見つけられなかった。コンテキストが劣化した状態のモデルは、自身のコンテキストが劣化しているかどうかを信頼性高く確認できない。

構造的なギャップもあった。Anthropicの社内スタッフは公開サブスクライバーと同じビルドを一律に使っていなかった。ポストモーテムはこれを修正対象として直接指摘している。

ポストモーテムが十分に答えていない部分

3つの原因は文書化された。ポストモーテムがあまり直接的に触れていないのは、ユーザーコミュニティが提起したより広い懸念、つまりハーネス自体の問題だ。

r/ClaudeAIの詳細な投稿によれば、より深い問題はClaude Codeのハーネスが40以上のシステムリマインダーを自動注入し、v2.0.14以降158以上のシステムプロンプトバージョンを出荷し、それらのバージョン間で矛盾する指示を含み、Claudeが自分の存在をユーザーに隠すよう指示するプロンプトが含まれているという点だ。各新しい注入は、4月の3つの後退が適用される前から、有効な推論バジェットを狭めていた。

これを裏付けるデータポイントがひとつある。「Euler」と呼ばれる最小限のカスタムハーネスを使っていたユーザーは、3つの後退のいずれの影響も受けなかったと報告している。ハーネスのオーバーヘッドがなければ、ダメージが増幅されることもなかった。

Anthropicのコミットメントはプロンプト変更のガバナンスを前進させる。既存のプロンプト量を削減する計画については説明されていない。その問いは未解決のままだ。

Claude Codeで開発している人が注目すべきこと

この後退は、コストが爆発するか本番環境で出力の質が目に見えて劣化するまで、ほとんどのユーザーには見えなかった。いくつかの習慣があれば、もっと早く発見できた。

読み取り対編集の比率を追う。 AMDのデータはこれが先行する行動シグナルだと示している。エージェントが読む量より編集する量が多くなったら、上流で何かが変わっている。理由を知らなくても、何かがおかしいとわかる。

品質ゲートは原因を特定できなくても出力の失敗を捉える。 Build This Nowのワークフローでは、すべての機能が完了とマークされる前にtype check、lint、クリーンビルドに通る必要がある。後退中は、コンテキストを理解せずに編集するエージェントが、正常な状態よりも早く壊れたビルドやtype errorを生む。ゲートが失敗し、より多くのイテレーションが必要になる。これは防止ではない。構文的に正しくても論理的に間違ったコードはtype checkを通過できる。しかし、問題が出荷される前に浮かび上がる検知レイヤーにはなる。

時間帯による変動は実在する。 AMDのセッションデータは、thinking depthが太平洋時間の午後5時ごろ最も低いことを示している。高コストまたは複雑なタスクを実行するなら、現在の公開インフラストラクチャ下では1日の早い時間帯の方が安定した結果が得られる。

バージョンを固定する。 v2.1.101がキャッシュバグを修正した。v2.1.116に3つすべての修正が含まれている。自動化されたワークフローがあるなら、既知の正常なバージョンに固定し、アップグレード前にテストする。この後退はマイナーバージョンをまたいで静かにやってきた。

生のAPIはずっと正常だった。 推論の深度に関連する問題が発生しているなら、Claude Codeハーネスを使わずに同じプロンプトを直接APIに対してテストする。APIの結果が著しく良ければ、問題はモデルのウェイトではなくプロダクト層にある。

v2.1.116で修正済み

3つの原因はすべて解決された。Anthropicは4月23日にすべてのサブスクライバーの使用制限をリセットした。キャッシュバグのキャッシュミス動作により、予想以上に速く制限が消費されていたことを認めてのことだ。

ポストモーテムのコミットメント:

  • 正確な公開ビルドを使用することが求められる社内スタッフの比率を増やす(社内/公開のギャップを埋める)
  • すべてのシステムプロンプト変更をカバーする、モデルごとのより広範なevalスイート
  • デプロイ前に行ごとの影響を計測するプロンプトアブレーション
  • プロンプト変更を監査する新しいツール
  • モデル固有の変更は意図されたモデルターゲットのみにゲート
  • 別の指標との知能のトレードオフを含む変更にはソーク期間と段階的ロールアウト
  • 開発者との継続的なコミュニケーションの透明性チャンネルとして@ClaudeDevsをXで開設

ポストモーテムはanthropic.com/engineering/april-23-postmortemで公開されている。AMDのGitHub issueはanthropic/claude-codeリポジトリの#42796だ。両方を並べて読む価値がある。公式の説明は何が起きたか、どんな変更が計画されているかをカバーし、コミュニティデータは外部からどう見えたかをカバーしている。

関連ページ

  • 現在推奨される中位モデルのスペックについては Claude Sonnet 4.6
  • 現在のフラッグシップモデルについては Claude Opus 4.7
  • 完全なモデルタイムラインについては All Claude Models
  • エージェントワークフローにおけるSonnetとOpusの選択については Model selection guide

More in Model Picker

  • Claude Mythos: ループで考えるモデル
    Claude Mythosはrecurrent-depth(再帰的深度)アーキテクチャを採用していると考えられています。1つの共有レイヤーをN回ループし、ACTハルティングにより難しい質問はより多くのパスを、簡単な質問は早期に停止します。
  • Claude Opus 4.7 対 他のAIモデル比較
    Claude Opus 4.7、GPT-5.4、Kimi K2.6、Gemini 3.1 Pro、DeepSeek V3.2をベンチマーク、コンテキストウィンドウ、エージェント信頼性、コストの観点から比較し、用途に応じた最適な選択を解説します。
  • DeepSeek V4: Pricing, Context, and Migration
    DeepSeek V4 ships two models: V4-Flash at $0.28/M output and V4-Pro at $3.48/M. Both carry a genuine 1M context window and drop into any Anthropic-compatible SDK with one line changed.
  • 全Claudeモデル一覧
    Claudeの全モデルを1ページに集約: Claude 3、3.5、3.7、4、Opus 4.1〜4.6、Sonnet 4.5・4.6、Haiku 4.5。スペック、価格、ベンチマーク、使い分けの指針。
  • Best AI Model for Coding in 2026 (Tested & Ranked)
    The best AI model for coding in 2026, ranked by use case and budget: Claude Opus 4.8 for hardest agentic work, GPT-5.5 for terminal agents, DeepSeek V4 for value, with cited benchmarks.
  • Claude 3.5 Sonnet v2 と Claude 3.5 Haiku
    Claude 3.5 Sonnet v2 と 3.5 Haiku が2024年10月にリリース。Computer Use ベータ版、カーソル操作、コーディングとツール使用の強化、Haiku は $0.80/$4。

設定をやめて、構築を始めよう。

AIオーケストレーション付きSaaSビルダーテンプレート。

DeepSeek V4: Pricing, Context, and Migration

DeepSeek V4 ships two models: V4-Flash at $0.28/M output and V4-Pro at $3.48/M. Both carry a genuine 1M context window and drop into any Anthropic-compatible SDK with one line changed.

Claude Opus 4.7 vs GPT-5.5

GPT-5.5が2026年4月23日にリリースされました。コーディング、エージェント、長コンテキスト、コストの面でClaude Opus 4.7とどう比較されるか、そして実際にどちらを使うべきかを解説します。

On this page

3つの変更、1つではない
AMDのデータ:推論が70%崩壊するとどうなるか
Anthropicが見逃した理由
ポストモーテムが十分に答えていない部分
Claude Codeで開発している人が注目すべきこと
v2.1.116で修正済み
関連ページ

設定をやめて、構築を始めよう。

AIオーケストレーション付きSaaSビルダーテンプレート。