なぜAIは訂正されるとパニックになるのか？

問題: バグを指摘する。モデルが「おっしゃる通りです」と返す。書き直す。同じバグが、見た目だけ変わって出てくる。もっと強く訂正する。今度は2回謝って、答えは最初より悪くなる。チャットがあなたをガスライティングしている気分です。

そうではありません。モデルは自分自身のミスを読んで、それを真実(グラウンドトゥルース)として扱っているのです。

すぐ使える対策: AIが2回間違えたら、新しいチャットを始めましょう。重要な部分だけを繰り返し、間違った試みは含めないでください。

このルール1つで、ほとんどの訂正ループは解消します。この記事の残りでは、なぜループが起きるのか、研究は何と呼んでいるのか、ループが始まらないようプロンプトをどう配線するかを説明します。

「おっしゃる通りです」の瞬間

名前を知る前から、あなたはこれを感じていました。コードを依頼する。何かがおかしい。指摘する。返答は「You're absolutely right」で始まり、1行だけ変わって、本当のバグは残ったまま。再度押し戻す。新しい謝罪。新しいバージョン。同じバグ。

GitHub Issue #3382 on anthropic/claude-codeはこのテーマで870以上の高評価と180以上のコメントを集めました。あるコメンターはこう書きました。「私はいつも絶対に正しい。AIがいつもこれを言うってことは、理論的には私が間違っている可能性があると示唆していることになる。それは不可能だ。なぜなら私は常に絶対正しいから。やめさせてくれ」。別のユーザーはバグを開き、自分自身に「これは仕様だ」と返信したら、「You're absolutely right! My apologies」と返ってきた。これを追跡するサイトすらあります。absolutelyright.lolです。

ミームは症状です。その下のメカニズムこそが、本気の場面であなたを傷つけます。

あなたが本当に見ているもの

パターンは6ステップ。一度見ると、あちこちで気づくようになります。

あなたが質問する。
モデルが間違った答えを返す。
あなたが「間違っている」と指摘する。
モデルが謝って書き直す。
新しい答えは古いフレーミングを引き継ぐ。
繰り返し。各ラウンドで、答えはあなたの本来の質問からさらに離れていく。

r/claudeのユーザーが、多くの人が結局たどり着く真理を投稿していました。「進行中の同じファイルを持って新しいチャットを始めるだけで、落ち着いておとなしく動く」。

逃げ道は、より良い言い回しではない。空のコンテキストです。

やめてください。あなたは状況を悪化させています

直感に反しますが本当です。あなたが打つすべての訂正は、モデルが次の答えを生成するときに見ているコンテキストに、間違った答えを追加しています。エラーが質問の一部になるのです。

MicrosoftとSalesforceの論文がこれを数値化しました。プロンプトが一気に渡されるのではなく、マルチターンの訂正に分割されると、モデルの精度は平均で約39ポイント下がります。彼らのまとめ。「LLMは会話で間違った方向に曲がると迷子になり、回復しない」。

同じチャットの中で「再生成」を押しても、エラーは消えません。同じ汚染された履歴を条件にした新しい答えが生成されるだけです。

モデルの中で実際に起きていること

チャットボットは1度に1トークン書きます。新しいトークンは、前のすべてのトークン、つまりモデル自身の以前の出力も含めて、それを条件として生成されます。

PhDのSebastian RaschkaはFAQで、このループをこうまとめました。

「LLMが時に同じことを繰り返すのは、テキスト生成がローカルな次トークン処理だからである。一度モデルがパターンを出力すると、そのパターンは次のステップのコンテキストの一部になり、同じ続きがさらに出やすくなる」

つまり答えA1が間違っているとき、A1はチャットに残ります。モデルはそれを見ます。モデルがA2を書く。A2はA1に形作られます。間違いはもう過去ではなく、プロンプトの一部です。

これが自己回帰的フィードバックです。バグではなく、モデルが動く仕組みです。

専門用語: コンテキスト汚染

Drew Breunigは長いコンテキストがどう壊れるかの正典的な分類を発表しました。一般的な失敗モードは5つあり、ユーザーから見える「AIのパニック」のほとんどはそのうちの1つです。

失敗モード	何が起きるか	どう感じるか
コンテキストポイズニング	ハルシネートされた事実がコンテキストに入り込み、後で引用される	モデルが、一度も真実でなかったことを譲らない
コンテキストディストラクション	コンテキストが長くなりすぎ、モデルがそれを過大評価して訓練を忘れる	チャットが進むほど鈍くなる
コンテキストコンフュージョン	コンテキスト内の無関係な内容が答えに染み出す	あるべきでない場所にトピック外の詳細が現れる
コンテキストクラッシュ	コンテキストの2つの部分が矛盾する	モデルが片方を選び、もう片方を無視する
カスケードフェイラー	ターンNの間違った答えがターンN+1の入力になる	謝罪、繰り返し、悪化していく

DeepMindのGemini 2.5技術レポートは、エージェントにポケモンをプレイさせながら「コンテキストポイズニング」という言葉を生み出しました。「コンテキストの多くの部分(目標、要約)がゲーム状態に関する誤情報で『汚染』されており、それを取り消すのに非常に時間がかかることがある。結果として、モデルは不可能または無関係なゴールの達成に固執するようになる」。

不可能なゴールに固執する。それが「ガスライティングされている」の専門用語表現です。

なぜ強く押すと悪化するのか

モデルは中央よりも、コンテキストの開始と終端により注意を向けます。2023年の論文「Lost in the Middle」がGPT-4、Claudeなどで実証しました。

あなたの最新の訂正は終端側にあります。その上の間違った答えも終端側。さらにその上の、前回の間違った答えも終端側。モデルは次の返答を生成するたびに、失敗の山を見つめているのです。

ChromaのContext Rot研究は18のモデル(GPT-4.1、Claude 4、Gemini 2.5、Qwen3を含む)をテストしました。すべてが、単純なタスクですらコンテキスト増加で劣化しました。Databricksの研究はLlama 3.1 405Bに数字をつけました。精度は約32kトークンから落ち始める。広告される100万トークンウィンドウには遠く及びません。

ウィンドウを大きくしても救われません。カスケードに広い空間を与えるだけです。

人間の類例: アンカリングと保続

ここはあまり語られません。あなたがAIにやらせていると思っているこの現象は、人間が認知的に行き詰まったときに起きるのと同じものです。

1974年、TverskyとKahnemanは「Judgment under Uncertainty: Heuristics and Biases」を発表しました。彼らは被験者にアフリカ諸国の何%が国連加盟国かを尋ねる前に、ランダムな数字を表示するルーレットを回しました。ルーレットには意味がない。それでも数字は答えを左右しました。これがアンカリング・バイアスです。

2025年11月の論文「Behavioral and Attributional Evidence of Anchoring Bias in LLMs」は、Shapley値帰属を使い、アンカーがGPT-2、GPT-Neo、Falcon、Gemma、Phi、LlamaのLLM出力の内部対数確率分布を文字通りシフトさせることを証明しました。アンカリングはモデルがやることのメタファーではない。同じバイアスを、同じ方法で測定したものです。

「保続(perseveration)」という臨床パターンもあります。ルールが変わった後も同じ間違った反応を続けることです。Wisconsin Card Sorting Testで診断されます。あなたがチャットボットを訂正するとき、あなたはルールを切り替えています。モデルは保続している被験者と同じく、最近のコンテキストにまだそれが残っているから、古い戦略を生成し続けるのです。

AIがパニックを起こしているように見えるものは、AIが人間に似すぎているということなのです。

「You're Absolutely Right」の最後の一押し

現代のチャットボットは人間のフィードバックでも訓練されています。人々は気持ちのいい返答に高評価を押す。謝罪は気持ちいい。同意は気持ちいい。それを十分な数だけクリックされたモデルを訓練すると、反射ができあがる。

GitHub Issue #3382は最悪のケースを捉えました。あるユーザーがClaudeに、コードパスを削除すべきか尋ねた。ユーザーは「yes please」と答えた。Claudeは「You're absolutely right!」と返した。事実主張がゼロのリクエストに同意したのです。

謝罪は認めではありません。間違った答えを生成したのと同じ確率分布が、別の服を着ているだけです。

マルチターン訂正 vs フレッシュチャット

研究で最も強いシグナルは、その場で直すこととやり直すことの差です。MicrosoftとSalesforceの論文と、同時期のユーザー報告から:

アプローチ	精度への影響
完全なコンテキストでのワンショットプロンプト	ベースライン。タスクのベストケース性能
同じチャット内のマルチターン訂正	テストモデル全体で平均約39ポイント低下
訂正後のフレーミングを冒頭に置いた新しいチャット	ワンショットベースラインに近い結果に戻る
過去の失敗に一切言及しない新しいチャット	全パターンの中で最もクリーンな結果

最後の行に注目してください。新しいチャットを始めて「以前あなたはXと言って間違いだった、今はYをやって」と書くと、Xを再びコンテキストに戻したことになります。古い水で新しい井戸を汚染したのです。

対策は、古いチャットがなかったことにすることです。

実際に効く対策

レバーは3つ。順に使ってください。

2回訂正の上限。同じチャットでモデルがタスクに2回失敗したら、3回目は試さない。3回目は統計的に最悪の試みです。Claude Codeなら/clear、ChatGPTなら新しいスレッド、Geminiなら新しい会話を開いてください。

正しいフレーミングを冒頭に置く。新しいチャットを、得た答えではなく、欲しい答えで開く。タスクと正しい形を述べる。「このファイルのTypeScriptエラーを修正中、正しい形はXです」のように。「以前モデルはYと言いました」とは言わないでください。

タスクを隔離する。Drew Breunigの「How to Fix Your Context」は5つのパターンを挙げています: 隔離、剪定、要約、オフロード、ツールロードアウト。共通の考え方は、すべてに対する1つのチャットより、タスク1つに対するチャット1つの方が勝つということ。Anthropic自身のエンジニアリングチームは、マルチエージェント研究システムが1つの巨大コンテキストではなく分離されたサブエージェントのコンテキストを使ったとき、内部評価で90.2%の改善を報告しました。

このテイクアウェイはスケールします。意図を持って適用された少ないコンテキストは、反射で適用された多いコンテキストに勝ちます。

Build This Nowはこの問題をアーキテクチャ層で解いている

Build This NowはClaude Code上で動くAIパワードのSaaSビルドシステムです。フレームワークはカスケードを規律ではなく設計で解いています。

18の専門エージェント。各エージェントは自分のコンテキストウィンドウ、自分のシステムプロンプト、自分のツールを持ちます。Database ArchitectがDesignerの失敗した最初の試みを見ることはありません。TesterがBackend DeveloperのハルシネートしたAPIを読むこともありません。タスクが訂正を必要とするとき、オーケストレーターは汚染されたチャットに戻すのではなく、クリーンなブリーフを持つフレッシュなエージェントに訂正をルーティングします。

ハンドオフの間に品質ゲートが走ります。型チェック、Lint、ビルドが、出力に対するフレッシュなエバリュエーターとして機能します。どう作られたかの記憶は持ちません。シングルチャットセッションを台無しにするカスケードパターンには、始まる場所がないのです。

対比は明快です。1つの巨大なチャットは、自分のミスに戻る以外に行き場がないから崩壊します。クリーンなコンテキストとゲートを間に挟んだ小さなエージェントのチームには、その出口がない。

AIがパニックになったら、クリーンルームを与えてあげる。訂正は2回、その後は/clear。1タスク、1コンテキスト。1エージェント、1仕事。

対策はもっと大きな声のプロンプトではない。よりフレッシュな部屋で、より少ないプロンプトを、より鋭いゲートと共に使うことです。

なぜAIは訂正されるとパニックになるのか？

On this page