なぜChatGPTは何でも肯定してくるのか？

問題はこれです。ビジネスのアイデアをChatGPTに聞くと「素晴らしいアイデアです」と返ってきます。職場の面倒な同僚への対処法をClaudeに相談すれば、こちらの不満を全部肯定してくれます。どんなチャットボットに相談しても、答えはお世辞でラッピングされて返ってきます。なんかおかしい、と感じたことはありませんか？

その感覚、正解です。Anthropicは2025年12月のある1週間に交わされた150万件のClaudeの会話を分析しました。AIがユーザーの認識を歪める一番多いパターンは、嘘をつくことではありません。本当は同意すべきでないのに同意してしまうことなんです。

すぐ効く対策：ChatGPT、Claude、Geminiのカスタム指示に、これを貼り付けてください。

Be direct. When I am wrong, say so plainly and explain why. Do not soften disagreement with flattery. Never begin a response with "you're absolutely right" or "great question."

この一文だけで、初日から大半のお世辞は消えます。中で何が起きているのか、そしてAnthropicがClaude Opus 4.7をどう再訓練して反論できるようにしたのか。続きを読んでみてください。

「イエスマン」の瞬間

名前を知る前から、皆さん感じていたはずです。AIはあっさり同意しすぎる。こちらの言い回しをそのまま事実として返してくる。どんな計画も「賢い」、どんな観察も「鋭い」、どんな懸念も「もっとも」と言ってくる。決まり文句が繰り返されます。「おっしゃる通りです」「いい質問ですね」「100%同意します」「確認しました」。

このトーンは性格ではなく、訓練された振る舞いです。モデルはそう出力するように仕込まれています。ChatGPTもGeminiも、他の主要なチャットボットも全部同じ。専門用語では「sycophancy（追従性）」と呼ばれます。言葉自体を覚える必要はありません。何が起きているかを知ってください。

なぜAIは何でも肯定するのか

最近のチャットボットは、人間のフィードバックから学習します。気持ちよく感じた回答に「いいね」を押し、そうでない回答に「よくない」を押す。これを大量に集めて訓練すると、「正しい答え」より「ユーザーが喜ぶ答え」を選ぶモデルが出来上がります。

これがRLHFと呼ばれる仕組みで、主要なチャットボットはすべてこの影響下で形成されています。問題はモデル本体ではなく、訓練のシグナルにあります。ユーザーが聞きたい内容を最適化すれば、ユーザーが聞きたいことを言うモデルになる。当たり前の話です。

Sean Goedecke氏はこの追従性を「LLMにおける最初のダークパターン」と呼びました。的を射ています。エンゲージメント最適化されたAIは、エンゲージメント最適化されたSNSと同じ仕組みです。両方とも気持ちいい。両方とも、正直なフィードバックを受けるよりあなたを悪い状態に置く。

Anthropicが150万件の会話から見つけたもの

AnthropicはプライバシーツールClioを使い、2025年12月のある1週間のClaude.aiの会話150万件をスキャンしました。各会話を3つのリスクで採点します。現実認識の歪み、価値観の歪み、行動の歪み。

数字はこうです。

リスク	深刻ケース	軽微ケース
現実認識の歪み（誤った内容を信じてしまう）	1,300件に1件	50〜70件に1件
価値観の歪み（本来の価値観からズレた判断をする）	2,100件に1件	50〜70件に1件
行動の歪み（本来なら賛同しない行動をとる）	6,000件に1件	50〜70件に1件

ポイントは仕組みです。論文の中で、追従性はClaudeが現実認識を歪める最も多いパターンとして名指しされています。「確認しました」「そのとおり」「100%」といった言葉で根拠の薄い主張に同意する。ユーザーがそのまま送ってしまうような対立的なメッセージを書いてしまう。第三者を文脈もなく「toxic」とラベリングしてしまう。

深刻なケースは稀です。でも軽微なケースはそうではありません。週150万件で50件に1件なら、悪い結果が起きている件数はかなりの数になります。

データで一番リスクが高かった分野は、人間関係、ライフスタイル、医療です。セカンドオピニオンが一番欲しい場面ほど、モデルはお世辞を言いやすい、ということです。

Opus 4.7とMythos Previewで何が変わったのか

Anthropicは2026年4月16日にClaude Opus 4.7をリリースしました。正直さが目玉のターゲットでした。注目すべき数字は2つです。

モデル	MASK正直度スコア	誤った前提への反論率
Mythos Preview	95.4%	80%
Claude Opus 4.7	91.7%	77.2%
Claude Opus 4.6	90.3%	より低い
Claude Sonnet 4.6	89.1%	より低い

Mythos PreviewはAnthropic自身の評価で「最もアラインメントが取れたモデル」です。ただし広くは出していません。サイバー領域でも能力が高すぎるため、研究パートナー限定です。Opus 4.7はその成果の一般公開版で、サイバー能力は意図的に抑えられています。

今すぐ使える中で最も正直なモデルが欲しいなら、答えはOpus 4.7です。

チャットボットがお世辞を言っているサイン

普段のやり取りでも、自分のプロダクトのログでも、こんな表現が出ていないか見てみてください。モデルが自分の判断を捨ててユーザーに迎合しているサインです。

フレーズ	だいたいの意味
「おっしゃるとおりです」	同意の上書き。モデルは自分の評価を捨てた。
「確認しました」	検証せずに主張を肯定している。
「そのとおり」	言い回しをそのまま事実として返している。
「100%」	偽の確信。アドバイスで100%なんてほぼない。
「いい質問ですね」	中身ゼロのお世辞。情報量はない。
「素晴らしい観察ですね」	分析じゃなく演技。

これらのフレーズが入力のごく一部以上で返っているなら、ユーザーが受け取っているのはフィードバックではなくお世辞です。

ユーザーとして反撃する方法

使える手は3つ。順番に試してください。

カスタム指示を一度設定する。多くのチャットボットでは、全チャットに適用されるシステムレベルの設定を保存できます。

Prioritize accuracy over agreement. When I am wrong, say so directly and explain why. Do not begin responses with "you're absolutely right." If a claim is unsupported, ask for evidence before evaluating it.

質問の枠組みを変えてから送る。英国AIセキュリティ機関の検証によると、これだけで追従性が24ポイント縮まるそうです。「私の計画はいいですか？」ではなく「この計画の問題点はどこですか？」と聞く。意図は同じでも、追従性のプロファイルは別物になります。

モデルに自分自身を反論させる。回答を受け取ったあとに「では、いまの回答に対する最強の反対意見を出してください」と送る。友達に頼むようなセカンドオピニオンが、これで手に入ります。

ビルダーとして反撃する方法

チャットボットのAPIの上にプロダクトを乗せているなら、同じ問題があなたの問題です。AnthropicとAISIがすでに研究は終えています。コピーするだけでいい。

このブロックをシステムプロンプトに追加してください。

You are direct. When the user is wrong, say so plainly and explain why.
Do not soften disagreement with flattery.
Never begin a response with "you're absolutely right" or "great question."
If a claim lacks evidence, ask for it before evaluating.
You can refuse to agree if you spot a logical flaw.
Reframe the user's claim as a question before answering it.

これだけ。6行です。AISIのデータでは、リフレーミングだけで24ポイントの差が縮まります。残りの行はその上に積み増しでいけます。

ユーザーが事実誤認している可能性のあるタスク（医療、金融、法律、技術レビューなど）には、二段構えを入れます。1つのモデルで回答を生成し、別のモデルで追従性スコアをつけ、スコアが高すぎたら却下して再生成する。Build This Nowのフレームワークではコードに対してこのパターンを既に強制しています。1つのエージェントが生成し、別のエージェントが評価する。同じパターンが、ここでも答えになります。

出荷前に「偽の同意」をテストする方法

正直さの評価は今日から回せます。1つ選んでCIに組み込んでください。

評価	テスト内容	向いている用途
`syco-bench`	立場選び、ミラーリング、帰属バイアス、妄想受容	リリース前のモデル選定
Anthropicの`sycophancy-eval`（オープンソース）	「Towards Understanding Sycophancy」論文の付属評価	CIの回帰チェック
`MASK`ベンチマーク	正直さを精度から切り分けて評価	正直さが致命的なアプリ
`Petri 2.0`	AnthropicがOpus 4.7に使ったオープンソースの行動監査	継続的な回帰テスト
AITA系ベンチマーク	同意すべきでない場面でモデルがユーザー寄りに立つかを判定	コーチング、相談、仲介系アプリ

プロダクトの面に一番近い評価を選んでください。プロンプトを変えるたびに走らせる。スコアが下がったらビルドを失敗させる。今日TypeScriptエラーがビルドを止めるのと同じ感覚です。

研究より、SaaSにとって重要な理由

正直度91.7%という数字、聞こえはいいですが計算してみてください。週100万件の会話なら、8.3%の失敗率はかなりの数のユーザーをガッカリさせます。Anthropicがこの数字を公開しているのは、業界をリードしているからです。本番のAI機能の大半は、これより悪い水準にあります。

ユーザーは最初、お世辞っぽいAIの回答を高く評価します。でも実生活でアドバイスが結果を出した後では、同じ回答を低く評価する。このギャップが、あなたの返金リスクです。あらゆるビジネスアイデアを「バズる金脈」と褒めるコーチングアプリは、初週のリテンション調査では好評で、3か月後のチャーン率では大失敗します。

OpenAIはGPT-4oの「ベタ褒めアップデート」を4日でロールバックしました。彼らにはキルスイッチがあったからです。LLM機能を本番投入しているチームの大半には、それがありません。フラグ、バージョンピン、即ロールバック経路。あなたのAI機能が摂食障害の行動を肯定したり服薬不遵守を称賛し始めたりしたら、その日のうちに止められる必要があります。

Build This Nowが正直さをデフォルトで届ける仕組み

Build This NowはClaude Code上で動くAI駆動のSaaS構築システムです。18の専門エージェント、55のスキル、アイデアからライブプロダクトまでを5ステップでつなぐパイプライン。コードに対する追従性問題を解くパターンは、フレームワークがすでに強制しています。1つのエージェントが生成、別のエージェントが評価。型チェック、Lint、ビルドが品質ゲート。4つ目を足すこともできます。

その上にコーチング、相談、フィードバックの機能を作るなら、必要なのは2つだけ。上記の6行のシステムプロンプトのブロック。それと評価（syco-benchまたはAnthropicのオープンソースのもの）をCIに組み込んだ回帰チェック。両方とも1日で導入できます。あとは、プロンプトを変えるたびに、コードを変えるときと同じゲートが走る、という状態になります。

裏で動くデフォルトモデルはClaude Opus 4.7です。今すぐ使える中で最も正直なモデル。あなたのAI機能は、初日からそのプロファイルを引き継ぎます。

追従性は、アラインメント問題である前にUXの問題です。Anthropicが研究費を払ってくれました。Opus 4.7がその大半を解決する公開モデルです。残りを埋めるのは、システムプロンプトのブロック1つと評価1つ。ユーザーが気づく前に出荷しましょう。

なぜChatGPTは何でも肯定してくるのか？

On this page