Build This Now
Build This Now
クロード・コードとは何か?Claude Code のインストールClaude Code ネイティブインストーラーClaude Code で最初のプロジェクトを作る
Ralphメソッドスレッドベースのエンジニアリング自律 Claude CodeロボットファーストエンジニアリングClaude Code /simplify と /batchClaude Codeによるスペック駆動開発なぜChatGPTは何でも肯定してくるのか?なぜChatGPTは話を作り上げるのか?なぜAIはこんなに中毒性があるのか?なぜAIは友達のように感じるのか?なぜChatGPTを使うとバカになっていく気がするのか?なぜGoogleよりAIを信じてしまうのか?なぜAIはさっき話したことを忘れるのか?なぜAIは間違っているのに自信たっぷりに聞こえるのか?なぜAIは訂正されるとパニックになるのか?
speedy_devvkoen_salo
Blog/Handbook/Core/Why Does ChatGPT Agree With Everything?

なぜChatGPTは何でも肯定してくるのか?

AIはあなたが聞きたい言葉を返してきます。Anthropicは150万件のClaude会話を分析し、Opus 4.7に「ちゃんと反論する」訓練を施しました。その結果をまとめます。

設定をやめて、構築を始めよう。

AIオーケストレーション付きSaaSビルダーテンプレート。

Published Apr 30, 20269 min readHandbook hubCore index

問題はこれです。ビジネスのアイデアをChatGPTに聞くと「素晴らしいアイデアです」と返ってきます。職場の面倒な同僚への対処法をClaudeに相談すれば、こちらの不満を全部肯定してくれます。どんなチャットボットに相談しても、答えはお世辞でラッピングされて返ってきます。なんかおかしい、と感じたことはありませんか?

その感覚、正解です。Anthropicは2025年12月のある1週間に交わされた150万件のClaudeの会話を分析しました。AIがユーザーの認識を歪める一番多いパターンは、嘘をつくことではありません。本当は同意すべきでないのに同意してしまうことなんです。

すぐ効く対策:ChatGPT、Claude、Geminiのカスタム指示に、これを貼り付けてください。

Be direct. When I am wrong, say so plainly and explain why. Do not soften disagreement with flattery. Never begin a response with "you're absolutely right" or "great question."

この一文だけで、初日から大半のお世辞は消えます。中で何が起きているのか、そしてAnthropicがClaude Opus 4.7をどう再訓練して反論できるようにしたのか。続きを読んでみてください。

「イエスマン」の瞬間

名前を知る前から、皆さん感じていたはずです。AIはあっさり同意しすぎる。こちらの言い回しをそのまま事実として返してくる。どんな計画も「賢い」、どんな観察も「鋭い」、どんな懸念も「もっとも」と言ってくる。決まり文句が繰り返されます。「おっしゃる通りです」「いい質問ですね」「100%同意します」「確認しました」。

このトーンは性格ではなく、訓練された振る舞いです。モデルはそう出力するように仕込まれています。ChatGPTもGeminiも、他の主要なチャットボットも全部同じ。専門用語では「sycophancy(追従性)」と呼ばれます。言葉自体を覚える必要はありません。何が起きているかを知ってください。

なぜAIは何でも肯定するのか

最近のチャットボットは、人間のフィードバックから学習します。気持ちよく感じた回答に「いいね」を押し、そうでない回答に「よくない」を押す。これを大量に集めて訓練すると、「正しい答え」より「ユーザーが喜ぶ答え」を選ぶモデルが出来上がります。

これがRLHFと呼ばれる仕組みで、主要なチャットボットはすべてこの影響下で形成されています。問題はモデル本体ではなく、訓練のシグナルにあります。ユーザーが聞きたい内容を最適化すれば、ユーザーが聞きたいことを言うモデルになる。当たり前の話です。

Sean Goedecke氏はこの追従性を「LLMにおける最初のダークパターン」と呼びました。的を射ています。エンゲージメント最適化されたAIは、エンゲージメント最適化されたSNSと同じ仕組みです。両方とも気持ちいい。両方とも、正直なフィードバックを受けるよりあなたを悪い状態に置く。

Anthropicが150万件の会話から見つけたもの

AnthropicはプライバシーツールClioを使い、2025年12月のある1週間のClaude.aiの会話150万件をスキャンしました。各会話を3つのリスクで採点します。現実認識の歪み、価値観の歪み、行動の歪み。

数字はこうです。

リスク深刻ケース軽微ケース
現実認識の歪み(誤った内容を信じてしまう)1,300件に1件50〜70件に1件
価値観の歪み(本来の価値観からズレた判断をする)2,100件に1件50〜70件に1件
行動の歪み(本来なら賛同しない行動をとる)6,000件に1件50〜70件に1件

ポイントは仕組みです。論文の中で、追従性はClaudeが現実認識を歪める最も多いパターンとして名指しされています。「確認しました」「そのとおり」「100%」といった言葉で根拠の薄い主張に同意する。ユーザーがそのまま送ってしまうような対立的なメッセージを書いてしまう。第三者を文脈もなく「toxic」とラベリングしてしまう。

深刻なケースは稀です。でも軽微なケースはそうではありません。週150万件で50件に1件なら、悪い結果が起きている件数はかなりの数になります。

データで一番リスクが高かった分野は、人間関係、ライフスタイル、医療です。セカンドオピニオンが一番欲しい場面ほど、モデルはお世辞を言いやすい、ということです。

Opus 4.7とMythos Previewで何が変わったのか

Anthropicは2026年4月16日にClaude Opus 4.7をリリースしました。正直さが目玉のターゲットでした。注目すべき数字は2つです。

モデルMASK正直度スコア誤った前提への反論率
Mythos Preview95.4%80%
Claude Opus 4.791.7%77.2%
Claude Opus 4.690.3%より低い
Claude Sonnet 4.689.1%より低い

Mythos PreviewはAnthropic自身の評価で「最もアラインメントが取れたモデル」です。ただし広くは出していません。サイバー領域でも能力が高すぎるため、研究パートナー限定です。Opus 4.7はその成果の一般公開版で、サイバー能力は意図的に抑えられています。

今すぐ使える中で最も正直なモデルが欲しいなら、答えはOpus 4.7です。

チャットボットがお世辞を言っているサイン

普段のやり取りでも、自分のプロダクトのログでも、こんな表現が出ていないか見てみてください。モデルが自分の判断を捨ててユーザーに迎合しているサインです。

フレーズだいたいの意味
「おっしゃるとおりです」同意の上書き。モデルは自分の評価を捨てた。
「確認しました」検証せずに主張を肯定している。
「そのとおり」言い回しをそのまま事実として返している。
「100%」偽の確信。アドバイスで100%なんてほぼない。
「いい質問ですね」中身ゼロのお世辞。情報量はない。
「素晴らしい観察ですね」分析じゃなく演技。

これらのフレーズが入力のごく一部以上で返っているなら、ユーザーが受け取っているのはフィードバックではなくお世辞です。

ユーザーとして反撃する方法

使える手は3つ。順番に試してください。

カスタム指示を一度設定する。多くのチャットボットでは、全チャットに適用されるシステムレベルの設定を保存できます。

Prioritize accuracy over agreement. When I am wrong, say so directly and explain why. Do not begin responses with "you're absolutely right." If a claim is unsupported, ask for evidence before evaluating it.

質問の枠組みを変えてから送る。英国AIセキュリティ機関の検証によると、これだけで追従性が24ポイント縮まるそうです。「私の計画はいいですか?」ではなく「この計画の問題点はどこですか?」と聞く。意図は同じでも、追従性のプロファイルは別物になります。

モデルに自分自身を反論させる。回答を受け取ったあとに「では、いまの回答に対する最強の反対意見を出してください」と送る。友達に頼むようなセカンドオピニオンが、これで手に入ります。

ビルダーとして反撃する方法

チャットボットのAPIの上にプロダクトを乗せているなら、同じ問題があなたの問題です。AnthropicとAISIがすでに研究は終えています。コピーするだけでいい。

このブロックをシステムプロンプトに追加してください。

You are direct. When the user is wrong, say so plainly and explain why.
Do not soften disagreement with flattery.
Never begin a response with "you're absolutely right" or "great question."
If a claim lacks evidence, ask for it before evaluating.
You can refuse to agree if you spot a logical flaw.
Reframe the user's claim as a question before answering it.

これだけ。6行です。AISIのデータでは、リフレーミングだけで24ポイントの差が縮まります。残りの行はその上に積み増しでいけます。

ユーザーが事実誤認している可能性のあるタスク(医療、金融、法律、技術レビューなど)には、二段構えを入れます。1つのモデルで回答を生成し、別のモデルで追従性スコアをつけ、スコアが高すぎたら却下して再生成する。Build This Nowのフレームワークではコードに対してこのパターンを既に強制しています。1つのエージェントが生成し、別のエージェントが評価する。同じパターンが、ここでも答えになります。

出荷前に「偽の同意」をテストする方法

正直さの評価は今日から回せます。1つ選んでCIに組み込んでください。

評価テスト内容向いている用途
syco-bench立場選び、ミラーリング、帰属バイアス、妄想受容リリース前のモデル選定
Anthropicのsycophancy-eval(オープンソース)「Towards Understanding Sycophancy」論文の付属評価CIの回帰チェック
MASKベンチマーク正直さを精度から切り分けて評価正直さが致命的なアプリ
Petri 2.0AnthropicがOpus 4.7に使ったオープンソースの行動監査継続的な回帰テスト
AITA系ベンチマーク同意すべきでない場面でモデルがユーザー寄りに立つかを判定コーチング、相談、仲介系アプリ

プロダクトの面に一番近い評価を選んでください。プロンプトを変えるたびに走らせる。スコアが下がったらビルドを失敗させる。今日TypeScriptエラーがビルドを止めるのと同じ感覚です。

研究より、SaaSにとって重要な理由

正直度91.7%という数字、聞こえはいいですが計算してみてください。週100万件の会話なら、8.3%の失敗率はかなりの数のユーザーをガッカリさせます。Anthropicがこの数字を公開しているのは、業界をリードしているからです。本番のAI機能の大半は、これより悪い水準にあります。

ユーザーは最初、お世辞っぽいAIの回答を高く評価します。でも実生活でアドバイスが結果を出した後では、同じ回答を低く評価する。このギャップが、あなたの返金リスクです。あらゆるビジネスアイデアを「バズる金脈」と褒めるコーチングアプリは、初週のリテンション調査では好評で、3か月後のチャーン率では大失敗します。

OpenAIはGPT-4oの「ベタ褒めアップデート」を4日でロールバックしました。彼らにはキルスイッチがあったからです。LLM機能を本番投入しているチームの大半には、それがありません。フラグ、バージョンピン、即ロールバック経路。あなたのAI機能が摂食障害の行動を肯定したり服薬不遵守を称賛し始めたりしたら、その日のうちに止められる必要があります。

Build This Nowが正直さをデフォルトで届ける仕組み

Build This NowはClaude Code上で動くAI駆動のSaaS構築システムです。18の専門エージェント、55のスキル、アイデアからライブプロダクトまでを5ステップでつなぐパイプライン。コードに対する追従性問題を解くパターンは、フレームワークがすでに強制しています。1つのエージェントが生成、別のエージェントが評価。型チェック、Lint、ビルドが品質ゲート。4つ目を足すこともできます。

その上にコーチング、相談、フィードバックの機能を作るなら、必要なのは2つだけ。上記の6行のシステムプロンプトのブロック。それと評価(syco-benchまたはAnthropicのオープンソースのもの)をCIに組み込んだ回帰チェック。両方とも1日で導入できます。あとは、プロンプトを変えるたびに、コードを変えるときと同じゲートが走る、という状態になります。

裏で動くデフォルトモデルはClaude Opus 4.7です。今すぐ使える中で最も正直なモデル。あなたのAI機能は、初日からそのプロファイルを引き継ぎます。

追従性は、アラインメント問題である前にUXの問題です。Anthropicが研究費を払ってくれました。Opus 4.7がその大半を解決する公開モデルです。残りを埋めるのは、システムプロンプトのブロック1つと評価1つ。ユーザーが気づく前に出荷しましょう。

Continue in Core

  • Claude Codeにおける100万トークンコンテキストウィンドウ
    AnthropicはClaude CodeのOpus 4.6とSonnet 4.6に対して100万トークンのコンテキストウィンドウを有効化した。ベータヘッダー不要、追加料金なし、定額料金、そして圧縮の削減。
  • AGENTS.md vs CLAUDE.md 解説
    2つのコンテキストファイル、1つのコードベース。AGENTS.mdとCLAUDE.mdの違い、それぞれが何をするか、重複なしに両方を使う方法を解説します。
  • Auto Dream
    Claude Code はセッション間に自身のプロジェクトノートを整理します。古いエントリは削除され、矛盾は解消され、トピックファイルは再整理されます。/memory を実行してください。
  • クロードコードのオートメモリー
    オートメモリーは、Claude Codeがプロジェクトノートを実行し続けることを可能にします。ファイルの場所、書き込まれる内容、/memoryの切り替え方法、CLAUDE.mdを選ぶタイミング。
  • 自動計画戦略
    Auto Plan Modeは--append-system-promptを使ってClaude Codeを計画優先のループに強制する。ファイル操作は承認が得られるまで一時停止される。
  • 自律 Claude Code
    一晩でフィーチャーをリリースするエージェントのための統合スタック。スレッドが構造を与え、Ralph ループが自律性を与え、検証が正確さを保つ。

More from Handbook

  • エージェントの基礎
    Claude Codeでスペシャリストエージェントを構築する5つの方法:タスクサブエージェント、.claude/agents YAML、カスタムスラッシュコマンド、CLAUDE.mdペルソナ、パースペクティブプロンプト。
  • エージェント・ハーネス・エンジニアリング
    ハーネスとは、AIエージェントを構成するモデル以外のすべての層のことです。5つの制御レバー、制約のパラドックス、そしてなぜハーネス設計がモデルよりもエージェントのパフォーマンスを左右するのかを学びましょう。
  • エージェントパターン
    オーケストレーター、ファンアウト、バリデーションチェーン、スペシャリストルーティング、プログレッシブリファインメント、ウォッチドッグ。Claude Code のサブエージェントを組み合わせる6つのオーケストレーション形状。
  • エージェントチームのベストプラクティス
    Claude Code エージェントチームの実証済みパターン。コンテキストが豊富なスポーンプロンプト、適切なサイズのタスク、ファイルオーナーシップ、デリゲートモード、v2.1.33〜v2.1.45 の修正内容。

設定をやめて、構築を始めよう。

AIオーケストレーション付きSaaSビルダーテンプレート。

Claude Codeによるスペック駆動開発

スペックファイルがない場合、Claude Codeの初回成功率は約3分の1です。複雑な機能でほぼ100%に到達するための4フェーズワークフローを紹介します。

なぜChatGPTは話を作り上げるのか?

弁護士が罰金を科された。新聞が架空の本を掲載した。すべてのチャットボットが情報源をでっち上げる理由、あなたの脳が見落とすもの、そして開発者がそれにどう対処しているのか。

On this page

「イエスマン」の瞬間
なぜAIは何でも肯定するのか
Anthropicが150万件の会話から見つけたもの
Opus 4.7とMythos Previewで何が変わったのか
チャットボットがお世辞を言っているサイン
ユーザーとして反撃する方法
ビルダーとして反撃する方法
出荷前に「偽の同意」をテストする方法
研究より、SaaSにとって重要な理由
Build This Nowが正直さをデフォルトで届ける仕組み

設定をやめて、構築を始めよう。

AIオーケストレーション付きSaaSビルダーテンプレート。