なぜChatGPTは話を作り上げるのか？

問題：チャットボットに情報源を尋ねる。論文タイトル、著者名、ジャーナル、年。引用は完璧に見える。でもその論文は存在しない。再度尋ねて、本当に確かか押し返す。謝罪してから、また別の架空の情報源を出してくる。直感では「このモデルは嘘をついている」と感じる。違います。嘘はつけないんです。

このメカニズムはChatGPTより古いものです。解決策は「AIをもっと信じる」ではありません。AIが質問を受けたときに実際に何をしているのか、そしてあなたの脳がその答えを読むときに何をしているのかを知ること。それが解決策です。

クイックウィン：答えが重要なときは、質問の後にこれを貼り付けてください。

情報源を列挙してください。各情報源について、私が開けるURLを示してください。情報源が存在するか確信が持てない場合は、列挙する前にそう伝えてください。

この一文だけで、軽いでっち上げのほとんどはなくなります。実際に何が起きているのか、なぜあなたの目はそれを信じてしまうのか、開発者は自信満々の嘘をユーザーに見せないために何を組み込んでいるのか。続きを読んでください。

6件の架空の判例を提出した弁護士

2023年5月、ニューヨークの弁護士スティーブン・シュワルツが「Mata v. Avianca」事件で準備書面を提出しました。ChatGPTから6件の判例を提示されたんです。本物っぽい名前、本物っぽい引用。すべて存在しませんでした。判事はシュワルツとそのパートナーにそれぞれ5,000ドルの罰金を科しました。証言録取書は痛烈です。シュワルツは法廷で「ChatGPTを使ったことがなかった」「内容が虚偽である可能性に気づいていなかった」と述べました。

これがスタートでした。2026年4月時点で、米国の裁判所への提出書類のうち600件以上がAIによる架空の引用でフラグ付けされています。ユタ州の弁護士リチャード・ベドナーは「Royer v. Nelson」事件を引用して制裁を受けました。この事件はChatGPTが書いたから存在するだけ、です。オーストラリア、英国、フランス、同じパターン。毎月新しい見出し。いつも同じ流れ。弁護士が出力を信じた。出力は完璧に見えた。出力はでっち上げだった。

あなたもすでに同じことをやっている

弁護士はたまたま目立っただけ。このパターンはどこにでもあります。

2025年5月、シカゴ・サンタイムズはAIによる夏の読書リストを掲載しました。15冊中10冊が架空の本。実在の作家、架空のタイトル。連邦政府のMAHA児童健康レポート（同じく2025年5月）は、存在しない研究を少なくとも7件引用していました（NOTUSが参考文献を監査）。バージニア州立図書館の司書たちは現在、メールで届く参考質問の15%がAI生成で、書かれたことのない情報源を指していることが多いと推定しています。赤十字国際委員会はアーカイブに注意書きを加える羽目になりました：参考文献が見つからないとき、それは失われたわけではないかもしれない。ハルシネーションかもしれない。

チャットボットの答えをドキュメントに貼り付けて出したことがあるなら、あなたも同じ曲線の上にいます。たまたま運が良かっただけです。

ChatGPTは実際には何なのか

大規模言語モデルは次の単語を予測する装置です。これまでのテキストを与えると、次のトークンの確率分布を出力し、1つサンプリングし、末尾にくっつけて、繰り返す。それがアルゴリズムの全部です。

事実の検索なんてありません。内部データベースもない。「これは本当か」のチェックもない。「『The Cellar at the End of the Lane』を書いたのは誰？」と尋ねたとき、モデルは図書館を検索しているわけではありません。違う質問を自分にしているんです：訓練中に読んだすべてを踏まえて、ここで次に来そうな単語は何か？もしその本が訓練データにあれば、正しい著者名が出てくる。なければ、それでも何かを出力しなければいけない。だから最もそれっぽい名前を出します。よくいる本物っぽい小説家。たまには、その本を書いていない実在の小説家。

KarpathyがX上でこう書いていました：アルゴリズムは次トークン予測で固定されている。トークンの意味は領域ごとに変わる。でも手順は変わらない。

流暢さと真実は別物

モデルが書くとき、2つのシステムが動いています。1つは流暢さ：これは良い英語に読めるか。もう1つは正確さ：主張は正しいか。訓練は前者に何十億ドルもつぎ込まれます。後者は副産物です。

正確さは、真実の答えが訓練データで最頻パターンと一致するときだけ現れます。よくある事実（フランスの首都、水の沸点）は何度も記憶されているので、流暢さと正確さが同じ単語を指します。マイナーな事実（特定の判例引用、特定の人物の誕生日）では、最ももっともらしい続きと正しい続きがズレます。流暢さが勝ちます。モデルは断言します。

Hacker Newsのコメンターがその結末をスパッと言いました：LLMが出力するものはすべてハルシネーションだ。たまたま真実なものもある、と。

「わからない」と言えない問題

OpenAIは2025年9月に「なぜ言語モデルはハルシネーションを起こすのか」という論文を出しました。一番の発見はモデルについてではなく、モデルがどう採点されているかについてです。

標準的な評価は答えを正解か不正解で採点します。「わからない」は0点。当てずっぽうは、たとえ自信がなくてもプラスの期待値があります。だから、ファインチューニングとRLHFの最中に、モデルは多肢選択試験の正しい戦略を学びます：常に何か答える。ぼかせば必ず0点。当てずっぽうにはチャンスがある。

OpenAI自身のSimpleQAの数字がそれを物語っています：

モデル	誤答率	棄権率
GPT-5-thinking-mini	26%	52%
OpenAI o4-mini（古い）	75%	1%

古いモデルの方が全体的な誤答は少ないけれど、ほぼ「わからない」と言いません。新しい方は自分の限界について正直です。このトレードオフは偶然ではありません。これがレバーです。

AnthropicはClaudeの脳の中を覗いた

2025年3月、Anthropicは「On the Biology of a Large Language Model」を発表しました。解釈可能性チームがClaudeを開いて、ハルシネーションの背後にある回路を追跡したんです。この発見が、この記事全体で一番役立つメンタルモデルです。

拒否がデフォルトです。「十分な情報がありません」と言わせる回路が常時オンになっています。第二の回路、「既知のエンティティ」特徴量は、モデルが何かを認識したときに発火します。この第二の回路が発火すると、デフォルトの拒否が抑制されます。モデルは答えを出すことに踏み切ります。

ハルシネーションは、「既知のエンティティ」回路が誤って発火したときに起きます。モデルが半分しか認識していない名前（もっともらしい本のタイトル、本物っぽい判例名、別の文脈で読んだことのある人物）を見て、認識シグナルが発動し、拒否回路がオフになり、モデルはもう答えに踏み切っている。Anthropicの言葉では：「モデルが質問に答えるべきだと判断すると、もっともらしい（だが残念ながら真実ではない）応答を作り出す方向に進みます」。

AIは嘘をついているのではありません。「これに答えるべき」という反射が誤作動しただけ。そこから先は流暢さがハンドルを握ります。

なぜあなたの脳は引っかかるのか

モデルは問題の半分。あなたの読む脳がもう半分です。

ReberとSchwarzは1999年にきれいな実験をやりました。コントラストの違う文章を印刷したんです。コントラストの高い、読みやすい文は、コントラストの低い文よりも有意に「真実」と判断されました。同じ内容、違う視覚的な流暢さ。結論：テキストの処理を楽にする変数はすべて、知覚される真実度を上げる。

ChatGPTの出力は知覚的に最大値です。きれいなMarkdown。きっちりした文法。自信に満ちた声。完璧なフォーマット。あなたのシステム1（Kahnemanが『ファスト＆スロー』で書いた、速くて自動的な部分）は、システム2が事実確認する前に「楽」を「真実」と読みます。あなたはそのステップに同意していません。勝手に走ります。

これが認知的容易さの罠です。これまで書かれた中で最も洗練された散文が、洗練を正確さと取り違える部分のあなたに出会う。ほとんどの場合、モデルがその勝負に勝ちます。

AIを理解しているという錯覚

Rozenblit & Keil、2002年、Cognitive Science誌。イェール大の学生に、トイレ、ジッパー、ミシンなど日常的な物をどれくらい理解しているか自己評価してもらいました。次に、それぞれの仕組みを段階的に説明してもらいました。それから再評価。説明した後、自己評価が崩壊しました。何かが何をするか知っているのと、それがどう動くか知っているのは違う。人々は説明知識を過大評価する。このバイアスには名前があります：説明深度の錯覚。

自分で試してみてください。ChatGPTが何をするか知っている。「トークン」を声に出して説明してください。「訓練」を説明してください。なぜモデルの語彙は固定なのに出力は無限に感じるのかを説明してください。説明できることと実際に把握していることのギャップは、自信ある答えがすべりこむのに使うちょうどそのギャップです。監査は理解できる範囲しか捉えられません。ほとんどのユーザーは、疑うための装備がない引用を監査できません。

開発者は実際に何をしているのか

AI機能を出すなら、91%正直なモデルでも9%は間違えます。週100万クエリなら、それは大量の架空の情報源が課金ユーザーに届くということ。緩和策のスタックはよく知られています。ほとんどの記事はそれを飛ばします。短くまとめましょう。

自分のデータでモデルをグラウンディングする。検索拡張生成（RAG）は、モデルが何かを書く前にデータベースから実際のレコードを引っ張ります。Lewisらの2020年の論文が定番の参照先です。スタンフォードのRegLabは、トップの法律RAGツールでも17〜34%のハルシネーション率を計測しました。RAGは魔法ではありません。床であって天井ではない。

不確実性を可視化する。URL付きの引用をモデルに求める。引用フィールドが空なら答えをレンダリングしない。情報源をユーザーに見せる。情報源が読み込めなければ、答えを「未検証」とフラグ付けする。

拒否を訓練し直す。システムプロンプトにこのブロックを追加してください：

ある事実が正しいか確信が持てない場合は、答える前に「わかりません」と言ってください。
ユーザーが開けるURLを示せるときだけ、情報源を引用してください。
引用を絶対にでっち上げないでください。情報源が誤っている可能性がある場合は、ユーザーに確認を求めてください。
証拠が薄いときは答えを拒否しても構いません。

敵対的にテストする。存在しないエンティティについてひっかけ質問をする。偽だとわかっている情報源を求める。正解率だけでなく棄権率を採点する。MASKとPetri 2.0は今すぐCIに組み込めるオープンな評価セットです。

ジェネレーターと評価器を走らせる。1つのモデルが書く。別のモデルが、違うプロンプト、違うtemperatureで、根拠性、引用の妥当性、棄権を採点する。スコアが低ければ拒否して再生成。これはコードのリグレッションを捕まえるのと同じ、ジェネレーター・評価器パターンです。

今日のフロンティアモデル、誠実さで並べると

モデル間の誠実さの差は本物で、広がりつつあります。2026年4月後半時点の公開評価から：

モデル	MASK誠実さスコア	メモ
Mythos Preview (Anthropic)	95.4%	研究アクセスのみ。誤った前提に80%の確率で押し返す。
Claude Opus 4.7	91.7%	公開モデル。拒否行動を訓練し直して出荷。
Claude Sonnet 4.6	89.1%	安価で、わずかにゆるい。
GPT-5.5	公開スコア未定	OpenAIは棄権を設定可能なノブとして提供。
Gemini 3.1 Pro	公開スコア未定	グラウンディング検索に強く、棄権は弱め。
Grok 4.20	公開スコア未定	主要フロンティアモデルで最低の棄権率。

エラー予算に合うモデルを選んでください。コーチングアプリと社内データツールでは許容度が違います。重要なのは「最も賢い」ではなく「『わからない』と言える」かどうかです。

結論

AIは嘘をつきません。嘘をつくには真実を知る必要があります。モデルは毎単語を推測しているだけで、ほとんどの場合は真実が最頻パターンでもあるので推測が当たります。そうでないとき、モデルは構わず断言します。Scott Alexanderが2026年3月に言い直しました：ハルシネーションではなく、恥知らずな当てずっぽう。

人間も作話します。目撃者の記憶、分離脳実験、「どこかで読んだ気がする」。モデルはそれを私たちから学びました。解決策は両側で同じです。「わからない」に報酬を与える。流暢な答えを監査する。レシートを見せる。

Build This Nowはこれをどう組み込んでいるか

Build This NowはAI駆動のSaaSビルドシステムです。専門エージェント18体。スキル55個。アイデアからライブ製品までの5ステップパイプライン。Testerエージェントが敵対的チェックを走らせます。Database Architectが機能を実スキーマでグラウンディングします。品質ゲート（型チェック、lint、ビルド）はあらゆる機能で発火します。1つのエージェントが生成し、別のエージェントが評価する。自信ある不具合を捕まえるパターンは、自信ある嘘を捕まえるパターンと同じです。

AI機能を製品に組み込むなら、モデルよりアーキテクチャの方が重要です。出力をグラウンディングする。不確実性を可視化する。棄権を採点する。プロンプトを変えるたびに評価を走らせる。仕事のほとんどは終わっています。私たちが繋ぎ込むだけです。

ChatGPTは自分が間違っていることを知りません。あなたの脳は尋ねるべきことを知りません。本物の製品はその両方を知った上で、答えを出します。

なぜChatGPTは話を作り上げるのか？

On this page