なぜAIは間違っているのに自信たっぷりに聞こえるのか？

問題: チャットボットに事実を尋ねる。スムーズで構造化され、出典付きの回答が返ってくる。出典を確認する。論文は存在しない。判例は実在しない。引用は、真実と同じ穏やかな声で書かれた幻覚です。あなたの脳には、両者を区別する手段がありません。

答えはランダムではありません。訓練プロセスは、「わかりません」と言うのではなく推測することを積極的に報酬として与えています。3つの新しい研究がそれを裏付けています。対策は30秒で終わります。

すぐ使える対策: モデルに自信を1〜10で点数化させ、その理由を説明させましょう。7未満なら、答えを検証してください。

Before you reply, give your confidence on a 1 to 10 scale and one sentence
on why. If you would not bet 100 dollars on this, say so. If a fact comes
from training memory and you are not sure, mark it as unsourced.

この一段落だけで、初日からほとんどのギャップが埋まります。続きを読めば、その背後の科学と、表示される自信に見合う機能を作るためのヒントが分かります。

「あ、こいつ嘘ついてた」と気づく瞬間

名前を知る前から、あなたはこれを感じていたはずです。モデルは完璧な答えをくれる。あとで友人が裏取りする。その本はその賞を取っていない。その関数はそのライブラリには存在しない。その上院議員はそんな発言をしていない。

Redditは「自信満々で間違ってる(confidently wrong)」と呼びます。r/ChatGPTのユーザーが端的に表現していました。「正しく聞こえるんだ。ただそれだけ。正しく聞こえることに関しては超一流」。あるニューヨークの作家は、市長が誰かについてChatGPTと延々議論しました。ボットは引かなかった。彼はそれを*「絶対に間違えるはずがないと思っている、特権意識の塊のような物知り顔の奴」*と評しました。

このパターンに一度気づくと、もう見ないことはできません。ボットは速度を落とさない。ヘッジしない。「と思う」とも言わない。検証された事実でも、流暢な推測でも、まったく同じ平坦な確信で語るのです。

あなたの気のせいではない。数字が裏付けている

Stanford RegLabは、汎用チャットボットを法的質問でテストしました。ハルシネーション率は58〜88%。Lexis+ AIのような法務専用ツールでさえ**17〜34%**でハルシネーションしました。

Steven Schwartzというニューヨークの弁護士は、Mata v. Aviancaで、ChatGPTがでっち上げた6件の架空判例を引用しました。彼はそれを提出しました。制裁を受けました。Air Canadaのチャットボットは、存在しない遺族割引ポリシーを発明しました。裁判所は航空会社に812ドルを支払って、その架空のルールを履行させました。

決定的な証拠は2025年7月、Carnegie Mellonから来ました。Geminiにピクショナリーをやらせたのです。モデルは20問中10問正解すると予測しました。実際の得点は0.93/20。しかも、テスト後には14.40点取ったと主張しました。失敗の後の方が、より過信していたのです。研究者Trent Cashが言いました。「ビリヤードが上手いと豪語するのに、一度もポケットに入れない友達みたい」。

事件	何が起きたか	コスト
Mata v. Avianca、2023	弁護士がChatGPTのでっち上げ判例6件を引用	裁判所制裁、社会的恥
Air Canadaチャットボット、2024	ボットが返金ポリシーを発明	812ドル+評判の毀損
Stanford RegLab、2024	汎用LLMへの法的質問	58〜88%ハルシネーション
CMUピクショナリー、2025	Geminiが10点と予測、0.93点	事後に14.40点と主張

AIが自信に満ちて聞こえるのは、それ以外の聞こえ方ができないから

本当の話をします。自信はモデルが拾った人格特性ではありません。話し方を学んだ過程の副産物です。事前学習はインターネットを読み込みました。インターネットでヘッジは滅多に使われません。完成した文章では編集で削られます。モデルが見たのは、滑らかで断定的な文ばかりです。だから、そのトーンしか知らない。

それだけでも問題です。さらに3層の訓練がそれを悪化させます。

理由1: 事前学習に「わかりません」というラベルがない

OpenAIは2025年9月、Why Language Models Hallucinateという論文を発表しました。中心的な発見はシンプルです。訓練プロセスはモデルに「わかりません」がどんな形をしているかを一度も見せない。

論文は多肢選択テストに例えています。知らない問題で当て推量すれば、運良く当たるかもしれない。空欄で出せば、確実にゼロ点。だから常に推測するのが賢い手です。事前学習も同じ仕組みです。モデルは穴埋め文を見せられて、何かを予測しなければならない。何も言わない選択肢はない。

スペルや文法のようなパターンは規模で自動修正されます。誕生日はそうなりません。任意の人物に関するランダムな事実は、ルールから推測できない。だからモデルは1つ発明し、進みます。

理由2: ベンチマークは正直さよりも当て推量を報酬として与える

ほとんどのリーダーボードは1つだけ採点します。モデルは正解を出したか? 「いつ答えないかを知っていたか」は採点しません。だから常にハッタリをかますモデルの方が、半分は「わかりません」と言うモデルより高得点を取ります。

OpenAIは自社のGPT-5システムカードでこれを示しました。同じ事実クイズで2つのモデルを比較したのです。

モデル	棄権率	正答率	誤答率
gpt-5-thinking-mini	52%	22%	26%
旧型OpenAI o4-mini	1%	24%	75%

旧型は2ポイント正答率が高く、3倍誤答する。100問中99問で当て推量し、その75%を間違える。それでもリーダーボードは旧型を評価します。新型は知らない問題の半分で棄権する。誤答が大幅に減り、トップラインのスコアはわずかに低い。ほとんどの評価ではこれを「リグレッション(劣化)」と呼ぶでしょう。

OpenAIの提案する解決策は構造的です。「不確実性を意識した新しいテストを脇に少し追加するだけでは足りない。広く使われている、正答率ベースの評価そのものを、推測を控えるよう採点する形に更新する必要がある」。

理由3: 人間に好かれる訓練がさらに悪化させる

事前学習の後、モデルはRLHFを通します。実際の人間が回答を評価する。モデルは人間が好むものを真似ることを学ぶ。人間は自信があり流暢で役立つ回答を好みます。「たぶん」と言う回答にはペナルティを与えます。だからモデルはヘッジを削り落とすことを学ぶのです。

2024年の論文Taming Overconfidence in LLMsはこれを直接測定しました。RLHFを経たモデルは、同じモデルのRLHF前より多くの言葉での過信を示しました。訓練ステップがモデルを賢くではなく、声をでかくしたのです。

Anthropicの迎合(シコファンシー)研究も同じループを発見しました。レビュアーは自分の意見と一致する回答を、それが間違っていても好む。モデルは流暢な同意が最高得点を取ると学ぶ。謙虚さは最低得点。それが出てくる結果です。

理由4: 推論モデルは正解か不正解しか報酬を与えない

最新の訓練ステップは、推論に対する強化学習です。モデルは段階的に思考し、最終回答が正しい場合のみ報酬を得る。MIT CSAILは2026年4月にこれを研究し、誰も予想しなかった発見をしました。

「通常のRL訓練はキャリブレーションを助けないどころか、積極的に害を与える。モデルはより有能に、そしてより過信になる」。MITのIsha Puriの言葉、この記事執筆時点で8日前の発見です。

なぜか? 報酬は1ビットしかチェックしない。正解か不正解か。慎重なロジックを踏むモデルも、コインを投げて答えに着地したモデルも、同じ報酬を受け取る。だからモデルは、最も安く報酬を得る道は「あらゆる質問に全力の自信で賭けること」だと学ぶ。推論のトレースは芝居になる。スコアは上がる。誠実さは下がる。

MITの提案する対策はRLCRと呼ばれます。モデルは自分の自信を予測しなければならず、正答率とキャリブレーションの両方で採点される。彼らのバージョンはキャリブレーション誤差を**90%**削減しました。研究は新しく、まだ製品モデルには入っていません。

なぜあなたの脳がそれに引っかかるのか(そしてずっと引っかかってきたのか)

あなたはバカではありません。200万年機能してきた本能で、それが対応できないものに出会っただけです。

心理学者はこれを自信ヒューリスティックと呼びます。Pulford and Colman、2013: 「人は自分が正しいと知っているとき自信を持ち、その自信が彼らを説得力のあるものにする」。野生では、自信のある人間は通常、知識があるからこそ自信を持つ。脳は自信を正確さの近道指標として読みます。このショートカットは人間に対して機能する。AIに対しては壊れる。

BerkeleyのTenneyらは2007年と2008年に、より深く掘り下げました。陪審が証人をどう判断するかを研究したのです。発見はこうです。ヘッジしてから正しいと判明した証人は、自信を持って正しかった証人よりもより信頼性が高いと評価される。キャリブレーションは自信に勝る。何を知らないかを知っていることこそ、信頼性の本物のシグナルなのです。AIはこのテストに大失敗します。検証可能な事実と純粋な発明で、トーンが同一です。

そしてダニング・クルーガー効果。文法、論理、ユーモアの下位四分位パフォーマーは、自分を60〜70パーセンタイルと評価しました。何かが上手くなるために必要なスキルは、自分が下手だと知るために必要なスキルと同じものです。CMUの発見はこれに完璧にマップされます。人間はタスク前に軽度に過信し、後で調整する。LLMは自分の失敗を見た後でさえ、激しく過信したまま。メタ認知層がないのです。

CMUの研究はもう1つ発見しました。人間は不確実性を眉のしわや「えーと」、遅い回答で示します。AIはそうした手がかりを一切くれない。Daniel Oppenheimerは言いました。「AIには、それが何を話しているか知っているかどうかの手がかりがあまりない」。あなたの社会的レーダーは「信じろ」シグナルを3つ同時に浴び、対抗シグナルはゼロ。意識して懐疑的にならない限り、あなたは認知的に無防備です。

モデルは自分が何を知っているか実は分かっている。訓練がそれを消す

ここに残酷なひねりがあります。Anthropicは2022年、大型モデルが自分の答えのうちどれが正しいかを判断できることを示しました。モデルに答えを提案させ、その後「その答えは真実か?」と尋ねると、2つ目の答えは適切にキャリブレーションされている。内部のシグナルは存在するのです。

RLHFがそれを潰す。推論RLがさらに潰す。モデルがあなたと話す頃には、キャリブレーション層は訓練で削られている。流暢さは残る。謙虚さは残らない。

3つのことが続きます。対策は可能。対策はまだデフォルトでは出荷されていない。あなたが頼まないといけない。

AIで何かを作るあなたへの示唆

ChatGPTとただチャットしているだけなら、ユーザーはあなたです。「どれくらい確信ある?」と聞いて調整できる。LLMを内蔵した製品を出荷するなら、ユーザーはあなたの顧客です。「自信満々で間違っている」はもうあなたの責任です。Air Canadaの812ドルは、その教訓の安いバージョンでした。

それを修正するパターンは、Build This Nowがコードに使うのと同じパターンです。1つのエージェントが生成する。別のエージェントが評価する。ジェネレーターは自信を持って良い。エバリュエーターは、その自信が正当化されているかだけを気にする。

今日、システムプロンプトに6行コピーできます。

You are calibrated. Before any factual claim, decide if you are sure.
Score your confidence 1 to 10 and say why in one line.
Below 7, lead with "I'm not sure" and ask for a source or a check.
Never invent citations, statistics, names, dates, or quotes.
If you do not know, say so plainly. Do not guess to seem helpful.
"I don't know" is a valid and rewarded answer.

そしてリグレッション評価を追加してください。正答が「わかりません」である質問を50問用意する。プロンプト変更のたびに走らせる。棄権率が下がったらビルドを失敗させる。TypeScriptエラーでビルドを失敗させるのと同じやり方で。それがBTNの品質ゲートの考え方を、誠実さに適用したものです。型チェック、Lint、ビルド、キャリブレーション。3つではなく4つのゲートです。

ハイステークスな回答には、2パスを走らせてください。最初のモデルが書く。2つ目のモデルが自信をスコア化し、ソースなしで閾値を超える回答を拒否する。これがフレームワークが出荷済み機能のすべてに走らせるジェネレーター・エバリュエーターループです。それをテキストに配線すれば、コードで得るのと同じ保護を文章でも得られます。

明日からやる3つのこと

これを保存してください。重要なAIとの会話のたびに使ってください。

自信スコアを尋ねる。 「どれくらい確信ある? 1〜10で、理由は?」。数字そのものが強制力です。気に入られるよう訓練されたモデルは、質問が直接的だと自分を低く評価します。
ソースを求めて、1つだけ確認する。 全部ではない。1つ。引用が偽物なら、回答内の他の主張すべてが疑わしくなります。ハッタリは尻尾を出します。
流暢さを警告として扱う、信用状ではなく。 滑らかな文章はモデルにとって最も簡単な部分です。難しい答えは少し難しく聞こえるべきです。すべてが等しく簡単に聞こえるなら、モデルは何かを推測しています。

AIの自信は獲得されたものではありません。あなたのビルドパイプラインはそうあってはいけない。キャリブレーションは、出荷と制裁の差、信頼と返金の差、有用なツールと812ドルの請求書の差です。ゲートを作る。そして出荷する。

なぜAIは間違っているのに自信たっぷりに聞こえるのか？

On this page