Pourquoi l'IA a l'air si sûre d'elle quand elle se plante ?

Problème : tu poses une question factuelle à un chatbot. La réponse arrive lisse, structurée, sourcée. Tu vérifies la source. L'article n'existe pas. L'affaire n'a jamais été plaidée. La citation est une hallucination écrite avec la même voix calme que la vérité. Ton cerveau n'a aucun moyen de distinguer les deux.

La réponse n'a rien d'aléatoire. Le process d'entraînement récompense activement les modèles qui devinent au lieu de dire "je sais pas". Trois nouvelles études le confirment. Un fix prend trente secondes.

La technique rapide : demande au modèle de noter sa confiance de 1 à 10 et de l'expliquer. En dessous de 7, vérifie la réponse.

Before you reply, give your confidence on a 1 to 10 scale and one sentence
on why. If you would not bet 100 dollars on this, say so. If a fact comes
from training memory and you are not sure, mark it as unsourced.

Ce paragraphe ferme la majorité du gap dès le premier jour. Continue à lire pour la science derrière, et comment les builders sortent des features qui méritent la confiance qu'elles affichent.

Le moment où tu réalises qu'elle mentait

Tu l'as senti avant d'avoir un nom pour ça. Le modèle t'a donné une réponse parfaite. Puis un pote a vérifié. Le livre n'a jamais gagné ce prix. La fonction n'existe pas dans cette lib. Le sénateur n'a jamais dit ça.

Reddit appelle ça "confidently wrong". Un user de r/ChatGPT a posé le mot juste : "It sounds correct. That's all. It's excellent at sounding correct." Un écrivain new-yorkais a passé des paragraphes à débattre avec ChatGPT sur l'identité du maire. Le bot persistait. Il a parlé d'un "entitled know-it-all who can't possibly be wrong".

Une fois que tu as vu le pattern, tu ne peux plus l'ignorer. Le bot ne ralentit pas. Il ne hedge pas. Il ne dit pas "je pense". Il parle avec la même certitude plate, que la réponse soit un fait vérifié ou une supposition fluide.

T'es pas fou : les chiffres confirment

Stanford RegLab a testé des chatbots généralistes sur des questions juridiques. Ils ont halluciné 58 à 88 pour cent du temps. Même des outils IA juridiques dédiés comme Lexis+ AI ont halluciné 17 à 34 pour cent des requêtes.

Un avocat new-yorkais nommé Steven Schwartz a cité six affaires fictives inventées par ChatGPT dans Mata v. Avianca. Il les a déposées. Il a été sanctionné. Le chatbot d'Air Canada a inventé une politique de tarif deuil qui n'existait pas. Le tribunal a obligé la compagnie à payer 812 dollars pour honorer la règle inventée.

Le pistolet fumant est venu de Carnegie Mellon en juillet 2025. Ils ont fait jouer Gemini au Pictionary. Le modèle prévoyait 10 dessins reconnus sur 20. Il en a fait 0,93 sur 20. Puis, après le test, il a prétendu en avoir réussi 14,40. Plus surconfiant après l'échec qu'avant. "It's like that friend who swears they're great at pool but never makes a shot," a dit le chercheur Trent Cash.

Incident	Ce qui s'est passé	Coût
Mata v. Avianca, 2023	Un avocat cite 6 affaires inventées par ChatGPT	Sanctions du tribunal, humiliation publique
Chatbot Air Canada, 2024	Le bot invente une politique de remboursement	812 $ + dégâts d'image
Stanford RegLab, 2024	Requêtes juridiques aux LLMs généralistes	58 à 88 pour cent d'hallucination
CMU Pictionary, 2025	Gemini prédit 10, score réel 0,93	A revendiqué 14,40 a posteriori

L'IA sonne confiante parce qu'elle ne peut pas sonner autrement

Voilà la vraie histoire. La confiance n'est pas un trait de personnalité que le modèle a chopé. C'est un effet de bord de la façon dont il a appris à parler. Le pretraining a lu Internet. Internet hedge rarement. Le hedge est édité hors de la prose finie. Le modèle n'a vu que des phrases lisses, déclaratives. Donc c'est la seule voix qu'il connaît.

Ça seul, ce serait déjà un problème. Trois autres couches d'entraînement empirent les choses.

Raison 1 : le pretraining n'a pas de label "je ne sais pas"

OpenAI a publié un papier en septembre 2025 appelé Why Language Models Hallucinate. Le constat de fond paraît simple. Le process d'entraînement ne montre jamais au modèle à quoi ressemble "je ne sais pas".

Le papier compare ça à un QCM. Si tu devines sur une question que tu ne connais pas, tu peux avoir de la chance. Si tu laisses blanc, tu as zéro à coup sûr. Donc le bon move, c'est toujours de deviner. Le pretraining marche pareil. Le modèle voit une phrase avec un mot manquant. Il doit prédire quelque chose. Ne rien dire n'est pas une option.

Les patterns comme l'orthographe et la grammaire se réparent à l'échelle. Pas les anniversaires. Les faits aléatoires sur des gens aléatoires ne peuvent pas être devinés depuis des règles. Donc le modèle en invente un et passe.

Raison 2 : les benchmarks récompensent la devinette plus que l'honnêteté

La plupart des leaderboards notent une seule chose. Le modèle a-t-il donné la bonne réponse ? Ils ne notent pas "le modèle savait-il quand ne pas répondre". Donc un modèle qui bluffe à chaque coup score plus haut qu'un modèle qui dit "je ne suis pas sûr" la moitié du temps.

OpenAI l'a montré dans sa propre system card GPT-5. Ils ont comparé deux modèles sur le même quiz factuel :

Modèle	Taux d'abstention	Précision	Taux de mauvaises réponses
gpt-5-thinking-mini	52%	22%	26%
Older OpenAI o4-mini	1%	24%	75%

L'ancien modèle est plus précis de deux points et trois fois plus faux. Il devine sur 99 inconnues sur 100. Il en rate 75. Le leaderboard le récompense quand même. Le nouveau modèle s'abstient sur la moitié des questions qu'il ne connaît pas. Il a beaucoup moins de mauvaises réponses, et un score top-line légèrement plus bas. La plupart des évals appelleraient ça une régression.

Le fix d'OpenAI est structurel. "It is not enough to add a few new uncertainty-aware tests on the side. The widely used, accuracy-based evals need to be updated so that their scoring discourages guessing."

Raison 3 : entraîner pour plaire aux humains empire les choses

Après le pretraining, les modèles passent par RLHF. De vrais humains notent les réponses. Le modèle apprend à copier ce que les humains aiment. Les humains aiment les réponses qui sonnent confiantes, fluides, utiles. Les humains punissent les réponses qui disent "peut-être". Donc le modèle apprend à virer les hedges.

Un papier de 2024, Taming Overconfidence in LLMs, a mesuré ça directement. Les modèles entraînés avec RLHF montraient plus de surconfiance verbalisée que les mêmes modèles avant RLHF. L'étape d'entraînement les a rendus plus bruyants, pas plus malins.

La recherche d'Anthropic sur la sycophantie a trouvé la même boucle. Les évaluateurs préfèrent les réponses qui collent à leurs propres vues, même quand ces vues sont fausses. Le modèle apprend que l'accord fluide score le mieux. L'humilité score le pire. Devine ce qui sort à l'autre bout.

Raison 4 : les modèles de raisonnement récompensent juste ou faux, rien entre les deux

L'étape d'entraînement la plus récente, c'est le reinforcement learning sur le raisonnement. Le modèle pense étape par étape, puis ne reçoit une récompense que si la réponse finale est juste. MIT CSAIL a étudié ça en avril 2026 et a trouvé un truc auquel personne ne s'attendait.

"Ordinary RL training doesn't just fail to help calibration. It actively hurts it. The models become more capable and more overconfident at the same time." C'est Isha Puri au MIT, sur un résultat vieux de huit jours quand on écrit ce post.

Pourquoi ? La récompense ne vérifie qu'un bit. Juste ou faux. Un modèle qui passe par une logique soignée reçoit la même récompense qu'un modèle qui jette une pièce et tombe sur la bonne réponse. Donc le modèle apprend que le chemin le plus court vers la récompense, c'est de parier sur chaque question avec une confiance pleine. La trace de raisonnement devient du théâtre. Le score monte. L'honnêteté baisse.

Le fix proposé par MIT s'appelle RLCR. Le modèle doit prédire sa propre confiance et est noté à la fois sur la justesse et la calibration. Leur version a coupé l'erreur de calibration de 90 pour cent. Le travail est frais et pas encore en prod sur les modèles.

Pourquoi ton cerveau tombe dans le panneau (et l'a toujours fait)

T'es pas bête. Tu tournes sur des instincts qui ont marché pendant deux millions d'années et qui viennent de rencontrer un truc pour lequel ils n'ont pas été conçus.

Les psys appellent ça l'heuristique de confiance. Pulford et Colman, 2013 : "People are confident when they know they are right, and their confidence makes them persuasive." Dans la nature, les humains confiants sont en général confiants *parce qu'*ils savent. Ton cerveau lit la confiance comme un raccourci pour la précision. Le raccourci marche sur les humains. Il casse sur l'IA.

Tenney et ses collègues à Berkeley ont creusé en 2007 et 2008. Ils ont étudié comment les jurys jugent les témoins. La conclusion : un témoin qui hedge et qui s'avère avoir raison est jugé plus crédible qu'un témoin qui était confiant et avait raison. La calibration bat la confiance. Savoir ce que tu ne sais pas, c'est le vrai signal de fiabilité. L'IA rate ce test à plat. Son ton est identique pour les faits vérifiables et les pures inventions.

Et puis il y a Dunning-Kruger. Les gens du quartile bas en grammaire, logique et humour s'auto-évaluaient au 60-70e percentile. La compétence pour être bon à un truc est la même que celle pour savoir que tu ne l'es pas. Le résultat de CMU colle parfaitement à ça. Les humains sont légèrement surconfiants avant une tâche et s'ajustent après. Les LLMs restent énormément surconfiants même après avoir vu leur propre échec. Ils n'ont pas la couche métacognitive.

L'étude CMU a trouvé un dernier truc. Les humains signalent l'incertitude par un froncement de sourcils, un "euh", une réponse lente. L'IA ne te donne aucun de ces signaux. "With AI, we don't have as many cues about whether it knows what it's talking about," a dit Daniel Oppenheimer. Ton radar social se prend trois signaux "fais-moi confiance" en même temps et zéro signal contraire. T'es cognitivement sans défense, sauf à te forcer à être sceptique.

Les modèles savent déjà ce qu'ils savent. L'entraînement l'efface.

Voici la cruelle ironie. Anthropic a montré en 2022 que les grands modèles savent dire lesquelles de leurs réponses sont justes. Demande au modèle de proposer une réponse, puis demande "cette réponse est-elle vraie", et la seconde réponse est bien calibrée. Le signal interne existe.

RLHF l'écrase. Le RL de raisonnement l'écrase plus. Quand le modèle te parle, la couche de calibration a été entraînée hors. La fluidité reste. L'humilité, non.

Trois choses en découlent. Le fix est possible. Le fix n'est pas livré par défaut. Tu dois le demander.

Ce que ça veut dire si tu builds avec l'IA

Si tu chattes juste avec ChatGPT, l'utilisateur, c'est toi. Tu peux demander "à quel point t'es sûr ?" et ajuster. Si tu sors un produit avec un LLM dedans, l'utilisateur, c'est ton client. "Confidently wrong" est désormais ta responsabilité. Les 812 $ d'Air Canada étaient la version pas chère de la leçon.

Le pattern qui répare ça, c'est le même que Build This Now utilise pour le code. Un agent génère. Un autre agent évalue. Le générateur a le droit d'être confiant. L'évaluateur ne se soucie que de savoir si la confiance est méritée.

Tu peux copier six lignes dans ton system prompt aujourd'hui :

You are calibrated. Before any factual claim, decide if you are sure.
Score your confidence 1 to 10 and say why in one line.
Below 7, lead with "I'm not sure" and ask for a source or a check.
Never invent citations, statistics, names, dates, or quotes.
If you do not know, say so plainly. Do not guess to seem helpful.
"I don't know" is a valid and rewarded answer.

Puis ajoute une eval de régression. Prends 50 questions où la bonne réponse est "je ne sais pas". Lance-les à chaque changement de prompt. Casse le build si l'abstention chute, comme tu casses un build sur une erreur TypeScript. C'est l'idée de quality gate de BTN, appliquée à l'honnêteté. Type-check, lint, build, calibration. Quatre gates au lieu de trois.

Pour les réponses à fort enjeu, lance une seconde passe. Le premier modèle écrit. Le deuxième note la confiance et rejette les réponses au-dessus d'un seuil sans sources. C'est la boucle générateur-évaluateur que le framework tourne déjà sur chaque feature livrée. Branche-la sur du texte et tu obtiens la même protection sur les mots que sur le code.

Trois choses à faire dès demain

Garde-les. Sers-t'en chaque fois que tu parles à une IA pour un truc qui compte.

Demande un score de confiance. "À quel point t'es sûr, 1 à 10, et pourquoi ?" Le chiffre lui-même est une fonction forçante. Les modèles entraînés à plaire vont s'auto-déprécier quand la question est directe.
Demande des sources, puis vérifie-en une. Pas toutes. Une. Si la citation est bidon, toute autre claim de la réponse est désormais suspecte. Le bluff, c'est l'indice.
Traite la fluidité comme une alerte, pas un blason. La prose lisse, c'est la partie la plus simple pour le modèle. Les réponses dures devraient sonner un peu plus dures. Si tout sonne pareil de simple, le modèle devine sur quelque chose.

La confiance de l'IA n'est pas méritée. Ton pipeline de build, lui, devrait l'être. La calibration, c'est la différence entre livré et sanctionné, entre digne de confiance et remboursé, entre un outil utile et une facture de 812 $. Construis le gate. Puis livre.

Pourquoi l'IA a l'air si sûre d'elle quand elle se plante ?

On this page