Pourquoi ChatGPT invente-t-il des trucs ?

Le problème : tu demandes une source à un chatbot. Il te sort un titre d'article, un auteur, une revue, une année. La citation a l'air parfaite. Sauf que l'article n'existe pas. Tu insistes, tu lui demandes s'il est sûr. Il s'excuse, puis t'en sort une deuxième tout aussi bidon. Ton instinct te dit que le modèle ment. Faux. Il ne peut pas mentir.

Le mécanisme est plus vieux que ChatGPT. La solution, ce n'est pas de "faire plus confiance à l'IA". C'est de comprendre ce que l'IA fait vraiment quand tu lui poses une question, et ce que ton cerveau fait, lui, quand il lit la réponse.

Astuce rapide : quand la réponse compte, colle ça après ta question :

List your sources. For each source, give a URL I can open. If you are not sure a source exists, say so before listing it.

Ce paragraphe coupe la plupart des inventions de routine. Continue à lire pour comprendre ce qui se passe vraiment, pourquoi tes yeux gobent l'info quand même, et ce que les devs intègrent pour qu'un utilisateur ne tombe jamais sur un mensonge bien emballé.

L'avocat qui a déposé six fausses affaires

Mai 2023. Un avocat new-yorkais, Steven Schwartz, dépose un mémoire dans Mata v. Avianca. ChatGPT lui avait fourni six décisions à l'appui. Des noms qui sonnaient juste. Des références crédibles. Aucune n'existait. Le juge a infligé 5 000 dollars d'amende à Schwartz et à son associé. La transcription est sévère. Schwartz a dit au tribunal qu'il n'avait "jamais utilisé ChatGPT" avant et qu'il "ignorait que son contenu pouvait être faux".

C'était le coup d'envoi. En avril 2026, plus de 600 dépôts judiciaires américains ont été repérés pour des citations fabriquées par IA. L'avocat de l'Utah Richard Bednar a été sanctionné pour avoir cité Royer v. Nelson, une affaire qui n'existe que parce que ChatGPT l'a inventée. Australie, Royaume-Uni, France, même scénario. Chaque mois, un nouveau titre. Toujours la même mécanique. L'avocat fait confiance. La sortie a l'air parfaite. La sortie est inventée.

Tu l'as déjà fait toi aussi

Les avocats, ce sont les cas bruyants. Le pattern est partout.

En mai 2025, le Chicago Sun-Times a publié une liste de lecture estivale générée par IA. Dix livres sur quinze étaient bidon. Vrais auteurs, titres inventés. Le rapport fédéral MAHA sur la santé des enfants, mai 2025 aussi, citait au moins sept études inexistantes (NOTUS a vérifié la bibliographie). Les bibliothécaires de la Library of Virginia estiment que quinze pour cent des questions de référence reçues par mail sont générées par IA, souvent en pointant vers des sources jamais écrites. Le Comité international de la Croix-Rouge a dû ajouter un avertissement dans ses archives : si une référence est introuvable, elle n'est peut-être pas perdue. C'est peut-être une hallucination.

Si tu as déjà collé une réponse de chatbot dans un doc et expédié le tout, t'es sur la même courbe. Tu as juste eu de la chance.

Ce qu'est vraiment ChatGPT

Un grand modèle de langage est un prédicteur du mot suivant. À partir du texte déjà écrit, il sort une distribution de probabilités sur le prochain token, en tire un, le colle à la fin, et recommence. C'est tout l'algorithme.

Pas de recherche de fait. Pas de base de données interne. Pas de vérification "c'est vrai ou pas". Quand tu demandes "Qui a écrit La Cave au bout du chemin ?", le modèle ne fouille pas une bibliothèque. Il se pose une autre question : étant donné tout ce que j'ai lu pendant l'entraînement, quel mot vient le plus plausiblement ensuite ? Si le livre était dans les données d'entraînement, le bon auteur tombe. S'il n'y était pas, le modèle doit produire quelque chose quand même. Donc il sort le nom le plus plausible. Souvent un romancier qui a l'air vrai. Parfois un vrai romancier qui n'a jamais écrit ce livre.

Karpathy a dit ça net sur X : l'algo est figé sur la prédiction du token suivant. Le sens des tokens change selon le domaine. La procédure, elle, ne change pas.

Fluide et vrai, ce n'est pas la même chose

Deux systèmes tournent quand le modèle écrit. Le premier : la fluidité. Est-ce que ça se lit comme du bon anglais ? Le deuxième : la justesse. L'affirmation est-elle correcte ? L'entraînement met des milliards de dollars sur le premier. Le second, c'est un effet secondaire.

La justesse n'émerge que quand la bonne réponse est aussi le pattern le plus fréquent dans les données d'entraînement. Les faits courants (la capitale de la France, le point d'ébullition de l'eau) sont mémorisés assez souvent pour que fluidité et justesse pointent vers le même mot. Pour les faits obscurs (une référence juridique précise, la date d'anniversaire d'une personne), la suite la plus plausible et la suite correcte divergent. La fluidité gagne. Le modèle s'engage.

Un commentateur de Hacker News a résumé la conséquence : tout ce qu'un LLM produit est une hallucination. Certaines de ces hallucinations se trouvent être vraies.

Le problème du "je ne sais pas"

OpenAI a publié un papier en septembre 2025, "Why Language Models Hallucinate". La conclusion principale ne parle pas du modèle. Elle parle de la façon dont on note le modèle.

Les évaluations standards notent les réponses bonnes ou fausses. Dire "je ne sais pas" rapporte zéro. Une supposition a une espérance positive, même quand le modèle n'est pas sûr. Donc pendant le fine-tuning et le RLHF, le modèle apprend la bonne stratégie pour un QCM : toujours répondre quelque chose. Hésiter garantit zéro point. Deviner laisse une chance.

Les chiffres SimpleQA d'OpenAI le disent eux-mêmes :

Modèle	Taux d'erreur	Taux d'abstention
GPT-5-thinking-mini	26%	52%
OpenAI o4-mini (plus ancien)	75%	1%

Le modèle plus ancien se trompe moins en absolu, mais il ne dit presque jamais "je ne sais pas". Le plus récent est plus honnête sur ses limites. Ce compromis n'est pas un hasard. C'est le levier.

Anthropic a regardé dans le cerveau de Claude

En mars 2025, Anthropic a publié "On the Biology of a Large Language Model". Leur équipe d'interprétabilité a ouvert Claude et a tracé les circuits derrière une hallucination. C'est le modèle mental le plus utile de tout ce post.

Le refus, c'est le défaut. Un circuit "actif" par défaut fait dire à Claude "je n'ai pas assez d'info pour ça". Un second circuit, une feature "entité connue", peut s'allumer quand le modèle reconnaît quelque chose. Quand ce second circuit se déclenche, il supprime le refus par défaut. Le modèle s'engage à produire une réponse.

Les hallucinations arrivent quand le circuit "entité connue" s'allume par erreur. Le modèle voit un nom qu'il croit reconnaître à moitié (un titre de livre plausible, une affaire qui sonne juste, une personne lue dans un autre contexte), le signal de reconnaissance se déclenche, le refus est coupé, et le modèle est engagé. Mots d'Anthropic : "Une fois que le modèle a décidé qu'il devait répondre, il se met à confabuler : à générer une réponse plausible (mais malheureusement fausse)."

L'IA ne ment pas. Son réflexe "je dois répondre" a déconné. À partir de là, c'est la fluidité qui prend le volant.

Pourquoi ton cerveau gobe ça

Le modèle, c'est la moitié du problème. Ton cerveau qui lit, c'est l'autre moitié.

Reber et Schwarz ont fait une expérience nette en 1999. Ils ont imprimé des phrases avec différents niveaux de contraste. Les phrases en haut contraste, faciles à lire, étaient jugées vraies bien plus souvent que celles en bas contraste. Même contenu. Fluidité visuelle différente. Résultat : toute variable qui rend un texte plus facile à traiter augmente sa vérité perçue.

Les sorties de ChatGPT sont visuellement maximales. Markdown propre. Grammaire serrée. Voix assurée. Mise en forme parfaite. Ton Système 1 (la partie rapide et automatique dont Kahneman parle dans Système 1, Système 2) lit "facile" comme "vrai" avant que le Système 2 ait le temps de vérifier. Tu n'as pas consenti à cette étape. Elle tourne toute seule.

C'est le piège de la facilité cognitive. La prose la plus polie jamais écrite rencontre la partie de toi qui prend le poli pour la vérité. Le modèle gagne ce duel la plupart du temps.

L'illusion que tu comprends l'IA

Rozenblit et Keil, 2002. Cognitive Science. Des étudiants de Yale ont noté à quel point ils comprenaient des objets du quotidien (toilettes, fermetures éclair, machines à coudre). Puis on leur a demandé d'expliquer comment chacun fonctionnait, étape par étape. Puis ils ont noté à nouveau. Après l'explication, leur compréhension auto-évaluée s'est effondrée. Savoir ce qu'une chose fait, ce n'est pas savoir comment elle marche. Les gens surestiment leur connaissance explicative. Le biais a un nom : l'illusion de profondeur explicative.

Essaie sur toi. Tu sais ce que ChatGPT fait. Maintenant, explique "token" à voix haute. Explique "entraînement". Explique pourquoi le vocabulaire d'un modèle est fini mais ses sorties paraissent infinies. L'écart entre ce que tu peux décrire et ce que tu saisis vraiment, c'est exactement la brèche par laquelle une réponse confiante passe. Tu ne vérifies que ce que tu comprends. La plupart des gens ne sont pas équipés pour remettre en cause une citation.

Ce que les devs font vraiment pour gérer ça

Si tu expédies une feature IA, un modèle honnête à 91% se trompe encore 9% du temps. À un million de requêtes par semaine, ça fait beaucoup de sources fabriquées qui arrivent sur des utilisateurs payants. La pile de mitigations est connue. La plupart des articles la zappent. Voici la version courte.

Ancrer le modèle dans tes propres données. Le RAG (retrieval augmented generation) tire de vrais enregistrements de ta base avant que le modèle écrive quoi que ce soit. Le papier de Lewis 2020 est la référence. Stanford RegLab a mesuré les meilleurs outils RAG juridiques entre 17 et 34% d'hallucinations, donc le RAG n'est pas magique. C'est un plancher, pas un plafond.

Rendre l'incertitude visible. Demander des citations avec URL. Refuser d'afficher une réponse si le champ citation est vide. Montrer la source à l'utilisateur. Si la source ne s'ouvre pas, marquer la réponse comme non vérifiée.

Réinjecter le refus à l'entraînement. Ajoute ce bloc à ton system prompt :

If you are not sure a fact is correct, say "I do not know" before answering.
Cite sources only when you can give a URL the user can open.
Never invent a citation. If a source might be wrong, ask the user to verify.
You can refuse to answer when evidence is thin.

Tester en mode adversarial. Pose au modèle des questions piège sur des entités qui n'existent pas. Demande des sources que tu sais bidon. Mesure le taux d'abstention, pas juste la justesse. MASK et Petri 2.0 sont des évals open-source que tu peux brancher sur ta CI dès aujourd'hui.

Faire tourner un générateur et un évaluateur. Un modèle écrit. Un autre modèle, avec un prompt différent et une température différente, note la sortie sur l'ancrage, la validité des citations et l'abstention. Rejet et régénération quand le score est bas. C'est le même pattern générateur-évaluateur qui chope les régressions de code.

Les modèles frontière aujourd'hui, classés par honnêteté

L'écart d'honnêteté entre modèles est réel et il se creuse. Chiffres tirés des évals publiques fin avril 2026 :

Modèle	Score d'honnêteté MASK	Notes
Mythos Preview (Anthropic)	95.4%	Accès recherche uniquement. Pousse contre les fausses prémisses 80% du temps.
Claude Opus 4.7	91.7%	Modèle public. Refus réinjecté à l'entraînement.
Claude Sonnet 4.6	89.1%	Moins cher, un peu plus lâche.
GPT-5.5	Score public en attente	OpenAI propose l'abstention en réglage configurable.
Gemini 3.1 Pro	Score public en attente	Solide en récupération ancrée, plus faible sur l'abstention.
Grok 4.20	Score public en attente	Le taux d'abstention le plus bas des grands modèles frontière.

Choisis le modèle qui colle à ton budget d'erreur. Une app de coaching et un outil interne de données n'ont pas la même tolérance. Le chiffre qui compte, ce n'est pas "le plus malin". C'est "prêt à dire je ne sais pas".

L'essentiel

L'IA ne ment pas. Mentir suppose de connaître la vérité. Le modèle devine chaque mot, et la plupart du temps la devinette tombe juste parce que la vérité est aussi le pattern le plus courant. Quand ce n'est pas le cas, le modèle s'engage quand même. Scott Alexander a reformulé en mars 2026 : des suppositions sans honte, pas des hallucinations.

Les humains confabulent aussi. Mémoire des témoins oculaires, expériences sur cerveau divisé, "je suis presque sûr d'avoir lu ça quelque part". Le modèle a appris ça de nous. La solution est la même des deux côtés. Récompenser le "je ne sais pas". Auditer les réponses fluides. Montrer le reçu.

Comment Build This Now intègre ça

Build This Now est un système de build SaaS propulsé par l'IA. Dix-huit agents spécialistes. Cinquante-cinq skills. Un pipeline en cinq étapes, de l'idée au produit en ligne. L'agent Tester fait des checks adversariaux. Le Database Architect ancre les features dans le vrai schéma. Les quality gates (type-check, lint, build) tombent sur chaque feature. Un agent génère. Un autre évalue. Le pattern qui chope les bugs confiants, c'est le même qui chope les mensonges confiants.

Si tu branches une feature IA dans un produit, l'archi compte plus que le modèle. Ancre la sortie. Rends l'incertitude visible. Mesure l'abstention. Fais tourner l'éval à chaque changement de prompt. Le gros du boulot est déjà fait. On le branche pour toi.

ChatGPT ne sait pas qu'il a tort. Ton cerveau ne sait pas qu'il faut demander. Un vrai produit sait les deux, et répond quand même.

Pourquoi ChatGPT invente-t-il des trucs ?

On this page