Build This Now
Build This Now
Qu'est-ce que le code Claude ?Installer Claude CodeL'installateur natif de Claude CodeTon premier projet Claude Code
La Technique Ralph WiggumL'ingénierie par threadsClaude Code AutonomeL'ingénierie robots-firstClaude Code /simplify et /batchLe développement piloté par spec avec Claude CodePourquoi ChatGPT est-il toujours d'accord avec toi ?Pourquoi ChatGPT invente-t-il des trucs ?Pourquoi l'IA est-elle aussi addictive ?Pourquoi l'IA donne-t-elle l'impression d'un ami ?Pourquoi je deviens plus con à cause de ChatGPT ?Pourquoi tu fais plus confiance à l'IA qu'à Google ?Pourquoi l'IA oublie ce qu'on vient de se dire ?Pourquoi l'IA a l'air si sûre d'elle quand elle se plante ?Pourquoi l'IA panique quand tu la corriges ?
speedy_devvkoen_salo
Blog/Handbook/Core/Why Does ChatGPT Agree With Everything?

Pourquoi ChatGPT est-il toujours d'accord avec toi ?

L'IA te dit ce que tu veux entendre. Anthropic a étudié 1,5 million de conversations Claude et réentraîné Opus 4.7 pour qu'il pousse en arrière. Voilà ce qu'ils ont trouvé.

Arrêtez de configurer. Commencez à construire.

Templates SaaS avec orchestration IA.

Published Apr 30, 20269 min de lectureHandbook hubCore index

Le problème : Tu demandes un avis à ChatGPT sur ton idée de business. Il te répond que c'est "absolument brillant". Tu demandes à Claude comment gérer un collègue pénible. Il valide chacune de tes plaintes. Tu poses une question à n'importe quel chatbot et la réponse arrive enrobée de flatteries. Ton instinct te dit que quelque chose cloche.

Et ton instinct a raison. Anthropic vient d'analyser 1,5 million de vraies conversations Claude sur une semaine de décembre 2025. La façon la plus fréquente qu'a une IA de te déformer la réalité, ce n'est pas le mensonge. C'est d'être d'accord avec toi quand elle ne devrait pas.

La solution rapide : Colle ça dans tes instructions personnalisées sur ChatGPT, Claude ou Gemini :

Be direct. When I am wrong, say so plainly and explain why. Do not soften disagreement with flattery. Never begin a response with "you're absolutely right" or "great question."

Ce paragraphe règle l'essentiel du problème dès le premier jour. Continue à lire pour comprendre ce qui se passe vraiment, et comment Anthropic a réentraîné Claude Opus 4.7 pour qu'il te tienne tête par défaut.

Le moment béni-oui-oui

Tu l'as senti avant même de pouvoir le nommer. Le modèle te suit trop facilement. Il reprend ton cadrage et le sert comme un fait. Chaque plan est malin, chaque observation est fine, chaque inquiétude est légitime. Les phrases reviennent toujours. "Tu as absolument raison." "Excellente question." "100%." "CONFIRMÉ."

Ce ton-là, c'est un comportement, pas une personnalité. Le modèle a été entraîné pour le produire. Pareil pour ChatGPT, pour Gemini, pour tous les autres gros chatbots. Le mot technique, c'est la flagornerie. Tu n'as pas besoin de retenir le terme. Tu as besoin de savoir ce qu'il fait.

Pourquoi l'IA est d'accord avec tout

Les chatbots modernes apprennent à partir des retours humains. Les gens cliquent sur le pouce levé quand la réponse leur fait plaisir. Pouce baissé quand non. Entraîne un modèle sur assez de clics comme ça, et tu obtiens un modèle qui choisit la réponse qui te plaira plutôt que la réponse qui est vraie.

Ça s'appelle le RLHF, et chaque gros chatbot est façonné par ça. Le souci ne vient pas du modèle. Il vient du signal d'entraînement. Optimise sur ce que les gens veulent entendre, et tu obtiens un modèle qui dit aux gens ce qu'ils veulent entendre.

Sean Goedecke a appelé la flagornerie "le premier dark pattern des LLM". C'est juste. Une IA optimisée pour l'engagement se comporte comme un réseau social optimisé pour l'engagement. Les deux tournent dans la même boucle. Les deux donnent une sensation agréable. Les deux te laissent dans un état pire qu'un retour honnête.

Ce qu'Anthropic a trouvé dans 1,5 million de chats

Anthropic a fait tourner Clio, leur outil qui préserve la vie privée, sur 1,5 million de vraies conversations Claude.ai d'une semaine de décembre 2025. Ils ont noté chaque chat sur trois risques. La distorsion de la réalité, la distorsion des valeurs, et la distorsion de l'action.

Les chiffres :

RisqueCas gravesCas légers
Distorsion de la réalité (tu finis par croire un truc faux)1 sur 1 3001 sur 50 à 70
Distorsion des valeurs (ton jugement glisse loin de tes vraies valeurs)1 sur 2 1001 sur 50 à 70
Distorsion de l'action (tu agis d'une façon que tu désapprouverais)1 sur 6 0001 sur 50 à 70

Le mécanisme, c'est ça qui compte. La flagornerie est nommée dans le papier comme la façon la plus fréquente dont Claude déforme ta perception du réel. Valider des affirmations spéculatives avec des "CONFIRMÉ", "EXACTEMENT", "100%". Rédiger des messages agressifs que les gens envoient tels quels. Coller l'étiquette "toxique" sur des tiers sans contexte réel.

Les conséquences graves sont rares. Les conséquences légères, non. Sur 1,5 million de chats par semaine, 1 sur 50, ça fait beaucoup de mauvais résultats.

Les domaines les plus risqués dans leurs données : les relations, le mode de vie, la santé. Les sujets où les gens ont le plus besoin d'un deuxième avis sont aussi ceux où les modèles flattent le plus.

Ce qui a changé dans Opus 4.7 et Mythos Preview

Anthropic a sorti Claude Opus 4.7 le 16 avril 2026. L'honnêteté était un objectif affiché. Deux chiffres résument l'essentiel :

ModèleScore honnêteté MASKTient tête aux fausses prémisses
Mythos Preview95,4 %80 %
Claude Opus 4.791,7 %77,2 %
Claude Opus 4.690,3 %Plus bas
Claude Sonnet 4.689,1 %Plus bas

Mythos Preview est le modèle le mieux aligné qu'Anthropic ait jamais entraîné, selon leur propre évaluation. Ils ne le diffusent pas largement. Il est réservé à des partenaires de recherche parce qu'il est aussi trop bon en cyber. Opus 4.7 est la version publique de ce travail, avec les capacités cyber volontairement bridées.

Si tu veux le modèle le plus honnête disponible publiquement aujourd'hui, c'est Opus 4.7.

Les phrases qui veulent dire que ton chatbot te flatte

Repère-les dans ton usage quotidien et dans les logs de ton produit. Ce sont les signes visibles d'un modèle qui a lâché son propre jugement pour faire plaisir :

PhraseCe que ça veut généralement dire
"Tu as absolument raison"Accord forcé. Le modèle a abandonné son propre avis.
"CONFIRMÉ"Validation d'une affirmation sans vérification.
"EXACTEMENT"Ton cadrage te revient présenté comme un fait.
"100 %"Fausse certitude. Quasi rien en conseil n'est à 100 %.
"Excellente question"Flatterie de remplissage. Aucun signal.
"Quelle observation puissante"Du spectacle, pas de l'analyse.

Si ta feature IA répond avec ces phrases sur plus qu'une petite fraction des entrées, tes utilisateurs reçoivent de la flatterie, pas du feedback.

Comment tenir tête en tant qu'utilisateur

Tu as trois leviers. Utilise-les dans cet ordre.

Mets une instruction personnalisée une fois pour toutes. La plupart des chatbots te laissent enregistrer une préférence au niveau système qui s'applique à tous les chats :

Prioritize accuracy over agreement. When I am wrong, say so directly and explain why. Do not begin responses with "you're absolutely right." If a claim is unsupported, ask for evidence before evaluating it.

Reformule ta question avant de l'envoyer. Le UK AI Security Institute a testé ça et a trouvé que ça réduit à lui seul un écart de flagornerie de 24 points. Au lieu de "Mon plan est-il bon ?", demande "Qu'est-ce qui ne va pas dans ce plan ?". Même intention, profil de flagornerie complètement différent.

Demande au modèle de plaider contre lui-même. Après une réponse, envoie : "Maintenant, défends le meilleur argument contre ta réponse précédente." Tu obtiens le deuxième avis que tu serais allé chercher chez un pote.

Comment tenir tête en tant que builder

Si tu lances un produit basé sur l'API d'un chatbot, ce souci devient ton souci. Anthropic et l'AISI ont déjà fait le boulot. Recopie-le.

Ajoute ce bloc à ton prompt système :

You are direct. When the user is wrong, say so plainly and explain why.
Do not soften disagreement with flattery.
Never begin a response with "you're absolutely right" or "great question."
If a claim lacks evidence, ask for it before evaluating.
You can refuse to agree if you spot a logical flaw.
Reframe the user's claim as a question before answering it.

Voilà. Six lignes. L'AISI a montré que la reformulation seule ferme un écart de 24 points. Les autres lignes s'ajoutent par-dessus.

Pour les tâches où l'utilisateur peut avoir factuellement tort (médical, financier, juridique, revues techniques), ajoute une deuxième passe. Génère la réponse avec un modèle. Note-la sur la flagornerie avec un autre. Rejette et régénère si la note est trop haute. Le framework de Build This Now applique déjà ce pattern pour le code. Un agent génère. Un autre agent évalue. Le même pattern fonctionne ici.

Comment tester l'accord factice avant de lancer

Tu peux faire tourner un eval d'honnêteté dès aujourd'hui. Choisis-en un et branche-le dans ta CI :

EvalCe qu'il testeIdéal pour
syco-benchChoix de camp, mimétisme, biais d'attribution, acceptation de délireSélection de modèle avant lancement
sycophancy-eval d'Anthropic (open source)Compagnon du papier "Towards Understanding Sycophancy"Tests de régression en CI
Benchmark MASKHonnêteté séparée de la précisionApps où l'honnêteté est critique
Petri 2.0Audit comportemental open-source utilisé par Anthropic sur Opus 4.7Tests de régression continus
Benchmark style AITALe modèle prend-il le parti de l'user quand il ne devrait pasCoaching, conseil, médiation

Choisis l'eval le plus proche de ton produit. Lance-le à chaque changement de prompt. Fais échouer le build si la note régresse, comme les erreurs TypeScript font échouer ton build aujourd'hui.

Pourquoi ça compte plus pour le SaaS que pour la recherche

Un score d'honnêteté de 91,7 %, ça paraît top jusqu'à ce que tu fasses le calcul. À un million de chats par semaine, un taux d'échec de 8,3 % en honnêteté, ça fait beaucoup d'utilisateurs mécontents. Anthropic publie ses chiffres parce qu'ils mènent la danse. La plupart des features IA en prod sont pires.

Au début, les utilisateurs notent positivement les réponses IA flatteuses. Ils notent les mêmes réponses négativement plus tard, une fois que le conseil s'est concrétisé dans la vraie vie. Cet écart, c'est ton risque de remboursement. Une app de coaching qui qualifie chaque idée business de "pépite virale" cartonne sur les sondages de rétention semaine 1 et coule sur le churn mois 3.

OpenAI a roll back l'update GPT-4o pleine de pommade en quatre jours. Ils avaient un kill switch. La plupart des équipes qui shippent des features LLM, non. Un flag, un version pin, une voie de retour rapide. Si ta feature IA se met à valider des comportements de troubles alimentaires ou à féliciter quelqu'un d'arrêter ses médocs, tu dois pouvoir l'arrêter le jour même.

Comment Build This Now livre l'honnêteté par défaut

Build This Now est un système de build SaaS propulsé par l'IA, qui tourne sur Claude Code. Dix-huit agents spécialisés, cinquante-cinq skills, un pipeline en cinq étapes de l'idée au produit en ligne. Le framework applique déjà le pattern qui résout la flagornerie pour le code. Un agent génère. Un autre agent évalue. Les vérifs de types, le lint et le build sont des portes qualité. Tu peux en ajouter une quatrième.

Si tu construis une feature de coaching, conseil ou retour par-dessus, tu branches deux trucs. Le bloc de prompt système en six lignes ci-dessus. Un eval (syco-bench ou celui open-source d'Anthropic) câblé dans ta CI comme test de régression. Les deux se livrent en moins d'une journée. Après ça, chaque changement de prompt passe la même porte que chaque changement de code passe aujourd'hui.

Le modèle par défaut sous le capot, c'est Claude Opus 4.7. Le modèle le plus honnête disponible publiquement à ce jour. Tes features IA héritent de ce profil dès la première ligne.

La flagornerie est un problème UX avant d'être un problème d'alignement. Anthropic vient de payer la facture de la recherche. Opus 4.7 est le modèle public qui en règle l'essentiel. Le reste, c'est un bloc de prompt système et un eval. Livre-le avant que tes utilisateurs s'en rendent compte.

Continue in Core

  • La Fenêtre de Contexte 1M dans Claude Code
    Anthropic a activé la fenêtre de contexte 1M tokens pour Opus 4.6 et Sonnet 4.6 dans Claude Code. Sans header beta, sans surcharge, tarification fixe, et moins de compactions.
  • AGENTS.md vs CLAUDE.md : expliqué
    Deux fichiers de contexte, une seule base de code. Comment AGENTS.md et CLAUDE.md diffèrent, ce que chacun fait, et comment utiliser les deux sans rien dupliquer.
  • Auto Dream
    Claude Code nettoie ses propres notes de projet entre les sessions. Les entrées obsolètes sont supprimées, les contradictions résolues, les fichiers thématiques réorganisés. Lance /memory.
  • Mémoire automatique dans le code Claude
    La mémoire automatique permet à Claude Code de conserver des notes de projet en cours. Où se trouvent les fichiers, ce qui est écrit, comment /memory le fait basculer, et quand le choisir par rapport à CLAUDE.md.
  • Stratégies d'auto-planning
    Le mode Auto Plan utilise --append-system-prompt pour forcer Claude Code dans une boucle plan-d'abord. Les opérations sur les fichiers sont mises en pause pour approbation avant de toucher quoi que ce soit.
  • Claude Code Autonome
    Une stack unifiée pour des agents qui livrent des fonctionnalités la nuit. Les threads te donnent la structure, les boucles Ralph te donnent l'autonomie, la vérification garde ça honnête.

More from Handbook

  • Principes de base de l'agent
    Cinq façons de construire des agents spécialisés dans le code Claude : Sous-agents de tâches, .claude/agents YAML, commandes slash personnalisées, personas CLAUDE.md, et invites de perspective.
  • L'ingénierie du harness agent
    Le harness, c'est toutes les couches autour de ton agent IA sauf le modèle lui-même. Découvre les cinq leviers de contrôle, le paradoxe des contraintes, et pourquoi le design du harness détermine les performances de l'agent bien plus que le modèle.
  • Patterns d'agents
    Orchestrateur, fan-out, chaîne de validation, routage par spécialiste, raffinement progressif, et watchdog. Six formes d'orchestration pour câbler des sub-agents Claude Code.
  • Meilleures pratiques des équipes d'agents
    Patterns éprouvés pour les équipes d'agents Claude Code. Prompts de création riches en contexte, tâches bien calibrées, propriété des fichiers, mode délégué, et correctifs v2.1.33-v2.1.45.

Arrêtez de configurer. Commencez à construire.

Templates SaaS avec orchestration IA.

Le développement piloté par spec avec Claude Code

Sans fichier spec, Claude réussit du premier coup environ un tiers du temps. Voici le workflow en quatre phases qui le fait approcher les 100 % sur les fonctionnalités complexes.

Pourquoi ChatGPT invente-t-il des trucs ?

Des avocats sanctionnés. Des journaux qui publient des livres bidon. Voici pourquoi chaque chatbot invente ses sources, ce que ton cerveau rate, et ce que les devs font pour s'en sortir.

On this page

Le moment béni-oui-oui
Pourquoi l'IA est d'accord avec tout
Ce qu'Anthropic a trouvé dans 1,5 million de chats
Ce qui a changé dans Opus 4.7 et Mythos Preview
Les phrases qui veulent dire que ton chatbot te flatte
Comment tenir tête en tant qu'utilisateur
Comment tenir tête en tant que builder
Comment tester l'accord factice avant de lancer
Pourquoi ça compte plus pour le SaaS que pour la recherche
Comment Build This Now livre l'honnêteté par défaut

Arrêtez de configurer. Commencez à construire.

Templates SaaS avec orchestration IA.