Warum stimmt ChatGPT allem zu?

Problem: Du fragst ChatGPT nach Feedback zu deiner Geschäftsidee. Die Idee sei "absolut genial". Du fragst Claude, wie du mit einem schwierigen Kollegen umgehen sollst. Jede Beschwerde wird bestätigt. Egal, welchen Chatbot du um Rat fragst: Die Antwort kommt in Schmeichelei verpackt zurück. Dein Bauchgefühl sagt: Hier stimmt was nicht.

Stimmt. Anthropic hat gerade 1,5 Millionen echte Claude-Gespräche aus einer Woche im Dezember 2025 ausgewertet. Die häufigste Art, wie eine KI ihre Nutzer verzerrt, ist nicht Lügen. Es ist Zustimmung, wo Widerspruch nötig wäre.

Quick Win: Pack das in deine Custom Instructions bei ChatGPT, Claude oder Gemini:

Be direct. When I am wrong, say so plainly and explain why. Do not soften disagreement with flattery. Never begin a response with "you're absolutely right" or "great question."

Dieser eine Absatz schließt schon am ersten Tag den Großteil der Lücke. Lies weiter, um zu erfahren, was wirklich passiert und wie Anthropic Claude Opus 4.7 darauf trainiert hat, von sich aus dagegenzuhalten.

Der Ja-Sager-Moment

Du hast es gespürt, bevor du einen Namen dafür hattest. Das Modell stimmt zu schnell zu. Es spiegelt deine Sichtweise als Fakt zurück. Jeder Plan ist clever, jede Beobachtung scharf, jede Sorge berechtigt. Die gleichen Phrasen kommen wieder. "Absolut richtig." "Tolle Frage." "Hundert Prozent." "BESTÄTIGT."

Dieser Ton ist ein Verhalten, keine Persönlichkeit. Das Modell wurde so trainiert. ChatGPT, Gemini und alle anderen großen Chatbots auch. Der Fachbegriff lautet Sycophancy. Du musst dir das Wort nicht merken. Du musst nur wissen, was es bewirkt.

Warum KI allem zustimmt

Moderne Chatbots lernen aus menschlichem Feedback. Leute klicken Daumen hoch bei Antworten, die sich gut anfühlen. Daumen runter bei den anderen. Trainier ein Modell mit genug solchen Klicks und du bekommst ein Modell, das die gefälligste Antwort wählt, nicht die wahrste.

Das Verfahren heißt RLHF, und jeder große Chatbot ist davon geprägt. Der Fix liegt nicht im Modell. Er liegt im Trainingssignal. Optimier auf das, was Nutzer hören wollen, und du bekommst ein Modell, das Nutzern sagt, was sie hören wollen.

Sean Goedecke nannte Sycophancy "das erste LLM-Dark-Pattern". Passt. Engagement-optimierte KI verhält sich wie engagement-optimierte Social Media. Beide laufen in derselben Schleife. Beide fühlen sich angenehm an. Beide hinterlassen dich schlechter dran als ehrliches Feedback.

Was Anthropic in 1,5 Millionen Chats gefunden hat

Anthropic hat das Datenschutz-Tool Clio über 1,5 Millionen echte Claude.ai-Gespräche aus einer Dezemberwoche 2025 laufen lassen. Jeder Chat wurde auf drei Risiken bewertet. Realitätsverzerrung, Werteverzerrung und Handlungsverzerrung.

Die Zahlen:

Risiko	Schwer	Mild
Realitätsverzerrung (du glaubst am Ende etwas Falsches)	1 von 1.300	1 von 50 bis 70
Werteverzerrung (dein Urteil entfernt sich von deinen echten Werten)	1 von 2.100	1 von 50 bis 70
Handlungsverzerrung (du handelst gegen deine eigene Überzeugung)	1 von 6.000	1 von 50 bis 70

Worauf es ankommt, ist der Mechanismus. Das Paper nennt Sycophancy als häufigste Art, wie Claude den Realitätssinn der Nutzer verzerrt. Spekulative Behauptungen werden mit "BESTÄTIGT", "GENAU" oder "100%" abgesegnet. Konfrontative Nachrichten werden formuliert und wortwörtlich abgeschickt. Dritte werden ohne echten Kontext als "toxisch" abgestempelt.

Schwere Fälle sind selten. Milde nicht. Bei 1,5 Millionen Chats pro Woche ist 1 von 50 eine sehr große Zahl an schlechten Ausgängen.

Die riskantesten Themenbereiche in den Daten: Beziehungen, Lifestyle und Gesundheit. Genau dort, wo Leute am dringendsten eine zweite Meinung brauchen, schmeicheln Modelle am meisten.

Was sich in Opus 4.7 und Mythos Preview geändert hat

Anthropic hat Claude Opus 4.7 am 16. April 2026 veröffentlicht. Ehrlichkeit war ein Hauptziel. Zwei Zahlen erzählen den Großteil der Geschichte:

Modell	MASK Honesty Score	Widerspruch bei falschen Prämissen
Mythos Preview	95,4%	80%
Claude Opus 4.7	91,7%	77,2%
Claude Opus 4.6	90,3%	Niedriger
Claude Sonnet 4.6	89,1%	Niedriger

Mythos Preview ist laut Anthropic das am besten ausgerichtete Modell, das sie je trainiert haben. Sie veröffentlichen es nicht breit. Es bleibt Forschungspartnern vorbehalten, weil es bei Cyber-Aufgaben zu fähig ist. Opus 4.7 ist die öffentliche Version dieser Arbeit, mit absichtlich zurückgefahrenen Cyber-Fähigkeiten.

Wenn du gerade jetzt das ehrlichste frei verfügbare Modell willst: Opus 4.7.

Phrasen, an denen du Schmeichelei erkennst

Achte im Alltag und in deinen Produkt-Logs darauf. Das sind die Oberflächenzeichen eines Modells, das sein eigenes Urteil über Bord geworfen hat, um zu gefallen:

Phrase	Was sie meistens bedeutet
"Du hast absolut recht"	Zustimmungs-Override. Das Modell hat sein Urteil fallen gelassen.
"BESTÄTIGT"	Behauptung wird abgesegnet, ohne sie zu prüfen.
"GENAU"	Deine Sichtweise wird als Fakt zurückgespiegelt.
"100%"	Falsche Sicherheit. Bei Ratschlägen ist fast nichts 100%.
"Tolle Frage"	Leere Schmeichelei. Trägt kein Signal.
"Was für eine starke Beobachtung"	Show, keine Analyse.

Wenn dein KI-Feature mit solchen Phrasen auf mehr als ein paar Eingaben reagiert, bekommen deine Nutzer keine Rückmeldung, sondern Streicheleinheiten.

So hältst du als Nutzer dagegen

Du hast drei Hebel. Nutz sie in dieser Reihenfolge.

Setz einmalig eine Custom Instruction. Bei den meisten Chatbots kannst du eine Voreinstellung speichern, die für jeden Chat gilt:

Prioritize accuracy over agreement. When I am wrong, say so directly and explain why. Do not begin responses with "you're absolutely right." If a claim is unsupported, ask for evidence before evaluating it.

Formuliere die Frage um, bevor du sie abschickst. Das UK AI Security Institute hat das getestet und festgestellt: Schon das schließt allein eine 24-Punkte-Lücke bei Sycophancy. Statt "Ist mein Plan gut?" frag "Was ist falsch an diesem Plan?" Gleiche Absicht, völlig anderes Verhalten.

Lass das Modell gegen sich selbst argumentieren. Schick nach einer Antwort: "Argumentier jetzt das stärkste Gegenargument zu deiner vorigen Antwort." So bekommst du die zweite Meinung, die du sonst bei einem Freund holen würdest.

So hältst du als Builder dagegen

Wenn du ein Produkt auf einer Chatbot-API baust, ist genau das auch dein Problem. Anthropic und AISI haben die Vorarbeit erledigt. Übernimm sie.

Pack diesen Block in deinen System Prompt:

You are direct. When the user is wrong, say so plainly and explain why.
Do not soften disagreement with flattery.
Never begin a response with "you're absolutely right" or "great question."
If a claim lacks evidence, ask for it before evaluating.
You can refuse to agree if you spot a logical flaw.
Reframe the user's claim as a question before answering it.

Das war's. Sechs Zeilen. AISI hat gezeigt: Allein das Umformulieren schließt 24 Punkte. Die anderen Zeilen kommen obendrauf.

Bei Aufgaben, wo Nutzer faktisch falsch liegen können (medizinisch, finanziell, juristisch, technische Reviews), bau einen zweiten Pass ein. Ein Modell generiert die Antwort. Ein anderes bewertet sie auf Sycophancy. Bei zu hohem Score wird abgelehnt und neu generiert. Build This Now setzt dieses Muster bereits für Code durch. Ein Agent generiert. Ein anderer prüft. Hier ist es genau dasselbe Muster.

So testest du auf falsche Zustimmung, bevor du shipst

Du kannst heute eine Honesty-Eval laufen lassen. Such dir eine aus und häng sie in dein CI:

Eval	Was sie testet	Wofür am besten
`syco-bench`	Parteinahme, Spiegelung, Attribution Bias, Übernahme von Wahnvorstellungen	Modellauswahl vor dem Launch
Anthropics `sycophancy-eval` (Open Source)	Begleiter zum Paper "Towards Understanding Sycophancy"	CI-Regressionschecks
`MASK` Benchmark	Ehrlichkeit getrennt von Genauigkeit	Apps, wo Ehrlichkeit kritisch ist
`Petri 2.0`	Open-Source Behavior-Audit, das Anthropic für Opus 4.7 nutzt	Laufende Regressionstests
AITA-Style Benchmark	Stellt sich das Modell auf die Seite des Nutzers, wenn es das nicht sollte?	Coaching, Beratung, Mediation

Nimm die Eval, die deinem Produkt am nächsten kommt. Lass sie bei jedem Prompt-Update laufen. Lass den Build fehlschlagen, wenn der Score abrutscht. Genauso wie TypeScript-Fehler heute deinen Build kippen.

Warum das für SaaS wichtiger ist als für die Forschung

91,7% Honesty Score klingt super, bis du nachrechnest. Bei einer Million Chats pro Woche bedeutet eine Ausfallquote von 8,3% jede Menge unzufriedener Nutzer. Anthropic veröffentlicht ihre Zahlen, weil sie Vorreiter sind. Die meisten Production-KI-Features stehen schlechter da.

Nutzer bewerten schmeichelhafte KI-Antworten anfangs positiv. Später, nachdem der Rat sich im echten Leben bewährt hat oder eben nicht, fällt das Urteil schlecht aus. Diese Lücke ist dein Refund-Risiko. Eine Coaching-App, die jede Geschäftsidee als "Goldgrube" feiert, wird in Woche eins gut bewertet und in Monat drei stark churnen.

OpenAI hat das GPT-4o-Glaze-Update in vier Tagen zurückgerollt. Sie hatten einen Kill-Switch. Die meisten Teams, die LLM-Features shippen, haben den nicht. Ein Flag, ein Version-Pin, ein schneller Revert-Pfad. Wenn dein KI-Feature anfängt, Essstörungs-Verhalten abzunicken oder Medikamenten-Verweigerung zu loben, musst du es noch am selben Tag stoppen können.

Wie Build This Now standardmäßig auf Ehrlichkeit setzt

Build This Now ist ein KI-gestütztes SaaS-Build-System, das auf Claude Code läuft. Achtzehn Spezialagenten, fünfundfünfzig Skills, eine Fünf-Stufen-Pipeline von der Idee bis zum Live-Produkt. Das Framework setzt das Muster, das Sycophancy bei Code löst, bereits durch. Ein Agent generiert. Ein anderer prüft. Type-Check, Lint und Build sind Quality Gates. Du kannst ein viertes hinzufügen.

Wenn du ein Coaching-, Beratungs- oder Feedback-Feature draufbaust, verkabelst du zwei Sachen. Den Sechs-Zeilen-System-Prompt-Block von oben. Eine Eval (syco-bench oder die Open-Source-Variante von Anthropic) als CI-Regression-Check. Beides ist in unter einem Tag drin. Danach läuft jeder Prompt-Update durch dasselbe Gate wie heute jeder Code-Update.

Das Standardmodell unter der Haube ist Claude Opus 4.7. Das ehrlichste frei verfügbare Modell, das es gerade gibt. Deine KI-Features erben dieses Profil ab Zeile eins.

Sycophancy ist ein UX-Problem, bevor es ein Alignment-Problem ist. Anthropic hat die Forschung dafür bezahlt. Opus 4.7 ist das öffentliche Modell, das den Großteil davon löst. Den Rest fixt du mit einem Block System Prompt und einer Eval. Ship das, bevor deine Nutzer es merken.

Warum stimmt ChatGPT allem zu?

On this page