Claude Opus 4.6

Opus 4.6 ist das verbesserte Flaggschiff von Anthropic. Die Planung wird gründlicher. Agenten-Läufe bleiben länger kohärent. Große Codebasen fühlen sich weniger feindlich an. Und Claude erkennt eigene Bugs, bevor du es tust. Es ist auch das erste Opus-Release, das mit einem allgemein verfügbaren 1-Million-Token-Fenster erscheint, und der Response-Output erreicht jetzt 128K Tokens.

Coding ist die wichtigste Neuerung, und der Preis bleibt bei $5/$25 pro Million Tokens, während die Scores bei den schwierigsten öffentlichen Evals durchweg gestiegen sind. Die nackten Zahlen findest du im Benchmark-Abschnitt unten.

Key Specs

Spec	Details
API ID	`claude-opus-4-6`
Release Date	February 5, 2026
Context Window	1M tokens (GA as of March 2026)
Max Output	128,000 tokens
Pricing	$5 input / $25 output per 1M tokens
Status	Active, current recommended Opus

Was sich geändert hat: Die Coding-Verbesserungen

Anthropic nutzt Claude intern. Jeder Anthropic-Ingenieur arbeitet täglich in Claude Code, und nichts wird veröffentlicht, bevor es den internen Einsatz überlebt hat. Die Gewinne bei 4.6 sind konkret und praxisnah.

Die Planung ist sorgfältiger. Bevor das Modell sich auf einen Ansatz festlegt, denkt es länger über das Problem nach, geht seinen eigenen Denkprozess nochmal durch, bemerkt Logikfehler früher und landet bei schwierigen Aufgaben einen stärkeren ersten Entwurf.

Agenten-Läufe bleiben kohärent. Ältere Modelle drifteten nach einer Weile ab. Hier hält sich der Fokus über lange Sessions. Ein Workflow, der Tool-Call nach Tool-Call feuert, dutzende tief, erreicht jetzt öfter das Ziel.

Große Codebasen fühlen sich weniger feindlich an. Das Navigieren in großen Projekten, das Lesen und Ändern von Code haben sich verbessert. Claude behält über eine lange Session ein klareres Bild von Struktur und Konventionen.

Review und Debugging treffen härter. Das Erkennen eigener Fehler ist merklich besser geworden, und Reviews sind gründlicher. Einen Bug durch eine Abhängigkeitskette zu verfolgen, braucht jetzt viel weniger Anleitung von dir.

Einfache Arbeit geht schneller. Das tiefere Denken wird für die schwierigen Schritte aufgespart, und Opus 4.6 verweilt nicht mehr bei offensichtlichen Dingen. Wenn du merkst, dass es bei etwas Einfachem übermäßig nachdenkt, senke den Standard von "high" auf "medium" mit /effort.

Benchmark-Ergebnisse

In mehreren Kategorien wurden neue Rekorde aufgestellt.

Benchmark	Score	Notabler Vergleich
Terminal-Bench 2.0	65.4%	GPT-5.2: 64.7%
GDPval-AA Elo	1,606	144 Elo über GPT-5.2, 190 über Opus 4.5
Humanity's Last Exam	Führend	Höchste unter allen Frontier-Modellen
BrowseComp	Führend	Am besten beim Finden schwer auffindbarer Infos online
OSWorld	72.7%	State-of-the-art für Computer Use
MRCR v2 (8-needle)	78.3%	Höchste unter Frontier-Modellen bei 1M-Kontext

Innerhalb von Claude Code ist Terminal-Bench 2.0 der Benchmark, den du im Auge behalten solltest. Er bewertet echte Terminal-Arbeit über Coding, Sysadmin-Aufgaben und Dateiverarbeitung. Platz eins hier bedeutet, dass Opus 4.6 die stärkste Wahl für das ist, was ein Entwickler den ganzen Tag an der Kommandozeile macht.

GDPval-AA liegt am anderen Ende des Eval-Spektrums. Es misst Wissensarbeit, die echten wirtschaftlichen Wert schafft, in Finanzen, Recht und dem Rest des White-Collar-Stacks. Der Vorsprung vor dem nächstbesten Industriemodell ist deutlich.

Die MRCR-v2-Zahl ist aus einem anderen Grund wichtig. "Context Rot" ist die übliche Beschwerde, bei der Antworten sich verschlechtern, wenn der Chat länger wird. Dieser Drift nimmt hier ab. Über sehr lange Fenster behält Opus 4.6 die Details im Griff und ruft vergrabene Fakten ab, die die vorherige Version übersehen hat. Der Score von 78.3% ist eine echte Veränderung darin, wie viel des Fensters Claude tatsächlich nutzen kann.

Humanity's Last Exam testet breites multidisziplinäres Denken, und kein Frontier-Modell übertrifft Opus 4.6 darin. BrowseComp bewertet, wie gut das Modell Informationen findet, die online wirklich schwer zu finden sind. OSWorld bewertet echte Desktop-Computernutzung. Das neue Release holt sich die Krone in allen dreien.

1M-Token-Kontextfenster und 128K-Output

Ab März 2026 ist das vollständige 1M-Fenster allgemein verfügbar, und die Token-Preise sind durchgehend einheitlich. Der Pro-Token-Preis bei einem 900K-Token-Aufruf entspricht dem Preis bei einem 9K-Aufruf. Kein Beta-Header mehr nötig. Alle alten Beta-Header werden still ignoriert.

Die Mediengrenzen sind beim GA-Launch um das 6-fache gestiegen. Die Decke pro Anfrage liegt jetzt bei 600 Bildern oder PDF-Seiten, gegenüber zuvor 100. Rate Limits bleiben auf vollen Werten, egal wie lang der Kontext wird.

Der Output ist ebenfalls gestiegen. Die Decke wurde von 16K Tokens auf 128K verschoben, was Claude erlaubt, größere Output-Jobs in einem einzigen Aufruf abzuschließen. Ganze Module oder lange Analysen können jetzt in einer Antwort zurückkommen, anstatt über viele aufgeteilt zu werden.

In Claude Code wird das vollständige 1M-Fenster standardmäßig für Max-, Team- und Enterprise-Pläne eingeschaltet. Anthropic berichtet von einem 15%-igen Rückgang bei Compaction-Events, sodass lange Gespräche jetzt ohne verlustbehaftete Zusammenfassung durchlaufen. Jeder Kontext-Management-Workflow, den du bereits verwendest, funktioniert weiterhin. Du stößt einfach seltener an die Decke.

Sicherheitsprofil

Schlauer bedeutet nicht weniger sicher. Anthropic führt ein automatisiertes Verhaltensaudit durch, und Opus 4.6 hat bei den wichtigen Verhaltensweisen niedrig abgeschnitten: Täuschung, Sycophancy, Bestärken von Benutzer-Illusionen und Mitlaufen bei Missbrauch. Sein Alignment liegt auf dem Niveau von Opus 4.5, dem bisherigen Rekordhalter für das am besten ausgerichtete Frontier-Release.

Legitime Anfragen kommen auch häufiger durch. Opus 4.6 hat die niedrigste Rate an Über-Verweigerungen in einem aktuellen Claude-Release. Echte Anfragen werden seltener blockiert.

Die Cybersecurity-Zahl ist die Headline. In einem internen Lauf hat das Modell 500+ zuvor unbekannte hochschwerwiegende Zero-Day-Lücken in Open-Source-Bibliotheken gefunden. Anthropic treibt das weiter voran und zielt das Modell auf OSS-Projekte, um die darin vergrabenen Lücken zu finden und zu beheben. Security-Teams können Opus 4.6 als First-Pass-Vulnerability-Scanner in Code-Reviews einsetzen.

Neue API- und Produkt-Features

Das Modell-Upgrade kam zusammen mit mehreren neuen Features.

Adaptives Denken. Erweitertes Denken war früher ein binärer Schalter. Claude wählt jetzt selbst, wann es tiefer denkt. Mit dem Effort-Level "high" (Standard) springt erweitertes Denken ein, wo immer es hilft. Vier Stufen stehen Entwicklern zur Verfügung: low, medium, high (Standard) und max.

Context Compaction (Beta). Wenn ein langer Chat sich der Kontext-Decke nähert, fasst Claude ihn jetzt eigenständig zusammen und kompaktiert ihn. Lang laufende Aufgaben laufen weiter, anstatt keinen Platz mehr zu haben.

Agenten-Teams (Claude Code Research Preview). Mehrere Claude-Instanzen können jetzt parallel als ein koordiniertes Team laufen. Leselastige Jobs, die sich in unabhängige Teile aufteilen lassen, wie Codebase-Reviews, sind die idealen Einsatzgebiete. Alles andere steht im Agenten-Teams-Guide.

Claude in PowerPoint (Research Preview). Layouts, Fonts und Slide Masters werden von Claude geparst, sodass der Output on-brand bleibt, egal ob eine Vorlage ausgefüllt oder eine Präsentation von Grund auf erstellt wird. Verfügbar für Max-, Team- und Enterprise-Pläne.

Preise

Kein Preisanstieg. Das 1M-Fenster kommt mit einheitlichen Preisen über die gesamte Kontextlänge. Der alte Premium-Tier für 200K+ wurde eingestellt.

Tier	Cost
All contexts	$5 input / $25 output per 1M tokens
Pro plan	$20/month
Max plan	$100/month

Schon bei Opus 4.5 mit deinen Ausgaben eingependelt? Der Sprung auf 4.6 ist kostenloser Gewinn zum alten Preis. Und wenn Long-Context-Aufrufe den Premium-Tier bezahlt haben, ist die Rechnung gerade gesunken.

Wie man Opus 4.6 in Claude Code verwendet

Ein Befehl ändert das Standard-Modell:

claude config set model claude-opus-4-6

Für eine einzelne Session, überschreibe es ohne den Standard zu berühren:

claude --model claude-opus-4-6

Das Modell ist überall verfügbar: claude.ai, die Messages API, AWS Bedrock und Google Vertex AI. In der API ist die zu verwendende ID claude-opus-4-6.

Opus 4.6 vs Opus 4.5: Was sich geändert hat

Feature	Opus 4.5	Opus 4.6
Context window	200K (standard), 1M (API beta)	1M (GA, unified pricing)
Max output tokens	16,384	128,000
Terminal-Bench 2.0	Not tested on v2.0	65.4% (highest)
GDPval-AA Elo	1,416	1,606 (+190 points)
MRCR v2	Not tested	78.3%
Over-refusals	Low	Lowest of any recent model
Adaptive thinking	Not available	Built in
Context compaction	Auto at 95%	Configurable threshold (beta)
Standard pricing	$5/$25 per 1M	$5/$25 per 1M (unchanged)

Coding-Qualität und längere Agenten-Läufe sind die wichtigsten Gewinne. Alles, was 4.5 bereits gut gemacht hat, wird fortgeführt: Multi-Agent-Delegation, Token-Effizienz, der Effort-Parameter. Im täglichen Gebrauch sind die praktischen Gewinne in Claude Code die größere Output-Decke und das adaptive Denken.

Die Modellauswahl ist einfach. Greife zu Opus 4.6, wenn Reasoning-Tiefe das ist, was die Aufgabe braucht. Sonnet ist die richtige Wahl für kleinere Aufgaben, die Geschwindigkeit über Tiefe stellen. Da die Preise jetzt gleich sind, gibt es keinen Rechnungsgrund mehr, beim älteren Flaggschiff zu bleiben.

Claude Opus 4.6

On this page