Claude Opus 4.7

Claude Opus 4.7 ist das erste Claude-Release seit einer Weile, das sich größer als ein Punkt-Upgrade anfühlt. Der Preis ist unverändert. Das 1M-Kontextfenster ist unverändert. Die 128K-Output-Obergrenze ist unverändert. Was sich verändert hat, ist der Teil, den die Leute innerhalb von Claude Code tatsächlich spüren: Das Modell ist besser bei harter, mehrdeutiger, langläufiger Arbeit, die früher ständige Aufsicht brauchte.

Das zeigt sich an drei Stellen.

Es erkennt mehr eigene Fehler, bevor es handelt.
Es bleibt für längere Zeit kohärent innerhalb von Multi-Schritt-Agenten-Loops.
Es landet besser in Domänen, die nicht nur "Code schreiben" sind: Cyber-Workflows, Code-Review, dichte Screenshots, Enterprise-Docs, Verträge, Diagramme und andere mehrdeutige quellenreiche Arbeit.

Wenn du bereits in Claude Code lebst, ist die kurze Antwort einfach: Opus 4.7 ist das neue Standard-Upgrade für hochriskante Engineering-Sessions. Wenn du die Workflow-Ratschläge willst, lies den dedizierten Opus 4.7 Best Practices Guide. Wenn du konkrete Beispiele nach Domäne willst, lies die begleitende Opus 4.7 Use Cases Seite.

Kurzfazit

Benutze Opus 4.7, wenn die Arbeit teuer ist bei Fehlern:

komplexe Refactors über viele Dateien
Debugging mit unvollständiger oder widersprüchlicher Evidenz
Code-Review, wo subtile Bugs wichtig sind
Cyber-Defense, Schwachstellen-Forschung oder Security-Auditing
dokumentenreiche Arbeit in Recht, Finanzen und Operations
multimodale Aufgaben mit dichten Screenshots, Diagrammen oder UI-Mocks

Bleib bei Sonnet für kleinere tägliche Bearbeitungen, wo Geschwindigkeit und Kosten wichtiger sind als maximale Reasoning-Tiefe.

Key Specs

Spec	Details
API ID	`claude-opus-4-7`
Release-Datum	16. April 2026
Kontextfenster	1M Tokens
Max Output	128.000 Tokens
Preis	$5 Input / $25 Output pro 1M Tokens
Thinking-Modus	Adaptives Denken
Aufwand-Stufen	`low`, `medium`, `high`, `xhigh`, `max`
Claude Code Standard-Aufwand	`xhigh`
Wissens-Cutoff	Januar 2026
Status	Aktuelles Opus-Flaggschiff

Claude Opus 4.7 vs. Opus 4.6

Die grundlegende Geschichte ist nicht "ein bisschen schlauer." Es ist "zuverlässiger beim harten Teil der Arbeit."

Bereich	Opus 4.6	Opus 4.7
CursorBench	58%	70%
Rakuten-SWE-Bench	Baseline	3x mehr Produktions-Aufgaben gelöst
XBOW Visual-Acuity	54,5%	98,5%
OfficeQA Pro	Baseline	21% weniger Fehler
BigLaw Bench	Niedriger	90,9% bei `high` Aufwand
Notion Agent Tool-Fehler	Baseline	etwa ein Drittel davon
Auflösung	1568px / 1,15MP	2576px / 3,75MP
Standard Claude Code Aufwand	`high`	`xhigh`
Thinking-Kontrolle	adaptiv, älterer Migrationspfad	nur adaptiv, Fixed-Budget-Thinking entfernt
Tool-Nutzungsstil	tool-freudiger	selektiver, mehr Reasoning-first
Subagenten-Verhalten	delegiert freier	delegiert selektiver

Das Wichtige ist das Verhalten, nicht nur die Zahlen. Anthropic und Launch-Partner beschreiben Opus 4.7 als wörtlicher bei Anweisungen, williger Annahmen zu prüfen, besser bei langen Aufgaben durchzuhalten und weniger geneigt, still auf halbem Weg zu scheitern oder in Loops zu verfallen.

Was sich in der Praxis wirklich verbessert hat

1. Selbst-Verifikation zeigt sich öfter

Eines der klarsten Launch-Signale ist, dass Opus 4.7 mehr prüft, bevor es eine Antwort oder Codeänderung festlegt.

Anthropics Launch-Seite enthält Vercels Beschreibung eines neuen Verhaltens: Das Modell macht Beweise bei Systemcode, bevor es mit der Arbeit beginnt. Hex sagt, es ist besser darin zuzugeben, wenn Daten fehlen, statt plausible Fallback-Logik zu erfinden. Das ist wichtig, weil viel echter Engineering-Schmerz kein Syntax-Fehler ist. Es ist zuversichtlich-aber-falsch-Reasoning bei unvollständigem Kontext.

In Claude Code sieht das typischerweise so aus:

noch eine Datei lesen, bevor bearbeitet wird
eine Call-Site prüfen, bevor ein Typ geändert wird
eine Annahme über Zustands-Form oder Schema bestätigen
innehalten, um einen Concurrency- oder Migrationspfad zu validieren

Dieser extra Schritt ist oft der Unterschied zwischen einem sauberen ersten Durchgang und einem 40-minütigen Loop.

2. Langläufige agentische Arbeit läuft weniger aus den Schienen

Devin berichtete, dass Opus 4.7 stundenlang kohärent arbeitet und schwierige Aufgaben durchdrückt statt früh aufzugeben. Notion berichtete einen 14%-Gewinn bei komplexen mehrstufigen Workflows mit etwa einem Drittel der Tool-Fehler von Opus 4.6. Genspark nannte Loop-Resistenz, Konsistenz und graceful Recovery als die drei Produktions-Eigenschaften, die am meisten zählen.

Das macht Opus 4.7 zu einer besseren Wahl für:

längere Refactors
async Coding-Agenten
CI- und Automation-Workflows
Service-weite Review-Durchläufe
Untersuchungen, wo das Modell wiederholt lesen, vergleichen und überarbeiten muss

3. Hartes Coding hat sich bewegt, nicht nur einfaches Coding

CursorBench stieg von 58% auf 70%, was wichtig ist, weil es näher an den vagen, unordentlichen, echten Prompts ist, die Entwickler tatsächlich Coding-Agenten geben. Rakutens 3-fache Verbesserung bei Produktions-SWE-Aufgaben ist wichtig, weil es darauf hindeutet, dass der Gewinn nicht auf Spielzeug-Beispiele oder Benchmark-freundliche Probleme beschränkt ist.

CodeRabbit berichtete über 10% besseren Recall bei Review-Workloads bei stabiler Precision. Warp und Qodo hoben beide härtere Bug-Klassen hervor, die 4.7 jetzt erkennt oder löst. Factory berichtete einen 10-15% Lift im Aufgabenerfolg für Droids mit weniger Tool-Fehlern und zuverlässigerem Follow-through.

Das Muster ist konsistent: Opus 4.7 ist nicht nur "eloquenter." Es räumt eine härtere Klasse von Engineering-Arbeit ab.

4. Dichte Vision-Inputs sind endlich erstklassig

Der Auflösungssprung ist eine der unterschätztesten Änderungen im Release. Der Wechsel von 1568px / 1,15MP auf 2576px / 3,75MP ist nicht kosmetisch. Er ändert, was du dem Modell vertrauenswürdig zum Lesen schicken kannst, ohne Zuschneiden.

Das hilft besonders, wenn der Input ist:

ein vollgepackter Dashboard-Screenshot
eine Terminal-Aufnahme mit kleinem Text
ein technisches Diagramm
ein Design-Mockup mit dichten Labels
ein gescannter Vertrags-Tabelle oder Dokument-Auszug
eine Chemie- oder Biowissenschafts-Abbildung

XBOWs Visual-Acuity-Sprung von 54,5% auf 98,5% ist der schärfste Beweis, dass die zusätzlichen Pixel echten Nutzen bringen.

5. Es ist stärker außerhalb von reinem Coding

Anthropics Release positionierte Opus 4.7 als stärker bei Coding, Enterprise-Workflows und langläufigen agentischen Aufgaben. Die Partner-Beispiele bestätigen das:

Cybersecurity: XBOW sagt, ihr größter visueller Schmerzpunkt bei autonomem Pentesting ist praktisch verschwunden.
Legal: Harvey berichtet 90,9% auf BigLaw Bench bei high Aufwand, mit besserem Reasoning bei mehrdeutigen Bearbeitungen und Review-Tabellen.
Docs und Enterprise-Reasoning: Databricks berichtete 21% weniger Fehler auf OfficeQA Pro.
Finanzen und Research: Applied AI Tester hoben stärkere Offenlegungsdisziplin und bessere Long-Context-Performance hervor.
Life Sciences: Solve Intelligence nannte Gewinne bei chemischen Strukturen und technischen Diagrammen.
Design und UI: Lovable sagte, der Design-Geschmack ist stark genug, dass das Modell Entscheidungen trifft, die sie tatsächlich shippen würden.

Das macht Opus 4.7 zu einem breiteren "hochriskante Wissensarbeit"-Modell, nicht nur einem Coding-Modell.

Benchmark-Ergebnisse, die wichtig sind

Die vollständige Benchmark-Wand ist nützlich für den Launch-Tag, aber nur einige Zahlen lassen sich klar auf Nutzer-Wert übertragen.

Benchmark	Warum er wichtig ist
CursorBench: 70%	Näher an echten Coding-Agenten-Prompts als enge Coding-Evals
Rakuten-SWE-Bench: 3x mehr gelöst	Signalisiert Bewegung bei Produktions-Engineering-Aufgaben, nicht nur Spielzeug-Repos
XBOW Visual-Acuity: 98,5%	Beweist, dass dichtes Bild-Verstehen materiell besser ist
BigLaw Bench: 90,9%	Starkes Signal für Vertrags- und Legal-Review-Use-Cases
OfficeQA Pro: 21% weniger Fehler	Nützlicher Proxy für Enterprise-Docs und Dokumenten-Reasoning
Notion Agent: +14%, weniger Tool-Fehler	Guter Indikator für Multi-Schritt-Agenten-Zuverlässigkeit
CodeRabbit: Recall +10%	Starkes Signal für Review- und Bug-Finding-Workflows

Wenn du ein Modell für Claude Code wählst, sind CursorBench, Rakuten, Notion, CodeRabbit und XBOW die umsetzbarsten Signale in diesem Release.

Wo Opus 4.7 am härtesten landet

Claude Code Engineering-Sessions

Das ist der offensichtliche Fall. Opus 4.7 ist besser, wenn die Aufgabe vage, multi-file oder teuer zum Wiederholen ist. API-Migrationen, cross-cutting Refactors, Concurrency-Bugs, Architektur-Reviews und codebase-weite Cleanups profitieren alle davon, dass das Modell wörtlicher, geduldiger und verifikations-intensiver ist.

Security und Cyber-Defense-Workflows

Opus 4.7 ist wichtig in Security, weil Coding-Fähigkeit und Cyber-Fähigkeit jetzt eng verknüpft sind. Project Glasswing, angekündigt am 7. April 2026, handelt von Mythos Preview, nicht Opus 4.7. Aber Anthropic verweist explizit auf Glasswing im Opus 4.7-Launch vom 16. April 2026, um zu erklären, warum neue Cyber-Sicherheitsvorkehrungen hier wichtig sind: Opus 4.7 ist das erste öffentliche Modell, bei dem einige dieser Sicherheitsvorkehrungen in der realen Welt getestet werden.

Das gibt dir zwei Schlussfolgerungen:

das Modell ist stark genug, um für ernsthafte defensive Security-Arbeit nützlich zu sein
das Modell ist stark genug, dass Anthropic aktiv riskanten Missbrauch einschränkt

Wenn du legitime Schwachstellen-Forschung, Penetrationstests oder Red-Teaming betreibst, verweist Anthropic Profis auf das Cyber Verification Program.

Legal, Finanzen und Enterprise-Operations

Opus 4.7 ist ein starker Fit, wenn die Arbeit lautet: vergleichen, prüfen, zusammenfassen und fehlende Teile nicht halluzinieren. Verträge, Audit-Trails, Review-Tabellen, Finanz-Memos, Richtlinien-Docs und interne Betriebsdokumente profitieren alle von der stärkeren Kalibrierung und dem Dokumenten-Reasoning des Modells.

Multimodales Produkt, Design und F&E-Arbeit

Besseres Screenshot-Lesen und Diagramm-Handling machen es nützlicher für Design-Kritik, Produkt-QA, Life-Sciences-Workflows, Patente und technische Dokumentation. Wenn das Quellmaterial früher manuelles Zoomen oder Zuschneiden erforderte, ist Opus 4.7 viel benutzbarer.

Für konkretere Domänen-Beispiele und Prompt-Ideen, sieh dir Claude Opus 4.7 Use Cases an.

Cyber, Risiko und Sicherheit: Warum dieses Release anders ist

Anthropics Launch-Botschaft rund um Opus 4.7 ist ungewöhnlich, weil sie nicht nur Fähigkeiten feiert. Sie platziert das Release innerhalb einer lebendigen Cyber-Risiko-Geschichte.

Anthropic sagt, Opus 4.7 ist weniger fähig als Mythos Preview, aber immer noch stark genug, dass sie während des Trainings experimentell differenziell Cyber-Fähigkeiten gegenüber Mythos reduziert haben. Sie haben auch automatisierte Sicherheitsvorkehrungen ausgeliefert, die Anfragen erkennen und blockieren, die auf verbotene oder hochriskante Cybersecurity-Nutzung hindeuten.

Das ist wichtig für jeden, der über das Modell schreibt, weil es den Blickwinkel ändert:

Opus 4.7 ist nicht nur ein schnellerer Copilot.
Es liegt in der Kategorie, wo Cyber-Nutzen und Cyber-Risiko sich jetzt gemeinsam bewegen.
Defensive Workflows sind ein legitimer Stärkebereich.
Unsichere oder nicht erlaubte offensive Workflows sind ein explizites Deployment-Anliegen.

In praktischen Begriffen bedeutet das, du solltest Opus 4.7 als stark positionieren für:

sicheres Code-Review
defensive Audit-Durchläufe
Threat-Modeling
Schwachstellen-Triage
Pentest-Support in genehmigten Programmen
Security-Dokumentation und Remediation-Planung

Nicht als generische "mach alles Cyber"-Engine.

Vision: Das 3x Auflösungs-Upgrade

Opus 4.7 ist das erste Claude-Release, bei dem die Bild-Pipeline eine eigene Kaufentscheidung verdient.

Die neue Auflösungsgrenze bedeutet:

weniger Zuschneiden vor dem Senden von Screenshots
bessere Zuverlässigkeit bei kleinem Text und dichten UIs
stärkere Interpretation von technischen Diagrammen
saubereres Mapping von zurückgegebenen Koordinaten zu echten Pixeln

Der Trade-off sind Token-Kosten. Anthropic weist darauf hin, dass ein Full-Resolution-Bild etwa 4.784 Tokens statt des früheren Bereichs von etwa 1.600 Tokens verbrauchen kann. Für bild-intensive Workflows ist Downsampling jetzt Teil der Kostenkontrolle.

Best Practices für Opus 4.7 in Claude Code

Anthropics eigene Anleitung für Opus 4.7 innerhalb von Claude Code ist mehr verhaltens- als technisch-orientiert. Das Thema lautet: besser delegieren, Kontext früher bündeln und unnötiges Hin-und-Her reduzieren.

Die wichtigsten Gewohnheiten sind:

die eigentliche Aufgabe im ersten Turn nennen: Intent, Constraints, Dateipfade, Akzeptanz-Kriterien
User-Turns reduzieren wo möglich, weil interaktives Hin-und-Her Reasoning-Overhead addiert
xhigh als Standard für ernsthafte Coding-Arbeit behalten
auf high droppen, wenn du Ausgaben über viele parallele Sessions kontrollieren musst
max bewusst für sehr harte Arbeit und Eval-ähnliche Decken-Tests reservieren
dem Modell explizit sagen, wann Tools genutzt und wann zu Subagenten gefächert werden soll
Auto-Modus nutzen, wenn die Aufgabe gut umgegrenzt ist und du der Gesamtrichtung vertraust
nach ein paar Sessions die neue /fewer-permission-prompts-Skill ausführen, um wiederholte sichere Prompts in eine Allowlist-Policy zu verwandeln
Recaps nutzen, wenn du zu einer langläufigen Session zurückkehrst, um den Zustand schnell wiederherzustellen ohne das vollständige Transcript neu zu lesen
Focus View nutzen, wenn du dem Modell vertraust und nur das Endergebnis statt jeden Zwischenschritt willst
/effort bewusst tunen statt den Standard als immer korrekt zu behandeln
eine neue Session starten, wenn sich die Aufgabe ändert, statt veralteten Kontext mitzuschleppen

Diese letzten vier Punkte sind genau die Art von "kleine Workflow-Änderung, großer Qualitätssprung"-Ratschlägen, die Boris Cherny in seinem Opus 4.7 Launch-Day X-Thread zu betonen begann. Das zugrundeliegende Muster stimmt auch mit den offiziellen Docs überein: weniger Unterbrechungen, sauberere Session-Wiederherstellung, weniger Transcript-Rauschen und bewusstere Aufwand-Kontrolle zählen alle mehr, wenn das Modell fähig zu längeren autonomen Läufen ist.

Die vollständige Workflow-Version davon ist in Claude Opus 4.7 Best Practices.

Migrations-Hinweise von Opus 4.6

Wenn du API-Workloads von 4.6 auf 4.7 migrierst, tausche nicht einfach den Modellnamen aus und schick es raus.

Adaptives Denken ersetzt Fixed-Budget-Thinking

Der ältere thinking: { type: "enabled", budget_tokens: N }-Flow ist für Opus 4.7 weg. Benutze stattdessen adaptives Denken und Aufwand-Stufen.

Nicht-Standard-Sampling-Parameter sind weg

Wenn dein Code noch temperature, top_p oder top_k von den Standardwerten abweichend setzt, gibt Opus 4.7 einen 400-Fehler zurück. Entferne diese Stellschrauben und forme das Verhalten durch Prompting und Aufwand.

Thinking-Anzeige hat sich geändert

Thinking-Blöcke sind standardmäßig leer, sofern du nicht explizit zur zusammengefassten Anzeige opt-in. Wenn deine UI auf sichtbarem Thinking-Text basierte, musst du sie aktualisieren.

Der Tokenizer hat sich geändert

Anthropic sagt, dasselbe Input kann je nach Inhalt auf etwa 1,0x bis 1,35x der früheren Token-Anzahl mappen. Kalkuliere Kosten und Token-Schätzungen neu, bevor du davon ausgehst, dass alte Budgets noch gelten.

Hochauflösende Bilder kosten mehr

Wenn du bisher Screenshots lässig schicktest, macht 4.7 die Bildqualität viel besser und die Bild-Token-Kosten materiell höher. Behandle Downsampling als bewussten Hebel.

Aufgaben-Budgets sind es wert zu testen

Anthropic führte Aufgaben-Budgets als öffentliche Beta ein, damit Modelle über einen vollständigen agentischen Lauf ihr eigenes Tempo steuern können. Wenn du längere Loops betreibst, teste sie jetzt statt zu warten, bis eine außer Kontrolle geratene Session dich erwischt.

Preise und Kosten

Opus 4.7 behielt die gleichen Listenpreise wie Opus 4.6:

Tier	Kosten
Input	$5 pro 1M Tokens
Output	$25 pro 1M Tokens

Das bedeutet nicht, dass die Kosten in der Praxis identisch sind.

Deine echte Rechnung wird beeinflusst durch:

den neuen Tokenizer
höhere Reasoning-Ausgaben bei höheren Aufwand-Stufen
teurere Full-Resolution-Bilder
ob du interaktive Multi-Turn-Sessions oder One-Shot-delegierte Aufgaben ausführst

Die optimistische Lesart kommt von Launch-Partnern wie Hex und Replit: bessere Qualität bei niedrigerem Aufwand kann einen Teil des rohen Token-Anstiegs ausgleichen. Der richtige Schritt ist nicht anzunehmen. Messe an echten Workloads.

Solltest du auf Claude Opus 4.7 upgraden?

Ja, wenn deine Schmerzpunkte sind:

Agenten, die auf halbem Weg aufhören
Modelle, die plausibel klingen, aber zu viel raten
hartes Code-Review und Debugging-Arbeit
dichte visuelle oder Dokumenten-Inputs
Multi-Schritt-Workflows mit Tools

Vielleicht nicht sofort oder nicht als Standard, wenn dein Workload hauptsächlich ist:

kleine Edit-Zyklen
günstige Bulk-Automation
Low-Risk-Content-Generierung
schnelle Q&A, wo Sonnet bereits ausreicht

Für die meisten ernsthaften Claude Code Nutzer ist die richtige Strategie einfach: Sonnet als schnelle tägliche Option behalten, und Opus 4.7 als Flaggschiff für intelligence-sensitive Arbeit nutzen.

Häufig gestellte Fragen

Ist Claude Opus 4.7 besser als Opus 4.6?

Für hartes Engineering, Review, dokumentenreiche und langläufige agentische Arbeit, ja. Die wichtigsten Gewinne sind nicht die rohen Benchmark-Zahlen. Es ist die bessere Kalibrierung, stärkere Selbst-Verifikation, niedrigere Tool-Fehlerrate und besseres Verhalten bei mehrdeutigen Aufgaben.

Was ist die beste Claude Code Aufwand-Einstellung für Opus 4.7?

xhigh ist der Standard in Claude Code und der richtige Ausgangspunkt für die meisten ernsthaften Coding-Sessions. Benutze high, wenn du bessere Kostenkontrolle über viele Sessions brauchst. Benutze max bewusst für die härteste Arbeit, nicht als Pauschal-Standard.

Ist Claude Opus 4.7 besser für Cybersecurity?

Es ist besser für legitime defensive Security-Workflows, Code-Review, Schwachstellen-Triage und Cyber-angrenzende Analyse. Anthropic hat auch explizite Cyber-Sicherheitsvorkehrungen mit dem Modell ausgeliefert, was ein Teil davon ist, warum das Release wichtig ist.