Claude Opus 4.7
Claude Opus 4.7, Anthropics Flaggschiff vom April 2026: stärkeres Hard-Coding, Dokumenten-Reasoning, langläufige Agenten-Aufgaben, gleicher Preis $5/$25 wie Opus 4.6.
Hören Sie auf zu konfigurieren. Fangen Sie an zu bauen.
SaaS-Builder-Vorlagen mit KI-Orchestrierung.
Claude Opus 4.7 ist das erste Claude-Release seit einer Weile, das sich größer als ein Punkt-Upgrade anfühlt. Der Preis ist unverändert. Das 1M-Kontextfenster ist unverändert. Die 128K-Output-Obergrenze ist unverändert. Was sich verändert hat, ist der Teil, den die Leute innerhalb von Claude Code tatsächlich spüren: Das Modell ist besser bei harter, mehrdeutiger, langläufiger Arbeit, die früher ständige Aufsicht brauchte.
Das zeigt sich an drei Stellen.
- Es erkennt mehr eigene Fehler, bevor es handelt.
- Es bleibt für längere Zeit kohärent innerhalb von Multi-Schritt-Agenten-Loops.
- Es landet besser in Domänen, die nicht nur "Code schreiben" sind: Cyber-Workflows, Code-Review, dichte Screenshots, Enterprise-Docs, Verträge, Diagramme und andere mehrdeutige quellenreiche Arbeit.
Wenn du bereits in Claude Code lebst, ist die kurze Antwort einfach: Opus 4.7 ist das neue Standard-Upgrade für hochriskante Engineering-Sessions. Wenn du die Workflow-Ratschläge willst, lies den dedizierten Opus 4.7 Best Practices Guide. Wenn du konkrete Beispiele nach Domäne willst, lies die begleitende Opus 4.7 Use Cases Seite.
Kurzfazit
Benutze Opus 4.7, wenn die Arbeit teuer ist bei Fehlern:
- komplexe Refactors über viele Dateien
- Debugging mit unvollständiger oder widersprüchlicher Evidenz
- Code-Review, wo subtile Bugs wichtig sind
- Cyber-Defense, Schwachstellen-Forschung oder Security-Auditing
- dokumentenreiche Arbeit in Recht, Finanzen und Operations
- multimodale Aufgaben mit dichten Screenshots, Diagrammen oder UI-Mocks
Bleib bei Sonnet für kleinere tägliche Bearbeitungen, wo Geschwindigkeit und Kosten wichtiger sind als maximale Reasoning-Tiefe.
Key Specs
| Spec | Details |
|---|---|
| API ID | claude-opus-4-7 |
| Release-Datum | 16. April 2026 |
| Kontextfenster | 1M Tokens |
| Max Output | 128.000 Tokens |
| Preis | $5 Input / $25 Output pro 1M Tokens |
| Thinking-Modus | Adaptives Denken |
| Aufwand-Stufen | low, medium, high, xhigh, max |
| Claude Code Standard-Aufwand | xhigh |
| Wissens-Cutoff | Januar 2026 |
| Status | Aktuelles Opus-Flaggschiff |
Claude Opus 4.7 vs. Opus 4.6
Die grundlegende Geschichte ist nicht "ein bisschen schlauer." Es ist "zuverlässiger beim harten Teil der Arbeit."
| Bereich | Opus 4.6 | Opus 4.7 |
|---|---|---|
| CursorBench | 58% | 70% |
| Rakuten-SWE-Bench | Baseline | 3x mehr Produktions-Aufgaben gelöst |
| XBOW Visual-Acuity | 54,5% | 98,5% |
| OfficeQA Pro | Baseline | 21% weniger Fehler |
| BigLaw Bench | Niedriger | 90,9% bei high Aufwand |
| Notion Agent Tool-Fehler | Baseline | etwa ein Drittel davon |
| Auflösung | 1568px / 1,15MP | 2576px / 3,75MP |
| Standard Claude Code Aufwand | high | xhigh |
| Thinking-Kontrolle | adaptiv, älterer Migrationspfad | nur adaptiv, Fixed-Budget-Thinking entfernt |
| Tool-Nutzungsstil | tool-freudiger | selektiver, mehr Reasoning-first |
| Subagenten-Verhalten | delegiert freier | delegiert selektiver |
Das Wichtige ist das Verhalten, nicht nur die Zahlen. Anthropic und Launch-Partner beschreiben Opus 4.7 als wörtlicher bei Anweisungen, williger Annahmen zu prüfen, besser bei langen Aufgaben durchzuhalten und weniger geneigt, still auf halbem Weg zu scheitern oder in Loops zu verfallen.
Was sich in der Praxis wirklich verbessert hat
1. Selbst-Verifikation zeigt sich öfter
Eines der klarsten Launch-Signale ist, dass Opus 4.7 mehr prüft, bevor es eine Antwort oder Codeänderung festlegt.
Anthropics Launch-Seite enthält Vercels Beschreibung eines neuen Verhaltens: Das Modell macht Beweise bei Systemcode, bevor es mit der Arbeit beginnt. Hex sagt, es ist besser darin zuzugeben, wenn Daten fehlen, statt plausible Fallback-Logik zu erfinden. Das ist wichtig, weil viel echter Engineering-Schmerz kein Syntax-Fehler ist. Es ist zuversichtlich-aber-falsch-Reasoning bei unvollständigem Kontext.
In Claude Code sieht das typischerweise so aus:
- noch eine Datei lesen, bevor bearbeitet wird
- eine Call-Site prüfen, bevor ein Typ geändert wird
- eine Annahme über Zustands-Form oder Schema bestätigen
- innehalten, um einen Concurrency- oder Migrationspfad zu validieren
Dieser extra Schritt ist oft der Unterschied zwischen einem sauberen ersten Durchgang und einem 40-minütigen Loop.
2. Langläufige agentische Arbeit läuft weniger aus den Schienen
Devin berichtete, dass Opus 4.7 stundenlang kohärent arbeitet und schwierige Aufgaben durchdrückt statt früh aufzugeben. Notion berichtete einen 14%-Gewinn bei komplexen mehrstufigen Workflows mit etwa einem Drittel der Tool-Fehler von Opus 4.6. Genspark nannte Loop-Resistenz, Konsistenz und graceful Recovery als die drei Produktions-Eigenschaften, die am meisten zählen.
Das macht Opus 4.7 zu einer besseren Wahl für:
- längere Refactors
- async Coding-Agenten
- CI- und Automation-Workflows
- Service-weite Review-Durchläufe
- Untersuchungen, wo das Modell wiederholt lesen, vergleichen und überarbeiten muss
3. Hartes Coding hat sich bewegt, nicht nur einfaches Coding
CursorBench stieg von 58% auf 70%, was wichtig ist, weil es näher an den vagen, unordentlichen, echten Prompts ist, die Entwickler tatsächlich Coding-Agenten geben. Rakutens 3-fache Verbesserung bei Produktions-SWE-Aufgaben ist wichtig, weil es darauf hindeutet, dass der Gewinn nicht auf Spielzeug-Beispiele oder Benchmark-freundliche Probleme beschränkt ist.
CodeRabbit berichtete über 10% besseren Recall bei Review-Workloads bei stabiler Precision. Warp und Qodo hoben beide härtere Bug-Klassen hervor, die 4.7 jetzt erkennt oder löst. Factory berichtete einen 10-15% Lift im Aufgabenerfolg für Droids mit weniger Tool-Fehlern und zuverlässigerem Follow-through.
Das Muster ist konsistent: Opus 4.7 ist nicht nur "eloquenter." Es räumt eine härtere Klasse von Engineering-Arbeit ab.
4. Dichte Vision-Inputs sind endlich erstklassig
Der Auflösungssprung ist eine der unterschätztesten Änderungen im Release. Der Wechsel von 1568px / 1,15MP auf 2576px / 3,75MP ist nicht kosmetisch. Er ändert, was du dem Modell vertrauenswürdig zum Lesen schicken kannst, ohne Zuschneiden.
Das hilft besonders, wenn der Input ist:
- ein vollgepackter Dashboard-Screenshot
- eine Terminal-Aufnahme mit kleinem Text
- ein technisches Diagramm
- ein Design-Mockup mit dichten Labels
- ein gescannter Vertrags-Tabelle oder Dokument-Auszug
- eine Chemie- oder Biowissenschafts-Abbildung
XBOWs Visual-Acuity-Sprung von 54,5% auf 98,5% ist der schärfste Beweis, dass die zusätzlichen Pixel echten Nutzen bringen.
5. Es ist stärker außerhalb von reinem Coding
Anthropics Release positionierte Opus 4.7 als stärker bei Coding, Enterprise-Workflows und langläufigen agentischen Aufgaben. Die Partner-Beispiele bestätigen das:
- Cybersecurity: XBOW sagt, ihr größter visueller Schmerzpunkt bei autonomem Pentesting ist praktisch verschwunden.
- Legal: Harvey berichtet 90,9% auf BigLaw Bench bei
highAufwand, mit besserem Reasoning bei mehrdeutigen Bearbeitungen und Review-Tabellen. - Docs und Enterprise-Reasoning: Databricks berichtete 21% weniger Fehler auf OfficeQA Pro.
- Finanzen und Research: Applied AI Tester hoben stärkere Offenlegungsdisziplin und bessere Long-Context-Performance hervor.
- Life Sciences: Solve Intelligence nannte Gewinne bei chemischen Strukturen und technischen Diagrammen.
- Design und UI: Lovable sagte, der Design-Geschmack ist stark genug, dass das Modell Entscheidungen trifft, die sie tatsächlich shippen würden.
Das macht Opus 4.7 zu einem breiteren "hochriskante Wissensarbeit"-Modell, nicht nur einem Coding-Modell.
Benchmark-Ergebnisse, die wichtig sind
Die vollständige Benchmark-Wand ist nützlich für den Launch-Tag, aber nur einige Zahlen lassen sich klar auf Nutzer-Wert übertragen.
| Benchmark | Warum er wichtig ist |
|---|---|
| CursorBench: 70% | Näher an echten Coding-Agenten-Prompts als enge Coding-Evals |
| Rakuten-SWE-Bench: 3x mehr gelöst | Signalisiert Bewegung bei Produktions-Engineering-Aufgaben, nicht nur Spielzeug-Repos |
| XBOW Visual-Acuity: 98,5% | Beweist, dass dichtes Bild-Verstehen materiell besser ist |
| BigLaw Bench: 90,9% | Starkes Signal für Vertrags- und Legal-Review-Use-Cases |
| OfficeQA Pro: 21% weniger Fehler | Nützlicher Proxy für Enterprise-Docs und Dokumenten-Reasoning |
| Notion Agent: +14%, weniger Tool-Fehler | Guter Indikator für Multi-Schritt-Agenten-Zuverlässigkeit |
| CodeRabbit: Recall +10% | Starkes Signal für Review- und Bug-Finding-Workflows |
Wenn du ein Modell für Claude Code wählst, sind CursorBench, Rakuten, Notion, CodeRabbit und XBOW die umsetzbarsten Signale in diesem Release.
Wo Opus 4.7 am härtesten landet
Claude Code Engineering-Sessions
Das ist der offensichtliche Fall. Opus 4.7 ist besser, wenn die Aufgabe vage, multi-file oder teuer zum Wiederholen ist. API-Migrationen, cross-cutting Refactors, Concurrency-Bugs, Architektur-Reviews und codebase-weite Cleanups profitieren alle davon, dass das Modell wörtlicher, geduldiger und verifikations-intensiver ist.
Security und Cyber-Defense-Workflows
Opus 4.7 ist wichtig in Security, weil Coding-Fähigkeit und Cyber-Fähigkeit jetzt eng verknüpft sind. Project Glasswing, angekündigt am 7. April 2026, handelt von Mythos Preview, nicht Opus 4.7. Aber Anthropic verweist explizit auf Glasswing im Opus 4.7-Launch vom 16. April 2026, um zu erklären, warum neue Cyber-Sicherheitsvorkehrungen hier wichtig sind: Opus 4.7 ist das erste öffentliche Modell, bei dem einige dieser Sicherheitsvorkehrungen in der realen Welt getestet werden.
Das gibt dir zwei Schlussfolgerungen:
- das Modell ist stark genug, um für ernsthafte defensive Security-Arbeit nützlich zu sein
- das Modell ist stark genug, dass Anthropic aktiv riskanten Missbrauch einschränkt
Wenn du legitime Schwachstellen-Forschung, Penetrationstests oder Red-Teaming betreibst, verweist Anthropic Profis auf das Cyber Verification Program.
Legal, Finanzen und Enterprise-Operations
Opus 4.7 ist ein starker Fit, wenn die Arbeit lautet: vergleichen, prüfen, zusammenfassen und fehlende Teile nicht halluzinieren. Verträge, Audit-Trails, Review-Tabellen, Finanz-Memos, Richtlinien-Docs und interne Betriebsdokumente profitieren alle von der stärkeren Kalibrierung und dem Dokumenten-Reasoning des Modells.
Multimodales Produkt, Design und F&E-Arbeit
Besseres Screenshot-Lesen und Diagramm-Handling machen es nützlicher für Design-Kritik, Produkt-QA, Life-Sciences-Workflows, Patente und technische Dokumentation. Wenn das Quellmaterial früher manuelles Zoomen oder Zuschneiden erforderte, ist Opus 4.7 viel benutzbarer.
Für konkretere Domänen-Beispiele und Prompt-Ideen, sieh dir Claude Opus 4.7 Use Cases an.
Cyber, Risiko und Sicherheit: Warum dieses Release anders ist
Anthropics Launch-Botschaft rund um Opus 4.7 ist ungewöhnlich, weil sie nicht nur Fähigkeiten feiert. Sie platziert das Release innerhalb einer lebendigen Cyber-Risiko-Geschichte.
Anthropic sagt, Opus 4.7 ist weniger fähig als Mythos Preview, aber immer noch stark genug, dass sie während des Trainings experimentell differenziell Cyber-Fähigkeiten gegenüber Mythos reduziert haben. Sie haben auch automatisierte Sicherheitsvorkehrungen ausgeliefert, die Anfragen erkennen und blockieren, die auf verbotene oder hochriskante Cybersecurity-Nutzung hindeuten.
Das ist wichtig für jeden, der über das Modell schreibt, weil es den Blickwinkel ändert:
- Opus 4.7 ist nicht nur ein schnellerer Copilot.
- Es liegt in der Kategorie, wo Cyber-Nutzen und Cyber-Risiko sich jetzt gemeinsam bewegen.
- Defensive Workflows sind ein legitimer Stärkebereich.
- Unsichere oder nicht erlaubte offensive Workflows sind ein explizites Deployment-Anliegen.
In praktischen Begriffen bedeutet das, du solltest Opus 4.7 als stark positionieren für:
- sicheres Code-Review
- defensive Audit-Durchläufe
- Threat-Modeling
- Schwachstellen-Triage
- Pentest-Support in genehmigten Programmen
- Security-Dokumentation und Remediation-Planung
Nicht als generische "mach alles Cyber"-Engine.
Vision: Das 3x Auflösungs-Upgrade
Opus 4.7 ist das erste Claude-Release, bei dem die Bild-Pipeline eine eigene Kaufentscheidung verdient.
Die neue Auflösungsgrenze bedeutet:
- weniger Zuschneiden vor dem Senden von Screenshots
- bessere Zuverlässigkeit bei kleinem Text und dichten UIs
- stärkere Interpretation von technischen Diagrammen
- saubereres Mapping von zurückgegebenen Koordinaten zu echten Pixeln
Der Trade-off sind Token-Kosten. Anthropic weist darauf hin, dass ein Full-Resolution-Bild etwa 4.784 Tokens statt des früheren Bereichs von etwa 1.600 Tokens verbrauchen kann. Für bild-intensive Workflows ist Downsampling jetzt Teil der Kostenkontrolle.
Best Practices für Opus 4.7 in Claude Code
Anthropics eigene Anleitung für Opus 4.7 innerhalb von Claude Code ist mehr verhaltens- als technisch-orientiert. Das Thema lautet: besser delegieren, Kontext früher bündeln und unnötiges Hin-und-Her reduzieren.
Die wichtigsten Gewohnheiten sind:
- die eigentliche Aufgabe im ersten Turn nennen: Intent, Constraints, Dateipfade, Akzeptanz-Kriterien
- User-Turns reduzieren wo möglich, weil interaktives Hin-und-Her Reasoning-Overhead addiert
xhighals Standard für ernsthafte Coding-Arbeit behalten- auf
highdroppen, wenn du Ausgaben über viele parallele Sessions kontrollieren musst maxbewusst für sehr harte Arbeit und Eval-ähnliche Decken-Tests reservieren- dem Modell explizit sagen, wann Tools genutzt und wann zu Subagenten gefächert werden soll
- Auto-Modus nutzen, wenn die Aufgabe gut umgegrenzt ist und du der Gesamtrichtung vertraust
- nach ein paar Sessions die neue
/fewer-permission-prompts-Skill ausführen, um wiederholte sichere Prompts in eine Allowlist-Policy zu verwandeln - Recaps nutzen, wenn du zu einer langläufigen Session zurückkehrst, um den Zustand schnell wiederherzustellen ohne das vollständige Transcript neu zu lesen
- Focus View nutzen, wenn du dem Modell vertraust und nur das Endergebnis statt jeden Zwischenschritt willst
/effortbewusst tunen statt den Standard als immer korrekt zu behandeln- eine neue Session starten, wenn sich die Aufgabe ändert, statt veralteten Kontext mitzuschleppen
Diese letzten vier Punkte sind genau die Art von "kleine Workflow-Änderung, großer Qualitätssprung"-Ratschlägen, die Boris Cherny in seinem Opus 4.7 Launch-Day X-Thread zu betonen begann. Das zugrundeliegende Muster stimmt auch mit den offiziellen Docs überein: weniger Unterbrechungen, sauberere Session-Wiederherstellung, weniger Transcript-Rauschen und bewusstere Aufwand-Kontrolle zählen alle mehr, wenn das Modell fähig zu längeren autonomen Läufen ist.
Die vollständige Workflow-Version davon ist in Claude Opus 4.7 Best Practices.
Migrations-Hinweise von Opus 4.6
Wenn du API-Workloads von 4.6 auf 4.7 migrierst, tausche nicht einfach den Modellnamen aus und schick es raus.
Adaptives Denken ersetzt Fixed-Budget-Thinking
Der ältere thinking: { type: "enabled", budget_tokens: N }-Flow ist für Opus 4.7 weg. Benutze stattdessen adaptives Denken und Aufwand-Stufen.
Nicht-Standard-Sampling-Parameter sind weg
Wenn dein Code noch temperature, top_p oder top_k von den Standardwerten abweichend setzt, gibt Opus 4.7 einen 400-Fehler zurück. Entferne diese Stellschrauben und forme das Verhalten durch Prompting und Aufwand.
Thinking-Anzeige hat sich geändert
Thinking-Blöcke sind standardmäßig leer, sofern du nicht explizit zur zusammengefassten Anzeige opt-in. Wenn deine UI auf sichtbarem Thinking-Text basierte, musst du sie aktualisieren.
Der Tokenizer hat sich geändert
Anthropic sagt, dasselbe Input kann je nach Inhalt auf etwa 1,0x bis 1,35x der früheren Token-Anzahl mappen. Kalkuliere Kosten und Token-Schätzungen neu, bevor du davon ausgehst, dass alte Budgets noch gelten.
Hochauflösende Bilder kosten mehr
Wenn du bisher Screenshots lässig schicktest, macht 4.7 die Bildqualität viel besser und die Bild-Token-Kosten materiell höher. Behandle Downsampling als bewussten Hebel.
Aufgaben-Budgets sind es wert zu testen
Anthropic führte Aufgaben-Budgets als öffentliche Beta ein, damit Modelle über einen vollständigen agentischen Lauf ihr eigenes Tempo steuern können. Wenn du längere Loops betreibst, teste sie jetzt statt zu warten, bis eine außer Kontrolle geratene Session dich erwischt.
Preise und Kosten
Opus 4.7 behielt die gleichen Listenpreise wie Opus 4.6:
| Tier | Kosten |
|---|---|
| Input | $5 pro 1M Tokens |
| Output | $25 pro 1M Tokens |
Das bedeutet nicht, dass die Kosten in der Praxis identisch sind.
Deine echte Rechnung wird beeinflusst durch:
- den neuen Tokenizer
- höhere Reasoning-Ausgaben bei höheren Aufwand-Stufen
- teurere Full-Resolution-Bilder
- ob du interaktive Multi-Turn-Sessions oder One-Shot-delegierte Aufgaben ausführst
Die optimistische Lesart kommt von Launch-Partnern wie Hex und Replit: bessere Qualität bei niedrigerem Aufwand kann einen Teil des rohen Token-Anstiegs ausgleichen. Der richtige Schritt ist nicht anzunehmen. Messe an echten Workloads.
Solltest du auf Claude Opus 4.7 upgraden?
Ja, wenn deine Schmerzpunkte sind:
- Agenten, die auf halbem Weg aufhören
- Modelle, die plausibel klingen, aber zu viel raten
- hartes Code-Review und Debugging-Arbeit
- dichte visuelle oder Dokumenten-Inputs
- Multi-Schritt-Workflows mit Tools
Vielleicht nicht sofort oder nicht als Standard, wenn dein Workload hauptsächlich ist:
- kleine Edit-Zyklen
- günstige Bulk-Automation
- Low-Risk-Content-Generierung
- schnelle Q&A, wo Sonnet bereits ausreicht
Für die meisten ernsthaften Claude Code Nutzer ist die richtige Strategie einfach: Sonnet als schnelle tägliche Option behalten, und Opus 4.7 als Flaggschiff für intelligence-sensitive Arbeit nutzen.
Häufig gestellte Fragen
Ist Claude Opus 4.7 besser als Opus 4.6?
Für hartes Engineering, Review, dokumentenreiche und langläufige agentische Arbeit, ja. Die wichtigsten Gewinne sind nicht die rohen Benchmark-Zahlen. Es ist die bessere Kalibrierung, stärkere Selbst-Verifikation, niedrigere Tool-Fehlerrate und besseres Verhalten bei mehrdeutigen Aufgaben.
Was ist die beste Claude Code Aufwand-Einstellung für Opus 4.7?
xhigh ist der Standard in Claude Code und der richtige Ausgangspunkt für die meisten ernsthaften Coding-Sessions. Benutze high, wenn du bessere Kostenkontrolle über viele Sessions brauchst. Benutze max bewusst für die härteste Arbeit, nicht als Pauschal-Standard.
Ist Claude Opus 4.7 besser für Cybersecurity?
Es ist besser für legitime defensive Security-Workflows, Code-Review, Schwachstellen-Triage und Cyber-angrenzende Analyse. Anthropic hat auch explizite Cyber-Sicherheitsvorkehrungen mit dem Modell ausgeliefert, was ein Teil davon ist, warum das Release wichtig ist.
Kostet Opus 4.7 mehr als Opus 4.6?
Der Listenpreis ist unverändert, aber die praktischen Kosten können steigen wegen des neuen Tokenizers, höherer Reasoning-Ausgaben bei höherem Aufwand und teurerer Bild-Inputs. Messe an deinen tatsächlichen Workloads.
Wann sollte ich weiterhin Sonnet statt Opus 4.7 verwenden?
Benutze Sonnet für schnelles tägliches Coding, kleinere Bearbeitungen, günstigere Bulk-Arbeit und Sessions, wo Geschwindigkeit wichtiger ist als Frontier-Level-Reasoning.
Quellen
- Introducing Claude Opus 4.7
- Best practices for using Claude Opus 4.7 with Claude Code
- Using Claude Code: session management and 1M context
- Project Glasswing
- Claude Code best practices docs
Verwandte Seiten
Hören Sie auf zu konfigurieren. Fangen Sie an zu bauen.
SaaS-Builder-Vorlagen mit KI-Orchestrierung.