Claude Opus 4.7 vs GPT-5.5

GPT-5.5 ist heute draußen. 23. April 2026. Es ist jetzt das leistungsstärkste OpenAI-Modell in Produktion und der erste echte Konkurrent zu Claude Opus 4.7 seit dessen Launch vor einer Woche. Beide Modelle sind an der Frontier. Beide kosten $5 pro Million Input-Tokens. Und je nachdem, welchen Benchmark du anschaust, führt mal das eine, mal das andere.

Dieser Post nutzt OpenAIs offizielles System Card, Third-Party-Tests von MindStudio und Scale AI sowie echte Routing-Entscheidungen, um eine Frage zu beantworten: Welches Modell nimmst du, und wann?

Kurze Antwort: Welches Modell gewinnt bei welcher Aufgabe

Wenn du erstmal die Kurzversion willst:

Aufgabe	Bestes Modell	Vorsprung
Echte PR-Resolution und Refactors	Claude Opus 4.7	64,3 % vs. 58,6 % auf SWE-Bench Pro
Command-Line-Agents und Terminalarbeit	GPT-5.5	82,7 % vs. 69,4 % auf Terminal-Bench 2.0
Multi-Step-Tool-Orchestrierung (MCP)	Claude Opus 4.7	79,1 % vs. 75,3 % auf MCP Atlas
Web-Recherche und Browsing	GPT-5.5 Pro	90,1 % vs. 79,3 % auf BrowseComp
Long Context bei 1M Tokens	GPT-5.5	74,0 % vs. 32,2 % auf MRCR v2 8-needle
Finance-Arbeit	Claude Opus 4.7	64,4 % vs. 60,0 % auf FinanceAgent v1.1
Frontier-Mathematik (Hard Tier)	GPT-5.5	35,4 % vs. 22,9 % auf FrontierMath Tier 4
Abstraktes Reasoning	GPT-5.5	85,0 % vs. 75,8 % auf ARC-AGI-2

Kein Modell gewinnt alles. Die Aufgabe entscheidet.

Was GPT-5.5 eigentlich ist

GPT-5.5 ist kein kleines Update von GPT-5.4. Es ist ein neues Frontier-Modell, das OpenAI gemeinsam mit NVIDIA GB200 und GB300 NVL72-Systemen entwickelt hat. Es erreicht dieselbe Token-Latenz wie GPT-5.4 bei höherer Intelligenz und braucht deutlich weniger Tokens für die gleichen Codex-Aufgaben.

Die wichtigsten Specs:

Spec	GPT-5.5	Claude Opus 4.7
Context Window (API)	1M Tokens	1M Tokens
Context Window (Codex)	400K Tokens	N/A
API Input-Preis	$5 pro 1M Tokens	$5 pro 1M Tokens
API Output-Preis	$30 pro 1M Tokens	$25 pro 1M Tokens
Pro/xhigh-Variante	$30/$180 pro 1M Tokens	Kein Aufpreis
API-Status	Noch kein GA (ChatGPT + Codex live)	GA auf API, Bedrock, Vertex, Foundry

Eine Zahl, die du dir merken solltest: Claude Opus 4.7 ist beim Output 17 % günstiger, $25 vs. $30 pro Million Tokens. Bei output-lastigen Workloads (lange Code-Generierung, mehrstufige Agent-Runs, Dokumente schreiben) summiert sich das schnell.

GPT-5.5 Pro bei $30/$180 ist eine eigene Preisstufe für die härtesten Research- und regulierten Anwendungsfälle. Das ist das Sechsfache des normalen Output-Preises.

Coding: Wer gewinnt, hängt vom Aufgabentyp ab

Hier ist der Unterschied am deutlichsten.

SWE-Bench Pro misst, wie gut echte GitHub-Issues gelöst werden: Bug-Reports und Feature-Requests aus echten Produktions-Repos. Claude Opus 4.7 erreicht 64,3 %. GPT-5.5 erreicht 58,6 %. Gemini 3.1 Pro liegt bei 54,2 %. Bei PR-Resolution (kaputte Codebasis lesen, Root Cause finden, Fix schreiben, der Tests besteht) führt Opus 4.7.

Terminal-Bench 2.0 misst Aufgaben für Command-Line-Agents: lang laufende Shell-Skripte, mehrstufige CLI-Workflows, automatisierte Infrastrukturarbeit. GPT-5.5 erreicht 82,7 %. Claude Opus 4.7 erreicht 69,4 %. Das ist ein Vorsprung von 13 Punkten. Für terminal-lastige Agent-Pipelines ist GPT-5.5 die bessere Wahl.

Wichtiger Hinweis: OpenAI hat Terminal-Bench mit einem Codex-CLI-Harness ausgeführt. Anthropic nutzte den Terminus-2-Scaffold. Die Evaluierungsumgebungen unterscheiden sich, daher ist der 13-Punkte-Abstand richtungsweisend, aber nicht präzise.

Expert-SWE ist eine interne OpenAI-Evaluierung mit schwereren Software-Engineering-Aufgaben. GPT-5.5 erreicht 73,1 %. Vergleichbare Opus-4.7-Zahlen für diesen Benchmark wurden nicht veröffentlicht.

MindStudioss Live-Test (durchgeführt am 21. April, vor dem GPT-5.5-Launch) hat Claude Opus 4.7 gegen GPT-5.4 bei einer TypeScript-Migration über 465 Dateien antreten lassen. Opus 4.7 kam auf eine Fehlerquote von 5,8 %; GPT-5.4 auf 13,1 %. Opus 4.7 hat 14 Unklarheiten markiert und damit Folgefehler verhindert; GPT-5.4 hat 3 markiert. GPT-5.4 war schneller fertig. Der Test deckt GPT-5.4 ab, nicht GPT-5.5. GPT-5.5 ist deutlich besser. Aber das Muster (Claude markiert mehr, fängt mehr ab, läuft langsamer) dürfte sich fortsetzen.

Die praktische Aufteilung beim Coding:

Nimm Opus 4.7 für PR-Resolution, Refactors, große unordentliche Codebasen und MCP-lastige Tool-Chains. Nimm GPT-5.5 für terminal-lastige Pipelines, neue Feature-Implementierung in Codex und klar abgegrenzte Aufgaben mit sauberen Specs.

Agents: Langfristige Kohärenz vs. Terminal-Performance

Beide Modelle sind für agentische Arbeit gebaut. Aber sie sind nicht gleich gut bei denselben Agent-Typen.

MCP Atlas ist der Benchmark für Tool-Orchestrierung im großen Maßstab: mehrstufige Agents, die viele Tools nacheinander aufrufen, mit unerwarteten Ergebnissen umgehen und State halten. Claude Opus 4.7 erreicht 79,1 %. GPT-5.5 erreicht 75,3 %. Gemini 3.1 Pro liegt bei 78,2 %. Für MCP-native Workflows, bei denen der Agent externe Services aufruft, Dateien liest, APIs abfragt und Ergebnisse zusammenführt, hat Opus 4.7 die Nase vorn.

Terminal-Bench 2.0 (schon oben besprochen): GPT-5.5 führt bei Command-Line-Agent-Arbeit um 13 Punkte.

Toolathlon ist ein multimodaler Tool-Use-Eval. GPT-5.5 erreicht 55,6 %. Vergleichbare Opus-4.7-Zahlen wurden nicht veröffentlicht.

Tau2-bench Telecom (Customer-Service-Agent-Aufgaben): GPT-5.5 erreicht 98,0 %. Diese Zahl kommt mit einem Asterisk: Tau2-bench wurde für GPT-5.5 ohne Prompt-Tuning ausgeführt, während andere Modelle mit Prompt-Anpassungen evaluiert wurden. Der Vergleich ist ohne identische Methodik unzuverlässig.

OSWorld-Verified (Desktop-Computer-Use, echte UIs klicken): GPT-5.5 erreicht 78,7 %, Opus 4.7 erreicht 78,0 %. Praktisch gleichauf.

Für Agent-Pipelines in Claude Code und Claudes API ist die Verfügbarkeit von Opus 4.7 ab dem ersten Tag auf Bedrock, Vertex AI, Anthropic Foundry und der Claude API ein operativer Vorteil. GPT-5.5s API rollt gerade aus. Sie ist noch nicht live.

Long Context: GPT-5.5 setzt sich im großen Maßstab durch

Beide Modelle haben ein 1M-Token-Context-Window. Wie gut sie dieses Window tatsächlich nutzen, ist eine andere Frage.

OpenAI hat MRCR v2 8-needle-Ergebnisse veröffentlicht: ein Retrieval-Benchmark, der 8 Fakten in einem langen Dokument versteckt und das Modell bittet, alle zu finden. Die Ergebnisse zeigen eine wachsende Lücke, je länger der Kontext wird:

Window-Bereich	GPT-5.5	Claude Opus 4.7
4K–8K	98,1 %	98,3 %
32K–64K	90,0 %	87,1 %
128K–256K	87,5 %	59,2 %
512K–1M	74,0 %	32,2 %

Bei kurzem Kontext sind sie gleichauf. Ab 128K hält GPT-5.5 die Genauigkeit, während Opus 4.7 stark abfällt. Beim vollen 1M-Window erreicht GPT-5.5 eine Retrieval-Genauigkeit von 74,0 %. Opus 4.7 kommt auf 32,2 %.

Ein Vorbehalt: Die Opus-4.7-Graphwalks-Zahlen in OpenAIs Tabelle sind als Opus 4.6 markiert, nicht als Opus 4.7. Anthropic hat keine eigenen Opus-4.7-Long-Context-Retrieval-Scores veröffentlicht. Die MRCR-v2-Zahlen sind für diesen Vergleich verlässlicher.

Für Workloads, die tatsächlich einen großen Teil eines 1M-Token-Windows nutzen (gesamtes Monorepo analysieren, ein Jahr Rechtsdokumente lesen, große Kundendaten verarbeiten) ist GPT-5.5 das zuverlässigere Modell.

Professionelle und Research-Aufgaben

FinanceAgent v1.1 führt autonome mehrstufige Finanzanalyse-Aufgaben aus. Claude Opus 4.7 erreicht 64,4 %. GPT-5.5 erreicht 60,0 %. Bei Finance-Agent-Arbeit führt Opus 4.7.

GDPval misst die Performance über 44 Berufe: ein breiter Proxy für Wissensarbeit. GPT-5.5 erreicht 84,9 %. Opus 4.7 erreicht 80,3 %. GPT-5.5 führt hier.

OfficeQA Pro deckt dokumentenlastige Büro-Workflows ab. GPT-5.5 erreicht 54,1 %. Opus 4.7 erreicht 43,6 %. GPT-5.5 führt um 10 Punkte.

Humanity's Last Exam enthält extrem schwere akademische Fragen mit graduiertem Reasoning. Ohne Tools: Opus 4.7 bei 46,9 %, GPT-5.5 bei 41,4 %. Mit Tools: Opus 4.7 bei 54,7 %, GPT-5.5 bei 52,2 %. Opus 4.7 führt beim tiefen akademischen Reasoning.

FrontierMath deckt Mathematik auf Wettkampf-Niveau ab. Tier 4 ist die schwerste Klasse. GPT-5.5 erreicht 35,4 % auf Tier 4 gegenüber Opus 4.7s 22,9 %. Ein Abstand von 12,5 Punkten. Bei harten quantitativen Aufgaben gewinnt GPT-5.5.

ARC-AGI-2 ist abstraktes Reasoning auf neuartigen visuellen Mustern. GPT-5.5 erreicht 85,0 %. Opus 4.7 erreicht 75,8 %. Ein klarer Abstand von 9 Punkten. GPT-5.5 ist deutlich stärker bei der Mustergeneralisierung.

Kosten pro Workload

Der Input-Preis ist identisch: $5 pro Million Tokens für beide. Der Output-Preis unterscheidet sich.

Tägliche Coding-Session (200K Tokens gesamt, 60 % Output):

Modell	Kosten pro Session
Claude Opus 4.7	$1,70
GPT-5.5	$2,00

Langer Agent-Run (500K Tokens, 70 % Output):

Modell	Kosten
Claude Opus 4.7	$9,25
GPT-5.5	$10,75

High-Volume-Automatisierung (10M Tokens pro Monat, 70 % Output):

Modell	Monatliche Kosten
Claude Opus 4.7	$185
GPT-5.5	$215

Im großen Maßstab spart der günstigere Output-Preis von Opus 4.7 echtes Geld. Dieser 17%-Unterschied beim Output ist kein Rundungsfehler bei großen Pipelines.

GPT-5.5 Pro bei $30/$180 ist eine andere Kategorie. Es zielt auf regulierte Anwendungsfälle (Investment Banking, Legal Review, hochriskante Research), bei denen die Kosten pro Aufruf klein sind gegenüber dem Wert des Ergebnisses.

Das Datenzuverlässigkeits-Problem

Die meisten Zahlen in diesem Post stammen aus OpenAIs eigenem System Card. Das bedeutet: OpenAI hat die Benchmarks aller Modelle, einschließlich Opus 4.7, mit eigenen Harnesses ausgeführt.

Einige konkrete Zuverlässigkeitsprobleme:

Harness-Unterschiede. Terminal-Bench wurde von OpenAI mit einem Codex-CLI-Scaffold und von Anthropic mit Terminus-2 ausgeführt. Der 13-Punkte-Abstand könnte sich bei gleichem Harness verringern oder vergrößern.

Long-Context-Opus-Zahlen. OpenAIs Graphwalks-Tabellen verwenden Opus-4.6-Daten für einige Zellen, so auch beschriftet. Opus-4.7-Long-Context-Zahlen wurden von Anthropic nicht unabhängig veröffentlicht.

Expert-SWE. Interner OpenAI-Benchmark, keine externe Replikation möglich.

Tau2-bench-Methodenunterschied. GPT-5.5 wurde ohne Prompt-Tuning getestet; andere Modelle nicht. Die 98,0 % sind nicht auf gleicher Basis vergleichbar.

GPT-5.5-Pro-Scores. Mehrere Benchmarks listen eine "Pro"-Variante neben dem Standard-GPT-5.5-Wert. Die Pro-Variante kostet 6x mehr. Pro gegen Standard-Opus-4.7 zu vergleichen ist ein Äpfel-Orangen-Vergleich.

Unabhängige Third-Party-Benchmarks (HELM, LMSYS, Artificial Analysis) hatten GPT-5.5 zum heutigen Datum noch nicht indexiert. Diese Zahlen werden sich ändern, sobald externe Evaluierungen kommen.

Wie du zwischen den beiden Modellen routest

Vier klare Entscheidungsregeln:

SWE-Bench-ähnliche PR-Arbeit, MCP-Tool-Chains, Finance-Agents und akademisches Reasoning. Opus 4.7. Es hält eine bessere Genauigkeit bei realen Codebase-Aufgaben und führt bei Tool-Orchestrierung im großen Maßstab. Der 17 % günstigere Output-Preis macht es zum Standard für lange Runs.

Terminal-lastige Agents, Codex-Workflows, Frontier-Mathematik, ARC-AGI-artiges Reasoning und große Kontexte über 128K Tokens. GPT-5.5. Der Terminal-Bench-Vorsprung ist erheblich. Long-Context-Genauigkeit bei 1M Tokens ist klar.

Web-Recherche und Synthese. GPT-5.5 Pro, wenn Genauigkeit wichtig ist. BrowseComp bei 90,1 % Pro vs. 79,3 % für Opus 4.7 ist eine echte Lücke bei retrieval-lastigen Workflows.

Budgetsensitive, output-lastige Pipelines. Opus 4.7. Der $5-Unterschied pro Million Output-Tokens summiert sich bei großer Automatisierung.

Beide Modelle sind heute auf Claudes API und Anthropics Cloud-Plattformen verfügbar. GPT-5.5s API rollt noch aus. Wenn du jetzt etwas shippen musst, ist Opus 4.7 überall live. GPT-5.5 wird bald nachholen.

FAQ

Ist Claude Opus 4.7 besser als GPT-5.5?

Kommt ganz auf die Aufgabe an. Opus 4.7 führt bei SWE-Bench Pro (64,3 % vs. 58,6 %), MCP Atlas Tool-Orchestrierung (79,1 % vs. 75,3 %), FinanceAgent (64,4 % vs. 60,0 %) und Humanity's Last Exam. GPT-5.5 führt bei Terminal-Bench 2.0 (82,7 % vs. 69,4 %), FrontierMath Tier 4, ARC-AGI-2 (85,0 % vs. 75,8 %) und Long-Context-Retrieval über 128K Tokens. Bei echten PR-Resolutions und MCP-Agents gewinnt Opus 4.7. Bei Terminal-Agents und Research im großen Maßstab gewinnt GPT-5.5.

Was kostet GPT-5.5?

Die Standard-API kostet $5 pro Million Input-Tokens und $30 pro Million Output-Tokens. GPT-5.5 Pro kostet $30 Input und $180 Output pro Million Tokens. Batch- und Flex-Pricing laufen zur Hälfte des Standard-Preises. Die API ist zum 23. April 2026 noch nicht allgemein verfügbar. Sie rollt auf die Responses- und Chat-Completions-Endpoints aus. ChatGPT- und Codex-Zugang ist jetzt live für Plus-, Pro-, Business- und Enterprise-Pläne.

Welches Modell ist besser für agentische Coding-Aufgaben?

Beide sind stark. Claude Opus 4.7 hat die Nase vorn bei SWE-Bench-ähnlicher PR-Resolution, MCP-Tool-Orchestrierung und kohärentem mehrstufigem Reasoning mit Tools. GPT-5.5 führt bei Terminal-Bench-Command-Line-Aufgaben und neuer Feature-Implementierung in Codex und braucht weniger Tokens für Codex-Aufgaben als GPT-5.4. Der Typ der Agent-Aufgabe entscheidet, welches Modell du nimmst.

Welches Modell hat die bessere Long-Context-Performance?

GPT-5.5 im großen Maßstab. MRCR-v2-Retrieval bei 512K–1M Tokens: GPT-5.5 bei 74,0 % gegenüber Opus 4.7 bei 32,2 %. Beide haben ein 1M-Token-Context-Window, aber GPT-5.5 hält die Retrieval-Genauigkeit über mehr von diesem Window. Für Workloads, die wirklich über Hunderttausende von Tokens lesen und schlussfolgern müssen, ist GPT-5.5 die zuverlässigere Option über 128K.

Ist GPT-5.5 schon auf der API verfügbar?

Nicht vollständig. Zum 23. April 2026 ist GPT-5.5 in ChatGPT (Plus, Pro, Business, Enterprise) und in Codex verfügbar. Der API-Rollout auf Responses und Chat Completions wird als "sehr bald" beschrieben. Claude Opus 4.7 ist GA auf der Anthropic API, Amazon Bedrock, Google Vertex AI und Anthropic Foundry.