Claude Opus 4.5 in Claude Code

Deine Claude Code-Rechnung besteht größtenteils aus Output-Tokens. Opus 4.5 senkt diese Rechnung um 67% und schreibt dabei saubereren Code. Hier zeige ich dir, wie du es aktivierst und was sich danach ändert.

Quick Win: Opus 4.5 als Standard-Modell setzen und eine Session öffnen:

claude config set model claude-opus-4-5-20251101
claude

Du läufst jetzt mit dem token-effizientesten Coding-Modell, das verfügbar ist.

Token-Effizienz

Das ist kein Marketing-Text. GitHub berichtet, Opus 4.5 "übertrifft interne Coding-Benchmarks und halbiert dabei den Token-Verbrauch." Replit sagt, es "schlägt Sonnet 4.5 und den Wettbewerb in unseren internen Benchmarks und löst dieselben Probleme mit weniger Tokens."

So sieht das im Alltag aus:

Metric	Improvement
Output tokens vs Sonnet 4.5	76% reduction
Tool calls per task	50% fewer
Long-running tasks	Up to 65% reduction
With Tool Search enabled	85% reduction

Weniger Tokens bedeutet schnellere Antworten, niedrigere Kosten und mehr Spielraum, bevor du das Kontext-Limit erreichst.

Für Sub-Agent-Delegation gebaut

Opus 4.5 schreibt bessere Prompts für Sub-Agents als jedes andere Claude-Modell. Anthropic hat es gezielt für Delegation trainiert.

Das zahlt sich aus, wenn du parallele Agents für Tests, Code-Generierung oder Aufgabenverteilung betreibst. Der Lead-Agent gibt Arbeit sauberer weiter:

# Example: Running parallel browser tests
claude "Run 4 parallel test agents against staging -
test login flow, checkout, search, and user settings"

Das Modell übernimmt die Koordination. Jeder Sub-Agent bekommt klare, spezifische Anweisungen. Ergebnisse kommen ohne das Chaos früherer Modelle zurück.

Der Effort-Parameter

Neue API-Kontrolle, um Geschwindigkeit gegen Gründlichkeit abzuwägen. Pro Call einstellbar, ohne das Modell zu wechseln:

const response = await anthropic.messages.create({
  model: "claude-opus-4-5-20251101",
  max_tokens: 8192,
  thinking: {
    type: "enabled",
    budget_tokens: 10000, // Low: 1024, Medium: 5000, High: 10000+
  },
  messages: [{ role: "user", content: prompt }],
});

Low Effort für schnelle Fragen. High Effort für große Refactors. Du bestimmst das Thinking-Budget pro Call.

Auto-Compaction für lange Sessions

Du triffst 95% deines 200K-Kontextfensters? Claude komprimiert ältere Nachrichten automatisch und behält dabei deine gesamte Chat-Historie. Alex Albert nennt das "effektiv unendlichen Kontext."

Manuelle Kontrolle ist verfügbar, wenn du sie willst:

/compact

Best Practice: An logischen Meilensteinen komprimieren, statt auf den automatischen Auslöser zu warten. So behältst du in den wichtigen Teilen mehr Detail.

Wenn Dinge schiefgehen

Fehler: "model not found". Aktualisiere deine Claude Code-Installation:

npm update -g @anthropic-ai/claude-code

Fehler: "rate limit exceeded". Opus 4.5 hat eigene Limits, getrennt von Sonnet. Prüf dein Plan-Tier oder füge eine kurze Verzögerung zwischen Anfragen ein.

Fehler: "context too long". Führe /compact manuell aus oder teile die Aufgabe in kleinere Stücke. Für tiefere Muster schau dir die Memory-Optimierung an.

Was das für deinen Workflow bedeutet

Opus 4.5 ist nicht einfach ein Version-Bump. Es ist eine andere Art zu arbeiten:

Mehr delegieren. Übergib komplexe Koordination, der du früheren Modellen nicht anvertrauen würdest.
Längere Sessions laufen lassen. Token-Effizienz bedeutet mehr Arbeit, bevor Compaction einsetzt.
Weniger zahlen. Ein 67% Kostenrückgang bei gleicher oder besserer Qualität.

Das Modell erreicht 80.9% auf SWE-bench Verified (ein neues Hoch) und führt in 7 von 8 Programmiersprachen. Dein Code funktioniert beim ersten Versuch, nicht beim fünften.