Build This Now
Build This Now
Was ist der Claude Code?Claude Code installierenClaude Code Native InstallerDein erstes Claude Code-Projekt
1M-Kontext-Fenster in Claude CodeKontext TechnikKontextmanagement im Claude CodeClaude Code Context Buffer
speedy_devvkoen_salo
Blog/Handbook/Core/1M Context Window in Claude Code

1M-Kontext-Fenster in Claude Code

Anthropic hat das 1-Mio.-Token-Kontextfenster für Opus 4.6 und Sonnet 4.6 in Claude Code aktiviert. Kein Beta-Header, kein Aufpreis, feste Preise und weniger Kompaktierungen.

Hören Sie auf zu konfigurieren. Fangen Sie an zu bauen.

SaaS-Builder-Vorlagen mit KI-Orchestrierung.

Published Mar 30, 2026Handbook hubCore index

Kontext-Limits waren der laufende Ärger in Claude Code seit dem Launch. Dieser Schmerz ist gerade kleiner geworden. Anthropic hat das 1-Mio.-Token-Fenster für Opus 4.6 und Sonnet 4.6 aktiviert, ohne Beta-Flag, ohne Aufpreis und ohne Warteliste. Max-, Team- und Enterprise-Pläne haben es bereits aktiviert.

Denk daran weniger als Versions-Bump und mehr als 5x den Arbeitsspeicher, den dein Agent mit sich trägt. Dieser Speicher hält deine Codebasis, deine Tool-Call-Historie und die Reasoning-Kette über lange Läufe. Preise bleiben auch gleich. Eine 900-K-Token-Anfrage kostet gleich viel pro Token wie eine 9-K-Anfrage.

Nutze diese Seite, um zu verstehen, was das 1-Mio.-Fenster auf Produkt- und Workflow-Ebene geändert hat. Wenn deine eigentliche Frage ist, wann Kompaktierung feuert und wie der reservierte Puffer sich verhält, lies Claude Code Context Buffer. Wenn deine Frage ist, ob du eine Session fortsetzen, kompaktieren, zurückspulen oder neu starten sollst, lies Context Management.

200K vs. 1M auf einen Blick

MetrikVorher (200K)Nachher (1M)
Nutzbare Token~167K~830K
KompaktierungshäufigkeitAlle 20-30 Min. bei komplexen Aufgaben15% weniger Ereignisse
Ladbare DateienKleines ProjektGanzes Monorepo
Medienelemente pro Anfrage100600
Long-Context-PreisePremium ($10/$37,50 für Opus)Gleicher Satz wie kurze Anfragen
Beta-Header erforderlichJa (über 200K)Nein

Was sich bei GA wirklich geändert hat

Das große Fenster war monatelang in der Beta. GA geht darum, die Friction zu beseitigen, die Beta wie zweite Klasse anfühlen ließ.

Flat Pricing über das gesamte Fenster. Long Context trägt keinen Aufpreis mehr. Opus 4.6 ist $5/$25 pro Million Token (Input/Output). Sonnet 4.6 ist $3/$15. Deine 10-K-Anfrage und deine 950-K-Anfrage werden zum gleichen Pro-Token-Satz abgerechnet.

Volle Rate-Limits überall. Längere Anfragen wurden während der Beta stärker gedrosselt. Diese Begrenzung ist weg. Ein 1-Mio.-Token-Aufruf zieht denselben Durchsatz wie ein kurzer.

600 Medienelemente in einer Anfrage. Bilder und PDF-Seiten hatten früher eine Obergrenze von 100. Die neue Obergrenze ist 6x höher bei 600. Für Design-System-Arbeit, Dokument-Review oder Vertragssammlungen ist das ein echter Gewinn.

Kein Header-Toggle. Anfragen über 200K brauchten früher einen anthropic-beta-Header. Bestehende Header werden jetzt einfach ignoriert. Die API übernimmt es.

Live auf Multi-Cloud. Du bekommst das 1-Mio.-Fenster auf Claude Platform, Microsoft Azure Foundry und Google Cloud Vertex AI.

Warum Claude Code sich jetzt anders anfühlt

API-Nutzer bekommen hier einen Preis- und Komfort-Gewinn. Claude Code-Nutzer bekommen etwas Strukturelles.

Kompaktierung feuert seltener

Jeder, der Claude Code bei echter Arbeit gefordert hat, kennt die Kompaktierungssteuer. Du lädst Dateien, kettst Tool-Calls, baust Reasoning auf, und dann feuert Auto-Kompaktierung. Claude quetscht die Konversation, um Platz zu schaffen. Nuancen gehen verloren. Edge Cases verschwinden. Multi-Step-Aufgaben verlieren den Faden mittendrin.

Jon Bell, Anthropics CPO, hat eine Zahl genannt: Kompaktierungsereignisse sind seit dem großen Fenster um 15% gesunken. Kein Lab-Benchmark. Das ist an echtem Claude Code-Traffic gemessen. Agenten behalten ihren Kontext und arbeiten stundenlang durch, ohne zu vergessen, was sie am Anfang geladen haben.

Neugierig auf die Mechanik, wann Kompaktierung feuert? Schau dir den Context-Buffer-Management-Guide an. Die Kurzversion: Claude Code hält einen Puffer von ungefähr 33K Token zurück, dann kompaktiert es, wenn die Nutzung ungefähr 83,5% erreicht. Eine 1-Mio.-Obergrenze bedeutet, du hast ungefähr 5x den Raum, bevor du diese Linie erreichst.

Ganze Codebasen auf einmal

Bei 200K hattest du ungefähr 150K Token Arbeitsraum, sobald der Puffer reserviert war. Für ein kleines Repo okay. Schmerzhaft bei allem Größeren, weil du ständig Dateien aussuchen musstest.

Erhöhe das auf 1M und dein nutzbarer Spielraum ist ~830K. Das sind Tausende von Source-Dateien. Ein ganzes Monorepo. Vollständige Docs neben dem Code, den sie beschreiben. Claude kann den API-Layer und das Frontend, das ihn aufruft, halten; die Migration und das Schema, das sie ändert; die Test-Datei und den Code, der getestet wird. Alles auf einmal. Du hörst auf, von Hand auszuwählen, welche Dateien geladen werden sollen.

Agent-Traces, die wirklich fertig werden

Das ist die Auszahlung für Agent-Teams und komplexe Orchestrierungs-Läufe. Jeder Tool-Call, jeder Reasoning-Schritt, jedes File-Read stapelt sich in den Kontext. Bei 200K hat eine Multi-Agent-Session bei echter Arbeit das Budget in 20 bis 30 Minuten durchgekaut.

Anton Biryukov, ein Software-Engineer bei Ramp, beschrieb das alte Muster: "Claude Code kann 100K+ Token verbrauchen, wenn es Datadog, Braintrust, Datenbanken und Source Code durchsucht. Dann setzt Kompaktierung ein." Bei 1M sucht er, sucht nochmal, sammelt Edge Cases und liefert Fixes. Alles in einer Session. Nichts geht auf dem Weg verloren.

Kann das Modell wirklich 1M Token nutzen?

Ein riesiger Kontext ist wertlos, wenn das Modell nicht wirklich über das abrufen und reasoning kann, was darin steckt. Anthropic hat zwei Benchmarks laufen lassen, die genau das bei der 1-Mio.-Marke testen.

Opus 4.6 erzielt 78,3% auf MRCR v2 bei 1M Token. MRCR (Multi-Round Coreference Resolution) prüft, ob ein Modell Entitäten und die Verbindungen zwischen ihnen über einen riesigen Prompt hinweg verfolgen kann. Nahezu 80% Genauigkeit über eine Million Token bedeutet, das Modell speichert nicht nur die Wörter. Es weiß noch, wie weit entfernte Teile verbunden sind.

Sonnet 4.6 erzielt 68,4% auf GraphWalks BFS bei 1M Token. Dieser Test misst, wie gut das Modell Graphstrukturen traversiert, die tief in langen Inputs vergraben sind. Kann es Referenzketten über Hunderttausende von Token hinweg verfolgen? Beide Werte werden als Top-Ergebnisse für Frontier-Modelle bei diesen Kontextlängen aufgeführt.

In der Praxis bedeutet das, dass Claude die Helper-Funktion, die du vor 500K Token definiert hast, noch lokalisieren und sehen kann, wie sie in die Komponente einhakt, die du gerade bearbeitest.

So nutzt du es in deinem Workflow

Ändere, was du tust

Hör auf, Datei-Inklusionen manuell zu verwalten. Jeder @file-Aufruf war bei 200K ein Tradeoff. Bei 1M lad einfach, was du brauchst, und mach weiter. Zieh die Test-Datei mit der Implementierung rein. Zieh die Types mit der Komponente. Gib Claude das gesamte Bild.

Lass Sessions länger laufen. Die Gewohnheit, alle 30 Minuten neu zu starten, kam aus dem Überlebenstrieb, nicht aus Präferenz. Mit dem 5-fachen Ceiling kann eine Session stundenlang bei schwierigen Aufgaben laufen. Starte neu, wenn du den Fokus wirklich wechselst, nicht weil du nervös wegen des Puffers bist. Für Regeln, wann zu kompaktieren und wann weiterzumachen, schau dir den Context-Management-Guide an.

Setz auf Multi-Step-Agenten. Die eigentliche Auszahlung ist nicht das schnelle Edit. Es ist die Art von Arbeit, bei der Claude recherchieren, planen, implementieren und über viele Dateien hinweg prüfen muss. Diese Kette brach früher, wenn Kompaktierung mitten in der Aufgabe feuerte. Sie passt jetzt in ein Fenster ohne Drama.

Überdenke dein Context-Engineering-Playbook. Deine Lade- und Preservation-Strategien zählen weiterhin. Sie haben nur mehr Sauerstoff. Die Grundlagen aus unserem Context-Management-Guide gelten weiterhin. Der Druck verschiebt sich von "unter 200K am Leben bleiben" zu "1M gut nutzen".

Wo das 1-Mio.-Fenster wirklich Ergebnisse verändert

Der beste Weg, über 1M Kontext nachzudenken, ist nicht "Claude kann mehr lesen." Es ist "ganze Klassen von Aufgaben hören auf, sich brüchig anzufühlen."

1. Cross-Layer-Bug-Jagden

Altes Muster bei 200K:

  • Frontend laden
  • bemerken, dass das Problem vielleicht in der API liegt
  • einige Dateien entladen
  • API laden
  • erkennen, dass der Bug auch vom Schema oder einer Migration abhängt
  • Kompaktierung mitten drin und frühe Hinweise verlieren

Bei 1M kannst du oft die Seiten-Komponente, den API-Handler, das Schema, die Migration und den fehlschlagenden Test alle in einer Session halten. Das ist nicht nur bequem. Es verändert die Root-Cause-Qualität.

2. Sicherheits-Review über eine echte System-Grenze

Sicherheits-Reviews sind kontexthungrig, weil das Problem selten in einer Datei lebt.

Ein ernsthafter Review braucht vielleicht:

  • Auth-Middleware
  • Session-Handling
  • Reset-Password-Flow
  • Rate-Limit-Logik
  • Audit-Logs
  • die Route-Handler, die die Oberfläche exponieren

Bei 200K wähltest du, welchen Layer du weglässt. Bei 1M kannst du den gesamten Flow reviewen und bessere Fragen über Takeover-Risk, Replay-Risk und Privilege-Boundary-Fehler stellen.

3. Monorepo-Änderungen ohne manuelle Datei-Kuration

Bei 200K wurde große-Repo-Arbeit oft zu Kontext-Buchhaltung. Du verbringst die halbe Session damit zu entscheiden, was Claude sehen darf.

Bei 1M passt eine Migration über:

  • shared Types
  • API-Contracts
  • Frontend-Caller
  • Integrationstests

viel natürlicher. Du brauchst weiterhin Scope-Disziplin. Du hörst nur auf, alle zehn Minuten Token-Triage zu machen.

4. Langes Dokument- und Design-Review

Das größere Fenster zählt auch außerhalb von Code. Produkt-Specs, Design-Docs, Architektur-Notizen, PDFs, Screenshots und verwandte Implementierungsdateien können alle in derselben Anfrage bleiben. Das macht "Spec-to-Implementation" und "Design-to-Code"-Arbeit viel stabiler.

Wie du erkennst, ob du wirklich 1M brauchst

Du profitierst wahrscheinlich vom größeren Fenster, wenn deine Sessions regelmäßig eines oder mehrere davon beinhalten:

SignalWarum es auf 1M hinweist
Du wählst ständig von Hand, welche Dateien Claude laden darfDas Working-Set ist größer als das alte Fenster komfortabel toleriert hat
Kompaktierung unterbricht echte Arbeit, nicht nur GeplapperDer Engpass ist nützlicher Kontext, nicht nachlässiges Prompting
Deine Aufgabe umfasst Code + Docs + Tests + ConfigsCross-Surface-Aufgaben fressen 200K schnell
Du betreibst lange Agent-Traces oder subagenten-lastige WorkflowsTool-Historie häuft sich schnell an
Du reviewst PDFs, Screenshots oder große Referenz-SetsMedien-Obergrenzen spielen auch eine Rolle

Wenn deine Arbeit meistens schnelle Edits, kleine Repos oder kurze, fokussierte Sessions ist, ist 1M schön, aber nicht transformativ. Der Gewinn zeigt sich bei breiteren Aufgaben, wo Kontext früher die Haupt-Einschränkung war.

Was sich nicht ändert

Kontext-Hygiene zählt weiterhin. Eine 1-Mio.-Obergrenze ist kein Signal, alles reinzuwerfen und zu hoffen, dass Claude es sortiert. Irrelevante Dateien verbrennen Token und verdünnen das Signal, das Claude nutzt, um sich zu fokussieren.

CLAUDE.md, Skills-First-Loading und sauberes Session-Management sind weiterhin Best Practice. Sie bekommen nur mehr Luft zum Atmen. Wenn du die Nutzungs-Optimierungs-Muster bereits befolgst, zahlt das große Fenster dir noch mehr zurück.

Wer das 1-Mio.-Fenster bekommt

Claude Code-, Max-, Team- und Enterprise-Pläne bekommen das 1-Mio.-Fenster automatisch mit Opus 4.6. Nichts zu aktivieren. Die zusätzliche Nutzungs-Zuweisung, die Long-Context-Anfragen früher brauchten, ist weg.

API-Nutzer bekommen es zu Standard-Per-Token-Raten. Opus 4.6 bei $5/$25 pro Million Token. Sonnet 4.6 bei $3/$15. Keine Premium-Stufe für Long Context.

Das 200K-Fenster ist noch da als Standard für Standard-API-Anfragen und niedrigere Pläne. Die 1-Mio.-Option ist speziell an Opus 4.6 und Sonnet 4.6 gebunden.

Was das signalisiert

Anthropic macht Kontext-Fenster nicht nur größer. Sie streichen die Tradeoffs, die große Fenster nervig zu nutzen machten. Flat Pricing bedeutet, du planst keine langen Anfragen anders. Volle Rate-Limits bedeuten, du verlierst keinen Durchsatz. Den Beta-Header töten bedeutet, bestehender Code läuft einfach.

Die Richtung ist offensichtlich. Kontext-Management verlagert sich von einem Nutzer-Job zu einem Infrastruktur-Job. Modelle werden immer besser darin, Long Context zu nutzen. Preisgestaltung hält die Tür offen. Das Tooling sortiert sich selbst.

Für Claude Code-Nutzer ist das Fazit einfach. Deine Agenten denken länger und erinnern sich mehr. Bau deine Workflows darauf auf, und die Aufgaben, die früher sorgfältiges Session-Management und handverlesene Kontexte verlangten, fangen einfach an zu funktionieren. Von Anfang bis Ende. In einem Fenster.

Verwandte Ressourcen

  • Context Buffer Management -- Wie Auto-Kompaktierung funktioniert und der 33K-Token-Puffer
  • Context Engineering -- Das Sechs-Säulen-Framework zum strategischen Laden von Kontext
  • Context Management -- Strategien, um kritischen Kontext über Sessions hinweg zu erhalten
  • Model Selection Guide -- Auswahl zwischen Opus 4.6 und Sonnet 4.6 für verschiedene Aufgaben

Continue in Core

  • Auto Dream
    Claude Code räumt zwischen Sessions seine eigenen Projektnotizen auf. Veraltete Einträge werden gelöscht, Widersprüche aufgelöst, Themen-Dateien umsortiert. Starte mit /memory.
  • Automatischer Speicher in Claude Code
    Mit dem automatischen Speicher kann Claude Code die Projektnotizen weiterführen. Wo sich die Dateien befinden, was geschrieben wird, wie /memory es umschaltet und wann man es über CLAUDE.md auswählt.
  • Auto-Planning-Strategien
    Auto Plan Mode nutzt --append-system-prompt, um Claude Code in eine Plan-zuerst-Schleife zu zwingen. Dateioperationen pausieren zur Genehmigung, bevor irgendetwas angefasst wird.
  • Autonomes Claude Code
    Ein einheitlicher Stack für Agenten, die Features über Nacht ausliefern. Threads geben dir die Struktur, Ralph-Schleifen geben dir die Autonomie, Verifikation hält alles ehrlich.
  • Claude Buddy
    Anthropics April-Fools-Überraschung 2026: ein Tamagotchi-System in Claude Code. 18 Spezies, 5 Seltenheitsstufen, CHAOS- und SNARK-Stats, hex-kodiertes Easter Egg geleakt.
  • Dynamischer Startkontext
    Kombiniere --init mit einem Slash-Befehl wie /blog oder /ship, um genau das Kontext-Bundle zu laden, das diese Art von Arbeit braucht. Keine Setup-Hooks, keine Env-Vars, kein Copy-Paste.

More from Handbook

  • Grundlagen für Agenten
    Fünf Möglichkeiten, spezialisierte Agenten in Claude Code zu erstellen: Aufgaben-Unteragenten, .claude/agents YAML, benutzerdefinierte Slash-Befehle, CLAUDE.md Personas und perspektivische Aufforderungen.
  • Agenten-Muster
    Orchestrator, Fan-out, Validierungskette, Spezialistenrouting, Progressive Verfeinerung und Watchdog. Sechs Orchestrierungsformen, um Claude Code Sub-Agenten zu verdrahten.
  • Agent Teams Best Practices
    Bewährte Muster für Claude Code Agent Teams. Kontextreiche Spawn-Prompts, richtig bemessene Aufgaben, Datei-Eigentümerschaft, Delegate-Modus und Fixes für v2.1.33-v2.1.45.
  • Agent Teams Steuerung
    Konfiguriere Delegate-Modus, Anzeigemodi, Plan-Genehmigung, Dateigrenzen und CLAUDE.md-Regeln, damit dein Claude Code Team-Lead koordiniert statt selbst zu coden.

Hören Sie auf zu konfigurieren. Fangen Sie an zu bauen.

SaaS-Builder-Vorlagen mit KI-Orchestrierung.

Claude Code Einstellungsreferenz

Jeder Schlüssel in settings.json, die vollständige Umgebungsvariablenliste und die Fünf-Scope-Präzedenzkette, die entscheidet, welche Konfiguration gewinnt, wenn Managed und User kollidieren.

Kontext Technik

Context Engineering entscheidet, was Claude Code sieht, wann er es sieht und was nicht. Gestufter Informationsfluss, zeitversetztes Laden und sauber abgegrenzte Kontexte.

On this page

200K vs. 1M auf einen Blick
Was sich bei GA wirklich geändert hat
Warum Claude Code sich jetzt anders anfühlt
Kompaktierung feuert seltener
Ganze Codebasen auf einmal
Agent-Traces, die wirklich fertig werden
Kann das Modell wirklich 1M Token nutzen?
So nutzt du es in deinem Workflow
Ändere, was du tust
Wo das 1-Mio.-Fenster wirklich Ergebnisse verändert
1. Cross-Layer-Bug-Jagden
2. Sicherheits-Review über eine echte System-Grenze
3. Monorepo-Änderungen ohne manuelle Datei-Kuration
4. Langes Dokument- und Design-Review
Wie du erkennst, ob du wirklich 1M brauchst
Was sich nicht ändert
Wer das 1-Mio.-Fenster bekommt
Was das signalisiert
Verwandte Ressourcen

Hören Sie auf zu konfigurieren. Fangen Sie an zu bauen.

SaaS-Builder-Vorlagen mit KI-Orchestrierung.