Claude Code Fast Mode

Problem: Interaktive Arbeit mit Opus 4.6 zieht sich. Jeder Round-Trip fühlt sich langsam genug an, um den Rhythmus zu brechen. Den Aufwandslevel zu senken beseitigt die Latenz auf Kosten der Qualität, und du willst die volle Tiefe bei einem schnelleren Tempo zurück.

Quick Win: Führe in deiner Claude Code Session /fast aus und drücke Tab. Ein Blitzsymbol erscheint neben dem Prompt. Gleiches Modell unter der Haube, Antworten 2,5-mal schneller.

Was Fast Mode wirklich ist

Das Wichtige zu verstehen: Fast Mode ändert nicht, welches Modell du nutzt. Opus 4.6 bleibt Opus 4.6. Gleiche Gewichte. Gleiche Fähigkeiten. Gleiche Qualitätsobergrenze. Kein stiller Wechsel zu Haiku, der als Opus verkleidet ist. Was du bekommst, ist Opus 4.6 auf einer Infrastruktur-Prioritätsspur.

Was sich wirklich verschiebt, ist die Serving-Konfiguration. Deine API-Aufrufe nehmen einen schnelleren Weg, und Antworten kommen etwa 2,5-mal früher an als bei Standard-Opus 4.6. Der Preis-pro-Token steigt im Austausch für die Priorität. Das Modell bleibt genauso intelligent. Kein gekürztes Denken, kein komprimierter Output, nichts weggelassen, um die niedrigere Latenz zu erreichen. Gleiche Antwort. Schnellere Ankunft.

Deshalb ist der Unterschied wichtig. Vor Fast Mode war die einzige Möglichkeit, Claude Code zu beschleunigen, den Aufwandslevel zu reduzieren, was wirklich schrumpft, wie viel Denken in eine Antwort fließt. Weniger Denkzeit funktioniert bei einfachen Aufgaben und scheitert bei allem Komplexen. Fast Mode überspringt diesen Handel. Geschwindigkeit bei gleicher Qualität.

Fast Mode wurde als Research Preview eingeführt, also rechne damit, dass Anthropic Preise, Rate Limits und die Gesamterfahrung über Zeit verfeinert.

Wie du Claude Code Fast Mode aktivierst

Ein Befehl schaltet es ein:

/fast

Tab drücken zum Bestätigen. Das war's. Ein Blitzsymbol erscheint neben deinem Prompt und bestätigt, dass Fast Mode aktiv ist. Führe /fast erneut aus, um es zu deaktivieren.

Du kannst es auch dauerhaft in deiner Benutzer-Einstellungsdatei setzen:

{
  "fastMode": true
}

Ein paar Verhaltensweisen, die du kennen solltest:

Bleibt über Sessions hinaus aktiv. Fast Mode bleibt von einer Session zur nächsten an, bis du es selbst ausschaltest.
Wechselt automatisch zu Opus 4.6. Auf Haiku oder Sonnet, wenn du Fast Mode einschaltest? Du wirst automatisch auf Opus 4.6 hochgestuft.
Deaktivieren behält dein Modell. Schalte Fast Mode mit /fast aus und dein Modell bleibt auf Opus 4.6. Um zu etwas anderem zu wechseln, führe /model aus.

Preisübersicht

Die Preise hängen von deiner Kontextfenstergröße ab. Vollständige Preistabelle:

Modus	Input (pro MTok)	Output (pro MTok)
Fast Mode Opus 4.6 (unter 200K Kontext)	$30	$150
Fast Mode Opus 4.6 (über 200K Kontext)	$60	$225

Ein paar Kostendetails, die du beachten solltest:

Kompatibel mit 1M erweitertem Kontext. Das volle 1M-Kontextfenster wird unterstützt, obwohl die Preise über 200K Tokens ansteigen.
Nur Extra-Nutzung wird berechnet. Fast Mode Tokens bleiben außerhalb der eingeschlossenen Nutzung deines Plans. Jeder einzelne landet in der Extra-Nutzungszeile.
Mitten in einer Unterhaltung umzuschalten ist teuer. Schalte Fast Mode mitten in einer Session ein und du bepreist deinen gesamten bestehenden Kontext zum unversicherten Input-Preis neu. Um die Kosten niedrig zu halten, schalte es vor deiner ersten Nachricht ein.

Wann du Fast Mode nutzen solltest

Interaktive Arbeit ist wo die extra Geschwindigkeit wirklich greift, weil Latenz das ist, was dich ausbremst:

Schnelle Iterations-Zyklen. Bearbeiten, ausführen, Claude um Anpassungen bitten, wiederholen. Über Dutzende dieser Mikro-Interaktionen pro Session potenziert sich 2,5x. Eine Debugging-Session mit 25 Round-Trips endet bei Fast Mode ungefähr 15-20 Minuten früher als bei Standard-Opus 4.6. Eine 20-Round-Trip-Aufgabe fühlt sich bei 2,5x Geschwindigkeit grundlegend anders an.
Live Debugging. Einen Bug durch Stack Traces und Log-Output verfolgen: Das Warten auf jede Antwort ist das, was deine Konzentration bricht. Schnellere Antworten halten den Flow State. Du bleibst auf das Problem fokussiert, statt den Faden zu verlieren, während der Cursor blinkt.
Zeitkritische Deadlines. 2-Uhr-nachts-Hotfixes. Demos eine Stunde entfernt. In solchen Momenten ist es offensichtlich wert, mehr pro Token zu zahlen. Der Kostenaufschlag verschwindet, sobald du ihn gegen die Kosten einer verspäteten Lieferung abmisst.
Interaktives Pair Programming. Jeder Moment, in dem Latenz wichtiger ist als Kosten, weil du in Echtzeit neben Claude denkst und jede Pause den Rhythmus bricht. Design-Diskussionen, bei denen Ideen hin- und herfliegen, sind das deutlichste Beispiel.

Wann du Fast Mode überspringen solltest

Standard-Modus gewinnt immer dann, wenn Latenz nicht der Engpass ist. Der schnelle Test: Sitzt du da und schaust auf den Cursor? Wenn nicht, geben dir normale Preise denselben Output für weniger.

Lange autonome Aufgaben. Starte einen großen Refactor, geh weg, komm zurück. Antwortzeit ist für dich unsichtbar, also spar das Geld.
Batch-Verarbeitung oder CI/CD-Pipelines. Automatisierte Abläufe haben keinen Nutzen von niedrigerer Latenz. Standard-Preise sind das Richtige.
Kostenempfindliche Workloads. Tokens bei einer großen Codebase-Analyse verbrennen, bekommst du identischen Output zum normalen Preis. Die Qualität ändert sich nicht, also kauft der Aufschlag nichts.
Aufgaben, bei denen du weggehst. Sag Claude, ein Modul umzustrukturieren, hol Kaffee, und der Geschwindigkeitsunterschied bleibt buchstäblich unbemerkt. Fast Mode zahlt sich nur aus, wenn du auf den Cursor schaust.

Fast Mode vs. Aufwandslevel

Zwei Einstellungen, zwei verschiedene Mechanismen um Dinge schneller zu machen:

Einstellung	Was sie tut
Fast Mode	Gleiche Modellqualität, niedrigere Latenz, höhere Kosten pro Token
Niedrigerer Aufwandslevel	Weniger Denkzeit, schnellere Antworten, potenziell niedrigere Qualität bei komplexen Aufgaben

Beide können zusammen laufen. Fast Mode plus niedrigerer Aufwandslevel stapelt die Infrastrukturgeschwindigkeit mit dem niedrigeren Denkaufwand in einem Durchgang. Das ist gut für schnelle Jobs: Formatierung, einfache Refactors, Boilerplate, überall wo tiefe Analyse sich nicht lohnt. Bei komplexen Architekturentscheidungen oder schwierigem Debugging lass den Aufwandslevel hoch und lass Fast Mode die Latenz handhaben. Zwei unabhängige Regler. Jede Aufgabe wird für sich abgestimmt, statt in einem Kompromiss-Setting steckenzubleiben.

Rate Limits und Fallback-Verhalten

Fast Mode hat sein eigenes Rate Limit, unabhängig vom Standard-Opus 4.6 Pool. Es einzuschalten lässt dein normales Limit in Ruhe, und umgekehrt. Wenn du die Obergrenze erreichst, rollt Claude Code sauber durch:

Automatischer Fallback zu Standard-Opus 4.6. Die Session läuft ohne Unterbrechung weiter. Du verlierst für eine Weile die Prioritätsgeschwindigkeit, das war's. Kein Fehler, kein unterbrochener Workflow.
Blitzsymbol wird grau. Der Indikator wechselt in den Cooldown-Modus, sodass ein Blick auf den Prompt dir zeigt, wo du stehst.
Standard-Geschwindigkeit und -Preise gelten. Abrechnung fällt während des Fallback-Fensters auf normale Opus 4.6 Preise zurück. Nach einem intensiven Fast Mode-Burst ist das tatsächlich eine Kostenpause.
Aktiviert sich automatisch wieder. Cooldown endet, Fast Mode schaltet sich von selbst wieder ein. Nichts für dich zu tun.

Keine Lust zu warten, bis der Cooldown endet? Führe /fast aus, um Fast Mode manuell auszuschalten, und mach bei Standard-Preisen weiter, bis du dich entscheidest, zurückzuwechseln.

Voraussetzungen und Verfügbarkeit

Verfügbarkeit ist nicht universal. Das brauchst du:

Nur über Anthropic direkt. Zugang läuft über die Anthropic Console API und Claude Abo-Pläne. Amazon Bedrock, Google Vertex AI und Microsoft Azure Foundry unterstützen es nicht.
Extra-Nutzung muss aktiviert sein. Da jedes Fast Mode Token als Extra-Nutzung abgerechnet wird, muss Extra-Nutzung in deinem Account aktiviert sein.
Teams und Enterprise Einschränkungen. Org-Admins müssen Fast Mode in den Console-Einstellungen oder Claude AI Admin-Einstellungen aktivieren, bevor jemand im Team es nutzen kann. Ohne das gibt /fast zurück: "Fast mode has been disabled by your organization."

Fast Mode mit Agent Teams

Bei Agent Teams bleibt Fast Mode an der Lead-Session. Teammate-Agenten bleiben bei ihren eigenen Geschwindigkeitseinstellungen, was dir feingranulare Kontrolle gibt, wo die Kosten in einem Multi-Agent-Workflow anfallen.

Ein praktikabler Team-Setup sieht so aus: Der Lead-Agent läuft mit Fast Mode für schnelle Koordination und Entscheidungsanrufe. Teammates bleiben bei Standard-Geschwindigkeit, damit die Rechnung vernünftig bleibt. Kurze interaktive Austausche bleiben beim Lead, Dinge wie Teammate-Output reviewen, Routing-Entscheidungen treffen und deine direkten Fragen beantworten. Teammates übernehmen die langen autonomen Jobs, wie Tests schreiben, Module refactorn oder Dokumentation generieren, wo eine 2,5-fache Beschleunigung nicht wirklich etwas ändern würde, das du spürst.

Tipps zur Kostenoptimierung

Ein paar praktische Moves, damit Fast Mode nicht die Rechnung hochjagt:

Am Session-Start aktivieren. Fast Mode mitten in einer Unterhaltung einzuschalten bepreist deinen gesamten Kontext zum unversicherten Input-Preis neu. Bei 50K Tokens bereits im Spiel ist das ein echter Treffer. Schalte es mit der ersten Nachricht ein und die Strafe feuert nie.
Mit Aufwandsleveln kombinieren. Fast Mode plus niedrigerer Aufwandslevel gibt einfachen Aufgaben die meiste Geschwindigkeit. Erhöhe den Aufwand wieder, wenn die Arbeit komplex wird.
Basierend auf Arbeitstyp umschalten. Fast Mode während des manuellen Codierens nutzen, dann ausschalten, bevor du etwas Autonomes anstößt. Ein paar Sekunden Umschalten pro Tag spart bedeutsame Token-Ausgaben.
Über die Console überwachen. Nutzung und Abrechnung im Anthropic Console Dashboard verfolgen, damit du siehst, wie Fast Mode deine Ausgaben verschiebt. Ein bis zwei Wochen Daten zeigen dir, wo du zwischen Geschwindigkeit und Kosten einpendeln solltest.

Zusammengefasst

Fast Mode füllt genau eine Lücke: Opus 4.6 Qualität ohne die Opus 4.6 Wartezeit. Was es dich kostet, sind Dollar, keine Intelligenz. Für Entwickler, die stundenlang täglich in interaktiven Claude Code Sessions verbringen, zahlt sich der Aufschlag durch anhaltenden Fokus und engere Iterationsschleifen zurück.

Stell dir das als drei unabhängige Regler der Claude Code Performance vor. Ein Regler ist Infrastrukturgeschwindigkeit, das steuert Fast Mode. Ein anderer ist Denktiefe, das steuern Aufwandslevels. Der dritte ist die grundlegende Fähigkeitsstufe, das setzt die Modellauswahl fest. Die Regler funktionieren eigenständig und lassen sich beliebig kombinieren.

Für deine wertvollste interaktive Arbeit geht alles hoch: Fast Mode an, hoher Aufwand, Opus 4.6. Schnelle Formatierung oder Boilerplate passt gut zu Fast Mode mit niedrigem Aufwand. Hintergrundarbeit, die niemand beobachtet, bekommt Standard-Geschwindigkeit und spart Geld ohne wahrnehmbare Kosten. Stimme die Einstellung auf die Aufgabe vor dir ab. Eine feste Konfiguration reicht nicht.

Claude Code Fast Mode

On this page