Optimierung der Geschwindigkeit

Problem: Jede Anfrage hängt und dreht sich im Kreis. Die Antworten kommen erst nach einer gefühlten Ewigkeit, obwohl du sie eigentlich in Sekundenschnelle brauchst.

Schnelle Lösung: Wechsle zu einem schlankeren Modell. Gib während der Sitzung „/model haiku“ ein, und die nächste Antwort kommt schneller. Haiku kümmert sich um Syntaxfragen, kurze Erklärungen und kleine Code-Generierungen.

Der Geschwindigkeitsmultiplikator-Ansatz

Meistens liegt das Warten nicht daran, dass das Modell langsam ist. Es liegt daran, dass die Sitzung falsch eingerichtet ist. Drei Regler, die du bereits beherrschst, entscheiden, wie schnell eine Antwort eintrifft: welches Modell du gewählt hast, wie groß der Kontext ist und wie präzise die Eingabeaufforderung formuliert ist.

Schnelle Antworten halten dich im Flow. Langsame werfen dich raus.

Faktoren, die die Antwortzeit verlängern

Überladener Kontext: Mit jedem Schritt kommen mehr Tokens dazu, die Claude verarbeiten muss. Lange Sitzungen sammeln Historie an, und jede Antwort wird schwerer.

Modell-Mismatch: Ein Sonett für einen Einzeiler ist wie mit einem LKW zum Laden an der Ecke zu fahren. Passe die Engine an die Aufgabe an.

Vage Eingabeaufforderungen: „Hilf mir bei diesem Code“ zwingt zu einer Vermutung. Formuliere genau, was du willst, und die Antwort kommt schneller zurück.

Der 3-Runden-Prozess zur Geschwindigkeitsoptimierung

Runde 1: Strategie zur Modellauswahl

Passe dein Modell während der Sitzung mithilfe von Slash-Befehlen an die Komplexität der Aufgabe an:

/model haiku    # Quick questions, syntax help, simple edits
/model sonnet   # Complex refactoring, architecture decisions

Wechsle zu Haiku für schnelle Aufgaben. Wechsle zurück, wenn logisches Denken gefragt ist. Kein Neustart.

Runde 2: Kontextmanagement

Halte deinen Kontext schlank, um schnellere Antworten zu erhalten:

/compact        # Compress conversation history when it grows large
/clear          # Start fresh when switching to unrelated tasks

Greif zu „/compact“, sobald die Antworten ins Stocken geraten. Es fasst den Verlauf zu einer Zusammenfassung zusammen und behält dabei das Wesentliche bei, sodass die Token-Last pro Runde sinkt.

Runde 3: Schreibe spezifische Prompts

Die schnellste Optimierung braucht überhaupt keine Befehle. Nur eine präzisere Eingabeaufforderung:

Langsam: „Repariere diese Funktion“ Schnell: „Füge eine Null-Prüfung für den Benutzerparameter in handleSubmit hinzu“

Langsam: „Hilf mir mit der Datenbank“ Schnell: „Schreibe eine Prisma-Abfrage, um Benutzer mit ihren Beiträgen abzurufen, sortiert nach createdAt absteigend“

Präzise Prompts machen Schluss mit der „Moment, was meinst du damit?“-Runde. Das allein halbiert oft schon den gesamten Austausch.

Fortgeschrittene Techniken zur Beschleunigung

Parallele Sitzungen: Lass zwei Terminals laufen, wenn sich die Aufgaben nicht überschneiden. Frontend in einem. Backend im anderen.

Verwandte Aufgaben bündeln: Eine Eingabeaufforderung kann drei Aufgaben gleichzeitig abdecken:

"In the UserProfile component:
1. Add loading state
2. Handle the error case
3. Add the avatar upload button"

CLAUDE.md-Muster: Speichere wiederkehrende Projektkonventionen in CLAUDE.md. Claude lädt die Datei selbstständig, sodass du nicht immer wieder dieselben Regeln erklären musst.

Shell-Aliase: Erstelle Verknüpfungen für gängige Arbeitsabläufe:

alias cc="claude"
alias cch="claude --model haiku"

Das Gleichgewicht zwischen Kosten und Geschwindigkeit

Die Optimierung der Geschwindigkeit senkt gleichzeitig die Kosten. Schnellere Antworten bedeuten in der Regel:

Weniger abgerechnete Tokens dank fokussiertem Kontext
Geringere Modellkosten, wenn Haiku die einfache Arbeit übernimmt
Mehr Leistung pro Dollar
Der Kontext stapelt sich nicht mehr zwischen den Durchläufen

Verankere diese Gewohnheiten frühzeitig. Der Abstand zu einer langsameren Konfiguration wird immer größer.

Wenn Geschwindigkeit am wichtigsten ist

Kurze Feedback-Schleifen: Debugging hängt von der Latenz ab. Jede eingesparte Sekunde summiert sich, sobald du dich mit dem Problem auseinandersetzt.

Explorationsphase: Probierst du verschiedene Ansätze aus? Kostengünstige Rückmeldungen machen dich mutiger. Fünf Ideen statt zwei.

Code-Reviews: Das Überprüfen eines Diffs oder das Einholen einer Erklärung funktioniert am besten, wenn der Austausch mit deinem Lesefortschritt Schritt hält.

Häufige Fehler bei der Geschwindigkeit

Nie komprimieren: Den Kontext wachsen lassen, bis die Antworten nur noch kriechen. Führe „/compact“ aus, bevor du an deine Grenzen stößt.

Sonnet für alles: Das schwerere Modell auf Jobs laufen zu lassen, die Haiku erledigt, funktioniert genauso gut.

Serielles Denken: Auf eine Antwort warten, bevor du die nächste Aufgabe startest, obwohl eine zweite Sitzung parallel laufen könnte.

Vage Anfragen: Claude das Rätselraten über die Vorgabe überlassen, anstatt sie von vornherein klar zu formulieren.

Erfolgsüberprüfung

Die Feinabstimmung ist gelungen, wenn:

Einfache Fragen fast sofort auf Haiku beantwortet werden
/compact losgeht, bevor Überladung dich ausbremst
Parallele Sitzungen laufen, wenn sich die Arbeit nicht überschneidet
Dein Programmierrhythmus bleibt ununterbrochen

Nächste Schritte

Werde sicher im Wechsel zwischen „/model haiku“ und „/model sonnet“
Arbeite das Kontextmanagement von Anfang bis Ende durch
Erstelle deine CLAUDE.md
Lerne parallele Arbeitsablaufmuster
Lerne das umfassendere Effizienz-Handbuch kennen

Optimierung der Geschwindigkeit

On this page