Build This Now
Build This Now
Was ist der Claude Code?Claude Code installierenClaude Code Native InstallerDein erstes Claude Code-Projekt
DESIGN.md: KI-UI-Inkonsistenz behebenClaude Buddy/powerupDer Claude Code Source-Map-LeakFork Subagents in Claude CodeKimi K2.6 in Claude Code betreibenAuto Memory in Claude CodeAuto Memory in Claude CodeAuto Memory in Claude CodeAuto Memory in Claude Code
speedy_devvkoen_salo
Blog/Handbook/Core/Kimi K2.6: What Actually Changed

Kimi K2.6 in Claude Code betreiben

Kimi K2.6 ist das Open-Weight-Modell hinter Cursor. So routest du Claude Code über OpenRouter durch Kimi, für etwa 12 Dollar pro Entwickler und Monat.

Hören Sie auf zu konfigurieren. Fangen Sie an zu bauen.

SaaS-Builder-Vorlagen mit KI-Orchestrierung.

Published Apr 22, 20267 min readHandbook hubCore index

Was Kimi K2.6 ist

Moonshot AI hat K2.6 zwischen dem 18. und 20. April 2026 veröffentlicht. Das ist das dritte Modell der K2-Serie. Keine neue Architektur, sondern Post-Training auf Basis von K2.5. Der Sprung ist trotzdem spürbar.

Die Architektur ist ein Mixture-of-Experts-Modell mit 1 Billion Parametern. Pro Token sind 32 Milliarden Parameter aktiv (384 Experten gesamt, 8 geroutet plus 1 geteilt). Das Kontextfenster umfasst 256K Tokens. Native INT4-Quantisierung liefert Moonshot direkt mit, keine Community-Quantisierung nötig.

Cursor hat Composer 2 auf Kimi K2.5 gebaut, der Vorgängerversion dieser Familie. K2.6 gehört zur gleichen Modellfamilie, die aktuell eines der meistgenutzten KI-Dev-Tools antreibt.

Die Benchmark-Zahlen für Coding und agentenbasierte Tasks:

BenchmarkKimi K2.6Claude Opus 4.6Hinweise
SWE-Bench Pro58,6%53,4%K2.6 führt um 5,2 Punkte
SWE-Bench Verified80,2%80,8%Unterschied von 0,6 Punkten
LiveCodeBench (v6)89,6%88,8%Kompetitives Coding
Terminal-Bench 2.066,7%65,4%Agentische Terminal-Nutzung
HLE-Full mit Tools54,0%53,0%Expert-Level + Tool-Nutzung
HLE-Full ohne Tools34,7%40,0%Lücke beim reinen Reasoning

Zwei Dinge fallen auf. K2.6 schlägt Claude Opus 4.6 bei SWE-Bench Pro um 5 Punkte. Das ist der härtere Benchmark: er erfordert Änderungen über mehrere Repositories und architektonisches Denken, nicht nur Patches in einzelnen Dateien. Beim reinen Reasoning ohne Tools (HLE-Full) führt Opus 4.6 um 5,3 Punkte. Diese Lücke zählt bei bestimmten Workloads, dazu weiter unten mehr.

Die Halluzinationsrate ist von 65% in K2.5 auf 39% in K2.6 gesunken. Das bringt K2.6 in Claude-Opus-Territorium bei der faktischen Zuverlässigkeit.

Das Problem: Claude Code greift standardmäßig auf Anthropic-Modelle zurück. Sonnet 4.6 im Team-Tempo zu nutzen kostet etwa 44 Dollar pro Entwickler und Monat. Für Produktionsarbeit beim Kunden ist das in Ordnung. Für eigene Projekte und Sideprojekte, bei denen man die Kosten selbst trägt, ist das viel.

Schneller Gewinn: OpenRouter stellt eine Anthropic-kompatible API bereit. ANTHROPIC_BASE_URL darauf zeigen lassen, alle drei Modell-Tier-Umgebungsvariablen auf moonshotai/kimi-k2.6 setzen, und Claude Code läuft auf Kimi K2.6. Die Kosten fallen auf rund 12 Dollar pro Monat. Das Modell belegt Platz 4 weltweit im Artificial Analysis Intelligence Index und ist das einzige Open-Weight-Modell in der Spitzengruppe.

Die vollständige Konfiguration:

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""

export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Warum das in Claude Code funktioniert

Claude Code liest ANTHROPIC_BASE_URL beim Start. Hinter dieser Variable kann jede Anthropic-kompatible API stecken.

OpenRouter bietet eine "Anthropic Skin": einen Endpoint, der sich wie die Anthropic Messages API verhält. Tool-Use geht durch. Thinking-Blöcke gehen durch. Das Model-Mapping übernimmt OpenRouter, Claude Code muss nie wissen, dass es mit einer anderen Modellfamilie spricht.

Das funktioniert in der Praxis im Produktionsbetrieb. OpenRouters eigenes App-Leaderboard zeigt Claude Code als drittgrößten Verbraucher von Kimi-K2.6-Tokens, nach Hermes Agent und OpenClaw. Drittanbieter-Beweis, kein theoretisches Setup.

Das Drei-Tier-Problem, das niemand erklärt

Das ist der Teil, den die meisten Setup-Guides überspringen. Und der Grund, warum die meisten ersten Versuche scheitern.

Claude Code routet Aufrufe über drei interne Modell-Tiers. Haiku übernimmt Hilfsaufgaben: Titel generieren, Kontext zusammenfassen, schnelle Completions. Sonnet erledigt die eigentliche Coding-Arbeit. Opus nimmt komplexe Reasoning-Tasks.

Jedes Tier verweist intern auf eine eigene Modell-ID. Setzt du nur ANTHROPIC_DEFAULT_SONNET_MODEL und lässt die anderen beiden leer, wirft Claude Code 404-Fehler, sobald es den Haiku- oder Opus-Tier aufzurufen versucht. Die Fehler sind sporadisch, was die Diagnose schwer macht. Manchmal läuft eine Session prima und bricht dann mitten in der Aufgabe ab, wenn ein Hilfsaufruf kommt.

Alle drei Variablen müssen explizit gesetzt werden:

export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"

ANTHROPIC_API_KEY="" muss ebenfalls auf einen explizit leeren String gesetzt werden. Nicht gesetzt ist anders als leer gesetzt. Claude Codes interne Auth-Logik behandelt beides unterschiedlich und fällt möglicherweise auf die Suche nach einem lokalen Anthropic-Key zurück.

Vollständiges Setup: Shell-Profil-Konfiguration

Alles in ~/.zshrc oder ~/.bashrc eintragen, damit es automatisch für jede Claude-Code-Session gilt. Der vollständige Block:

# Add to ~/.zshrc or ~/.bashrc

export OPENROUTER_API_KEY="sk-or-..."

# Point Claude Code at OpenRouter
export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""  # Must be explicitly empty string

# Map all three Claude Code model tiers to Kimi K2.6
export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Für eine kostensparende Hybrid-Variante: Hilfsaufgaben auf ein freies Modell routen, K2.6 nur für die Coding-Tiers:

export ANTHROPIC_DEFAULT_HAIKU_MODEL="qwen/qwen3-4b:free"   # aux tasks
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6" # main coding
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"   # complex reasoning

Der Haiku-Tier feuert häufig für Low-Stakes-Operationen. Diese auf ein freies Modell zu routen senkt die Kosten weiter, ohne die Qualität der eigentlichen Code-Arbeit zu beeinflussen.

Provider-Wahl auf OpenRouter

OpenRouter listet Kimi K2.6 über mehrere Infrastruktur-Provider. Die Tool-Fehlerrate variiert erheblich:

ProviderTool-FehlerrateHinweise
Moonshot AI0,20%Niedrigste; diesen wählen
NovitaAI0,44%
Cloudflare1,86%Höchste; bei komplexen Tool-Calls meiden

Die OpenRouter-Modell-ID moonshotai/kimi-k2.6 routet standardmäßig zum Moonshot-AI-Provider. Das ist die richtige Wahl. Cloudflares 1,86% klingen klein, bis ein Tool-Call mitten im Agent-Run scheitert und du von vorne anfangen musst.

Wofür K2.6 gut ist, wann man bei Claude bleibt

Guter Fit für K2.6:

  • Eigene Projekte und Sideprojekte, wo du die Rechnung selbst bezahlst
  • Kostensensitive Workloads, bei denen SWE-Bench-Pro-Parität mit Opus 4.6 ausreicht
  • Lange Coding-Sessions, bei denen sich der Kostenunterschied über viele Stunden summiert

Bei Claude Sonnet oder Opus bleiben, wenn:

  • Kunden-Produktionscode: Moonshot AI ist ein chinesisches Lab. Anthropic hat Moonshot in einer Beschwerde im Februar 2026 namentlich genannt. Enterprise-Datenschutzrichtlinien vieler Unternehmen verbieten explizit, Code über chinesisch betriebene Infrastruktur zu routen. Vor der Nutzung für Kundenarbeit prüfen.
  • Reines architektonisches Reasoning: HLE-Full ohne Tools zeigt Claude Opus 4.6 bei 40,0% gegenüber K2.6 bei 34,7%. Bei hochriskanten Architekturentscheidungen und ergebnisoffenem Reasoning ist dieser Unterschied real.
  • Kommerzieller Einsatz der Gewichte: K2.6 wird unter einer Modified-MIT-Lizenz veröffentlicht. Die Community-Diskussion auf HuggingFace weist darauf hin, dass "Modified MIT" keine standardisierte anerkannte Lizenz ist. Vor dem kommerziellen Einsatz der Gewichte in Kundenprojekten die tatsächlichen Lizenzbedingungen lesen.

Der richtige Rahmen ist nicht "K2.6 statt Claude". Er lautet: "K2.6 für eigene und kostensensitive Projekte, Claude für Kunden- und sensible Arbeit."

Kostenrechnung

OpenRouter-Preise für Kimi K2.6 (Moonshot-AI-Provider): 0,80 USD/M Input-Tokens, 3,50 USD/M Output-Tokens, 0,20 USD/M Cache-Read-Tokens.

Der Moonshot-AI-Provider erreicht bei Produktions-Workloads eine Cache-Hit-Rate von 93,1%. Das bringt die effektiven Input-Kosten nach Einrechnung der Cache-Reads auf rund 0,215 USD/M Tokens.

Für einen Claude-Code-typischen Workload (20 Prompts pro Tag, 22 Arbeitstage pro Monat, ungefähr 18K Input-Tokens plus 4K Output pro Prompt, 40% Cache-Hit-Rate) landen die monatlichen Kosten via OpenRouter bei rund 12-15 USD. Claude Sonnet 4.6 beim gleichen Volumen kostet etwa 44 USD pro Monat.

Das ist ein Unterschied von 29-32 USD pro Monat und Entwickler. Bei einem dreiköpfigen Sideprojekt, das seit sechs Monaten läuft, decken die Einsparungen die Build This Now-Lizenz gleich zweimal.


K2.6 besetzt eine spezifische Position: besser als Opus 4.6 bei den härtesten Coding-Benchmarks, zum Preis eines Budget-Modells, mit einem Datensouveränitäts-Trade-off, der sich leicht handhaben lässt, sobald man ihn versteht. Die Drei-Tier-Konfiguration der Umgebungsvariablen ist der einzige nicht-offensichtliche Teil. Alle drei Tiers setzen, den API-Key auf einen leeren String setzen, den Moonshot-AI-Provider auf OpenRouter wählen. Alles andere ist Standard-Claude Code.

Continue in Core

  • 1M-Kontext-Fenster in Claude Code
    Anthropic hat das 1-Mio.-Token-Kontextfenster für Opus 4.6 und Sonnet 4.6 in Claude Code aktiviert. Kein Beta-Header, kein Aufpreis, feste Preise und weniger Kompaktierungen.
  • AGENTS.md vs CLAUDE.md erklärt
    Zwei Kontext-Dateien, eine Codebase. Wie AGENTS.md und CLAUDE.md sich unterscheiden, was jede macht und wie du beide nutzt, ohne etwas zu duplizieren.
  • Auto Dream
    Claude Code räumt zwischen Sessions seine eigenen Projektnotizen auf. Veraltete Einträge werden gelöscht, Widersprüche aufgelöst, Themen-Dateien umsortiert. Starte mit /memory.
  • Automatischer Speicher in Claude Code
    Mit dem automatischen Speicher kann Claude Code die Projektnotizen weiterführen. Wo sich die Dateien befinden, was geschrieben wird, wie /memory es umschaltet und wann man es über CLAUDE.md auswählt.
  • Auto-Planning-Strategien
    Auto Plan Mode nutzt --append-system-prompt, um Claude Code in eine Plan-zuerst-Schleife zu zwingen. Dateioperationen pausieren zur Genehmigung, bevor irgendetwas angefasst wird.
  • Autonomes Claude Code
    Ein einheitlicher Stack für Agenten, die Features über Nacht ausliefern. Threads geben dir die Struktur, Ralph-Schleifen geben dir die Autonomie, Verifikation hält alles ehrlich.

More from Handbook

  • Grundlagen für Agenten
    Fünf Möglichkeiten, spezialisierte Agenten in Claude Code zu erstellen: Aufgaben-Unteragenten, .claude/agents YAML, benutzerdefinierte Slash-Befehle, CLAUDE.md Personas und perspektivische Aufforderungen.
  • Agent-Harness-Engineering
    Der Harness ist jede Schicht rund um deinen KI-Agenten, außer dem Modell selbst. Lern die fünf Steuerungshebel, das Constraint-Paradoxon und warum das Harness-Design die Performance des Agenten mehr bestimmt als das Modell.
  • Agenten-Muster
    Orchestrator, Fan-out, Validierungskette, Spezialistenrouting, Progressive Verfeinerung und Watchdog. Sechs Orchestrierungsformen, um Claude Code Sub-Agenten zu verdrahten.
  • Agent Teams Best Practices
    Bewährte Muster für Claude Code Agent Teams. Kontextreiche Spawn-Prompts, richtig bemessene Aufgaben, Datei-Eigentümerschaft, Delegate-Modus und Fixes für v2.1.33-v2.1.45.

Hören Sie auf zu konfigurieren. Fangen Sie an zu bauen.

SaaS-Builder-Vorlagen mit KI-Orchestrierung.

Fork Subagents in Claude Code

CLAUDE_CODE_FORK_SUBAGENT=1 lässt parallele Kind-Agenten den Prompt-Cache-Prefix des Eltern-Agenten teilen, was die Input-Token-Kosten für Kinder 2-N um bis zu 90% senkt.

Auto Memory in Claude Code

Auto Memory lässt Claude Code laufende Projekt-Notizen speichern. Wo die Dateien liegen, was geschrieben wird, wie /memory es umschaltet und wann du es statt CLAUDE.md nutzen solltest.

On this page

Was Kimi K2.6 ist
Warum das in Claude Code funktioniert
Das Drei-Tier-Problem, das niemand erklärt
Vollständiges Setup: Shell-Profil-Konfiguration
Provider-Wahl auf OpenRouter
Wofür K2.6 gut ist, wann man bei Claude bleibt
Kostenrechnung

Hören Sie auf zu konfigurieren. Fangen Sie an zu bauen.

SaaS-Builder-Vorlagen mit KI-Orchestrierung.