Kimi K2.6 in Claude Code betreiben

Was Kimi K2.6 ist

Moonshot AI hat K2.6 zwischen dem 18. und 20. April 2026 veröffentlicht. Das ist das dritte Modell der K2-Serie. Keine neue Architektur, sondern Post-Training auf Basis von K2.5. Der Sprung ist trotzdem spürbar.

Die Architektur ist ein Mixture-of-Experts-Modell mit 1 Billion Parametern. Pro Token sind 32 Milliarden Parameter aktiv (384 Experten gesamt, 8 geroutet plus 1 geteilt). Das Kontextfenster umfasst 256K Tokens. Native INT4-Quantisierung liefert Moonshot direkt mit, keine Community-Quantisierung nötig.

Cursor hat Composer 2 auf Kimi K2.5 gebaut, der Vorgängerversion dieser Familie. K2.6 gehört zur gleichen Modellfamilie, die aktuell eines der meistgenutzten KI-Dev-Tools antreibt.

Die Benchmark-Zahlen für Coding und agentenbasierte Tasks:

Benchmark	Kimi K2.6	Claude Opus 4.6	Hinweise
SWE-Bench Pro	58,6%	53,4%	K2.6 führt um 5,2 Punkte
SWE-Bench Verified	80,2%	80,8%	Unterschied von 0,6 Punkten
LiveCodeBench (v6)	89,6%	88,8%	Kompetitives Coding
Terminal-Bench 2.0	66,7%	65,4%	Agentische Terminal-Nutzung
HLE-Full mit Tools	54,0%	53,0%	Expert-Level + Tool-Nutzung
HLE-Full ohne Tools	34,7%	40,0%	Lücke beim reinen Reasoning

Zwei Dinge fallen auf. K2.6 schlägt Claude Opus 4.6 bei SWE-Bench Pro um 5 Punkte. Das ist der härtere Benchmark: er erfordert Änderungen über mehrere Repositories und architektonisches Denken, nicht nur Patches in einzelnen Dateien. Beim reinen Reasoning ohne Tools (HLE-Full) führt Opus 4.6 um 5,3 Punkte. Diese Lücke zählt bei bestimmten Workloads, dazu weiter unten mehr.

Die Halluzinationsrate ist von 65% in K2.5 auf 39% in K2.6 gesunken. Das bringt K2.6 in Claude-Opus-Territorium bei der faktischen Zuverlässigkeit.

Das Problem: Claude Code greift standardmäßig auf Anthropic-Modelle zurück. Sonnet 4.6 im Team-Tempo zu nutzen kostet etwa 44 Dollar pro Entwickler und Monat. Für Produktionsarbeit beim Kunden ist das in Ordnung. Für eigene Projekte und Sideprojekte, bei denen man die Kosten selbst trägt, ist das viel.

Schneller Gewinn: OpenRouter stellt eine Anthropic-kompatible API bereit. ANTHROPIC_BASE_URL darauf zeigen lassen, alle drei Modell-Tier-Umgebungsvariablen auf moonshotai/kimi-k2.6 setzen, und Claude Code läuft auf Kimi K2.6. Die Kosten fallen auf rund 12 Dollar pro Monat. Das Modell belegt Platz 4 weltweit im Artificial Analysis Intelligence Index und ist das einzige Open-Weight-Modell in der Spitzengruppe.

Die vollständige Konfiguration:

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""

export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Warum das in Claude Code funktioniert

Claude Code liest ANTHROPIC_BASE_URL beim Start. Hinter dieser Variable kann jede Anthropic-kompatible API stecken.

OpenRouter bietet eine "Anthropic Skin": einen Endpoint, der sich wie die Anthropic Messages API verhält. Tool-Use geht durch. Thinking-Blöcke gehen durch. Das Model-Mapping übernimmt OpenRouter, Claude Code muss nie wissen, dass es mit einer anderen Modellfamilie spricht.

Das funktioniert in der Praxis im Produktionsbetrieb. OpenRouters eigenes App-Leaderboard zeigt Claude Code als drittgrößten Verbraucher von Kimi-K2.6-Tokens, nach Hermes Agent und OpenClaw. Drittanbieter-Beweis, kein theoretisches Setup.

Das Drei-Tier-Problem, das niemand erklärt

Das ist der Teil, den die meisten Setup-Guides überspringen. Und der Grund, warum die meisten ersten Versuche scheitern.

Claude Code routet Aufrufe über drei interne Modell-Tiers. Haiku übernimmt Hilfsaufgaben: Titel generieren, Kontext zusammenfassen, schnelle Completions. Sonnet erledigt die eigentliche Coding-Arbeit. Opus nimmt komplexe Reasoning-Tasks.

Jedes Tier verweist intern auf eine eigene Modell-ID. Setzt du nur ANTHROPIC_DEFAULT_SONNET_MODEL und lässt die anderen beiden leer, wirft Claude Code 404-Fehler, sobald es den Haiku- oder Opus-Tier aufzurufen versucht. Die Fehler sind sporadisch, was die Diagnose schwer macht. Manchmal läuft eine Session prima und bricht dann mitten in der Aufgabe ab, wenn ein Hilfsaufruf kommt.

Alle drei Variablen müssen explizit gesetzt werden:

export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"

ANTHROPIC_API_KEY="" muss ebenfalls auf einen explizit leeren String gesetzt werden. Nicht gesetzt ist anders als leer gesetzt. Claude Codes interne Auth-Logik behandelt beides unterschiedlich und fällt möglicherweise auf die Suche nach einem lokalen Anthropic-Key zurück.

Vollständiges Setup: Shell-Profil-Konfiguration

Alles in ~/.zshrc oder ~/.bashrc eintragen, damit es automatisch für jede Claude-Code-Session gilt. Der vollständige Block:

# Add to ~/.zshrc or ~/.bashrc

export OPENROUTER_API_KEY="sk-or-..."

# Point Claude Code at OpenRouter
export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""  # Must be explicitly empty string

# Map all three Claude Code model tiers to Kimi K2.6
export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Für eine kostensparende Hybrid-Variante: Hilfsaufgaben auf ein freies Modell routen, K2.6 nur für die Coding-Tiers:

export ANTHROPIC_DEFAULT_HAIKU_MODEL="qwen/qwen3-4b:free"   # aux tasks
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6" # main coding
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"   # complex reasoning

Der Haiku-Tier feuert häufig für Low-Stakes-Operationen. Diese auf ein freies Modell zu routen senkt die Kosten weiter, ohne die Qualität der eigentlichen Code-Arbeit zu beeinflussen.

Provider-Wahl auf OpenRouter

OpenRouter listet Kimi K2.6 über mehrere Infrastruktur-Provider. Die Tool-Fehlerrate variiert erheblich:

Provider	Tool-Fehlerrate	Hinweise
Moonshot AI	0,20%	Niedrigste; diesen wählen
NovitaAI	0,44%
Cloudflare	1,86%	Höchste; bei komplexen Tool-Calls meiden

Die OpenRouter-Modell-ID moonshotai/kimi-k2.6 routet standardmäßig zum Moonshot-AI-Provider. Das ist die richtige Wahl. Cloudflares 1,86% klingen klein, bis ein Tool-Call mitten im Agent-Run scheitert und du von vorne anfangen musst.

Wofür K2.6 gut ist, wann man bei Claude bleibt

Guter Fit für K2.6:

Eigene Projekte und Sideprojekte, wo du die Rechnung selbst bezahlst
Kostensensitive Workloads, bei denen SWE-Bench-Pro-Parität mit Opus 4.6 ausreicht
Lange Coding-Sessions, bei denen sich der Kostenunterschied über viele Stunden summiert

Bei Claude Sonnet oder Opus bleiben, wenn:

Kunden-Produktionscode: Moonshot AI ist ein chinesisches Lab. Anthropic hat Moonshot in einer Beschwerde im Februar 2026 namentlich genannt. Enterprise-Datenschutzrichtlinien vieler Unternehmen verbieten explizit, Code über chinesisch betriebene Infrastruktur zu routen. Vor der Nutzung für Kundenarbeit prüfen.
Reines architektonisches Reasoning: HLE-Full ohne Tools zeigt Claude Opus 4.6 bei 40,0% gegenüber K2.6 bei 34,7%. Bei hochriskanten Architekturentscheidungen und ergebnisoffenem Reasoning ist dieser Unterschied real.
Kommerzieller Einsatz der Gewichte: K2.6 wird unter einer Modified-MIT-Lizenz veröffentlicht. Die Community-Diskussion auf HuggingFace weist darauf hin, dass "Modified MIT" keine standardisierte anerkannte Lizenz ist. Vor dem kommerziellen Einsatz der Gewichte in Kundenprojekten die tatsächlichen Lizenzbedingungen lesen.

Der richtige Rahmen ist nicht "K2.6 statt Claude". Er lautet: "K2.6 für eigene und kostensensitive Projekte, Claude für Kunden- und sensible Arbeit."

Kostenrechnung

OpenRouter-Preise für Kimi K2.6 (Moonshot-AI-Provider): 0,80 USD/M Input-Tokens, 3,50 USD/M Output-Tokens, 0,20 USD/M Cache-Read-Tokens.

Der Moonshot-AI-Provider erreicht bei Produktions-Workloads eine Cache-Hit-Rate von 93,1%. Das bringt die effektiven Input-Kosten nach Einrechnung der Cache-Reads auf rund 0,215 USD/M Tokens.

Für einen Claude-Code-typischen Workload (20 Prompts pro Tag, 22 Arbeitstage pro Monat, ungefähr 18K Input-Tokens plus 4K Output pro Prompt, 40% Cache-Hit-Rate) landen die monatlichen Kosten via OpenRouter bei rund 12-15 USD. Claude Sonnet 4.6 beim gleichen Volumen kostet etwa 44 USD pro Monat.

Das ist ein Unterschied von 29-32 USD pro Monat und Entwickler. Bei einem dreiköpfigen Sideprojekt, das seit sechs Monaten läuft, decken die Einsparungen die Build This Now-Lizenz gleich zweimal.

K2.6 besetzt eine spezifische Position: besser als Opus 4.6 bei den härtesten Coding-Benchmarks, zum Preis eines Budget-Modells, mit einem Datensouveränitäts-Trade-off, der sich leicht handhaben lässt, sobald man ihn versteht. Die Drei-Tier-Konfiguration der Umgebungsvariablen ist der einzige nicht-offensichtliche Teil. Alle drei Tiers setzen, den API-Key auf einen leeren String setzen, den Moonshot-AI-Provider auf OpenRouter wählen. Alles andere ist Standard-Claude Code.