Kimi K2.6 dans Claude Code

Ce qu'est Kimi K2.6

Moonshot AI a sorti K2.6 les 18-20 avril 2026. C'est le troisième modèle de la série K2, pas une nouvelle architecture, mais un post-entraînement continué sur la base de K2.5. Le saut est significatif.

L'architecture est un Mixture-of-Experts de 1 000 milliards de paramètres. Seuls 32 milliards de paramètres sont actifs par token (384 experts au total, 8 routés plus 1 partagé). Fenêtre de contexte : 256 K tokens. La quantification INT4 native est fournie directement par Moonshot. Pas besoin de quantification communautaire.

Cursor a construit Composer 2 sur Kimi K2.5, la version précédente de cette famille. K2.6, c'est la même famille de modèles qui propulse aujourd'hui l'un des outils de dev IA les plus utilisés.

Les benchmarks sur les tâches de codage et agentiques :

Benchmark	Kimi K2.6	Claude Opus 4.6	Notes
SWE-Bench Pro	58,6%	53,4%	K2.6 lead de 5,2 points
SWE-Bench Verified	80,2%	80,8%	Moins de 0,6 point d'écart
LiveCodeBench (v6)	89,6%	88,8%	Codage compétitif
Terminal-Bench 2.0	66,7%	65,4%	Usage terminal agentique
HLE-Full avec outils	54,0%	53,0%	Niveau expert + outils
HLE-Full sans outils	34,7%	40,0%	Écart sur le raisonnement pur

Deux choses se démarquent. K2.6 bat Claude Opus 4.6 sur SWE-Bench Pro de 5 points. C'est le benchmark le plus difficile : il requiert des changements multi-dépôts et du raisonnement architectural, pas seulement des patches sur un fichier unique. Sur le raisonnement pur (HLE-Full sans outils), Opus 4.6 mène de 5,3 points. Cet écart compte pour certaines charges de travail, couvertes plus bas.

Le taux d'hallucination est passé de 65% dans K2.5 à 39% dans K2.6. Il se retrouve dans les eaux de Claude Opus sur la fiabilité factuelle.

Le problème : Claude Code utilise par défaut les modèles Anthropic. Tourner avec Sonnet 4.6 au rythme d'une équipe revient à environ 44 $/mois par développeur. C'est acceptable pour du client pro. C'est beaucoup pour des projets perso et des side products où tu absorbes le coût toi-même.

La solution : OpenRouter expose une API compatible Anthropic. Pointe ANTHROPIC_BASE_URL dessus, définis les trois variables de tier de modèle sur moonshotai/kimi-k2.6, et Claude Code tourne sur Kimi K2.6. Le coût tombe à environ 12 $/mois. Le modèle est classé 4e mondial sur l'Artificial Analysis Intelligence Index. C'est le seul modèle open-weight dans le tier supérieur.

La config complète :

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""

export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Pourquoi ça marche dans Claude Code

Claude Code lit ANTHROPIC_BASE_URL au démarrage. N'importe quelle API compatible Anthropic peut se placer derrière cette variable.

OpenRouter propose ce qu'il appelle un "Anthropic Skin" : un endpoint qui se comporte comme l'API Anthropic Messages. L'usage d'outils passe. Les blocs de thinking passent. Le mapping de modèles est géré côté OpenRouter, donc Claude Code n'a jamais besoin de savoir qu'il parle à une autre famille de modèles.

C'est en production à grande échelle. Le leaderboard d'applications d'OpenRouter montre Claude Code en 3e consommateur de tokens Kimi K2.6, derrière seulement Hermes Agent et OpenClaw. Preuve tierce, pas une config théorique.

Le problème des trois tiers que personne ne mentionne

C'est la partie que la plupart des guides d'installation ignorent. C'est aussi pourquoi la plupart des premières tentatives échouent.

Claude Code route les appels sur trois tiers de modèles internes. Haiku gère les tâches auxiliaires : générer des titres, résumer le contexte, compléter rapidement. Sonnet gère le travail de codage principal. Opus prend les tâches de raisonnement complexe.

Chaque tier correspond à un ID de modèle séparé sous le capot. Si tu définis seulement ANTHROPIC_DEFAULT_SONNET_MODEL et laisses les deux autres vides, Claude Code renvoie des erreurs 404 dès qu'il essaie d'appeler le tier Haiku ou Opus. Les erreurs sont intermittentes, ce qui les rend difficiles à diagnostiquer. Parfois une session fonctionne bien, puis casse en cours de tâche quand un appel auxiliaire se déclenche.

Les trois variables doivent être définies explicitement :

export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"

ANTHROPIC_API_KEY="" doit aussi être défini comme chaîne explicitement vide. Le laisser non défini est différent de le mettre à vide. La logique d'authentification interne de Claude Code les traite différemment et peut revenir chercher une clé Anthropic locale.

Config complète : profil shell

Ajoute tout dans ~/.zshrc ou ~/.bashrc pour que ça s'applique automatiquement à chaque session Claude Code. Le bloc complet :

# Add to ~/.zshrc or ~/.bashrc

export OPENROUTER_API_KEY="sk-or-..."

# Point Claude Code at OpenRouter
export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""  # Must be explicitly empty string

# Map all three Claude Code model tiers to Kimi K2.6
export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Pour une variante hybride optimisée en coût, route les tâches auxiliaires vers un modèle gratuit et garde K2.6 pour les tiers de codage :

export ANTHROPIC_DEFAULT_HAIKU_MODEL="qwen/qwen3-4b:free"   # aux tasks
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6" # main coding
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"   # complex reasoning

Le tier Haiku se déclenche fréquemment pour des opérations à faible enjeu. Les faire tourner sur un modèle gratuit réduit encore les coûts sans toucher à la qualité du vrai travail de code.

Choix du provider sur OpenRouter

OpenRouter propose Kimi K2.6 via plusieurs providers d'infrastructure. Le taux d'erreur d'outil varie sensiblement entre eux :

Provider	Taux d'erreur outil	Notes
Moonshot AI	0,20%	Le plus bas, prends celui-là
NovitaAI	0,44%
Cloudflare	1,86%	Le plus haut, évite pour les appels d'outils complexes

L'ID de modèle OpenRouter moonshotai/kimi-k2.6 route vers le provider Moonshot AI par défaut. C'est le bon choix. Un taux d'erreur Cloudflare de 1,86% paraît faible jusqu'à ce qu'un appel d'outil plante en pleine exécution d'agent et que tu doives tout redémarrer.

Quand K2.6 est bon vs quand rester sur Claude

K2.6 est adapté pour :

Les projets perso et side products où tu paies la facture toi-même
Les workloads sensibles au coût où la parité SWE-Bench Pro avec Opus 4.6 suffit
Les longues sessions de codage où la différence de coût se cumule sur de nombreuses heures

Reste sur Claude Sonnet ou Opus quand :

Code client en production : Moonshot AI est un labo chinois. Anthropic a nommé Moonshot dans une plainte juridique de février 2026. Les politiques de données d'entreprise de beaucoup de sociétés interdisent explicitement de router du code via une infrastructure appartenant à des Chinois. Vérifie avant d'utiliser ça sur du travail client.
Raisonnement architectural pur : HLE-Full sans outils montre Claude Opus 4.6 à 40,0% contre K2.6 à 34,7%. Pour les décisions d'architecture à fort enjeu et les tâches de raisonnement ouvert, cet écart est réel.
Déploiement commercial des poids : K2.6 est fourni sous licence MIT Modifiée. Les discussions sur HuggingFace signalent que "MIT Modifiée" n'est pas une licence reconnue standard. Lis les termes de licence réels avant de déployer les poids dans du travail client commercial.

Le bon cadrage n'est pas "K2.6 à la place de Claude". C'est "K2.6 pour le perso et les travaux sensibles au coût, Claude pour les clients et les travaux sensibles".

Le calcul des coûts

Tarifs OpenRouter pour Kimi K2.6 (provider Moonshot AI) : 0,80 $/M tokens en entrée, 3,50 $/M tokens en sortie, 0,20 $/M tokens en lecture cache.

Le provider Moonshot AI atteint un taux de cache hit de 93,1% dans les workloads de production. Ça ramène le coût effectif en entrée à environ 0,215 $/M tokens une fois les lectures de cache intégrées.

Pour un workload style Claude Code (20 prompts par jour, 22 jours ouvrés par mois, environ 18 K tokens d'entrée plus 4 K de sortie par prompt, 40% de cache hit rate), le coût mensuel tombe à environ 12-15 $ via OpenRouter. Claude Sonnet 4.6 au même volume revient à environ 44 $/mois.

C'est une différence de 29-32 $ par mois par ingénieur. Sur un side project à trois personnes qui tourne depuis six mois, les économies couvrent la licence Build This Now deux fois.

K2.6 occupe une position précise : meilleur qu'Opus 4.6 sur les benchmarks de codage les plus durs, au prix d'un modèle budget, avec un compromis sur la souveraineté des données facile à gérer une fois compris. La config des trois tiers de variables d'environnement est la seule partie non évidente. Définis les trois tiers, mets la clé API à une chaîne vide, choisis le provider Moonshot AI sur OpenRouter. Tout le reste est du Claude Code standard.