Kimi K2.6 dans Claude Code
Kimi K2.6 est le modèle open-weight qui propulse Cursor. Voici comment rediriger Claude Code via OpenRouter pour tourner à environ 12 $ par ingénieur et par mois.
Arrêtez de configurer. Commencez à construire.
Templates SaaS avec orchestration IA.
Ce qu'est Kimi K2.6
Moonshot AI a sorti K2.6 les 18-20 avril 2026. C'est le troisième modèle de la série K2, pas une nouvelle architecture, mais un post-entraînement continué sur la base de K2.5. Le saut est significatif.
L'architecture est un Mixture-of-Experts de 1 000 milliards de paramètres. Seuls 32 milliards de paramètres sont actifs par token (384 experts au total, 8 routés plus 1 partagé). Fenêtre de contexte : 256 K tokens. La quantification INT4 native est fournie directement par Moonshot. Pas besoin de quantification communautaire.
Cursor a construit Composer 2 sur Kimi K2.5, la version précédente de cette famille. K2.6, c'est la même famille de modèles qui propulse aujourd'hui l'un des outils de dev IA les plus utilisés.
Les benchmarks sur les tâches de codage et agentiques :
| Benchmark | Kimi K2.6 | Claude Opus 4.6 | Notes |
|---|---|---|---|
| SWE-Bench Pro | 58,6% | 53,4% | K2.6 lead de 5,2 points |
| SWE-Bench Verified | 80,2% | 80,8% | Moins de 0,6 point d'écart |
| LiveCodeBench (v6) | 89,6% | 88,8% | Codage compétitif |
| Terminal-Bench 2.0 | 66,7% | 65,4% | Usage terminal agentique |
| HLE-Full avec outils | 54,0% | 53,0% | Niveau expert + outils |
| HLE-Full sans outils | 34,7% | 40,0% | Écart sur le raisonnement pur |
Deux choses se démarquent. K2.6 bat Claude Opus 4.6 sur SWE-Bench Pro de 5 points. C'est le benchmark le plus difficile : il requiert des changements multi-dépôts et du raisonnement architectural, pas seulement des patches sur un fichier unique. Sur le raisonnement pur (HLE-Full sans outils), Opus 4.6 mène de 5,3 points. Cet écart compte pour certaines charges de travail, couvertes plus bas.
Le taux d'hallucination est passé de 65% dans K2.5 à 39% dans K2.6. Il se retrouve dans les eaux de Claude Opus sur la fiabilité factuelle.
Le problème : Claude Code utilise par défaut les modèles Anthropic. Tourner avec Sonnet 4.6 au rythme d'une équipe revient à environ 44 $/mois par développeur. C'est acceptable pour du client pro. C'est beaucoup pour des projets perso et des side products où tu absorbes le coût toi-même.
La solution : OpenRouter expose une API compatible Anthropic. Pointe ANTHROPIC_BASE_URL dessus, définis les trois variables de tier de modèle sur moonshotai/kimi-k2.6, et Claude Code tourne sur Kimi K2.6. Le coût tombe à environ 12 $/mois. Le modèle est classé 4e mondial sur l'Artificial Analysis Intelligence Index. C'est le seul modèle open-weight dans le tier supérieur.
La config complète :
export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""
export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"Pourquoi ça marche dans Claude Code
Claude Code lit ANTHROPIC_BASE_URL au démarrage. N'importe quelle API compatible Anthropic peut se placer derrière cette variable.
OpenRouter propose ce qu'il appelle un "Anthropic Skin" : un endpoint qui se comporte comme l'API Anthropic Messages. L'usage d'outils passe. Les blocs de thinking passent. Le mapping de modèles est géré côté OpenRouter, donc Claude Code n'a jamais besoin de savoir qu'il parle à une autre famille de modèles.
C'est en production à grande échelle. Le leaderboard d'applications d'OpenRouter montre Claude Code en 3e consommateur de tokens Kimi K2.6, derrière seulement Hermes Agent et OpenClaw. Preuve tierce, pas une config théorique.
Le problème des trois tiers que personne ne mentionne
C'est la partie que la plupart des guides d'installation ignorent. C'est aussi pourquoi la plupart des premières tentatives échouent.
Claude Code route les appels sur trois tiers de modèles internes. Haiku gère les tâches auxiliaires : générer des titres, résumer le contexte, compléter rapidement. Sonnet gère le travail de codage principal. Opus prend les tâches de raisonnement complexe.
Chaque tier correspond à un ID de modèle séparé sous le capot. Si tu définis seulement ANTHROPIC_DEFAULT_SONNET_MODEL et laisses les deux autres vides, Claude Code renvoie des erreurs 404 dès qu'il essaie d'appeler le tier Haiku ou Opus. Les erreurs sont intermittentes, ce qui les rend difficiles à diagnostiquer. Parfois une session fonctionne bien, puis casse en cours de tâche quand un appel auxiliaire se déclenche.
Les trois variables doivent être définies explicitement :
export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"ANTHROPIC_API_KEY="" doit aussi être défini comme chaîne explicitement vide. Le laisser non défini est différent de le mettre à vide. La logique d'authentification interne de Claude Code les traite différemment et peut revenir chercher une clé Anthropic locale.
Config complète : profil shell
Ajoute tout dans ~/.zshrc ou ~/.bashrc pour que ça s'applique automatiquement à chaque session Claude Code. Le bloc complet :
# Add to ~/.zshrc or ~/.bashrc
export OPENROUTER_API_KEY="sk-or-..."
# Point Claude Code at OpenRouter
export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY="" # Must be explicitly empty string
# Map all three Claude Code model tiers to Kimi K2.6
export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"Pour une variante hybride optimisée en coût, route les tâches auxiliaires vers un modèle gratuit et garde K2.6 pour les tiers de codage :
export ANTHROPIC_DEFAULT_HAIKU_MODEL="qwen/qwen3-4b:free" # aux tasks
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6" # main coding
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6" # complex reasoningLe tier Haiku se déclenche fréquemment pour des opérations à faible enjeu. Les faire tourner sur un modèle gratuit réduit encore les coûts sans toucher à la qualité du vrai travail de code.
Choix du provider sur OpenRouter
OpenRouter propose Kimi K2.6 via plusieurs providers d'infrastructure. Le taux d'erreur d'outil varie sensiblement entre eux :
| Provider | Taux d'erreur outil | Notes |
|---|---|---|
| Moonshot AI | 0,20% | Le plus bas, prends celui-là |
| NovitaAI | 0,44% | |
| Cloudflare | 1,86% | Le plus haut, évite pour les appels d'outils complexes |
L'ID de modèle OpenRouter moonshotai/kimi-k2.6 route vers le provider Moonshot AI par défaut. C'est le bon choix. Un taux d'erreur Cloudflare de 1,86% paraît faible jusqu'à ce qu'un appel d'outil plante en pleine exécution d'agent et que tu doives tout redémarrer.
Quand K2.6 est bon vs quand rester sur Claude
K2.6 est adapté pour :
- Les projets perso et side products où tu paies la facture toi-même
- Les workloads sensibles au coût où la parité SWE-Bench Pro avec Opus 4.6 suffit
- Les longues sessions de codage où la différence de coût se cumule sur de nombreuses heures
Reste sur Claude Sonnet ou Opus quand :
- Code client en production : Moonshot AI est un labo chinois. Anthropic a nommé Moonshot dans une plainte juridique de février 2026. Les politiques de données d'entreprise de beaucoup de sociétés interdisent explicitement de router du code via une infrastructure appartenant à des Chinois. Vérifie avant d'utiliser ça sur du travail client.
- Raisonnement architectural pur : HLE-Full sans outils montre Claude Opus 4.6 à 40,0% contre K2.6 à 34,7%. Pour les décisions d'architecture à fort enjeu et les tâches de raisonnement ouvert, cet écart est réel.
- Déploiement commercial des poids : K2.6 est fourni sous licence MIT Modifiée. Les discussions sur HuggingFace signalent que "MIT Modifiée" n'est pas une licence reconnue standard. Lis les termes de licence réels avant de déployer les poids dans du travail client commercial.
Le bon cadrage n'est pas "K2.6 à la place de Claude". C'est "K2.6 pour le perso et les travaux sensibles au coût, Claude pour les clients et les travaux sensibles".
Le calcul des coûts
Tarifs OpenRouter pour Kimi K2.6 (provider Moonshot AI) : 0,80 $/M tokens en entrée, 3,50 $/M tokens en sortie, 0,20 $/M tokens en lecture cache.
Le provider Moonshot AI atteint un taux de cache hit de 93,1% dans les workloads de production. Ça ramène le coût effectif en entrée à environ 0,215 $/M tokens une fois les lectures de cache intégrées.
Pour un workload style Claude Code (20 prompts par jour, 22 jours ouvrés par mois, environ 18 K tokens d'entrée plus 4 K de sortie par prompt, 40% de cache hit rate), le coût mensuel tombe à environ 12-15 $ via OpenRouter. Claude Sonnet 4.6 au même volume revient à environ 44 $/mois.
C'est une différence de 29-32 $ par mois par ingénieur. Sur un side project à trois personnes qui tourne depuis six mois, les économies couvrent la licence Build This Now deux fois.
K2.6 occupe une position précise : meilleur qu'Opus 4.6 sur les benchmarks de codage les plus durs, au prix d'un modèle budget, avec un compromis sur la souveraineté des données facile à gérer une fois compris. La config des trois tiers de variables d'environnement est la seule partie non évidente. Définis les trois tiers, mets la clé API à une chaîne vide, choisis le provider Moonshot AI sur OpenRouter. Tout le reste est du Claude Code standard.
Arrêtez de configurer. Commencez à construire.
Templates SaaS avec orchestration IA.
Fork Subagents dans Claude Code
CLAUDE_CODE_FORK_SUBAGENT=1 permet aux agents enfants parallèles de partager le cache de prompt du parent, réduisant les coûts de tokens en entrée jusqu'à 90% pour les enfants 2-N.
Mémoire automatique dans le code Claude
La mémoire automatique permet à Claude Code de conserver des notes de projet en cours. Où se trouvent les fichiers, ce qui est écrit, comment /memory le fait basculer, et quand le choisir par rapport à CLAUDE.md.