Build This Now
Build This Now
Qu'est-ce que le code Claude ?Installer Claude CodeL'installateur natif de Claude CodeTon premier projet Claude Code
DESIGN.md : Résoudre l'incohérence UI avec Claude CodeClaude Buddy/powerupLa Fuite des Source Maps de Claude CodeFork Subagents dans Claude CodeKimi K2.6 dans Claude CodeMémoire automatique dans le code ClaudeAuto Memory dans Claude CodeAuto Memory dans Claude CodeAuto Memory dans Claude CodeAuto Memory dans Claude Code
speedy_devvkoen_salo
Blog/Handbook/Core/Kimi K2.6: What Actually Changed

Kimi K2.6 dans Claude Code

Kimi K2.6 est le modèle open-weight qui propulse Cursor. Voici comment rediriger Claude Code via OpenRouter pour tourner à environ 12 $ par ingénieur et par mois.

Arrêtez de configurer. Commencez à construire.

Templates SaaS avec orchestration IA.

Published Apr 22, 20267 min readHandbook hubCore index

Ce qu'est Kimi K2.6

Moonshot AI a sorti K2.6 les 18-20 avril 2026. C'est le troisième modèle de la série K2, pas une nouvelle architecture, mais un post-entraînement continué sur la base de K2.5. Le saut est significatif.

L'architecture est un Mixture-of-Experts de 1 000 milliards de paramètres. Seuls 32 milliards de paramètres sont actifs par token (384 experts au total, 8 routés plus 1 partagé). Fenêtre de contexte : 256 K tokens. La quantification INT4 native est fournie directement par Moonshot. Pas besoin de quantification communautaire.

Cursor a construit Composer 2 sur Kimi K2.5, la version précédente de cette famille. K2.6, c'est la même famille de modèles qui propulse aujourd'hui l'un des outils de dev IA les plus utilisés.

Les benchmarks sur les tâches de codage et agentiques :

BenchmarkKimi K2.6Claude Opus 4.6Notes
SWE-Bench Pro58,6%53,4%K2.6 lead de 5,2 points
SWE-Bench Verified80,2%80,8%Moins de 0,6 point d'écart
LiveCodeBench (v6)89,6%88,8%Codage compétitif
Terminal-Bench 2.066,7%65,4%Usage terminal agentique
HLE-Full avec outils54,0%53,0%Niveau expert + outils
HLE-Full sans outils34,7%40,0%Écart sur le raisonnement pur

Deux choses se démarquent. K2.6 bat Claude Opus 4.6 sur SWE-Bench Pro de 5 points. C'est le benchmark le plus difficile : il requiert des changements multi-dépôts et du raisonnement architectural, pas seulement des patches sur un fichier unique. Sur le raisonnement pur (HLE-Full sans outils), Opus 4.6 mène de 5,3 points. Cet écart compte pour certaines charges de travail, couvertes plus bas.

Le taux d'hallucination est passé de 65% dans K2.5 à 39% dans K2.6. Il se retrouve dans les eaux de Claude Opus sur la fiabilité factuelle.

Le problème : Claude Code utilise par défaut les modèles Anthropic. Tourner avec Sonnet 4.6 au rythme d'une équipe revient à environ 44 $/mois par développeur. C'est acceptable pour du client pro. C'est beaucoup pour des projets perso et des side products où tu absorbes le coût toi-même.

La solution : OpenRouter expose une API compatible Anthropic. Pointe ANTHROPIC_BASE_URL dessus, définis les trois variables de tier de modèle sur moonshotai/kimi-k2.6, et Claude Code tourne sur Kimi K2.6. Le coût tombe à environ 12 $/mois. Le modèle est classé 4e mondial sur l'Artificial Analysis Intelligence Index. C'est le seul modèle open-weight dans le tier supérieur.

La config complète :

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""

export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Pourquoi ça marche dans Claude Code

Claude Code lit ANTHROPIC_BASE_URL au démarrage. N'importe quelle API compatible Anthropic peut se placer derrière cette variable.

OpenRouter propose ce qu'il appelle un "Anthropic Skin" : un endpoint qui se comporte comme l'API Anthropic Messages. L'usage d'outils passe. Les blocs de thinking passent. Le mapping de modèles est géré côté OpenRouter, donc Claude Code n'a jamais besoin de savoir qu'il parle à une autre famille de modèles.

C'est en production à grande échelle. Le leaderboard d'applications d'OpenRouter montre Claude Code en 3e consommateur de tokens Kimi K2.6, derrière seulement Hermes Agent et OpenClaw. Preuve tierce, pas une config théorique.

Le problème des trois tiers que personne ne mentionne

C'est la partie que la plupart des guides d'installation ignorent. C'est aussi pourquoi la plupart des premières tentatives échouent.

Claude Code route les appels sur trois tiers de modèles internes. Haiku gère les tâches auxiliaires : générer des titres, résumer le contexte, compléter rapidement. Sonnet gère le travail de codage principal. Opus prend les tâches de raisonnement complexe.

Chaque tier correspond à un ID de modèle séparé sous le capot. Si tu définis seulement ANTHROPIC_DEFAULT_SONNET_MODEL et laisses les deux autres vides, Claude Code renvoie des erreurs 404 dès qu'il essaie d'appeler le tier Haiku ou Opus. Les erreurs sont intermittentes, ce qui les rend difficiles à diagnostiquer. Parfois une session fonctionne bien, puis casse en cours de tâche quand un appel auxiliaire se déclenche.

Les trois variables doivent être définies explicitement :

export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"

ANTHROPIC_API_KEY="" doit aussi être défini comme chaîne explicitement vide. Le laisser non défini est différent de le mettre à vide. La logique d'authentification interne de Claude Code les traite différemment et peut revenir chercher une clé Anthropic locale.

Config complète : profil shell

Ajoute tout dans ~/.zshrc ou ~/.bashrc pour que ça s'applique automatiquement à chaque session Claude Code. Le bloc complet :

# Add to ~/.zshrc or ~/.bashrc

export OPENROUTER_API_KEY="sk-or-..."

# Point Claude Code at OpenRouter
export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""  # Must be explicitly empty string

# Map all three Claude Code model tiers to Kimi K2.6
export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Pour une variante hybride optimisée en coût, route les tâches auxiliaires vers un modèle gratuit et garde K2.6 pour les tiers de codage :

export ANTHROPIC_DEFAULT_HAIKU_MODEL="qwen/qwen3-4b:free"   # aux tasks
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6" # main coding
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"   # complex reasoning

Le tier Haiku se déclenche fréquemment pour des opérations à faible enjeu. Les faire tourner sur un modèle gratuit réduit encore les coûts sans toucher à la qualité du vrai travail de code.

Choix du provider sur OpenRouter

OpenRouter propose Kimi K2.6 via plusieurs providers d'infrastructure. Le taux d'erreur d'outil varie sensiblement entre eux :

ProviderTaux d'erreur outilNotes
Moonshot AI0,20%Le plus bas, prends celui-là
NovitaAI0,44%
Cloudflare1,86%Le plus haut, évite pour les appels d'outils complexes

L'ID de modèle OpenRouter moonshotai/kimi-k2.6 route vers le provider Moonshot AI par défaut. C'est le bon choix. Un taux d'erreur Cloudflare de 1,86% paraît faible jusqu'à ce qu'un appel d'outil plante en pleine exécution d'agent et que tu doives tout redémarrer.

Quand K2.6 est bon vs quand rester sur Claude

K2.6 est adapté pour :

  • Les projets perso et side products où tu paies la facture toi-même
  • Les workloads sensibles au coût où la parité SWE-Bench Pro avec Opus 4.6 suffit
  • Les longues sessions de codage où la différence de coût se cumule sur de nombreuses heures

Reste sur Claude Sonnet ou Opus quand :

  • Code client en production : Moonshot AI est un labo chinois. Anthropic a nommé Moonshot dans une plainte juridique de février 2026. Les politiques de données d'entreprise de beaucoup de sociétés interdisent explicitement de router du code via une infrastructure appartenant à des Chinois. Vérifie avant d'utiliser ça sur du travail client.
  • Raisonnement architectural pur : HLE-Full sans outils montre Claude Opus 4.6 à 40,0% contre K2.6 à 34,7%. Pour les décisions d'architecture à fort enjeu et les tâches de raisonnement ouvert, cet écart est réel.
  • Déploiement commercial des poids : K2.6 est fourni sous licence MIT Modifiée. Les discussions sur HuggingFace signalent que "MIT Modifiée" n'est pas une licence reconnue standard. Lis les termes de licence réels avant de déployer les poids dans du travail client commercial.

Le bon cadrage n'est pas "K2.6 à la place de Claude". C'est "K2.6 pour le perso et les travaux sensibles au coût, Claude pour les clients et les travaux sensibles".

Le calcul des coûts

Tarifs OpenRouter pour Kimi K2.6 (provider Moonshot AI) : 0,80 $/M tokens en entrée, 3,50 $/M tokens en sortie, 0,20 $/M tokens en lecture cache.

Le provider Moonshot AI atteint un taux de cache hit de 93,1% dans les workloads de production. Ça ramène le coût effectif en entrée à environ 0,215 $/M tokens une fois les lectures de cache intégrées.

Pour un workload style Claude Code (20 prompts par jour, 22 jours ouvrés par mois, environ 18 K tokens d'entrée plus 4 K de sortie par prompt, 40% de cache hit rate), le coût mensuel tombe à environ 12-15 $ via OpenRouter. Claude Sonnet 4.6 au même volume revient à environ 44 $/mois.

C'est une différence de 29-32 $ par mois par ingénieur. Sur un side project à trois personnes qui tourne depuis six mois, les économies couvrent la licence Build This Now deux fois.


K2.6 occupe une position précise : meilleur qu'Opus 4.6 sur les benchmarks de codage les plus durs, au prix d'un modèle budget, avec un compromis sur la souveraineté des données facile à gérer une fois compris. La config des trois tiers de variables d'environnement est la seule partie non évidente. Définis les trois tiers, mets la clé API à une chaîne vide, choisis le provider Moonshot AI sur OpenRouter. Tout le reste est du Claude Code standard.

Continue in Core

  • La Fenêtre de Contexte 1M dans Claude Code
    Anthropic a activé la fenêtre de contexte 1M tokens pour Opus 4.6 et Sonnet 4.6 dans Claude Code. Sans header beta, sans surcharge, tarification fixe, et moins de compactions.
  • AGENTS.md vs CLAUDE.md : expliqué
    Deux fichiers de contexte, une seule base de code. Comment AGENTS.md et CLAUDE.md diffèrent, ce que chacun fait, et comment utiliser les deux sans rien dupliquer.
  • Auto Dream
    Claude Code nettoie ses propres notes de projet entre les sessions. Les entrées obsolètes sont supprimées, les contradictions résolues, les fichiers thématiques réorganisés. Lance /memory.
  • Mémoire automatique dans le code Claude
    La mémoire automatique permet à Claude Code de conserver des notes de projet en cours. Où se trouvent les fichiers, ce qui est écrit, comment /memory le fait basculer, et quand le choisir par rapport à CLAUDE.md.
  • Stratégies d'auto-planning
    Le mode Auto Plan utilise --append-system-prompt pour forcer Claude Code dans une boucle plan-d'abord. Les opérations sur les fichiers sont mises en pause pour approbation avant de toucher quoi que ce soit.
  • Claude Code Autonome
    Une stack unifiée pour des agents qui livrent des fonctionnalités la nuit. Les threads te donnent la structure, les boucles Ralph te donnent l'autonomie, la vérification garde ça honnête.

More from Handbook

  • Principes de base de l'agent
    Cinq façons de construire des agents spécialisés dans le code Claude : Sous-agents de tâches, .claude/agents YAML, commandes slash personnalisées, personas CLAUDE.md, et invites de perspective.
  • L'ingénierie du harness agent
    Le harness, c'est toutes les couches autour de ton agent IA sauf le modèle lui-même. Découvre les cinq leviers de contrôle, le paradoxe des contraintes, et pourquoi le design du harness détermine les performances de l'agent bien plus que le modèle.
  • Patterns d'agents
    Orchestrateur, fan-out, chaîne de validation, routage par spécialiste, raffinement progressif, et watchdog. Six formes d'orchestration pour câbler des sub-agents Claude Code.
  • Meilleures pratiques des équipes d'agents
    Patterns éprouvés pour les équipes d'agents Claude Code. Prompts de création riches en contexte, tâches bien calibrées, propriété des fichiers, mode délégué, et correctifs v2.1.33-v2.1.45.

Arrêtez de configurer. Commencez à construire.

Templates SaaS avec orchestration IA.

Fork Subagents dans Claude Code

CLAUDE_CODE_FORK_SUBAGENT=1 permet aux agents enfants parallèles de partager le cache de prompt du parent, réduisant les coûts de tokens en entrée jusqu'à 90% pour les enfants 2-N.

Mémoire automatique dans le code Claude

La mémoire automatique permet à Claude Code de conserver des notes de projet en cours. Où se trouvent les fichiers, ce qui est écrit, comment /memory le fait basculer, et quand le choisir par rapport à CLAUDE.md.

On this page

Ce qu'est Kimi K2.6
Pourquoi ça marche dans Claude Code
Le problème des trois tiers que personne ne mentionne
Config complète : profil shell
Choix du provider sur OpenRouter
Quand K2.6 est bon vs quand rester sur Claude
Le calcul des coûts

Arrêtez de configurer. Commencez à construire.

Templates SaaS avec orchestration IA.