Kimi K2.6 dentro do Claude Code

O que é o Kimi K2.6

A Moonshot AI lançou o K2.6 entre 18 e 20 de abril de 2026. É o terceiro modelo da série K2. Não é uma nova arquitetura, mas pós-treino continuado sobre a base do K2.5. O salto é significativo.

A arquitetura é um modelo Mixture-of-Experts com 1 trilião de parâmetros. Apenas 32 mil milhões de parâmetros estão ativos por token (384 experts no total, 8 roteados mais 1 partilhado). A janela de contexto é de 256K tokens. A quantização INT4 nativa vem diretamente da Moonshot. Sem necessidade de quantização da comunidade.

O Cursor construiu o Composer 2 sobre o Kimi K2.5, a versão anterior desta família. O K2.6 é a mesma família de modelos que atualmente alimenta uma das ferramentas de dev com IA mais usadas.

Os números de benchmark para tarefas de codificação e agênticas:

Benchmark	Kimi K2.6	Claude Opus 4.6	Notas
SWE-Bench Pro	58.6%	53.4%	K2.6 lidera por 5.2 pontos
SWE-Bench Verified	80.2%	80.8%	Diferença de 0.6 pontos
LiveCodeBench (v6)	89.6%	88.8%	Codificação competitiva
Terminal-Bench 2.0	66.7%	65.4%	Uso agêntico de terminal
HLE-Full c/ ferramentas	54.0%	53.0%	Nível especialista + uso de ferramentas
HLE-Full sem ferramentas	34.7%	40.0%	Lacuna de raciocínio puro

Dois pontos se destacam. O K2.6 supera o Claude Opus 4.6 no SWE-Bench Pro por 5 pontos. Este é o benchmark mais difícil: exige mudanças em vários repositórios e raciocínio arquitetural, não apenas patches em ficheiros únicos. No raciocínio puro (HLE-Full sem ferramentas), o Opus 4.6 lidera por 5.3 pontos. Esta diferença importa em certos workloads, como explicamos a seguir.

A taxa de alucinação caiu de 65% no K2.5 para 39% no K2.6. Isso coloca-o em território do Claude Opus em fiabilidade factual.

Problema: O Claude Code usa modelos Anthropic por padrão. Correr o Sonnet 4.6 ao ritmo de uma equipa custa cerca de $44/mês por developer. Faz sentido para trabalho de cliente em produção. Para projetos pessoais e produtos paralelos onde absorves o custo tu mesmo, já é muito.

Solução rápida: O OpenRouter expõe uma API compatível com Anthropic. Aponta ANTHROPIC_BASE_URL para ele, define as três variáveis de ambiente dos tiers de modelo para moonshotai/kimi-k2.6, e o Claude Code passa a correr em Kimi K2.6. O custo cai para cerca de $12/mês. O modelo está em 4.º lugar no Artificial Analysis Intelligence Index. É o único modelo open-weight no tier de topo.

A configuração completa:

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""

export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Porque é que Isto Funciona no Claude Code

O Claude Code lê ANTHROPIC_BASE_URL no arranque. Qualquer API compatível com Anthropic pode ficar por trás dessa variável.

O OpenRouter oferece o que chama um "Anthropic Skin": um endpoint que se comporta como a Anthropic Messages API. O uso de ferramentas passa normalmente. Os blocos de thinking passam normalmente. O mapeamento de modelos é tratado do lado do OpenRouter, por isso o Claude Code nunca precisa de saber que está a falar com uma família de modelos diferente.

Isto está a funcionar em produção em escala. O próprio leaderboard de apps do OpenRouter mostra o Claude Code como o 3.º maior consumidor de tokens do Kimi K2.6, atrás apenas do Hermes Agent e do OpenClaw. Evidência de terceiros, não uma configuração teórica.

O Problema dos Três Tiers que Ninguém Menciona

Esta é a parte que a maioria dos guias de configuração salta. É também a razão pela qual a maioria das primeiras tentativas falha.

O Claude Code distribui chamadas por três tiers internos de modelos. O Haiku trata das tarefas auxiliares: gerar títulos, resumir contexto, completions rápidas. O Sonnet trata do trabalho principal de codificação. O Opus fica com as tarefas de raciocínio complexo.

Cada tier mapeia para um ID de modelo separado internamente. Se defines só ANTHROPIC_DEFAULT_SONNET_MODEL e deixas os outros dois vazios, o Claude Code dá erros 404 no momento em que tenta chamar o tier Haiku ou Opus. Os erros são intermitentes, o que os torna difíceis de diagnosticar. Às vezes uma sessão corre bem, depois parte a meio de uma tarefa quando uma chamada auxiliar dispara.

As três variáveis têm de ser definidas explicitamente:

export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"

ANTHROPIC_API_KEY="" também tem de ser definido como string vazia explícita. Deixá-lo por definir é diferente de defini-lo como vazio. A lógica de autenticação interna do Claude Code trata-os de forma diferente e pode tentar procurar uma chave Anthropic local.

Configuração Completa: Perfil de Shell

Adiciona tudo ao ~/.zshrc ou ~/.bashrc para que se aplique automaticamente a todas as sessões do Claude Code. O bloco completo:

# Add to ~/.zshrc or ~/.bashrc

export OPENROUTER_API_KEY="sk-or-..."

# Point Claude Code at OpenRouter
export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""  # Must be explicitly empty string

# Map all three Claude Code model tiers to Kimi K2.6
export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Para uma variante híbrida otimizada em custo, redireciona as tarefas auxiliares para um modelo gratuito e mantém o K2.6 para os tiers de codificação:

export ANTHROPIC_DEFAULT_HAIKU_MODEL="qwen/qwen3-4b:free"   # aux tasks
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6" # main coding
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"   # complex reasoning

O tier Haiku dispara frequentemente para operações de baixo risco. Correr essas num modelo gratuito reduz ainda mais os custos sem tocar na qualidade do trabalho de código.

Escolha do Provider no OpenRouter

O OpenRouter lista o Kimi K2.6 através de vários providers de infraestrutura. A taxa de erro com ferramentas varia significativamente entre eles:

Provider	Taxa de erro com ferramentas	Notas
Moonshot AI	0.20%	A mais baixa; usa este
NovitaAI	0.44%
Cloudflare	1.86%	A mais alta; evita para chamadas de ferramentas complexas

O ID de modelo OpenRouter moonshotai/kimi-k2.6 redireciona para o provider Moonshot AI por padrão. É a escolha certa. A taxa de erro de 1.86% da Cloudflare parece pequena até uma chamada de ferramenta falhar a meio de uma execução de agente e teres de recomeçar do zero.

Quando Usar K2.6 vs Quando Ficar no Claude

Bom encaixe para K2.6:

Projetos pessoais e produtos paralelos onde és tu a pagar a conta
Workloads sensíveis ao custo onde a paridade com o Opus 4.6 no SWE-Bench Pro é suficiente
Sessões longas de codificação onde a diferença de custo se acumula ao longo de muitas horas

Fica no Claude Sonnet ou Opus quando:

Código de cliente em produção: A Moonshot AI é um laboratório chinês. A Anthropic nomeou a Moonshot numa queixa legal em fevereiro de 2026. As políticas de dados empresariais de muitas empresas proíbem explicitamente redirecionar código através de infraestrutura de propriedade chinesa. Verifica antes de usar isto em trabalho de cliente.
Raciocínio arquitetural puro: O HLE-Full sem ferramentas mostra o Claude Opus 4.6 em 40.0% contra 34.7% do K2.6. Para decisões de arquitetura críticas e tarefas de raciocínio aberto, essa diferença é real.
Deployment comercial dos pesos: O K2.6 é lançado sob uma licença Modified MIT. A discussão na comunidade do HuggingFace assinala que "Modified MIT" não é uma licença padrão reconhecida. Lê os termos reais da licença antes de fazer deploy dos pesos em trabalho de cliente comercial.

O enquadramento certo não é "K2.6 em vez de Claude." É "K2.6 para trabalho pessoal e sensível ao custo, Claude para trabalho de cliente e trabalho sensível."

Matemática dos Custos

Preços do OpenRouter para Kimi K2.6 (provider Moonshot AI): $0.80/M tokens de entrada, $3.50/M tokens de saída, $0.20/M tokens de leitura de cache.

O provider Moonshot AI atinge uma taxa de acerto na cache de 93.1% em workloads de produção. Isso traz o custo efetivo de entrada para cerca de $0.215/M tokens depois de contabilizar as leituras de cache.

Para um workload no estilo Claude Code (20 prompts por dia, 22 dias úteis por mês, aproximadamente 18K tokens de entrada mais 4K de saída por prompt, 40% de taxa de acerto na cache), o custo mensal fica em cerca de $12-15 via OpenRouter. O Claude Sonnet 4.6 ao mesmo volume corre a aproximadamente $44/mês.

Isso é uma diferença de $29-32/mês por engenheiro. Num projeto paralelo de três pessoas a correr há seis meses, a poupança cobre a licença do Build This Now duas vezes.

O K2.6 ocupa uma posição específica: melhor que o Opus 4.6 nos benchmarks de codificação mais difíceis, com preço de modelo económico, e com uma contrapartida de soberania de dados que é fácil de gerir quando a entendes. A configuração das três variáveis de ambiente por tier é a única parte não óbvia. Define os três tiers, define a API key como string vazia, escolhe o provider Moonshot AI no OpenRouter. O resto é Claude Code padrão.