Kimi K2.6: 何が変わったのか

Moonshot AIは2026年4月18日にK2.6をリリースしました。大々的な発表はなく、ブログ記事が静かに公開されただけ。大半の開発者が気づいた頃には、Claude CodeはすでにOpenRouterでK2.6トークンの3番目に大きな消費者になっていました。

このモデルは理解する価値があります。ベンチマークの見出し数字だけでなく、内部で何が変わったのかが重要です。

本当に重要な数字

多くのレポートはSWE-Bench Proの58.6%を先に取り上げます。Claude Opus 4.6の53.4%を超えています。これは本物の成果ですが、最も興味深い変化ではありません。

エージェントを動かしている人にとって重要なのは、次の2つのベンチマークです:

Toolathlonが27.8%から50.0%に上昇。 1バージョンでほぼ2倍です。Toolathlonは複雑なマルチステップシーケンスでモデルがツールを正しく使えるかを測定します。K2.5はここで本当に不安定でした。K2.6は違います。

MCPMarkが29.5%から55.9%に上昇。 MCPMarkはMCPツール呼び出しの精度を専門に測定します。OpenRouter経由でClaude Codeを使っている人にとって、エージェントの実行が完結するか途中で止まるかを予測する数字がこれです。K2.5の29.5%こそが、不安定な動作が報告され続けた原因でした。K2.6の55.9%が、そうした報告が止まった理由です。

幻覚率は65%から39%に低下。K2.5はアーキテクチャ作業には不安定すぎました。K2.6は事実の信頼性でClaude Opusのレベルに達しています。

Opus 4.6との比較コーディング全体像:

ベンチマーク	Kimi K2.6	Claude Opus 4.6
SWE-Bench Pro	58.6%	53.4%
SWE-Bench Verified	80.2%	80.8%
Terminal-Bench 2.0	66.7%	65.4%
LiveCodeBench v6	89.6%	88.8%
HLE-Full w/ tools	54.0%	53.0%
HLE-Full no tools	34.7%	40.0%
Toolathlon	50.0%	47.2%
MCPMark	55.9%	56.7%

コーディングベンチマークではK2.6がリードします。純粋な推論（ツールなしのHLEの行）ではOpus 4.6がリード。このギャップは実在しており、把握しておく価値があります。

Moonshotは実際のエンジニアリングタスクでK2.6を動かしました。MacでQwen3.5-0.8Bをローカルにデプロイし、Zigで推論を実装し、高速化を繰り返す、というものです。Zigはトレーニングデータが少ないニッチな言語です。モデルは12時間、4,000回以上のツール呼び出し、14回のイテレーションにわたって動作しました。最終結果: スループットが毎秒約15トークンから約193トークンに向上し、同じハードウェア上のLM Studioより20%高速化。

もう一つのタスク: 8年前のオープンソース金融マッチングエンジン exchange-core の大幅な改善。すでにパフォーマンスの限界近くで動いていたシステムです。モデルは13時間動作し、1,000回以上のツール呼び出しを行い、4,000行以上のコードを修正しました。CPUフレームグラフを分析してボトルネックを特定し、コアスレッドトポロジーを再構成。中間スループットは0.43 MT/sから1.24 MT/sへ。エンジニアたちが何年もかけて絞り出してきたシステムで、185%の改善です。

Moonshotの社内RL基盤チームは、監視・インシデント対応・システム運用を管理するK2.6エージェントを5日間連続で自律的に動かしました。ベンチマークではなく、本番インフラです。

この3つに共通するパターン: K2.6は壁にぶつかっても止まらない。別のルートを探し、進み続けます。

Preserve Thinkingモード

この機能はあまり注目されずにリリースされ、多くのセットアップガイドで完全に省かれています。

K2.6は preserve_thinking をサポートしています。モデルがマルチターン対話全体にわたって完全な推論内容を保持する機能です。通常のモードでは、1ターン目の思考は2ターン目になると消えます。preserve thinkingを有効にすると、その後のすべてのターンが以前のターンで行った推論を参照できます。

マルチステップのタスクを実行するコーディングエージェントにとって、これは重要です。ツール呼び出しのたびにアーキテクチャのコンテキストを再導出せずに済み、推論を引き継いで進めます。

有効化するには、extra_body に {'thinking': {'type': 'enabled', 'keep': 'all'}} を渡します。vLLMやSGLangの場合: {'chat_template_kwargs': {"thinking": True, "preserve_thinking": True}}。

スウォームアーキテクチャ

K2.5はAgent Swarmをリサーチプレビューとして導入しました: サブエージェント100台、調整ステップ1,500。K2.6はこれを300台のサブエージェントが4,000ステップを同時実行へとスケールアップします。

これは単純に数が大きくなっただけではありません。100台なら調査タスクを並列化できます。300台で4,000ステップなら、依存関係のあるサブタスクを持つソフトウェアエンジニアリングパイプラインを並列化できます。Moonshotはこれを社内のコンテンツ制作に活用しました: Demo Makers、Benchmark Makers、Social Mediaエージェント、Video Makersをすべてk2.6が1回の実行でコーディネートしています。

Claw Groups はリサーチプレビューとしてさらに拡張します。どのデバイスで動く、どのモデルを使うエージェントでも、スウォームに参加できます。ローカルのLlamaモデルを動かすラップトップと、K2.6を動かすクラウドインスタンスが、K2.6のコーディネーションのもとで真の協力者として動作します。エージェントが止まると、コーディネーターがそれを検知してタスクを再割り当てし、完了までライフサイクル全体を管理します。

Opus 4.6がまだ勝っている領域

正直な評価として: K2.6はどこでも勝っているわけではありません。

ツールなしの純粋な推論: Opus 4.6のHLE-Fullスコアは40.0%、K2.6は34.7%。コードを根拠としないオープンエンドなアーキテクチャ思考では、このギャップは無視できません。

AIME 2026とHMMT数学: GPT-5.4とGemini 3.1 Proがリードしています。K2.6は競争力がありますが、最高の推論モデルではありません。

データ主権の問題: Moonshot AIは中国のラボです。AnthropicはMoonshotを2026年2月の法的申し立てで名指しました。多くの企業のエンタープライズデータポリシーは、中国系企業のインフラへのコードのルーティングを禁止しています。クライアント作業で使う前に確認してください。

変更MITライセンス: モデルの重みは、Moonshotが「Modified MIT」と呼ぶライセンスで提供されます。これは標準的に認められているライセンスではありません。重みを商用展開する前に実際の条項を読んでください。

コスト

OpenRouterでのKimi K2.6の価格（Moonshot AIプロバイダー）: 入力$0.80/M、出力$3.50/M、キャッシュ読み取り$0.20/M。

Moonshot AIプロバイダーは本番環境で93.1%のキャッシュヒット率を達成しています。キャッシュ込みの実効入力コスト: 約$0.215/Mトークン。

Claude Codeスタイルのワークロードで1日20プロンプト、月22営業日の場合、月額コストは**$12〜15**前後。同量のClaude Sonnet 4.6は約$44/月です。

Claude Codeでの使い方

Claude Codeは起動時に ANTHROPIC_BASE_URL を読み取り、Anthropic互換APIにルーティングします。非自明な点: Claude CodeはLなし内部で3つのモデル階層を使用しており（補助タスクにはHaiku、メインコーディングにはSonnet、複雑な推論にはOpus）、3つすべてをマッピングしないとセッション途中で断続的な404エラーが発生します。~/.zshrc に以下を追加してください:

export OPENROUTER_API_KEY="sk-or-..."
export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""
export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Moonshot AIプロバイダー（moonshotai/kimi-k2.6）を明示的に使用してください。プロバイダー別ツールエラー率: Moonshot AI 0.20%、NovitaAI 0.44%、Cloudflare 1.86%。

K2.5からK2.6へのToolathlonとMCPMarkの向上が核心です。ツールを信頼性高く使えなかったモデルが、今や最高クラスになりました。入力$0.80/Mという価格で。個人用途やコスト重視の作業でK2.6に乗り換える価値があるのは、この組み合わせがあるからです。