Build This Now
Build This Now
クロード・コードとは何か?Claude Code のインストールClaude Code ネイティブインストーラーClaude Code で最初のプロジェクトを作る
DESIGN.md: AIのUI一貫性問題を解決するClaude Buddy/powerupClaude Codeソースマップ流出事件Claude CodeのForkサブエージェント完全ガイドKimi K2.6: 何が変わったのかクロードコードのオートメモリークロードコードのオートメモリークロードコードのオートメモリークロードコードのオートメモリー
speedy_devvkoen_salo
Blog/Handbook/Core/Kimi K2.6: What Actually Changed

Kimi K2.6: 何が変わったのか

Moonshot AIがK2.6をリリース。ツール信頼性がほぼ2倍になり、300台エージェントスウォームに対応。SWE-Bench ProスコアはClaude Opus 4.6を超え、入力トークン単価は100万トークンあたり$0.80。

設定をやめて、構築を始めよう。

AIオーケストレーション付きSaaSビルダーテンプレート。

Published Apr 22, 20266 min readHandbook hubCore index

Moonshot AIは2026年4月18日にK2.6をリリースしました。大々的な発表はなく、ブログ記事が静かに公開されただけ。大半の開発者が気づいた頃には、Claude CodeはすでにOpenRouterでK2.6トークンの3番目に大きな消費者になっていました。

このモデルは理解する価値があります。ベンチマークの見出し数字だけでなく、内部で何が変わったのかが重要です。

本当に重要な数字

多くのレポートはSWE-Bench Proの58.6%を先に取り上げます。Claude Opus 4.6の53.4%を超えています。これは本物の成果ですが、最も興味深い変化ではありません。

エージェントを動かしている人にとって重要なのは、次の2つのベンチマークです:

Toolathlonが27.8%から50.0%に上昇。 1バージョンでほぼ2倍です。Toolathlonは複雑なマルチステップシーケンスでモデルがツールを正しく使えるかを測定します。K2.5はここで本当に不安定でした。K2.6は違います。

MCPMarkが29.5%から55.9%に上昇。 MCPMarkはMCPツール呼び出しの精度を専門に測定します。OpenRouter経由でClaude Codeを使っている人にとって、エージェントの実行が完結するか途中で止まるかを予測する数字がこれです。K2.5の29.5%こそが、不安定な動作が報告され続けた原因でした。K2.6の55.9%が、そうした報告が止まった理由です。

幻覚率は65%から39%に低下。K2.5はアーキテクチャ作業には不安定すぎました。K2.6は事実の信頼性でClaude Opusのレベルに達しています。

Opus 4.6との比較コーディング全体像:

ベンチマークKimi K2.6Claude Opus 4.6
SWE-Bench Pro58.6%53.4%
SWE-Bench Verified80.2%80.8%
Terminal-Bench 2.066.7%65.4%
LiveCodeBench v689.6%88.8%
HLE-Full w/ tools54.0%53.0%
HLE-Full no tools34.7%40.0%
Toolathlon50.0%47.2%
MCPMark55.9%56.7%

コーディングベンチマークではK2.6がリードします。純粋な推論(ツールなしのHLEの行)ではOpus 4.6がリード。このギャップは実在しており、把握しておく価値があります。

ロングホライズンが実際に意味するもの

ベンチマークは平均値を示します。デモは上限を示します。

Moonshotは実際のエンジニアリングタスクでK2.6を動かしました。MacでQwen3.5-0.8Bをローカルにデプロイし、Zigで推論を実装し、高速化を繰り返す、というものです。Zigはトレーニングデータが少ないニッチな言語です。モデルは12時間、4,000回以上のツール呼び出し、14回のイテレーションにわたって動作しました。最終結果: スループットが毎秒約15トークンから約193トークンに向上し、同じハードウェア上のLM Studioより20%高速化。

もう一つのタスク: 8年前のオープンソース金融マッチングエンジン exchange-core の大幅な改善。すでにパフォーマンスの限界近くで動いていたシステムです。モデルは13時間動作し、1,000回以上のツール呼び出しを行い、4,000行以上のコードを修正しました。CPUフレームグラフを分析してボトルネックを特定し、コアスレッドトポロジーを再構成。中間スループットは0.43 MT/sから1.24 MT/sへ。エンジニアたちが何年もかけて絞り出してきたシステムで、185%の改善です。

Moonshotの社内RL基盤チームは、監視・インシデント対応・システム運用を管理するK2.6エージェントを5日間連続で自律的に動かしました。ベンチマークではなく、本番インフラです。

この3つに共通するパターン: K2.6は壁にぶつかっても止まらない。別のルートを探し、進み続けます。

Preserve Thinkingモード

この機能はあまり注目されずにリリースされ、多くのセットアップガイドで完全に省かれています。

K2.6は preserve_thinking をサポートしています。モデルがマルチターン対話全体にわたって完全な推論内容を保持する機能です。通常のモードでは、1ターン目の思考は2ターン目になると消えます。preserve thinkingを有効にすると、その後のすべてのターンが以前のターンで行った推論を参照できます。

マルチステップのタスクを実行するコーディングエージェントにとって、これは重要です。ツール呼び出しのたびにアーキテクチャのコンテキストを再導出せずに済み、推論を引き継いで進めます。

有効化するには、extra_body に {'thinking': {'type': 'enabled', 'keep': 'all'}} を渡します。vLLMやSGLangの場合: {'chat_template_kwargs': {"thinking": True, "preserve_thinking": True}}。

スウォームアーキテクチャ

K2.5はAgent Swarmをリサーチプレビューとして導入しました: サブエージェント100台、調整ステップ1,500。K2.6はこれを300台のサブエージェントが4,000ステップを同時実行へとスケールアップします。

これは単純に数が大きくなっただけではありません。100台なら調査タスクを並列化できます。300台で4,000ステップなら、依存関係のあるサブタスクを持つソフトウェアエンジニアリングパイプラインを並列化できます。Moonshotはこれを社内のコンテンツ制作に活用しました: Demo Makers、Benchmark Makers、Social Mediaエージェント、Video Makersをすべてk2.6が1回の実行でコーディネートしています。

Claw Groups はリサーチプレビューとしてさらに拡張します。どのデバイスで動く、どのモデルを使うエージェントでも、スウォームに参加できます。ローカルのLlamaモデルを動かすラップトップと、K2.6を動かすクラウドインスタンスが、K2.6のコーディネーションのもとで真の協力者として動作します。エージェントが止まると、コーディネーターがそれを検知してタスクを再割り当てし、完了までライフサイクル全体を管理します。

Opus 4.6がまだ勝っている領域

正直な評価として: K2.6はどこでも勝っているわけではありません。

ツールなしの純粋な推論: Opus 4.6のHLE-Fullスコアは40.0%、K2.6は34.7%。コードを根拠としないオープンエンドなアーキテクチャ思考では、このギャップは無視できません。

AIME 2026とHMMT数学: GPT-5.4とGemini 3.1 Proがリードしています。K2.6は競争力がありますが、最高の推論モデルではありません。

データ主権の問題: Moonshot AIは中国のラボです。AnthropicはMoonshotを2026年2月の法的申し立てで名指しました。多くの企業のエンタープライズデータポリシーは、中国系企業のインフラへのコードのルーティングを禁止しています。クライアント作業で使う前に確認してください。

変更MITライセンス: モデルの重みは、Moonshotが「Modified MIT」と呼ぶライセンスで提供されます。これは標準的に認められているライセンスではありません。重みを商用展開する前に実際の条項を読んでください。

コスト

OpenRouterでのKimi K2.6の価格(Moonshot AIプロバイダー): 入力$0.80/M、出力$3.50/M、キャッシュ読み取り$0.20/M。

Moonshot AIプロバイダーは本番環境で93.1%のキャッシュヒット率を達成しています。キャッシュ込みの実効入力コスト: 約$0.215/Mトークン。

Claude Codeスタイルのワークロードで1日20プロンプト、月22営業日の場合、月額コストは**$12〜15**前後。同量のClaude Sonnet 4.6は約$44/月です。

Claude Codeでの使い方

Claude Codeは起動時に ANTHROPIC_BASE_URL を読み取り、Anthropic互換APIにルーティングします。非自明な点: Claude CodeはLなし内部で3つのモデル階層を使用しており(補助タスクにはHaiku、メインコーディングにはSonnet、複雑な推論にはOpus)、3つすべてをマッピングしないとセッション途中で断続的な404エラーが発生します。~/.zshrc に以下を追加してください:

export OPENROUTER_API_KEY="sk-or-..."
export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY"
export ANTHROPIC_API_KEY=""
export ANTHROPIC_DEFAULT_HAIKU_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_SONNET_MODEL="moonshotai/kimi-k2.6"
export ANTHROPIC_DEFAULT_OPUS_MODEL="moonshotai/kimi-k2.6"
export CLAUDE_CODE_SUBAGENT_MODEL="moonshotai/kimi-k2.6"

Moonshot AIプロバイダー(moonshotai/kimi-k2.6)を明示的に使用してください。プロバイダー別ツールエラー率: Moonshot AI 0.20%、NovitaAI 0.44%、Cloudflare 1.86%。


K2.5からK2.6へのToolathlonとMCPMarkの向上が核心です。ツールを信頼性高く使えなかったモデルが、今や最高クラスになりました。入力$0.80/Mという価格で。個人用途やコスト重視の作業でK2.6に乗り換える価値があるのは、この組み合わせがあるからです。

Continue in Core

  • Claude Codeにおける100万トークンコンテキストウィンドウ
    AnthropicはClaude CodeのOpus 4.6とSonnet 4.6に対して100万トークンのコンテキストウィンドウを有効化した。ベータヘッダー不要、追加料金なし、定額料金、そして圧縮の削減。
  • AGENTS.md vs CLAUDE.md 解説
    2つのコンテキストファイル、1つのコードベース。AGENTS.mdとCLAUDE.mdの違い、それぞれが何をするか、重複なしに両方を使う方法を解説します。
  • Auto Dream
    Claude Code はセッション間に自身のプロジェクトノートを整理します。古いエントリは削除され、矛盾は解消され、トピックファイルは再整理されます。/memory を実行してください。
  • クロードコードのオートメモリー
    オートメモリーは、Claude Codeがプロジェクトノートを実行し続けることを可能にします。ファイルの場所、書き込まれる内容、/memoryの切り替え方法、CLAUDE.mdを選ぶタイミング。
  • 自動計画戦略
    Auto Plan Modeは--append-system-promptを使ってClaude Codeを計画優先のループに強制する。ファイル操作は承認が得られるまで一時停止される。
  • 自律 Claude Code
    一晩でフィーチャーをリリースするエージェントのための統合スタック。スレッドが構造を与え、Ralph ループが自律性を与え、検証が正確さを保つ。

More from Handbook

  • エージェントの基礎
    Claude Codeでスペシャリストエージェントを構築する5つの方法:タスクサブエージェント、.claude/agents YAML、カスタムスラッシュコマンド、CLAUDE.mdペルソナ、パースペクティブプロンプト。
  • エージェント・ハーネス・エンジニアリング
    ハーネスとは、AIエージェントを構成するモデル以外のすべての層のことです。5つの制御レバー、制約のパラドックス、そしてなぜハーネス設計がモデルよりもエージェントのパフォーマンスを左右するのかを学びましょう。
  • エージェントパターン
    オーケストレーター、ファンアウト、バリデーションチェーン、スペシャリストルーティング、プログレッシブリファインメント、ウォッチドッグ。Claude Code のサブエージェントを組み合わせる6つのオーケストレーション形状。
  • エージェントチームのベストプラクティス
    Claude Code エージェントチームの実証済みパターン。コンテキストが豊富なスポーンプロンプト、適切なサイズのタスク、ファイルオーナーシップ、デリゲートモード、v2.1.33〜v2.1.45 の修正内容。

設定をやめて、構築を始めよう。

AIオーケストレーション付きSaaSビルダーテンプレート。

Claude CodeのForkサブエージェント完全ガイド

CLAUDE_CODE_FORK_SUBAGENT=1を設定すると、並列サブエージェントが親のプロンプトキャッシュプレフィックスを共有し、2番目以降の子エージェントの入力トークンコストを最大90%削減できます。

クロードコードのオートメモリー

オートメモリーは、Claude Codeがプロジェクトノートを実行し続けることを可能にします。ファイルの場所、書き込まれる内容、/memoryの切り替え方法、CLAUDE.mdを選ぶタイミング。

On this page

本当に重要な数字
ロングホライズンが実際に意味するもの
Preserve Thinkingモード
スウォームアーキテクチャ
Opus 4.6がまだ勝っている領域
コスト
Claude Codeでの使い方

設定をやめて、構築を始めよう。

AIオーケストレーション付きSaaSビルダーテンプレート。