チュートリアル

Kimi K2.7 Code:試すには十分に安く、仕事を分担させるにも十分かもしれない

昨日、Moonshot AI が Hugging Face に Kimi K2.7 Code を公開しました。1 兆パラメータの Mixture-of-Experts コーディングモデル(アクティブ 32B)で、コンテキストウィンドウは 256K、ウェイトは Modified MIT ライセンスで公開されています。

私たちの Claude Fable 5 の記事 を読んだ方なら、今回はその論理がちょうど逆向きに動いているとわかるはずです。Fable 5 では能力は実証済みで、リスクは価格にありました。K2.7 Code では価格はごくわずかで、能力こそが未解決の問いです。このモデルは公開からまだ 1 日、第三者によるベンチマークはまだなく、Moonshot 自身の数値でもフロンティアの後塵を拝しています。どちらの状況も行き着く姿勢は同じです。すでに使っているコーディング環境の中で、安く、いつでも引き返せる実験を回すことです。

この実験を単なる置き換え以上に面白くしている要素が一つあります。入力 100 万トークンあたり 0.95 ドル、出力 100 万トークンあたり 4.00 ドル という価格で、K2.7 Code は入力で Claude Fable 5 のおよそ 10 分の 1、出力で 12 分の 1 のコストです。これは別の役割を与えられるほど安いということです。あなたの SOTA モデルと並んで働き、高価なモデルが難所を受け持つ間、定型的なファンアウト作業を引き受けるのです。

K2.7 Code は Token Stationkimi/kimi-k2.7-code として利用でき、Moonshot の定価のまま上乗せゼロで提供されます。10 ドルの登録クレジット でかなりの量をまかなえます。

わかっていること(そしてわからないこと)

モデルカード より:

そして正直な部分です。Moonshot はフロンティアとの比較を自ら公開しており、そこでは K2.7 Code が負けています。

Moonshot 自己申告のベンチマークのグループ化棒グラフ:Kimi K2.7 Code は Kimi Code Bench v2 で 62.0、対する GPT-5.5 は 69.0、Claude Opus 4.8 は 67.4;ProgramBench で 53.6、対する 69.1 と 63.8;MCP Atlas で 76.0、対する 79.4 と 81.3
Moonshot 自身が公開した数値。K2.7 Code は 3 項目すべてでフロンティアに後れを取っています。出典:Kimi K2.7 Code モデルカード、2026 年 6 月。

自社モデルが負けるベンチマークを公開するベンダーは、その数値が正直である良い証しです。しかも差は見苦しいものではありません。Moonshot のコーディングベンチで GPT-5.5 に約 7 ポイント差、ツール利用ではより接近しています。前回の Kimi(K2.6)は現在、Artificial Analysis Intelligence Index で最強のオープンウェイトモデルです。まだ誰も知らないのは、K2.7 Code があなたのコードベースで、あなたの環境で、長いエージェント的セッションを通してどう振る舞うかです。この実験が解き明かすのは、まさにその未知数です。

私たちの Grok Build の記事と同じ趣旨で、一点はっきりさせておきます。モデルとしての K2.7 Code は、Moonshot 自身のコーディング環境である Kimi Code CLI 向けに最適化されています。その CLI は必要ありません。このモデルは OpenAI 互換および Anthropic 互換の API を話し、Token Station が既存の環境から送られてくるものを何であれ変換します。

価格:フロンティアの隣では誤差のようなもの

以下はすべて、各プロバイダーの定価のまま Token Station で利用できます。

モデル入力 / 1M出力 / 1Mコンテキスト
kimi/kimi-k2.7-code$0.95$4.00256K
xai/grok-build-0.1$1.00$2.00256K
anthropic/claude-sonnet-4-6$3.00$15.001M
anthropic/claude-opus-4-8$5.00$25.001M
openai/gpt-5.5$5.00$30.001M
anthropic/claude-fable-5$10.00$50.001M

K2.7 Code の価格なら、10 ドルの登録クレジットでおよそ 1,000 万の入力トークン、または 250 万の出力トークンを買えます。同じクレジットで Fable 5 なら一午後分でしたが、ここでは数週間分の評価に充てられます。この実験の下振れリスクはほぼゼロです。

本当の実験:仕事を分担させる

コーディングエージェントはすでに作業を階層に分けています。計画と難しい推論が行われるメインループがあり、そしてファンアウトがあります。ファイルを読み、検索を実行し、テストを走らせ、結果を要約するサブエージェントたちです。ファンアウトはトークンの大半を消費しますが、必要な賢さは最も少ないのです。

その分担こそ、100 万あたり 4 ドルのモデルが 100 万あたり 50 ドルのモデルの隣に居場所を得る場面です。Fable 5 か Opus 4.8 を運転席に座らせ、定型作業は K2.7 Code に渡しましょう。Moonshot の数値が実運用でも持ちこたえるなら、委譲したタスクの品質低下はわずかで、委譲したトークンごとのコスト削減は 10 倍以上になります。

必要なもの

Claude Code の設定:2 段階の分担

Claude Code はモデルの階層を環境変数として公開しており、仕事を分担させる実験を回すのに最もすっきりした場所です。Opus 枠を Claude Fable 5 のために確保し、それ以外はすべて主力モデルに任せましょう。

# Token Station endpoint + auth
export ANTHROPIC_BASE_URL="https://models.bytefuture.ai"
export ANTHROPIC_AUTH_TOKEN="gw-YOUR_TOKEN_STATION_KEY"

# Top tier: Fable 5 takes the genuinely hard problems
export ANTHROPIC_DEFAULT_OPUS_MODEL="anthropic/claude-fable-5"

# Everything else runs on the workhorse
export ANTHROPIC_DEFAULT_SONNET_MODEL="kimi/kimi-k2.7-code"
export ANTHROPIC_DEFAULT_HAIKU_MODEL="kimi/kimi-k2.7-code"
export CLAUDE_CODE_SUBAGENT_MODEL="kimi/kimi-k2.7-code"

claude

これで通常のセッションは最初から最後まで K2.7 Code で動きます。メインループ、すべてのサブエージェント、すべてのバックグラウンド検索が、出力 100 万あたり 50 ドルではなく 4 ドルで課金されます。問題が本当にフロンティア級の判断を必要とするときは /model opus で昇格させれば Fable 5 が引き継ぎ、難所が終わったら元に戻します。高価なモデルは、その価格にふさわしい役割、すなわち必要なときに呼ぶ専門家になります。

Fable 5 の価格にひるむなら、Opus 枠の anthropic/claude-fable-5anthropic/claude-opus-4-8 に差し替えてください。この昇格パターンはどの階層でも機能します。

Codex の設定

Codex は 1 セッションにつき 1 モデルですが、profiles を使えば呼び出し単位で同じ分担ができます。主力モデルをデフォルトにし、Fable 5 用に名前付きの昇格プロファイルを用意しておきます。

mkdir -p ~/.codex
cat > ~/.codex/config.toml <<'EOF'
# Default: the workhorse
model = "kimi/kimi-k2.7-code"
model_provider = "token_station"

[model_providers.token_station]
name = "token_station"
base_url = "https://models.bytefuture.ai/v1"
env_key = "TOKEN_STATION_API_KEY"
wire_api = "responses"

# Escalation: Fable 5 on demand
[profiles.deep]
model = "anthropic/claude-fable-5"
EOF

export TOKEN_STATION_API_KEY="gw-YOUR_TOKEN_STATION_KEY"

codex                  # routine work on K2.7 Code
codex --profile deep   # hard problems on Fable 5

普段は素の codex を起動し、主力モデルの料金で済ませます。タスクがフロンティアモデルに値するときだけ、codex --profile deep がその呼び出しに限って Fable 5 を呼び込みます。設定の他の部分は一切動きません。

OpenClaw の設定

OpenClaw はこの分担を第一級の設定にしています。agents.defaults.subagents.model で別途指定しない限り、サブエージェントは呼び出し元のモデルを継承します(ドキュメント)。したがって Fable 5 が運転席に座りつつ、生成されたすべてのサブエージェントを K2.7 Code で動かせます。

{
  "models": {
    "mode": "merge",
    "providers": {
      "token-station": {
        "baseUrl": "https://models.bytefuture.ai/v1",
        "apiKey": "${TOKEN_STATION_API_KEY}",
        "api": "anthropic-messages",
        "models": [
          {
            "id": "anthropic/claude-fable-5",
            "name": "Claude Fable 5 (Token Station)",
            "contextWindow": 1000000,
            "maxTokens": 128000
          },
          {
            "id": "kimi/kimi-k2.7-code",
            "name": "Kimi K2.7 Code (Token Station)",
            "contextWindow": 256000,
            "maxTokens": 32768
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": { "primary": "token-station/anthropic/claude-fable-5" },
      "subagents": { "model": "token-station/kimi/kimi-k2.7-code" }
    }
  }
}

メインエージェントはフロンティア級の判断を保ち、並列のファンアウト(トークンを食う部分)は主力モデルの料金で課金されます。全体を代わりに K2.7 Code で動かしたい場合は、agents.defaults.model.primary をそれに向ければよいだけです。いずれにせよ両モデルは同じキーの背後にあります。

知っておきたいクセ

実験を回す

あなたの高価なモデルには過剰な仕事を K2.7 Code に与えましょう。サブエージェントの検索、テスト実行、定型コード、要約などです。1 週間ほど様子を見て、どこで持ちこたえ、どこでつまずくかを見極め、それに応じて分担を決めます。同じ Token Station キーで anthropic/claude-fable-5anthropic/claude-opus-4-8kimi/kimi-k2.7-code を並べて動かせるので、比較は最初から組み込まれています。

models.bytefuture.ai で登録し(10 ドルの無料クレジット、カード不要)、公開からまだ 1 日のオープンウェイトモデルが、10 分の 1 の価格であなたのエージェントの仕事量の半分を担えるかどうか、確かめてみてください。


この記事をシェア Post LinkedIn Facebook Hacker News Reddit