ByteFuture · ハイブリッド AI インフラ

AI エージェントのための
ハイブリッド AI 推論。

AI エージェントはあらゆる場所で動く必要があります。AI PC 上でプライベートに、クラウドではフロンティア規模で。ByteFuture はその両方をまたぐスタックを構築します。オンデバイス推論を担う Olares OS と、あらゆるモデルへのクラウドルーティングを担う Token Station です。

一つのエージェント。できるときはローカル、必要なときはクラウド。呼び出しごとに決定します。

Token Station を見る → GitHub で Olares を見る ↗

1 回の推論呼び出し

🧑‍💻

AI PC 上のエージェント

Olares OS 上で動作

↓

🧭

Token Station がルーティング

コスト · 遅延 · プライバシーポリシーに基づいて

💻

ローカルモデル

プライベート · オフライン

☁️

クラウドのフロンティア

スケール · 能力

なぜハイブリッドか

フロンティアはクラウドに。あなたのデータはデバイスに。

クラウドにしか呼び出さないエージェントはデータを漏らし、オフラインでは止まります。ローカルでしか動かないエージェントは能力の上限にぶつかります。ハイブリッド推論がその答えであり、両端のインフラと、その間をルーティングする仕組みが必要です。

🔒

ローカル：プライベートで即時

AI PC 上でモデルとエージェントを実行します。機密データはデバイスを離れず、遅延はほぼゼロ、オフラインでも動作します。

☁️

クラウド：フロンティアで伸縮自在

タスクが求めるときに最強のクローズドモデルとオープンモデルにアクセスし、ハードウェアを用意せずにスケールアウトできます。

🧭

ルーティング：あなたのポリシーで呼び出しごとに

単一のゲートウェイがリクエストごとにローカルかクラウドかを決定します（コスト、遅延、プライバシー、能力に応じて）。コードの変更は不要です。

二つのプロダクト、一つのスタック

推論パスの両端のために設計。

🖥️

Olares OS

オンデバイス · オープンソース

AI PC のためのオープンソース OS。モデル、エージェント、そして自分自身の主権的な AI クラウドをローカルで実行。データも計算資源もあなたのもの。Olares は強力なマシンを、エージェント専用のプライベート推論エンドポイントに変えます。

✓ 自分のハードウェアでモデルとアプリをセルフホスト
✓ デフォルトでプライベート：データはデバイスに留まる
✓ オープンソース、コミュニティ主導

GitHub で見る ↗ github.com/beclab/olares

🛰️

Token Station

ゲートウェイ · クラウド + ローカル

ハイブリッド推論ゲートウェイ。あらゆるクラウドモデルとローカルモデルを一つの API で（OpenAI ・ Anthropic 形式）、各呼び出しを最適な場所に送るスマートルーティング付き：最安、最速、もしくは最もプライベート。今使っている SDK やエージェントフレームワークにそのまま組み込めます。

✓ すべてのモデルとモダリティに一つのキー
✓ ポリシーベースのルーティング：コスト、遅延、プライバシー、フォールバック
✓ 上乗せなし、従量課金

紹介を読む → models.bytefuture.ai

どう組み合わさるか

エージェントはそのまま。推論が動く。

あなたのエージェントは Olares 上で動く

AI PC 上で、ローカルモデルとデータをすぐそばに。

Token Station が各呼び出しをルーティング

一つの API が、すべての推論リクエストの行き先を決めます。

ポリシーに応じてローカルかクラウドか

プライベートな作業はローカルに、フロンティアな作業はクラウドに。自動で。

AI エージェントのためのハイブリッド AI 推論。

ハイブリッド推論、エージェント、オープンモデルに関するノート。