ByteFuture · 混合 AI 基础设施

面向 AI 代理的
混合 AI 推理。

AI 代理需要无处不在地运行：既要在 AI PC 上私密运行，也要在云端以前沿规模运行。ByteFuture 构建贯通两端的技术栈：Olares OS 负责本地推理，Token Station 负责跨所有模型的云端路由。

一个代理。能本地就本地，该上云就上云，逐次调用决定。

探索 Token Station → 在 GitHub 上查看 Olares ↗

一次推理调用

🧑‍💻

AI PC 上的代理

运行于 Olares OS

↓

🧭

Token Station 进行路由

依据成本 · 延迟 · 隐私策略

💻

本地模型

私密 · 离线

☁️

云端前沿

规模 · 能力

为什么需要混合

前沿能力在云端，你的数据在设备上。

只调用云端的代理会泄露数据，且离线时无法工作。只在本地运行的代理则会撞上能力上限。混合推理是答案，它需要两端都有基础设施，还需要一个在两者之间路由的环节。

🔒

本地：私密与即时

在 AI PC 上运行模型和代理。敏感数据从不离开设备，延迟接近于零，并且离线也能运行。

☁️

云端：前沿与弹性

当任务需要时，调用最强的闭源和开源模型，无需采购硬件即可横向扩展。

🧭

路由：你的策略，逐次调用

一个网关在每次请求时决定走本地还是云端（按成本、延迟、隐私或能力），无需修改你的代码。

两个产品，一个技术栈

为推理路径的两端而打造。

🖥️

Olares OS

端侧 · 开源

一款面向 AI PC 的开源操作系统。在本地运行模型、代理以及你自己的主权 AI 云。数据与算力都归你所有。Olares 把一台强大的机器变成代理专属的私有推理端点。

✓ 在你自己的硬件上自托管模型与应用
✓ 默认私密：数据留在设备上
✓ 开源，由社区共建

在 GitHub 上查看 ↗ github.com/beclab/olares

🛰️

Token Station

网关 · 云端 + 本地

一个混合推理网关。用一套 API 调用所有云端和本地模型（兼容 OpenAI 与 Anthropic 风格），智能路由把每次调用送到最合适的地方：最便宜、最快或最私密。可直接接入你已在使用的 SDK 和代理框架。

✓ 一把密钥，通向所有模型与模态
✓ 基于策略的路由：成本、延迟、隐私、降级备用
✓ 零加价，按量付费

阅读介绍 → models.bytefuture.ai

它们如何协同

代理保持不变，推理随之流动。

你的代理运行在 Olares 上

在 AI PC 上，本地模型与数据触手可及。

Token Station 为每次调用路由

一套 API 决定每个推理请求该去哪里。

本地或云端，由策略决定

私密任务留在本地，前沿任务送往云端。全部自动完成。

面向 AI 代理的混合 AI 推理。

关于混合推理、AI 代理与开源模型的笔记。