面向 AI 代理的
混合 AI 推理。

AI 代理需要无处不在地运行:既要在 AI PC 上私密运行,也要在云端以前沿规模运行。ByteFuture 构建贯通两端的技术栈:Olares OS 负责本地推理,Token Station 负责跨所有模型的云端路由。

一个代理。能本地就本地,该上云就上云,逐次调用决定。

探索 Token Station → 在 GitHub 上查看 Olares ↗
一次推理调用
🧑‍💻
AI PC 上的代理
运行于 Olares OS
🧭
Token Station 进行路由
依据成本 · 延迟 · 隐私策略
💻
本地模型
私密 · 离线
☁️
云端前沿
规模 · 能力

关于混合推理、AI 代理与开源模型的笔记。

阅读全部文章 →
加载中…

前沿能力在云端,你的数据在设备上。

只调用云端的代理会泄露数据,且离线时无法工作。只在本地运行的代理则会撞上能力上限。混合推理是答案,它需要两端都有基础设施,还需要一个在两者之间路由的环节。

🔒

本地:私密与即时

在 AI PC 上运行模型和代理。敏感数据从不离开设备,延迟接近于零,并且离线也能运行。

☁️

云端:前沿与弹性

当任务需要时,调用最强的闭源和开源模型,无需采购硬件即可横向扩展。

🧭

路由:你的策略,逐次调用

一个网关在每次请求时决定走本地还是云端(按成本、延迟、隐私或能力),无需修改你的代码。

为推理路径的两端而打造。

🖥️

Olares OS

端侧 · 开源

一款面向 AI PC 的开源操作系统。在本地运行模型、代理以及你自己的主权 AI 云。数据与算力都归你所有。Olares 把一台强大的机器变成代理专属的私有推理端点。

  • 在你自己的硬件上自托管模型与应用
  • 默认私密:数据留在设备上
  • 开源,由社区共建
在 GitHub 上查看 ↗ github.com/beclab/olares
🛰️

Token Station

网关 · 云端 + 本地

一个混合推理网关。用一套 API 调用所有云端和本地模型(兼容 OpenAI 与 Anthropic 风格),智能路由把每次调用送到最合适的地方:最便宜、最快或最私密。可直接接入你已在使用的 SDK 和代理框架。

  • 一把密钥,通向所有模型与模态
  • 基于策略的路由:成本、延迟、隐私、降级备用
  • 零加价,按量付费
阅读介绍 → models.bytefuture.ai

代理保持不变,推理随之流动。

01

你的代理运行在 Olares 上

在 AI PC 上,本地模型与数据触手可及。

02

Token Station 为每次调用路由

一套 API 决定每个推理请求该去哪里。

03

本地或云端,由策略决定

私密任务留在本地,前沿任务送往云端。全部自动完成。