英伟达力荐,小团队两个月开源一款「光速级」智能体推理引擎
创始人
2026-05-07 18:28:49
0

机器之心编辑部

智能体时代的核心是算力。

尤其是在 Coding Agent 爆发之后,算力问题变得前所未有地尖锐。Claude Code、Codex、Cursor 等产品正在把 AI 从「问答工具」变成「持续运行的软件协作者」,单次会话轻松突破 50K tokens,系统负载转向了更极端、更复杂的智能体负载。

最近有关算力的大新闻层出不穷。今天的最新消息:马斯克的 SpaceX 与 Anthropic 宣布达成了重磅协议,超过 22 万块英伟达 GPU 将为 Anthropic 所用。而 Anthropic 对与 SpaceX 合作开发未来的太空算力体系「表示有兴趣」。

在如此庞大的算力需求下,除了开源还有节流。也是今天的最新消息:OpenAI 发布了多路径可靠连接 (MRC),可帮助大型 AI 训练集群更快、更可靠地运行,并减少 GPU 时间的浪费。

我们知道,即便只是单 GPU 吞吐率上的微小提升,一旦应用到生产级集群中,也能够在服务持续增长需求的同时,节约相当可观的算力。

来自 LightSeek Foundation 的一个小团队,在两个月时间内打造了一个全新的,号称「光速」的大模型推理引擎 TokenSpeed。

这一引擎拥有 TensorRT LLM 级别的性能,vLLM 级别的易用性。并且拥有 NVIDIA Blackwell 上最快的 MLA 注意力内核。

一经发布,TokenSpeed 就受到了英伟达发推文力荐。

目前,该引擎已经开源。让我们参阅其技术博客,来深入了解「光速」引擎的技术细节。

  • 博客标题:TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads
  • 博客链接:https://lightseek.org/blog/lightseek-tokenspeed.html
  • Github 链接:https://github.com/lightseekorg/tokenspeed

TokenSpeed 技术简介

TokenSpeed 从第一性原理出发,专门为智能体推理场景设计。它为智能体负载提供接近「光速级」的推理能力,核心包括:基于编译器的并行建模机制、高性能调度器、安全的 KV 资源复用约束、支持异构加速器的可插拔分层 kernel 系统,以及用于低开销 CPU 侧请求入口的 SMG 集成。

建模层采用本地 SPMD(Single Program, Multiple Data,单程序多数据)设计,在性能与易用性之间取得平衡。TokenSpeed 允许开发者在模块边界指定 I/O placement 注解。随后,一个轻量级静态编译器会在模型构建过程中自动生成所需的 collective operation,从而无需手动实现通信逻辑。

TokenSpeed 调度器将控制平面(control plane)与执行平面(execution plane)解耦。

控制平面使用 C++ 实现,并被构建为一个有限状态机(FSM),结合类型系统,在编译期而非运行期强制执行安全资源管理,包括 KV cache 状态转移与使用。请求生命周期、KV cache 资源以及重叠执行时序,都通过显式 FSM 状态迁移与所有权语义进行表示,因此系统正确性并非依赖约定,而是由一个可验证的控制系统来保证。

执行平面则使用 Python 实现,以保持开发效率,使研究人员与工程师能够更快进行功能迭代,并降低整体认知负载。

TokenSpeed 的 kernel 层将 kernel 从核心引擎中解耦,并将其视为一级模块化子系统。它提供了可移植的公共 API、集中的注册与选择机制、组织良好的实现结构、面向异构加速器的可扩展插件机制、经过整理的依赖体系,以及统一的快速迭代基础设施。

与此同时,团队还针对 NVIDIA Blackwell 架构进行了大量性能优化。例如,他们构建了当前智能体负载场景下速度最快的 MLA(Multi-head Latent Attention,多头潜在注意力)kernel 之一。在 decode kernel 中,由于部分场景下「num_heads」较小,团队通过对「q_seqlen」与「num_heads」进行分组,以更充分利用 Tensor Core 的计算能力。而 binary prefill kernel 则包含了经过精细调优的 softmax 实现。

目前,TokenSpeed MLA 已被 vLLM 采用。

TokenSpeed 性能预览

Coding Agents(编码智能体)带来了异常严苛的推理工作负载,上下文通常会超过 50K tokens,对话也经常跨越数十轮。大多数公开基准测试并不能充分捕捉这种行为。

研发团队与 EvalScope 团队一起,基于 SWE-smith 轨迹对 TokenSpeed 进行评估,这些轨迹密切反映了生产环境中 Coding Agents 的流量情况。由于生成速度对 Agent 的用户体验至关重要,因此,团队的目标是在维持单用户 TPS(每秒 token 数)下限的同时,最大化单 GPU 的 TPM(每分钟 token 数)—— 通常是 70 TPS,有时是 200 TPS 或更高。

此外,研发团队针对 TensorRT-LLM(目前 NVIDIA Blackwell 平台上的最高水平)对这一设计进行了基准测试,并在认为针对 Agentic workloads 存在更好权衡的地方,采取了与之不同的设计方案。

下图展示了在不同部署配置下(无 PD 解耦),TokenSpeed 与 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲线(Pareto curves)。

每条曲线都以 TPS/User(横轴)作为延迟指标,以 TPM/GPU(纵轴)作为吞吐指标,并通过扫描并发数绘制而成。对于 Coding Agents(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4。

在这一配置下,TokenSpeed 在整个帕累托前沿上均优于 TensorRT-LLM:在最低延迟场景下(batch size 1)大约快 9%,在 100 TPS/User 附近吞吐量大约高 11%。

团队表示,他们的核心优化之一是 TokenSpeed MLA。下图对比了 TokenSpeed MLA 与 TensorRT-LLM 的 MLA,后者是目前 NVIDIA Blackwell 上的 SoTA。

可以看出来,优化后的二进制版本预填充内核(prefill kernel),使用 NVIDIA 内部旋钮来微调 softmax 实现,在 Coding Agents 的五种典型预填充工作负载(带长前缀 KV cache 的 prefill)中,都超过了 TensorRT-LLM 的 MLA。解码内核则将查询序列轴折叠进头轴,以更好地填充 BMM1 的 M tile,从而提升 Tensor Core 利用率。

结合其他优化,在带有 speculative decoding 的典型解码工作负载中(batch size 为 4、8、16,且带长前缀 KV cache),这使得相对于 TensorRT-LLM 来说,延迟几乎降低了一半。

最后,研发团队也表示,该项目于 2026 年 3 月中旬启动开发,虽然目前展示了惊人的性能,但仍有大量底层代码(如 PD 分离、KV 存储等)正在合并和完善中,接下来将继续推进。

从上述性能表现来看,不难看出,TokenSpeed 的出现旨在通过更现代化的架构设计,打破传统推理框架在易用性与极致性能之间的平衡点,为大规模 Agent 部署提供了一个高性能、开源的底座。而英伟达的力荐,也说明推理引擎正在成为 Agent 时代基础设施竞争的一个新焦点。

更多信息,请参阅原博客!

参考链接:

https://x.com/lightseekorg/status/2052048105412141376

https://x.com/NVIDIAAI/status/2052061195381911806

相关内容

热门资讯

5月7日ST南都跌19.35%... 证券之星消息,5月7日ST南都(300068)跌19.35%创60日新低,收盘报5.71元,换手率3...
把脸借给AI短剧,我却拿不回来... 就在平台花重金采购明星肖像、打造AI艺人库的时候,无数普通人的脸,也正在被AI短剧免费征用。我的同事...
靠谱的AI定制化哪个供应商好 AI转型浪潮下,不管是中小微商家还是中大型企业,都想靠AI降本提效,但找不对定制供应商,要么是套模板...
谷歌内部测试全新AI数字管家“... 观点网讯:5月7日,据媒体报道,谷歌正为其Gemini项目开发一款名为“Remy”的全新AI个人代理...
马斯克要建“世界最大AI芯片工... 参考消息网5月7日报道据英国《每日电讯报》网站5月6日报道,埃隆·马斯克的太空探索技术公司准备斥资1...
中小银行如何突围“AI竞赛” 2025年,银行继续加码数字化建设,14家在年报中披露数据的银行,2025年金融科技合计投入1845...
5月7日东方钽业涨6.00%,... 证券之星消息,5月7日东方钽业(000962)涨6.00%,收盘报49.11元,换手率5.56%,成...
英伟达力荐,小团队两个月开源一... 机器之心编辑部智能体时代的核心是算力。尤其是在CodingAgent爆发之后,算力问题变得前所未有地...
振华股份涨10.00%,开源证... 今日振华股份(603067)涨10.00%,收盘报40.7元。2026年5月5日,开源证券研究员金益...
开源证券:给予三元基因增持评级 开源证券股份有限公司诸海滨,车欣航近期对三元基因进行研究并发布了研究报告《北交所信息更新:喷雾剂集采...