小红书开源训练引擎Relax,全模态强化学习训练较veRL提速20%
创始人
2026-05-06 06:49:41
0

2026年4月15日,小红书AI平台团队开源了Relax,一款面向全模态与Agentic场景的大模型强化学习训练引擎。Relax不提供预训练模型,而是用于训练和微调模型的底层框架。

此前小红书hi lab团队已开源过文本模型dots.llm1和多模态模型dots.vlm1,Relax则进一步补全了训练工具链。

Relax基于Megatron-LM和SGLang两个高性能后端构建,核心设计是将Rollout推理生成与Train梯度更新解耦为两个独立服务,通过TransferQueue数据总线连接,实现micro batch级别的异步流水线。

传统方案中,即使是全异步框架也常常存在全局batch同步,长尾样本会拖慢整个训练步。Relax将同步粒度压到微批次,理论上可以消除这种拖累。

技术报告给出的数据较为具体。在16xH800多机配置下训练Qwen3-Omni-30B模型,Relax的全异步模式相比传统Colocate基线端到端提速76%,相比字节跳动开源的veRL框架的全异步模式端到端提速20%。

在Qwen3-4B的on-policy训练中,Relax比veRL获得了1.20倍的加速。在混合专家模型场景下,veRL在特定配置中性能下降了32%,而Relax的开销仅增加1.9%。此外,Relax验证了图像、文本、音频和视频四种模态的强化学习训练稳定收敛。

veRL是目前大模型强化学习训练领域的主流开源框架之一,由字节跳动火山引擎团队开发,其HybridFlow论文已被学术会议接收。

Relax与veRL选择了相似的技术路线,即分离推理与训练服务,但在工程实现上更彻底地推进了异步粒度。相比veRL,Relax在多模态数据支持和MoE模型处理上表现出更低的性能损耗。

强化学习后训练正在经历两个重要变化,模型从纯文本扩展到全模态,训练流程从单轮反馈演变为多轮Agentic交互。

这种趋势对训练框架提出了更高的并发性和容错要求。Relax的服务化容错架构允许Rollout和Train独立扩缩容,节点故障不会导致整个任务中断,这在长时间运行的多轮交互训练中尤为关键。

Relax已在GitHub开源,技术论文同步发布在arXiv上。与veRL、DeepSpeed、vLLM等已有生态相比,Relax是一个较新的选择,其社区采纳度有待观察。但从已有技术指标看,它在全模态强化学习训练效率上提供了有竞争力的方案。

[本文作者i黑马,i黑马原创。如需转载请联系微信公众号(ID:iheima)授权,未经授权,转载必究。]

相关内容

热门资讯

被AI抢走工作的人,在忙什么? 文|AIX财经(AIXcaijing),作者|李梦冉雷晶王璐王汉星陈丹金玙璠,编辑|陈丹AI来了,有...
AI出海不可触碰监管红线 来源:经济日报近日,中国外商投资安全审查工作机制办公室依法叫停外资收购Manus项目,责令相关当事方...
用数据和AI把家乡拖鞋卖到海外... 本报记者李纵容海瑞近照。受访者供图高温注塑机将融化的塑料压制成型,一双双崭新的拖鞋如流水般从自动生产...
蚂蚁百灵正式开源Ling-2.... 每经AI快讯,4月29日,据百灵大模型公众号消息,蚂蚁百灵大模型宣布Ling-2.6-flash正式...
特斯拉开源机器人“手”后,中国... 4月22日,通用智能机器人公司智平方正式发布AlphaBrainPlatform,这是一个面向全球开...
开源证券:给予山金国际买入评级 开源证券股份有限公司孙二春,任恒近期对山金国际进行研究并发布了研究报告《公司深度报告:单季度业绩创历...
开源证券:给予中国核电买入评级 开源证券股份有限公司王高展,黄懿轩近期对中国核电进行研究并发布了研究报告《公司信息更新报告:核电主业...
当 AI 开始给 Debian... 最近,开源世界发生了一场非常有意思的讨论。全球最流行Linux发行版之一Debian背后社区开始认真...