蚂蚁集团携手清华大学开源AReaL,AI推理训练最高提速2.77倍
创始人
2026-03-04 12:20:47
0

IT之家 3 月 4 日消息,蚂蚁集团携手清华大学联合推出开源强化学习训练框架 AReaL v1.0 稳定版,这是一种大规模异步强化学习系统,主要通过解耦生成与训练流程,来提升大语言模型(特别是推理模型)的训练效率。

IT之家援引博文介绍,随着大语言模型向“大推理模型”(LRM,Large Reasoning Model)演进,强化学习(RL)已成为提升模型逻辑推理能力的关键技术。

然而,现有的 RL 训练系统主流采用同步机制,即生成阶段必须等待批次中所有输出(通常是最长的那个)完成后才能开始训练。

这种“木桶效应”导致大量 GPU 算力处于闲置状态,制约了训练效率,在处理需要生成数万个思考 Token 的复杂推理任务时表现尤为明显。

研究团队为解决这一瓶颈,开发了 AReaL 系统,这是一个完全异步的 RL 训练架构。AReaL 彻底解耦了模型的生成与训练过程:生成工作器可以连续不断地产生新数据,而训练工作器则在收集到足够数据后立即更新模型。

这种流水线式的并行设计消除了同步等待时间,显著提升了硬件资源的利用率,让整个训练过程更加流畅高效。

在算法层面,AReaL 面临异步带来的数据“陈旧度”挑战,即训练数据可能来自旧版本的模型。为此,团队设计了陈旧度感知训练机制,通过控制工作负载来平衡数据的新鲜度。

同时,研究团队提出了解耦 PPO 目标函数,并支持“可中断生成”技术,允许模型在生成过程中无缝更新权重。

实验结果验证了 AReaL 的卓越性能。在数学和代码推理基准测试中,使用相同数量的 GPU,AReaL 相比最先进的同步系统,训练速度最高提升 2.77 倍。更令人惊喜的是,这种加速并未以牺牲准确率为代价,模型的解题能力在部分任务上甚至有所提升。

IT之家附上参考地址

上一篇:中兴发布AI电子萌宠iMoochi| MWC 2026

下一篇:没有了

相关内容

热门资讯

蚂蚁集团携手清华大学开源ARe... IT之家3月4日消息,蚂蚁集团携手清华大学联合推出开源强化学习训练框架AReaLv1.0稳定版,这是...
中兴发布AI电子萌宠iMooc... 据悉,MWC2026期间,中兴发布了其主打情感陪伴的AI电子宠物iMoochi。据介绍,该产品定位为...
智元灵渠OS开源上线 3月4日,据智元消息,智元灵渠OSAlpha版本,现已正式开源发布。
阿里千问负责人林俊旸突然离职,... 整理|褚杏娟3月4日凌晨,千问核心负责人林俊旸突然在X发文称要将卸任:mesteppingdown....
别让AI毁了四大名著 微信80... 快科技3月4日消息,谁能想到,在AI魔改下,关羽竟然能端起狙击枪,林黛玉也能倒拔垂杨柳。这些看起来有...
助劳动者从容适应AI时代 全国政协委员连玉明:要构建“适应性就业支持体系”如何应对AI带来的就业影响?全国政协委员连玉明认为,...
中国电信AI赋能新场景 激活消... (图片来源:摄图网)(记者杜峰)全国两会召开在即,“人工智能+”与“扩大内需”有望成为代表委员们热议...
记者观察:中国AI视频生成模型... 新华社纽约3月2日电(记者夏林)不久前,中国人工智能(AI)视频生成模型Seedance2.0发布后...
深圳华强北发布AI产品销售热力... 羊城晚报记者林园党学为深圳生产、尤其是华强北出产的科技类“广货”畅销全球,在今年春节期间更掀起“科技...
开源证券给予石头科技“买入”评... 每经AI快讯,开源证券3月4日发布研报称,给予石头科技(688169.SH,最新价:135.14元)...