重磅开源！首个全异步强化学习训练系统来了，SOTA推理大模型RL训练提速2.77倍

发布日期: 2025-06-04

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

机器之心发布
机器之心编辑部
想训练属于自己的高性能推理模型，却被同步强化学习（RL）框架的低效率和高门槛劝退？AReaL全面升级，更快，更强，更好用！
来自清华大学交叉信息院和蚂蚁技术研究院的联合团队，正式开源全异步强化学习训练系统——AReaL-boba²(AReaLv0. 3)。
作为AReaL里程碑版本AReaL-boba的重磅升级，AReaL-boba²(正式全名：A-ReaL-double-boba)坚持boba系列“全面开源、极速训练、深度可定制”的开发理念，再次加量：除了更全的功能和更详细的文档说明，更以全异步RL为核心，发布SOTA代码模型，全面奔向AgenticRL：
🚀效率再突破：全面实现异步RL训练，完全解耦模型生成与训练，效果不变的前提下训练速度对比上一版本最高提升2. 77倍，GPU资源利用率大幅优化。

🏆代码任务新SOTA诞生！基于Qwen3系列模型RL训练，8B/14B模型在LiveCodeBench,Codeforce,Codecontest等benchmark上达到SOTA水准！
🤖AgenticRL支持：原生支持多轮智能体强化学习(Multi-TurnAgenticRL)训练，拥抱AgenticRL浪潮。
🎁开箱即用：开源代码、数据集、脚本及SOTA级模型权重。
异步强化学习（AsynchronousRL）是一种重要的RL范式，它将数据生成与模型训练完全解耦，以不间断的流式生成和并行训练，极大提高了资源使用率，天然适用于多轮次交互的Agent场景。
AReaL-boba²通过强化学习算法和训练系统的共同设计（co-design），在完全不影响模型效果的同时，实现了稳定高效的异步RL训练，不断朝全面支持AgenticAI的最终目标冲刺。
本次AReaL升级为用户提供更完善的使用教程，涵盖详细的代码框架解析、无需修改底层代码即可自定义数据集/算法/Agent逻辑的完整指南，以及高度简化的环境配置与实验启动流程，如果你想要快速微调推理模型，快试试双倍加量的AReaL-boba²吧！
🚀立即体验AReaL-boba²：https ://github. com/inclusionAI/AReaL/（包含教程/文档/代码）

📄AReaL技术论文:https ://arxiv. org/pdf/2505. 24298
🔗AReaL-boba回顾：200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba
最强最快codingRL训练

其中，基于部分内部数据的最强模型AReaL-boba²-14B在LCB榜单上取得了69. 1分，CFrating达到2044，CC取得46. 2分，大幅刷新SOTA。
此外，AReaL团队还基于开源数据集发布了完全开源可复现的AReaL-boba²-Open系列模型，同样能在8B和14B尺寸上大幅超过现有基线。
Table1:AReaL-boba²-8B/14B在LiveCodeBench,Codeforce,Codecontest等benchmark上达到同尺寸SOTA水准。
AReaL团队还在数学任务上进行了异步RL训练的扩展性分析（scalinganalysis）：针对不同模型尺寸（1. 5B，7B，32B）以及不同GPU数量，基于异步RL的AReaL-boba²系统的训练效率都大幅超过了采用传统同步RL的训练系统。相比于共卡模式，AReaL-boba²所采用的分卡模式显存碎片更少，在更大模型尺寸下（32B）依然能够保持良好的扩展性。
Fig. 1异步RL（蓝色，AReaL系统）和同步RL（橘红色，采用verl系统的官方实现）的训练效率对比。采用异步RL的AReaL系统的训练吞吐在不同模型尺寸（1. 5B,7B,32B）下都有着更好的GPU扩展性（scaling)。
为何需要异步RL训练？同步RL痛点剖析
在传统同步RL训练流程中，算法采用当前模型产生批量的输出（batchoutput），然后用收集的输出对当前模型计算损失函数并更新参数。同步RL训练中每一个批次（batch）的数据都是由同一个模型版本产生，因此模型参数更新需要等待批次中数据全部生成完成才能启动（Fig2左图）。由于推理模型的输出长短差异极大，在同样的批大小（batchsize）下，RL训练必须等待批次中最长的输出生成完才能继续进行训练，以及进行下一个批次的数据收集，造成极大GPU资源浪费。
Fig. 2左图（示意图）：同步RL训练的计算过程，同批次输出（蓝色）需要等待最长的输出生成完成，存在大量GPU空闲；右图（示意图）：采用1步重叠（1-stepoverlap）的RL训练计算过程，单步模型训练与单批次数据收集同时进行。同批次内依然存在大量GPU空闲。
上图展示了几种常见的RL训练数据流。
左图为传统共卡同步RL系统计算模式，即RL生成和训练阶段分别使用全部GPU交替进行。由于训练任务需要完全等待生成完成，而生成阶段所花费的时间取决于最长的输出所完成时间，很容易造成GPU空闲。
右图为1-stepOverlapRL，是一种同步RL的常见改进，由DeepCoder和INTELLECT-2项目采用。OverlapRL采用分卡模式，收集一批次输出的同时在不同的GPU上进行模型训练，平衡了生成和训练所需要的计算资源并避免了切换成本。但是，在OverlapRL系统中，每一个批次的训练数据依然要求全部由同一个版本模型生成，生成时间依然会被最长的输出所阻塞，并不能解决同步RL训练效率低的问题。
AReaL-boba²的高效秘诀：完全异步RL训练
AReaL-boba²通过算法系统co-design的方式实现了完全异步RL训练（fullyasynchronousRL），从根本上解决了同步RL的各种问题。在AReaL-boba²的异步训练框架中，生成和训练使用不同GPU并完全解耦。生成任务持续流式进行以保证GPU资源始终满载运行，杜绝了GPU空闲。训练任务持续接收生成完成的输出，在训练节点上并行更新参数，并将更新后的参数与推理节点同步。
AReaL-boba²的系统设计可以在保证稳定RL训练的同时，参数同步的通信和计算花销仅占总训练时间的5%以内。
此外，由于全异步RL中同批次数据可能由不同版本的模型产生，AReaL-boba²也对RL算法进行了升级，在提速的同时确保模型效果。
Fig. 3全异步RL系统(fullyasynchronousRLsystem)的计算流程示意图
使用128卡对1. 5B模型在32k输出长度、512x16批大小设定下进行RL训练，我们列出了每一个RL训练步骤（模型参数更新）所需要的时间，异步RL相比同步RL相比，每个训练步骤耗时减少52%：
全异步RL训练的系统架构：全面解耦生成与训练
Fig. 4AReaL-boba²的异步RL系统架构。生成模块（紫色）和训练模块（绿色）完全分离。
AReaL-boba²系统架构的围绕不同计算任务采取全面解耦的模块化设计。对于模型输出、模型训练、和奖励函数计算，采用不同计算资源彻底分离，实现全流水线异步执行。整体设计包含四个核心组件：
1. 可中断轨迹生成器（InterruptibleRolloutWorker）：
支持生成请求（generaterequest）和权重更新请求（update_weightsrequest）。
收到权重更新请求时，会中断正在进行的生成任务，丢弃旧权重计算的KV缓存。加载新权重后重新计算KV缓存并生成剩余轨迹。
2. 奖励服务（RewardService）：
负责评估生成轨迹的正确性（如：在代码任务中提取代码并执行单元测试以验证其正确性）。
3. 训练器（TrainerWorkers）：
持续从回放缓冲区采样训练数据，随后执行RL算法更新，并将最新模型参数存入分布式存储。
4. 生成控制器（RolloutController）：
系统的“指挥中枢”：控制器从数据集中读取数据，向轨迹生成器发送生成请求，随后将生成完整的轨迹发送至奖励服务以获取奖励值。带有奖励值的轨迹数据会被存入回放缓冲区，等待训练器进行训练。当训练器完成参数更新后，控制器会调用轨迹生成器的权重更新接口。
算法改进保障收敛性能
虽然异步系统设计通过提高设备利用率实现了显著的加速，但也引入一些问题导致收敛性能不如同步系统：
数据陈旧性。由于训练系统的异步特性，每个训练批次包含来自多个历史模型版本的数据。数据陈旧会导致训练数据与最新模型的输出之间存在分布差异，从而影响算法效果。
模型版本不一致。由于采用了可中断轨迹生成，单个轨迹可能包含由不同模型版本产生的片段。这种不一致性从根本上违背了标准on-policyRL的设定前提——即假定所有动作都由单一模型生成。
为了解决这些问题，团队提出了两项关键算法改进。
方法1：数据陈旧度控制（StalenessControl）
对于异步RL算法，有一个重要的参数叫staleness，可以用来衡量训练数据的陈旧性。
staleness表示当采用一个批次的数据进行模型训练时，生成最旧的一条数据的模型版本和当前更新的模型版本之间的版本差（比如，一个批次中最旧的一条数据由step1产生的模型输出，当前模型由step5产生，则该批次staleness=4）。同步RL的批次staleness固定为0。staleness越大，则数据陈旧性越严重，对RL算法的稳定性挑战也越大，模型效果也更难以保持。
为避免数据陈旧性带来的负面影响，AReaL在异步RL算法上设置超参数maxstaleness𝜂，即只在staleness不超过预设值𝜂时，提交进行新的数据生成请求。
具体来说，轨迹生成器在每次提交新的请求时，都会通过生成控制器进行申请；控制器维护当前已经被提交的和正在运行的请求数量，只有当新的请求staleness不超过𝜂限制时才允许被提交到生成引擎处。当𝜂=0时，系统等价于跟同步RL训练，此时要求用于训练的采样轨迹一定是最新的模型生成的。
方法2：解耦近端策略优化目标（DecoupledPPOObjective）

行为策略（behaviorpolicy）表示用于轨迹采样的策略
近端策略（proximalpolicy）作为一个临近的策略目标，用来约束在线策略的更新
最终，可以得到一个在行为策略生成的数据上进行重要性采样（importancesampling）的PPO目标函数：
其中，系数起到了在token级别筛选有效训练数据的作用。当远远小于1时，对应数据能够被最新策略采样的概率极低，故而在训练目标中只占据了可以忽略的比重。
效果验证：速度Max,性能依旧强劲！
AReaL团队基于1. 5B模型在数学任务上设置不同maxstaleness𝜂进行AsyncRL训练，得到如下训练曲线。在AReaL的训练设定中，经典的PPO可以清晰看到随着staleness增大效果下降，而采用decoupledPPOobjective后，即使𝜂增加到8，算法依然能够保持训练效果好最终模型性能。
注：maxstaleness的绝对值和具体实验设定（learningrate，batchsize等）相关，这里仅比较AReaL-boba2系统改进所带来的相对提升。

AReaL团队还把采用不同maxstaleness训练的模型在AIME24和AIME25数据集上进行评测，采用decoupledobjective的算法都能在𝜂更大的情况下保持更好的模型效果。

想深入了解算法原理与实验细节？请访问原论文查看更多算法细节：https ://arxiv. org/pdf/2505. 24298
开源助力：轻松复现SOTA代码模型
除了强大的AReaL-boba²训练系统，团队也带来了训练数据、训练脚本和评估脚本。团队也提供了完整的技术报告，确保可以在AReaL上复现训练结果以及进行后续开发。技术报告中呈现了丰富的技术细节，包括数据集构成、奖励函数设置、模型生成方式、训练过程中的动态数据筛选等等。
快来用AReaL-boba²训练你自己的SOTA代码模型吧！
彩蛋：拥抱AgenticRL浪潮
本次AReaL-boba²发布也支持多轮AgenticRL训练！开发者可以根据自己的需求自由定制智能体和智能体环境，并进行AgenticRL训练。目前，AReaL-boba²提供了一个在数学推理任务上进行多轮推理的例子。
AReaL团队表示，AgenticRL功能也正在持续更新中，未来会支持更多AgenticRL训练的功能。
结语
AReaL项目融合了蚂蚁强化学习实验室与清华交叉信息院吴翼团队多年的技术积累，也获得了大量来自蚂蚁集团超算技术团队和数据智能实验室的帮助。AReaL的诞生离不开DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO等优秀开源框架和模型的启发。
如同其代号“boba”所寓意，团队希望AReaL能像一杯奶茶般“delicious,customizableandaffordable”——让每个人都能便捷、灵活地搭建和训练属于自己的AI智能体。
AReaL项目欢迎大家加入，也持续招募全职工程师和实习生，一起奔向AgenticAI的未来！
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin. com