RLinf 是一个灵活且可扩展的开源框架,专为具身智能和智能体而设计。名称中的 “inf” 既代表 Infrastructure,强调其作为新一代训练坚实基础的作用;也代表 Infinite,寓意其支持开放式学习、持续泛化以及智能发展的无限可能。
- [2026/01] 🔥 基于OpenSora World Model的强化学习微调已经上线!文档:RL on OpenSora World Model。
- [2026/01] 🔥 基于RoboTwin的强化学习微调已经上线!文档:RL on RoboTwin。
- [2026/01] 🔥 RLinf 支持流匹配策略的 SAC 训练,包含仿真和Franka真机环境。文档:SAC-Flow,论文:SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling。
- [2025/12] 🔥 RLinf支持Search-R1的强化学习微调,相比原版实现加速 55%! 文档: Search-R1。
- [2025/12] 🔥 RLinf v0.2-pre 发布!真机Franka的强化学习已经上线。 文档:RL on Franka in the Real World。
- [2025/12] 🔥 基于RoboCasa的强化学习微调已经上线! 文档:RL on RoboCasa。
- [2025/12] 🎉 RLinf正式发布v0.1版本。
- [2025/11] 🔥 基于CALVIN的强化学习微调已经上线! 文档:RL on CALVIN。
- [2025/11] 🔥 基于IsaacLab的强化学习微调已经上线! 文档:RL on IsaacLab。
- [2025/11] 🔥 RLinf现在已经支持强化学习微调GR00T-N1.5!文档:RL on GR00T-N1.5。
- [2025/11] 🔥 基于Metaworld的强化学习微调已经上线! 文档:RL on Metaworld。
- [2025/11] 🔥 基于Behavior 1k的强化学习微调已经上线! 文档:RL on Behavior 1k 。
- [2025/11] lora微调支持π₀和π₀.₅模型。
- [2025/10] 🔥 π₀和π₀.₅模型的强化学习微调已经上线! 文档:π₀和π₀.₅模型强化学习训练。更多技术细节请参考:π₀ 与 π₀.₅ 模型强化学习微调技术报告。机器之心与具身智能之心报道:《RLinf上新πRL:在线强化学习微调π₀ 和 π₀.₅》, 《清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案》。
- [2025/10] 🔥 RLinf 正式支持在线强化学习!文档:coding_online_rl,同时发布文章 《首个开源的Agent在线强化学习框架RLinf-Online!让你的Agent今天比昨天更聪明》。
- [2025/10] 🔥 RLinf算法技术报告 《RLinf-VLA:一个统一且高效的VLA+RL训练框架》 已正式发布。
- [2025/09] 🔥 示例库 已更新,用户可以在其中找到多种可直接使用的示例!
- [2025/09] 🔥 我们的论文 《RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation》已正式发布。
- [2025/09] 🔥 机器之心关于 RLinf 的报道《首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源》已经发布。
- [2025/08] RLinf 已经开源,正式的 v0.1 版本即将发布。
| 模拟器 | 真机 | 模型 | 算法 |
|---|---|---|---|
|
智能体强化学习包括用于提升大语言模型推理能力的强化学习训练,例如数学推理;也包括针对各类智能体的强化学习训练,例如编程智能体的在线强化学习训练。我们相信,未来的具身智能也必将融合智能体的能力,以完成更复杂的任务。
除了上述丰富功能外,RLinf 还具有高度灵活性,可支持多种强化学习训练工作流(PPO、GRPO、SAC等),同时隐藏了分布式编程的复杂性。用户无需修改代码即可轻松将强化学习训练扩展至大量GPU节点,满足强化学习训练日益增长的计算需求。
这种高灵活性使 RLinf 能够探索更高效的调度与执行模式。在具身强化学习中,混合执行模式的吞吐量可达现有框架的 2.434 倍。
多后端集成支持
- FSDP + HuggingFace/SGLang/vLLM: 快速适配新模型与新算法,非常适合初学者和快速原型验证。
- Megatron + SGLang/vLLM: 针对大规模训练进行了优化,为专家用户提供最大化效率。
安装步骤: 请参考我们的安装指南安装RLinf。鉴于具身强化学习的环境配置较为复杂,我们推荐直接使用我们提供的Docker镜像(即安装方法一:Docker镜像)。
运行简单示例: 环境配置完成后,用户可以参照该文档的内容,运行基于ManiSkill3模拟器的具身强化学习基础示例。
用户可以查阅我们的官方文档与示例库,来了解更多RLinf的使用教程与应用实例。
- RLinf 同时支持 PPO 与 GRPO 算法,为视觉-语言-动作(Vision-Language-Action, VLA)模型提供最先进的训练能力。
- 该框架与主流具身智能基准测试无缝集成,并在多样化的评测指标上均取得了优异表现。
- 在 ManiSkill 环境 “PutOnPlateInScene25Mani-v3” 上,使用 OpenVLA 与 OpenVLA-OFT 模型进行训练。结果显示,在 PPO 与 GRPO 算法的对比中,PPO 始终表现优于 GRPO,且训练过程更加稳定。
| 在 ManiSkill 上的评测结果。表中数值表示任务的成功率(Success Rate) | |||||
|---|---|---|---|---|---|
| In-Distribution | Out-Of-Distribution | ||||
| Vision | Semantic | Execution | Avg. | ||
| OpenVLA (Base) | 53.91% | 38.75% | 35.94% | 42.11% | 39.10% |
| 93.75% | 80.47% | 75.00% | 81.77% | 79.15% | |
| 84.38% | 74.69% | 72.99% | 77.86% | 75.15% | |
| 96.09% | 82.03% | 78.35% | 85.42% | 81.93% | |
| OpenVLA-OFT (Base) | 28.13% | 27.73% | 12.95% | 11.72% | 18.29% |
| 94.14% | 84.69% | 45.54% | 44.66% | 60.64% | |
| 97.66% | 92.11% | 64.84% | 73.57% | 77.05% | |
| 统一模型在五个 LIBERO 任务组上的评测结果 | ||||||
|---|---|---|---|---|---|---|
| Model | Spatial | Object | Goal | Long | 90 | Avg. |
| 72.18% | 71.48% | 64.06% | 48.44% | 70.97% | 65.43% | |
| 99.40% | 99.80% | 98.79% | 93.95% | 98.59% | 98.11% | |
| Δ Improvement | +27.22 | +28.32 | +34.73 | +45.51 | +27.62 | +32.68 |
| 在四个LIBERO任务组上的评测结果 | |||||||
|---|---|---|---|---|---|---|---|
| Model | LIBERO | ||||||
| Spatial | Object | Goal | Long | Avg. | Δ Avg. | ||
| Full Dataset SFT | |||||||
| Octo | 78.9% | 85.7% | 84.6% | 51.1% | 75.1% | — | |
| OpenVLA | 84.7% | 88.4% | 79.2% | 53.7% | 76.5% | — | |
| πfast | 96.4% | 96.8% | 88.6% | 60.2% | 85.5% | — | |
| OpenVLA-OFT | 91.6% | 95.3% | 90.6% | 86.5% | 91.0% | — | |
| π0 | 96.8% | 98.8% | 95.8% | 85.2% | 94.2% | — | |
| π0.5 | 98.8% | 98.2% | 98.0% | 92.4% | 96.9% | — | |
| Few-shot Dataset SFT + RL | |||||||
| π0 |
|
65.3% | 64.4% | 49.8% | 51.2% | 57.6% | — |
| Flow-SDE | 98.4% | 99.4% | 96.2% | 90.2% | 96.1% | +38.5 | |
| Flow-Noise | 99.0% | 99.2% | 98.2% | 93.8% | 97.6% | +40.0 | |
| Few-shot Dataset SFT + RL | |||||||
| π0.5 |
|
84.6% | 95.4% | 84.6% | 43.9% | 77.1% | — |
| Flow-SDE | 99.6% | 100% | 98.8% | 93.0% | 97.9% | +20.8 | |
| Flow-Noise | 99.6% | 100% | 99.6% | 94.0% | 98.3% | +21.2 | |
| 1.5B model results | ||||
|---|---|---|---|---|
| Model | AIME 24 | AIME 25 | GPQA-diamond | Average |
| 28.33 | 24.90 | 27.45 | 26.89 | |
| 37.80 | 30.42 | 32.11 | 33.44 | |
| 40.41 | 30.93 | 27.54 | 32.96 | |
| 40.73 | 31.56 | 28.10 | 33.46 | |
| AReaL-1.5B-retrain* | 44.42 | 34.27 | 33.81 | 37.50 |
| 43.65 | 32.49 | 35.00 | 37.05 | |
| 48.44 | 35.63 | 38.46 | 40.84 | |
* 我们使用默认设置对模型进行了 600 步的重新训练。
| 7B model results | ||||
|---|---|---|---|---|
| Model | AIME 24 | AIME 25 | GPQA-diamond | Average |
| 54.90 | 40.20 | 45.48 | 46.86 | |
| 61.66 | 49.38 | 46.93 | 52.66 | |
| 66.87 | 52.49 | 44.43 | 54.60 | |
| 68.55 | 51.24 | 43.88 | 54.56 | |
| 67.30 | 55.00 | 45.57 | 55.96 | |
| 68.33 | 52.19 | 48.18 | 56.23 | |
- RLinf 在数学推理任务上实现了当前最先进的性能,在多个基准测试(AIME 24、AIME 25、GPQA-diamond)中,1.5B 与 7B 规模的模型均稳定超越现有方法。
-
支持异构 GPU
-
支持异步流水线执行
-
支持专家混合(Mixture of Experts, MoE)
-
支持视觉-语言模型(VLMs)训练
-
支持深度搜索智能体训练
-
支持多智能体训练
-
支持更多具身模拟器的集成 (如 GENESIS)
-
支持更多VLA模型 (如WALL-OSS)
-
支持世界模型(World Model)
-
支持真实世界的具身智能强化学习
RLinf 具有全面的 CI 测试,涵盖核心组件(通过单元测试)和具身、智能体和推理场景的端到端 RL 训练工作流。 以下是主分支 CI 测试状态的摘要:
| 测试名 | 状态 |
|---|---|
| 单元测试 | |
| 智能体/推理端到端测试 | |
| 具身智能端到端测试 | |
| 调度器测试 |
我们欢迎对 RLinf 的贡献。在参与之前,请先阅读 贡献指南。感谢以下贡献者,并诚邀更多开发者加入我们的开源项目,共建具身智能与强化学习系统。
如果您觉得 RLinf 对您的研究或工作有所帮助,请引用以下论文:
@article{yu2025rlinf,
title={RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation},
author={Yu, Chao and Wang, Yuanqing and Guo, Zhen and Lin, Hao and Xu, Si and Zang, Hongzhi and Zhang, Quanlu and Wu, Yongji and Zhu, Chunyang and Hu, Junhao and others},
journal={arXiv preprint arXiv:2509.15965},
year={2025}
}如果你在 RLinf 中使用了 RL+VLA,欢迎引用我们的算法技术报告和实证研究论文:
@article{zang2025rlinf,
title={RLinf-VLA: A Unified and Efficient Framework for VLA+ RL Training},
author={Zang, Hongzhi and Wei, Mingjie and Xu, Si and Wu, Yongji and Guo, Zhen and Wang, Yuanqing and Lin, Hao and Shi, Liangzhi and Xie, Yuqing and Xu, Zhexuan and others},
journal={arXiv preprint arXiv:2510.06710},
year={2025}
}@article{liu2025can,
title={What can rl bring to vla generalization? an empirical study},
author={Liu, Jijia and Gao, Feng and Wei, Bingwen and Chen, Xinlei and Liao, Qingmin and Wu, Yi and Yu, Chao and Wang, Yu},
journal={arXiv preprint arXiv:2505.19789},
year={2025}
}@article{chen2025pi_,
title={$$\backslash$pi\_$\backslash$texttt $\{$RL$\}$ $: Online RL Fine-tuning for Flow-based Vision-Language-Action Models},
author={Chen, Kang and Liu, Zhihao and Zhang, Tonghe and Guo, Zhen and Xu, Si and Lin, Hao and Zang, Hongzhi and Zhang, Quanlu and Yu, Zhaofei and Fan, Guoliang and others},
journal={arXiv preprint arXiv:2510.25889},
year={2025}
}致谢 RLinf 的灵感来源并受益于更广泛开源社区的思想与工具。 我们特别感谢 VeRL、AReaL、Megatron-LM、SGLang 和 PyTorch Fully Sharded Data Parallel (FSDP) 的团队与贡献者。 如果我们不慎遗漏了您的项目或贡献,请提交 issue 或 pull request,以便我们能够给予您应有的致谢。
联系方式: 我们欢迎博士后、博士/硕士研究生以及实习生的加入。 诚邀您共同塑造强化学习基础设施与具身智能的未来!
- Chao Yu: zoeyuchao@gmail.com
- Yu Wang: yu-wang@tsinghua.edu.cn

