_{RLinf: 为具身智能和智能体而生的强化学习框架}

RLinf 是一个灵活且可扩展的开源框架，专为具身智能和智能体而设计。名称中的 “inf” 既代表 Infrastructure，强调其作为新一代训练坚实基础的作用；也代表 Infinite，寓意其支持开放式学习、持续泛化以及智能发展的无限可能。

✨ 核心特性

具身智能

模拟器	真机	模型	算法
ManiSkill ✅ LIBERO ✅ RoboTwin ✅ RoboVerse BEHAVIOR ✅ MetaWorld ✅ IsaacLab ✅ RoboCasa ✅ Franka-Sim ✅ More...	Franka Arm ✅ More...	VLA 模型 π₀ ✅ π₀.₅ ✅ OpenVLA ✅ OpenVLA-OFT ✅ GR00T ✅ VLM 模型 Qwen2.5-VL 世界模型 OpenSora ✅ 自定义模型 MLP-Policy ✅ CNN-Policy ✅	RL 算法 GRPO ✅ PPO ✅ DAPO ✅ Reinforce++ ✅ SAC ✅ CrossQ ✅ RLPD ✅ SAC-Flow ✅ SFT 全量微调 ✅ LoRA微调 ✅

智能体强化学习

智能体强化学习包括用于提升大语言模型推理能力的强化学习训练，例如数学推理；也包括针对各类智能体的强化学习训练，例如编程智能体的在线强化学习训练。我们相信，未来的具身智能也必将融合智能体的能力，以完成更复杂的任务。

高灵活性、高效性与高可扩展性

除了上述丰富功能外，RLinf 还具有高度灵活性，可支持多种强化学习训练工作流（PPO、GRPO、SAC等），同时隐藏了分布式编程的复杂性。用户无需修改代码即可轻松将强化学习训练扩展至大量GPU节点，满足强化学习训练日益增长的计算需求。

这种高灵活性使 RLinf 能够探索更高效的调度与执行模式。在具身强化学习中，混合执行模式的吞吐量可达现有框架的 2.434 倍。

多后端集成支持

FSDP + HuggingFace/SGLang/vLLM: 快速适配新模型与新算法，非常适合初学者和快速原型验证。
Megatron + SGLang/vLLM: 针对大规模训练进行了优化，为专家用户提供最大化效率。

快速开始

安装步骤： 请参考我们的安装指南安装RLinf。鉴于具身强化学习的环境配置较为复杂，我们推荐直接使用我们提供的Docker镜像（即安装方法一：Docker镜像）。

运行简单示例： 环境配置完成后，用户可以参照该文档的内容，运行基于ManiSkill3模拟器的具身强化学习基础示例。

用户可以查阅我们的官方文档与示例库，来了解更多RLinf的使用教程与应用实例。

主要成果

具身智能

RLinf 同时支持 PPO 与 GRPO 算法，为视觉-语言-动作（Vision-Language-Action, VLA）模型提供最先进的训练能力。
该框架与主流具身智能基准测试无缝集成，并在多样化的评测指标上均取得了优异表现。

OpenVLA 和 OpenVLA-OFT 结果

OpenVLA

OpenVLA-OFT

在 ManiSkill 环境 “PutOnPlateInScene25Mani-v3” 上，使用 OpenVLA 与 OpenVLA-OFT 模型进行训练。结果显示，在 PPO 与 GRPO 算法的对比中，PPO 始终表现优于 GRPO，且训练过程更加稳定。

在 ManiSkill 上的评测结果。表中数值表示任务的成功率（Success Rate）
	In-Distribution	Out-Of-Distribution
	In-Distribution	Vision	Semantic	Execution	Avg.
OpenVLA (Base)	53.91%	38.75%	35.94%	42.11%	39.10%
RL4VLA (PPO)	93.75%	80.47%	75.00%	81.77%	79.15%
OpenVLA (RLinf-GRPO)	84.38%	74.69%	72.99%	77.86%	75.15%
OpenVLA (RLinf-PPO)	96.09%	82.03%	78.35%	85.42%	81.93%

OpenVLA-OFT (Base)	28.13%	27.73%	12.95%	11.72%	18.29%
OpenVLA-OFT (RLinf-GRPO)	94.14%	84.69%	45.54%	44.66%	60.64%
OpenVLA-OFT (RLinf-PPO)	97.66%	92.11%	64.84%	73.57%	77.05%

统一模型在五个 LIBERO 任务组上的评测结果
Model	Spatial	Object	Goal	Long	90	Avg.
OpenVLA-OFT (Base)	72.18%	71.48%	64.06%	48.44%	70.97%	65.43%
OpenVLA-OFT (RLinf-GRPO)	99.40%	99.80%	98.79%	93.95%	98.59%	98.11%
Δ Improvement	+27.22	+28.32	+34.73	+45.51	+27.62	+32.68

π₀ and π_0.5 Results

在四个LIBERO任务组上的评测结果
Model		LIBERO
Model		Spatial	Object	Goal	Long	Avg.	Δ Avg.
Full Dataset SFT
Octo		78.9%	85.7%	84.6%	51.1%	75.1%	—
OpenVLA		84.7%	88.4%	79.2%	53.7%	76.5%	—
π_fast		96.4%	96.8%	88.6%	60.2%	85.5%	—
OpenVLA-OFT		91.6%	95.3%	90.6%	86.5%	91.0%	—
π₀		96.8%	98.8%	95.8%	85.2%	94.2%	—
π_0.5		98.8%	98.2%	98.0%	92.4%	96.9%	—
Few-shot Dataset SFT + RL
π₀	SFT	65.3%	64.4%	49.8%	51.2%	57.6%	—
	Flow-SDE	98.4%	99.4%	96.2%	90.2%	96.1%	+38.5
	Flow-Noise	99.0%	99.2%	98.2%	93.8%	97.6%	+40.0
Few-shot Dataset SFT + RL
π_0.5	SFT	84.6%	95.4%	84.6%	43.9%	77.1%	—
	Flow-SDE	99.6%	100%	98.8%	93.0%	97.9%	+20.8
	Flow-Noise	99.6%	100%	99.6%	94.0%	98.3%	+21.2

数学推理

1.5B model results
Model	AIME 24	AIME 25	GPQA-diamond	Average
DeepSeek-R1-Distill-Qwen-1.5B (base model)	28.33	24.90	27.45	26.89
DeepMath-1.5B	37.80	30.42	32.11	33.44
DeepScaleR-1.5B-Preview	40.41	30.93	27.54	32.96
AReaL-1.5B-Preview-Stage-3	40.73	31.56	28.10	33.46
AReaL-1.5B-retrain*	44.42	34.27	33.81	37.50
FastCuRL-1.5B-V3	43.65	32.49	35.00	37.05
RLinf-math-1.5B	48.44	35.63	38.46	40.84

* 我们使用默认设置对模型进行了 600 步的重新训练。

7B model results
Model	AIME 24	AIME 25	GPQA-diamond	Average
DeepSeek-R1-Distill-Qwen-7B (base model)	54.90	40.20	45.48	46.86
AReaL-boba-RL-7B	61.66	49.38	46.93	52.66
Skywork-OR1-7B	66.87	52.49	44.43	54.60
Polaris-7B-Preview	68.55	51.24	43.88	54.56
AceMath-RL-Nemotron-7B	67.30	55.00	45.57	55.96
RLinf-math-7B	68.33	52.19	48.18	56.23

RLinf 在数学推理任务上实现了当前最先进的性能，在多个基准测试（AIME 24、AIME 25、GPQA-diamond）中，1.5B 与 7B 规模的模型均稳定超越现有方法。

路线图

1. 系统级增强

支持异构 GPU
支持异步流水线执行
支持专家混合（Mixture of Experts, MoE）

2. 应用级扩展

支持视觉-语言模型（VLMs）训练
支持深度搜索智能体训练
支持多智能体训练
支持更多具身模拟器的集成 (如 GENESIS)
支持更多VLA模型 (如WALL-OSS)
支持世界模型（World Model）
支持真实世界的具身智能强化学习

持续集成测试状态

RLinf 具有全面的 CI 测试，涵盖核心组件（通过单元测试）和具身、智能体和推理场景的端到端 RL 训练工作流。以下是主分支 CI 测试状态的摘要：

测试名	状态
单元测试
智能体/推理端到端测试
具身智能端到端测试
调度器测试

贡献指南

我们欢迎对 RLinf 的贡献。在参与之前，请先阅读贡献指南。感谢以下贡献者，并诚邀更多开发者加入我们的开源项目，共建具身智能与强化学习系统。

引用与致谢

如果您觉得 RLinf 对您的研究或工作有所帮助，请引用以下论文：

@article{yu2025rlinf,
  title={RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation},
  author={Yu, Chao and Wang, Yuanqing and Guo, Zhen and Lin, Hao and Xu, Si and Zang, Hongzhi and Zhang, Quanlu and Wu, Yongji and Zhu, Chunyang and Hu, Junhao and others},
  journal={arXiv preprint arXiv:2509.15965},
  year={2025}
}

如果你在 RLinf 中使用了 RL+VLA，欢迎引用我们的算法技术报告和实证研究论文：

@article{zang2025rlinf,
  title={RLinf-VLA: A Unified and Efficient Framework for VLA+ RL Training},
  author={Zang, Hongzhi and Wei, Mingjie and Xu, Si and Wu, Yongji and Guo, Zhen and Wang, Yuanqing and Lin, Hao and Shi, Liangzhi and Xie, Yuqing and Xu, Zhexuan and others},
  journal={arXiv preprint arXiv:2510.06710},
  year={2025}
}

@article{liu2025can,
  title={What can rl bring to vla generalization? an empirical study},
  author={Liu, Jijia and Gao, Feng and Wei, Bingwen and Chen, Xinlei and Liao, Qingmin and Wu, Yi and Yu, Chao and Wang, Yu},
  journal={arXiv preprint arXiv:2505.19789},
  year={2025}
}

@article{chen2025pi_,
  title={$$\backslash$pi\_$\backslash$texttt $\{$RL$\}$ $: Online RL Fine-tuning for Flow-based Vision-Language-Action Models},
  author={Chen, Kang and Liu, Zhihao and Zhang, Tonghe and Guo, Zhen and Xu, Si and Lin, Hao and Zang, Hongzhi and Zhang, Quanlu and Yu, Zhaofei and Fan, Guoliang and others},
  journal={arXiv preprint arXiv:2510.25889},
  year={2025}
}

致谢 RLinf 的灵感来源并受益于更广泛开源社区的思想与工具。我们特别感谢 VeRL、AReaL、Megatron-LM、SGLang 和 PyTorch Fully Sharded Data Parallel (FSDP) 的团队与贡献者。如果我们不慎遗漏了您的项目或贡献，请提交 issue 或 pull request，以便我们能够给予您应有的致谢。

联系方式： 我们欢迎博士后、博士/硕士研究生以及实习生的加入。诚邀您共同塑造强化学习基础设施与具身智能的未来！

Chao Yu: zoeyuchao@gmail.com
Yu Wang: yu-wang@tsinghua.edu.cn

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

_{RLinf: 为具身智能和智能体而生的强化学习框架}

最新动态

✨ 核心特性

具身智能

智能体强化学习

高灵活性、高效性与高可扩展性

快速开始

主要成果

具身智能

OpenVLA 和 OpenVLA-OFT 结果

π₀ and π_0.5 Results

数学推理

路线图

1. 系统级增强

2. 应用级扩展

持续集成测试状态

贡献指南

引用与致谢

FilesExpand file tree

README.zh-CN.md

Latest commit

History

README.zh-CN.md

File metadata and controls

RLinf: 为具身智能和智能体而生的强化学习框架

最新动态

✨ 核心特性

具身智能

智能体强化学习

高灵活性、高效性与高可扩展性

快速开始

主要成果

具身智能

OpenVLA 和 OpenVLA-OFT 结果

π0 and π0.5 Results

数学推理

路线图

1. 系统级增强

2. 应用级扩展

持续集成测试状态

贡献指南

引用与致谢

_{RLinf: 为具身智能和智能体而生的强化学习框架}

π₀ and π_0.5 Results