腾讯优图提出了一种无需更新模型参数的强化学习范式Training-Free GRPO,对于GPU资源有限的开发者来说,可以只通过调用模型API服务就可以低成本得到一个专精于某一垂直领域的垂直大模型或专业智能体。在此,恳请ms-swift开发团队考虑将Training-Free GRPO引入到ms-swift框架中,作为一种新的类grpo强化学习范式,扩充现有ms-swift的强化学习框架,感谢!
论文标题:Training-Free Group Relative Policy Optimization
arXiv 链接:https://arxiv.org/abs/2510.08191
GitHub 地址:https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO