感谢出色的工作,不知道能否在[EasyR1](https://github.com/hiyouga/EasyR1)项目中把RLPR算法合并进去,感觉verl的代码很复杂很难理解,EasyR1的代码相对比较简洁,便于大家学习和实验,感谢!