Skip to content

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大 #1150

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大 #1150

Triggered via issue December 5, 2025 09:53
@hiyuchanghiyuchang
commented on #426 613194d
Status Skipped
Total duration 1s
Artifacts

unittest.yaml

on: issue_comment
unittest
0s
unittest
Fit to window
Zoom out
Zoom in