Skip to content

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大 #1118

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大 #1118

Triggered via issue December 3, 2025 11:34
Status Skipped
Total duration 2s
Artifacts

unittest.yaml

on: issue_comment
unittest
0s
unittest
Fit to window
Zoom out
Zoom in