Skip to content

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大 #1119

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大 #1119

Triggered via issue December 3, 2025 11:39
Status Skipped
Total duration 1s
Artifacts

unittest.yaml

on: issue_comment
unittest
0s
unittest
Fit to window
Zoom out
Zoom in