Skip to content

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大 #1119

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大

GRPO训练的PPO_KL和PG_clipfrac曲线和verl同样数据同样设置下差别很大,最终收敛结果也和verl训练差距很大 #1119