forked from verl-project/verl
-
Notifications
You must be signed in to change notification settings - Fork 1
Open
Description
我在使用 verl 0.5.0 的 recipe: one_step_off_policy 时遇到了一些困惑,想向你们请教。
我使用的是你们提供的脚本:
https://github.com/volcengine/verl/blob/main/recipe/one_step_off_policy/dapo_7b_math_fsdp2_4_12.sh
但在实际训练过程中,未能复现你们在 W&B 上展示的效果:
https://wandb.ai/hou-zg-meituan/one-step-off-policy/workspace?nw=nwuserhouzg
我的问题如下:
-
我分别使用 dapo_7b_math_fsdp2_4_12.sh 和 dapo_7b_math_fsdp2_colocate.sh 进行训练,但观察到两者的 timing_s/step 基本没有差异,也就是说 one step off policy 的训练效率并未体现出提升。
-
你们只公开了 dapo_7b_math_megatron 的 source data,能否提供一下 dapo_7b_math_fsdp2 的训练曲线?
-
从资源配置上看,colocate 的 GPU 资源更多,理论上 timing_s/old_log_prob 的耗时应该更少。我的实验结果确实符合这一预期,但在你们提供的曲线中,colocate 的 timing_s/old_log_prob 反而更大,这点比较困惑。
以下是我的训练效果:
希望你们能解答这几个问题,感谢!
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels