bash reward_generation/steps_generate.sh \ --LM models--Qwen--Qwen2.5-7B-Instruct \ --round 0 \ --bs 4 \ --mt 6000 \ --n_gpus 1 \ --task math \ --loop 1 上述脚本不能运行,非常期待完整代码~
bash reward_generation/steps_generate.sh
--LM models--Qwen--Qwen2.5-7B-Instruct
--round 0
--bs 4
--mt 6000
--n_gpus 1
--task math
--loop 1
上述脚本不能运行,非常期待完整代码~