meituan-search
diff --git a/‎docs/advance/reward_loop.rst‎
Lines changed: 1 addition & 1 deletion b/‎docs/advance/reward_loop.rst‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/ascend_tutorial/examples/dapo_multi_model_optimization_practice.md‎
Lines changed: 2 additions & 2 deletions b/‎docs/ascend_tutorial/examples/dapo_multi_model_optimization_practice.md‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/gmpo_trainer/test_dapo_7b_math.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/gmpo_trainer/test_dapo_7b_math.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/gmpo_trainer/test_dapo_qwen3_30b_math.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/gmpo_trainer/test_dapo_qwen3_30b_math.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/grpo_trainer/run_deepseek671b_math_megatron_96gb.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/grpo_trainer/run_deepseek671b_math_megatron_96gb.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/grpo_trainer/run_qwen3-235b_megatron_96gb.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/grpo_trainer/run_qwen3-235b_megatron_96gb.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/grpo_trainer/run_qwen3moe-30b_megatron_96gb.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/grpo_trainer/run_qwen3moe-30b_megatron_96gb.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/gspo_trainer/run_qwen30b_gspo.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/gspo_trainer/run_qwen30b_gspo.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/gspo_trainer/test_gspo_3b_math.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/gspo_trainer/test_gspo_3b_math.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/gspo_trainer/test_gspo_3b_math_slurm.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/gspo_trainer/test_gspo_3b_math_slurm.sh‎
Lines changed: 1 addition & 1 deletion
@@ -204,7 +204,7 @@ See ``verl/experimental/reward_manager/*`` for reference.
          # your own reward manager
          ...
 
-After defining it, users can specify their custom reward manager by setting ``reward_model.reward_manager=user_costomized``.
+After defining it, users can specify their custom reward manager by setting ``reward_model.reward_manager.name=user_costomized``.
 
 RewardLoopManager
 ~~~~~~~~~~~~~~~~~
 
@@ -15,7 +15,7 @@ DAPO的论文可以参考：[DAPO](https://arxiv.org/pdf/2503.14476)，其中包
   在dapo算法中，必须配置成dapo。
 
 ```
-reward_model.reward_manager=dapo
+reward_model.reward_manager.name=dapo
 ```
 
 - **Clip-Higher 更高裁剪 **
@@ -250,7 +250,7 @@ ray job submit --no-wait --runtime-env="${RUNTIME_ENV}" \
     actor_rollout_ref.ref.fsdp_config.param_offload=True \
     actor_rollout_ref.ref.ulysses_sequence_parallel_size=${sp_size} \
     actor_rollout_ref.actor.fsdp_config.fsdp_size=${fsdp_size} \
-    reward_model.reward_manager=dapo \
+    reward_model.reward_manager.name=dapo \
     reward_model.overlong_buffer.enable=${enable_overlong_buffer} \
     reward_model.overlong_buffer.len=${overlong_buffer_len} \
     reward_model.overlong_buffer.penalty_factor=${overlong_penalty_factor} \
 
@@ -117,7 +117,7 @@ python3 -m verl.trainer.main_ppo \
     actor_rollout_ref.ref.ulysses_sequence_parallel_size=${sp_size} \
     actor_rollout_ref.actor.fsdp_config.fsdp_size=${fsdp_size} \
     actor_rollout_ref.actor.checkpoint.save_contents="${save_contents}" \
-    reward_model.reward_manager=dapo \
+    reward_model.reward_manager.name=dapo \
     +reward_model.reward_kwargs.overlong_buffer_cfg.enable=${enable_overlong_buffer} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.len=${overlong_buffer_len} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor=${overlong_penalty_factor} \
 
@@ -113,7 +113,7 @@ python3 -m verl.trainer.main_ppo \
     actor_rollout_ref.ref.ulysses_sequence_parallel_size=${sp_size} \
     actor_rollout_ref.actor.fsdp_config.fsdp_size=${fsdp_size} \
     actor_rollout_ref.actor.checkpoint.save_contents="${save_contents}" \
-    reward_model.reward_manager=dapo \
+    reward_model.reward_manager.name=dapo \
     +reward_model.reward_kwargs.overlong_buffer_cfg.enable=${enable_overlong_buffer} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.len=${overlong_buffer_len} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor=${overlong_penalty_factor} \
 
@@ -159,7 +159,7 @@ python3 -m verl.trainer.main_ppo \
     +actor_rollout_ref.actor.megatron.override_transformer_config.account_for_embedding_in_pipeline_split=False \
     +actor_rollout_ref.actor.megatron.override_transformer_config.account_for_loss_in_pipeline_split=False \
     +actor_rollout_ref.actor.megatron.override_transformer_config.num_layers_in_last_pipeline_stage=${LAST_LAYER} \
-    reward_model.reward_manager=dapo \
+    reward_model.reward_manager.name=dapo \
     +reward_model.reward_kwargs.overlong_buffer_cfg.enable=${enable_overlong_buffer} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.len=${overlong_buffer_len} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor=${overlong_penalty_factor} \
 
@@ -161,7 +161,7 @@ python3 -m verl.trainer.main_ppo \
     +actor_rollout_ref.actor.megatron.override_transformer_config.moe_enable_deepep=True \
     +actor_rollout_ref.actor.megatron.override_transformer_config.account_for_loss_in_pipeline_split=True \
     +actor_rollout_ref.actor.megatron.override_transformer_config.account_for_embedding_in_pipeline_split=True \
-    reward_model.reward_manager=dapo \
+    reward_model.reward_manager.name=dapo \
     +reward_model.reward_kwargs.overlong_buffer_cfg.enable=${enable_overlong_buffer} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.len=${overlong_buffer_len} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor=${overlong_penalty_factor} \
 
@@ -176,7 +176,7 @@ python3 -m verl.trainer.main_ppo --config-path=./config --config-name='ppo_megat
     actor_rollout_ref.ref.megatron.context_parallel_size=${REF_CP} \
     actor_rollout_ref.ref.megatron.expert_model_parallel_size=${REF_EP} \
     actor_rollout_ref.ref.megatron.expert_tensor_parallel_size=${REF_ETP} \
-    reward_model.reward_manager=dapo \
+    reward_model.reward_manager.name=dapo \
     +reward_model.reward_kwargs.overlong_buffer_cfg.enable=${enable_overlong_buffer} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.len=${overlong_buffer_len} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor=${overlong_penalty_factor} \
 
@@ -153,7 +153,7 @@ ROLLOUT_CONFIG="
 
 # ===================================== Reward =====================================
 REWARD_CONFIG="
-    reward_model.reward_manager=dapo \
+    reward_model.reward_manager.name=dapo \
     +reward_model.reward_kwargs.overlong_buffer_cfg.enable=${enable_overlong_buffer} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.len=${overlong_buffer_len} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor=${overlong_penalty_factor} \
 
@@ -173,7 +173,7 @@ python3 -m verl.trainer.main_ppo \
     actor_rollout_ref.ref.fsdp_config.param_offload=${offload} \
     actor_rollout_ref.ref.ulysses_sequence_parallel_size=${sp_size} \
     actor_rollout_ref.actor.entropy_checkpointing=${entropy_checkpointing} \
-    reward_model.reward_manager=${reward_manager} \
+    reward_model.reward_manager.name=${reward_manager} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.enable=${enable_overlong_buffer} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.len=${overlong_buffer_len} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor=${overlong_penalty_factor} \
 
@@ -177,7 +177,7 @@ python3 -m verl.trainer.main_ppo \
     actor_rollout_ref.ref.fsdp_config.param_offload=${offload} \
     actor_rollout_ref.ref.ulysses_sequence_parallel_size=${sp_size} \
     actor_rollout_ref.actor.entropy_checkpointing=${entropy_checkpointing} \
-    reward_model.reward_manager=${reward_manager} \
+    reward_model.reward_manager.name=${reward_manager} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.enable=${enable_overlong_buffer} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.len=${overlong_buffer_len} \
     +reward_model.reward_kwargs.overlong_buffer_cfg.penalty_factor=${overlong_penalty_factor} \