限制最大rollout的同时 、拆分rollout

root · root · commit 5987d3269f73 · 2025-09-27T11:17:22.000+08:00
diff --git a/agentlightning/runner.py b/agentlightning/runner.py
@@ -240,9 +240,9 @@ async def run_async(self) -> bool:
                     # Pass the task input, not the whole task object
                     result = await rollout_method(task.input, task.rollout_id, resources_update.resources)
                     #降低最大rollout
-                    if len(result) > 40:
+                    if len(result) > 5:
                         import random
-                        result = random.sample(result,40)
+                        result = random.sample(result,5)
                     rollout_obj = self._to_rollout_object(result, task.rollout_id)
                     end_time = time.time()
                     logger.info(
@@ -254,14 +254,11 @@ async def run_async(self) -> bool:
                 logger.exception(f"{self._log_prefix(rollout_id)} Exception during rollout.")
                 MAX_TRY = MAX_TRY - 1
             finally:
-                if rollout_obj.triplets:
-                    try:
-                        self.agent.on_rollout_end(task, rollout_obj, self, self.tracer)
-                    except Exception:
-                        logger.exception(f"{self._log_prefix(rollout_id)} Exception during on_rollout_end hook.")
-                    await self.client.post_rollout_async(rollout_obj)
-                else:
-                    raise Exception("rollout_obj.triplets is EMPTY")
+                try:
+                    self.agent.on_rollout_end(task, rollout_obj, self, self.tracer)
+                except Exception:
+                    logger.exception(f"{self._log_prefix(rollout_id)} Exception during on_rollout_end hook.")
+                await self.client.post_rollout_async(rollout_obj)
         return True
 
     async def iter_async(self) -> int:
diff --git a/examples/werewolf/train.sh b/examples/werewolf/train.sh
@@ -17,8 +17,8 @@ python -m agentlightning.verl \
     data.val_files=${DATA_DIR}/test.parquet \
     actor_rollout_ref.rollout.tensor_model_parallel_size=$ROLLOUT_TP_SIZE \
     trainer.n_gpus_per_node=${N_GPUS} \
-    data.train_batch_size=1 \
-    actor_rollout_ref.rollout.n=1 \
+    data.train_batch_size=4 \
+    actor_rollout_ref.rollout.n=4 \
     actor_rollout_ref.actor.ppo_mini_batch_size=8 \
     actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \
     actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=1 \
diff --git a/merge.sh b/merge.sh
@@ -1,5 +1,5 @@
 cd /root/verl && python scripts/legacy_model_merger.py merge \
     --backend fsdp \
     --hf_model_path /root/dataDisk/Qwen3-8B \
-    --local_dir /root/dataDisk/checkpoints/global_step_42/actor \
-    --target_dir /root/dataDisk/DeepWereWolf-Qwen3-8B-Grpo-Agentic1
+    --local_dir /root/dataDisk/checkpoints/global_step_47/actor \
+    --target_dir /root/dataDisk/DeepWereWolf-Qwen3-8B-Grpo-Agentic4