为了控制显存，只提交短样本

root · root · commit 5c5ba79c59cd · 2025-09-27T17:22:01.000+08:00
diff --git a/agentlightning/runner.py b/agentlightning/runner.py
@@ -240,10 +240,16 @@ async def run_async(self) -> bool:
                     # Pass the task input, not the whole task object
                     result = await rollout_method(task.input, task.rollout_id, resources_update.resources)
                     #降低最大rollout
-                    if len(result) > 40:
-                        import random
-                        result = random.sample(result,40)
-                    rollout_obj = self._to_rollout_object(result, task.rollout_id)
+                    import random
+                    new_result = []
+                    if len(result) > 10:
+                        #手动控制global token num 不超过1万
+                        global_token_num = 0
+                        while global_token_num > 10000:
+                            triplet = random.sample(result,1)
+                            global_token_num = len(triplet.prompt.get("token_ids")) + len(triplet.response.get("token_ids"))
+                        new_result.append(triplet)
+                    rollout_obj = self._to_rollout_object(new_result, task.rollout_id)
                     end_time = time.time()
                     logger.info(
                         f"{self._log_prefix(rollout_id)} Completed in "
diff --git a/examples/werewolf/train.sh b/examples/werewolf/train.sh
@@ -17,8 +17,8 @@ python -m agentlightning.verl \
     data.val_files=${DATA_DIR}/test.parquet \
     actor_rollout_ref.rollout.tensor_model_parallel_size=$ROLLOUT_TP_SIZE \
     trainer.n_gpus_per_node=${N_GPUS} \
-    data.train_batch_size=1 \
-    actor_rollout_ref.rollout.n=1 \
+    data.train_batch_size=2 \
+    actor_rollout_ref.rollout.n=2 \
     actor_rollout_ref.actor.ppo_mini_batch_size=8 \
     actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=1 \
     actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=1 \
diff --git a/merge.sh b/merge.sh
@@ -1,5 +1,5 @@
 cd /root/verl && python scripts/legacy_model_merger.py merge \
     --backend fsdp \
     --hf_model_path /root/dataDisk/Qwen3-8B \
-    --local_dir /root/dataDisk/checkpoints/global_step_47/actor \
-    --target_dir /root/dataDisk/DeepWereWolf-Qwen3-8B-Grpo-Agentic4
+    --local_dir /root/dataDisk/checkpoints/global_step_48/actor \
+    --target_dir /root/dataDisk/DeepWereWolf-Qwen3-8B-Grpo-Agentic5