1

root · root · commit 80da72324cd0 · 2025-09-26T23:17:40.000+08:00
diff --git a/agentlightning/runner.py b/agentlightning/runner.py
@@ -261,8 +261,7 @@ async def run_async(self) -> bool:
                         logger.exception(f"{self._log_prefix(rollout_id)} Exception during on_rollout_end hook.")
                     await self.client.post_rollout_async(rollout_obj)
                 else:
-                    if MAX_TRY == 0:
-                        raise Exception("rollout_obj.triplets is EMPTY")
+                    raise Exception("rollout_obj.triplets is EMPTY")
         return True
 
     async def iter_async(self) -> int:
diff --git a/agentlightning/verl/trainer.py b/agentlightning/verl/trainer.py
@@ -140,6 +140,7 @@ def _train_step(self, batch_dict: dict) -> dict:
 
             # recompute old_log_probs
             with _timer("old_log_prob", timing_raw):
+                print(batch)
                 old_log_prob = self.actor_rollout_wg.compute_log_prob(batch)
                 entropys = old_log_prob.batch["entropys"]
                 response_masks = batch.batch["response_mask"]
diff --git a/examples/werewolf/prompt.py b/examples/werewolf/prompt.py
@@ -200,7 +200,7 @@ class Prompts:
     
     to_wolves_empty = "[仅狼人可见] 投票结果：{}。你们选择空刀，今晚不击杀任何人。"
 
-    to_guard_action = "[仅守卫可见] {}，作为守卫，你今晚要守护哪位玩家？昨晚守护的玩家是 {}，当前存活的玩家是{}。注意不能连续两晚守护同一人。可以选择'空守'放弃守护。也可以选择自守策略（要给出你自己的具体号码），给出你的理由和决定。"
+    to_guard_action = "[仅守卫可见] {agent_name}，作为守卫，你今晚要守护哪位玩家？昨晚守护的玩家是 {last_guarded_player}，当前存活的玩家是{current_alive}。注意不能连续两晚守护同一人。可以选择'空守'放弃守护。也可以选择自守策略（要给出你自己的具体号码，例如{agent_name}），给出你的理由和决定。"
 
     to_all_guard_turn = "守卫的回合，守卫请睁眼，决定今晚要守护的玩家。"
 
diff --git a/examples/werewolf/train.sh b/examples/werewolf/train.sh
@@ -39,7 +39,7 @@ python -m agentlightning.verl \
     actor_rollout_ref.actor.fsdp_config.param_offload=True \
     actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \
     actor_rollout_ref.rollout.name=vllm \
-    actor_rollout_ref.rollout.gpu_memory_utilization=0.5 \
+    actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
     actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=1 \
     actor_rollout_ref.ref.fsdp_config.param_offload=True \
     algorithm.use_kl_in_reward=False \
diff --git a/examples/werewolf/werewolf_agent.py b/examples/werewolf/werewolf_agent.py
@@ -515,9 +515,9 @@ async def training_rollout_async(self, task: Any, rollout_id: str, resources: Na
                     msg_guard = await agent(
                         await moderator(
                             Prompts.to_guard_action.format(
-                                agent.name,
-                                last_guarded_player,
-                                names_to_str(current_alive),
+                                agent_name=agent.name,
+                                last_guarded_player=last_guarded_player,
+                                current_alive=names_to_str(current_alive),
                             ),
                         ),
                         structured_model=get_guard_model(current_alive),
diff --git a/merge.sh b/merge.sh
@@ -1,5 +1,5 @@
 cd /root/verl && python scripts/legacy_model_merger.py merge \
     --backend fsdp \
     --hf_model_path /root/dataDisk/Qwen3-8B \
-    --local_dir /root/dataDisk/checkpoints/global_step_1/actor \
-    --target_dir /root/dataDisk/merge_demo
+    --local_dir /root/dataDisk/checkpoints/global_step_41/actor \
+    --target_dir /root/dataDisk/DeepWereWolf-Qwen3-8B-Grpo-Agentic