fix: agentenv-webshop evaluator success rate 0 error

realtmxi · realtmxi · commit 70ea32e13da1 · 2025-05-13T08:29:21.000Z
diff --git a/openmanus_rl/agentgym/agentenv/agentenv/controller/task.py b/openmanus_rl/agentgym/agentenv/agentenv/controller/task.py
@@ -35,7 +35,7 @@ def __init__(
         self,
         client_args: Mapping[str, Any],
         tokenizer: PreTrainedTokenizerBase, # Tokenizer is now needed at init for output processing
-        vllm_base_url: str = "http://localhost:8001/v1",
+        vllm_base_url: str = "http://localhost:8002/v1",
         vllm_api_key: str = "dummy-key",
         vllm_model_name: str = "agent-llm",
     ) -> None:
@@ -254,15 +254,17 @@ def _generate_experience_one(
             if len(conversation) > 50: # Safety break for very long conversations
                 print("Warning: Max conversation turns reached.")
                 break
+        # full_text, full_input_ids, full_action_mask = self._reconstruct_tokenized_info(conversation)
 
         return ExperienceOutput(
             conversation=conversation,
-            reward=0,
+            reward=reward,
             text=None,
             seq_ids=None,
             attention_mask=None,
             action_mask=None,
         )
+    
 
     def _generate_experience_batch(
         self,
diff --git a/openmanus_rl/evaluation/run_vllm.sh b/openmanus_rl/evaluation/run_vllm.sh
@@ -16,15 +16,21 @@ else
     echo "Configured to use 4 GPUs: CUDA_VISIBLE_DEVICES=$visible_devices, tensor_parallel_size=$tensor_parallel_size"
 fi
 
+MODEL_PATH="/data1/models/ZhipuAI/GLM-4-32B-0414"
+# MODEL_PATH="/data1/models/Qwen/Qwen3-4B-FP8"
+# MODEL_PATH="/data1/models/Qwen/Qwen3-235B-A22B-FP8"
+# MODEL_PATH= "THUDM/agentlm-7b"
+
 # --- VLLM Command ---
 # Set environment variables and run the vllm server
 CUDA_VISIBLE_DEVICES="$visible_devices" \
 VLLM_USE_V1=0 \
-vllm serve /data1/models/Qwen/Qwen3-8B-FP8 \
+vllm serve "$MODEL_PATH" \
     --gpu-memory-utilization 0.95 \
     --tensor-parallel-size "$tensor_parallel_size" \
     --host 0.0.0.0 \
-    --port 8001 \
+    --port 8002 \
     --max-model-len 32768  \
-    --served-model-name agent-llm
+    --served-model-name agent-llm \
+    # --enable-expert-parallel
     # --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' \
diff --git a/openmanus_rl/evaluation/vllm_eval_webshop.py b/openmanus_rl/evaluation/vllm_eval_webshop.py
@@ -24,6 +24,7 @@ def evaluate_single_task(model_path, env_server_base, max_rounds, idx):
         try:
             tokenizer = AutoTokenizer.from_pretrained(model_path)
         except Exception as e:
+            print(f"Failed to load tokenizer: {e}")
             return None  # Cannot proceed without tokenizer
 
         # Define generation config
@@ -46,6 +47,7 @@ def evaluate_single_task(model_path, env_server_base, max_rounds, idx):
                 "timeout": 300,
             },
             n_clients=1,  # Evaluate one task index at a time
+            
         )
 
         # Initialize Evaluator
@@ -59,14 +61,30 @@ def evaluate_single_task(model_path, env_server_base, max_rounds, idx):
         )
 
         # Extract experience data if successful
-        if result and result.experiences:
-            experience = result.experiences[0]
-            # Return entire experience object including conversation, reward, and success
-            return {
-                "conversation": getattr(experience, 'conversation', None),
-                "reward": getattr(experience, 'reward', 0.0),
-                "success": 1 if getattr(experience, 'reward', 0.0) == 1 else 0
-            }
+        # if result and result.experiences:
+        #     experience = result.experiences[0]
+        #     # Return entire experience object including conversation, reward, and success
+        #     return {
+        #         "conversation": getattr(experience, 'conversation', None),
+        #         "reward": getattr(experience, 'reward', 0.0),
+        #         "success": 1 if getattr(experience, 'reward', 0.0) == 1 else 0
+        #     }
+
+        # Replace this section in your evaluate_single_task function
+        if result:
+            # Access raw experience objects directly
+            if hasattr(result, 'experiences') and result.experiences:
+                exp = result.experiences[0]
+                # Print detailed debug information about the experience
+                print(f"Task {idx} - Experience object type: {type(exp)}")
+                print(f"Task {idx} - Available attributes: {dir(exp)}")
+                print(f"Task {idx} - Raw reward value: {getattr(exp, 'reward', None)}")
+                
+                return {
+                    "conversation": getattr(exp, 'conversation', []),
+                    "reward": getattr(exp, 'reward', 0.0),  # Make sure we're accessing the raw reward
+                    "success": 1 if getattr(exp, 'reward', 0.0) == 1 else 0
+                }
         else:
             return None
 
@@ -80,13 +98,13 @@ def main():
 
     # --- Argument Parsing ---
     parser = argparse.ArgumentParser(description='Run WebShop evaluation concurrently, initialize evaluator per worker, and save results to JSONL.')
-    parser.add_argument('--model_name', type=str, default='Qwen3-8B', help='Name of the model being evaluated (e.g., AgentLM-7B)')
+    parser.add_argument('--model_name', type=str, default='Qwen3-4B', help='Name of the model being evaluated (e.g., AgentLM-7B)')
     parser.add_argument('--sector', type=str, default='eval', help='Sector or domain of the evaluation (e.g., WebShop)')
     parser.add_argument('--num_tasks', type=int, default=100, help='Number of tasks to process (default: 100)')
     parser.add_argument('--max_workers', type=int, default=20, help='Maximum number of concurrent workers (default: 20)')
-    parser.add_argument('--model_path', type=str, default="/data1/models/Qwen/Qwen3-8B-FP8", help='Path to the model directory')
+    parser.add_argument('--model_path', type=str, default="/data1/models/Qwen/Qwen3-4B-FP8", help='Path to the model directory')
     parser.add_argument('--env_server_base', type=str, default="http://127.0.0.1:36001", help='Base URL for the environment server')
-    parser.add_argument('--max_rounds', type=int, default=7, help='Maximum interaction rounds per task (default: 7)')
+    parser.add_argument('--max_rounds', type=int, default=20, help='Maximum interaction rounds per task (default: 7)')
     parser.add_argument('--output_file', type=str, default="", help='Output file path (default: {model_name}_{sector}.jsonl)')
 
     args = parser.parse_args()