chore: Better error tracking and cleanup

andrewginns · andrewginns · commit 7ada57cea6dc · 2025-06-08T13:09:53.000Z
diff --git a/agents_mcp_usage/multi_mcp/eval_multi_mcp/evals_pydantic_mcp.py b/agents_mcp_usage/multi_mcp/eval_multi_mcp/evals_pydantic_mcp.py
@@ -1,4 +1,3 @@
-#!/usr/bin/env python3
 """
 Single-Model Evaluation Module for Mermaid Diagram Fixing
 
diff --git a/agents_mcp_usage/multi_mcp/eval_multi_mcp/run_multi_evals.py b/agents_mcp_usage/multi_mcp/eval_multi_mcp/run_multi_evals.py
@@ -207,19 +207,33 @@ async def fix_with_model(inputs: MermaidInput) -> MermaidOutput:
             logfire.warning(
                 "Evaluation timeout", model=model, run_index=run_index, timeout=timeout
             )
-            self.results[model].add_failed_run(run_index, error_msg)
+            self.results[model].add_failed_run(run_index, "evaluation_timeout")
             return None
 
         except Exception as e:
+            # Categorize the error for better reporting
+            error_type = type(e).__name__
+            if "ValidationError" in error_type:
+                categorized_error = "evaluation_validation_failed"
+            elif "timeout" in str(e).lower() or "timed out" in str(e).lower():
+                categorized_error = "evaluation_timeout"
+            elif "ModelHTTPError" in error_type:
+                categorized_error = "model_api_error"
+            elif "ConnectionError" in error_type or "network" in str(e).lower():
+                categorized_error = "network_error"
+            else:
+                categorized_error = f"evaluation_error_{error_type}"
+
             error_msg = f"Error during evaluation: {str(e)}"
             logfire.error(
                 "Evaluation error",
                 model=model,
                 run_index=run_index,
                 error=str(e),
-                error_type=type(e).__name__,
+                error_type=error_type,
+                categorized_error=categorized_error,
             )
-            self.results[model].add_failed_run(run_index, error_msg)
+            self.results[model].add_failed_run(run_index, categorized_error)
             return None
 
     async def run_model_evaluations(
@@ -442,7 +456,7 @@ async def main():
     parser.add_argument(
         "--parallel",
         action="store_true",
-        default=False,
+        default=True,
         help="Run evaluations in parallel",
     )
     parser.add_argument(

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,3 @@`
`1`		`-#!/usr/bin/env python3`
`2`	`1`	`"""`
`3`	`2`	`Single-Model Evaluation Module for Mermaid Diagram Fixing`
`4`	`3`