fix(evaluate): 1.fix evalset parse. 2.fix save_eval_set (#291)

floritange · web-flow · commit 68afef3ebd57 · 2025-11-07T16:09:00.000+08:00
diff --git a/veadk/evaluation/base_evaluator.py b/veadk/evaluation/base_evaluator.py
@@ -442,7 +442,10 @@ def build_eval_set(
                 _input = user_content.parts[0].text
                 _expected_output = invocation.final_response.parts[0].text
 
-                if invocation.intermediate_data.tool_uses:
+                if (
+                    hasattr(invocation.intermediate_data, "tool_uses")
+                    and invocation.intermediate_data.tool_uses
+                ):
                     for expected_tool_use in invocation.intermediate_data.tool_uses:
                         _expected_tool.append(
                             {
@@ -451,6 +454,26 @@ def build_eval_set(
                             }
                         )
 
+                elif (
+                    hasattr(invocation.intermediate_data, "invocation_events")
+                    and invocation.intermediate_data.invocation_events
+                ):
+                    for event in invocation.intermediate_data.invocation_events:
+                        if hasattr(event, "content") and hasattr(
+                            event.content, "parts"
+                        ):
+                            for part in event.content.parts:
+                                if (
+                                    hasattr(part, "function_call")
+                                    and part.function_call is not None
+                                ):
+                                    _expected_tool.append(
+                                        {
+                                            "name": part.function_call.name,
+                                            "args": part.function_call.args,
+                                        }
+                                    )
+
                 eval_case_data.invocations.append(
                     Invocation(
                         invocation_id=invocation.invocation_id,
diff --git a/veadk/evaluation/eval_set_recorder.py b/veadk/evaluation/eval_set_recorder.py
@@ -14,7 +14,7 @@
 
 import time
 from pathlib import Path
-
+import os
 from google.adk.cli.utils import evals
 from google.adk.evaluation.eval_case import EvalCase, SessionInput
 from google.adk.evaluation.local_eval_sets_manager import LocalEvalSetsManager
@@ -131,7 +131,8 @@ async def dump(
         dump_path = self._get_eval_set_file_path(app_name, self.eval_set_id)
         Path(dump_path).parent.mkdir(parents=True, exist_ok=True)
 
-        self.create_eval_set(app_name=app_name, eval_set_id=self.eval_set_id)
+        if not os.path.exists(dump_path):
+            self.create_eval_set(app_name=app_name, eval_set_id=self.eval_set_id)
 
         await self.add_session_to_eval_set(
             app_name=app_name,