feat(eval): support do eval from cli

yaozheng-fang · yaozheng-fang · commit 764e3dda5b81 · 2025-09-18T10:16:13.000+08:00
diff --git a/docs/content/90.cli/1.overview.md b/docs/content/90.cli/1.overview.md
@@ -5,4 +5,12 @@ navigation:
   icon: i-lucide-heading-1
 ---
 
-VeADK 提供了多类命令。
+VeADK 提供如下命令便捷您的操作：
+
+| 命令 | 描述 | 说明 |
+| :-- | :-- | :-- |
+| `veadk init` | 生成可在 VeFaaS 中部署的项目脚手架 | 将会在您的目录中新增 `deploy.yaml` 文件 |
+| `veadk deploy` | 将某个项目部署到 VeFaaS 中 | |
+| `veadk prompt` | 优化智能体系统提示词 | 借助火山引擎 PromptPilot 产品 |
+| `veadk web` | 支持长短期记忆、知识库的前端调试界面 | 兼容 Google ADK web |
+| `veadk eval` | 支持不同后端的评测 | 评测后端包括 `adk` 与 `deepeval`，评测数据集源包括 Google ADK 评测集格式文件，以及 Tracing 文件 |
diff --git a/docs/content/90.cli/2.commands.md b/docs/content/90.cli/2.commands.md
@@ -50,3 +50,37 @@ veadk web --session_service_uri="mysql+pymysql://{user}:{password}@{host}/{datab
 ```
 
 它们能够自动读取执行命令目录中的`agent.py`文件，并加载`root_agent`全局变量。
+
+## 评测
+
+通过使用 `veadk eval` 来进行智能体评测，相关参数如下：
+
+::field-group
+  ::field{name="--agent-dir" type="string"}
+  待评测的 Agent 目录。目录中需要符合 Google ADK 的项目结构，即需要具备一个导出 `root_agent` 的名为 `agent.py` 的文件。
+  ::
+
+  ::field{name="--agent-a2a-url" type="string"}
+  待评测的云端 Agent 路径，要求云端 Agent 使用 A2A 协议进行部署。
+  ::
+
+  ::field{name="--evalset-file" type="string"}
+  Google ADK 格式的评测集文件
+  ::
+
+  ::field{name="--evaluator" type="string"}
+  评测器类别：`adk` 为 Google ADK 内置评测器，评测模型为自身；`deepeval` 为 DeepEval 评测器，评测模型可以通过 `--judge-model-name` 参数指定。
+  ::
+
+  ::field{name="--judge-model-name" type="string"}
+  默认为 `doubao-1-5-pro-256k-250115` - 评测模型，该参数在 `--evaluator` 值为 `adk` 时无效。
+  ::
+
+  ::field{name="--volcengine-access-key" type="string"}
+  火山引擎 Access Key
+  ::
+
+  ::field{name="--volcengine-secret-key" type="string"}
+  火山引擎 Secret Key
+  ::
+::
diff --git a/veadk/cli/cli.py b/veadk/cli/cli.py
@@ -16,10 +16,11 @@
 import click
 
 from veadk.cli.cli_deploy import deploy
+from veadk.cli.cli_eval import eval
 from veadk.cli.cli_init import init
+from veadk.cli.cli_pipeline import pipeline
 from veadk.cli.cli_prompt import prompt
 from veadk.cli.cli_web import web
-from veadk.cli.cli_pipeline import pipeline
 from veadk.version import VERSION
 
 
@@ -37,6 +38,7 @@ def veadk():
 veadk.add_command(prompt)
 veadk.add_command(web)
 veadk.add_command(pipeline)
+veadk.add_command(eval)
 
 if __name__ == "__main__":
     veadk()
diff --git a/veadk/cli/cli_eval.py b/veadk/cli/cli_eval.py
@@ -0,0 +1,146 @@
+import click
+
+from veadk.utils.logger import get_logger
+
+logger = get_logger(__name__)
+
+
+@click.command()
+@click.option(
+    "--agent-dir",
+    default=".",
+    help="To-be-evaluated agent directory. Must export `root_agent` in `agent.py`",
+)
+@click.option(
+    "--agent-a2a-url",
+    default=None,
+    help="To-be-evaluated agent URL. The agent should be deployed as A2A mode.",
+)
+@click.option(
+    "--evalset-file",
+    required=True,
+    help="Google ADK formatted evalset file path",
+)
+@click.option(
+    "--evaluator",
+    type=click.Choice(["adk", "deepeval"], case_sensitive=False),
+    help="Evaluator type, choose `adk` or `deepeval`",
+)
+@click.option(
+    "--judge-model-name",
+    default="doubao-1-5-pro-256k-250115",
+    help="Judge model name, default is `doubao-1-5-pro-256k-250115`. Useless under `adk` evaluator.",
+)
+@click.option(
+    "--volcengine-access-key",
+    default=None,
+    help="Volcengine access key for using Volcengine models",
+)
+@click.option(
+    "--volcengine-secret-key",
+    default=None,
+    help="Volcengine secret key for using Volcengine models",
+)
+def eval(
+    agent_dir: str,
+    agent_a2a_url: str,
+    evalset_file: str,
+    evaluator: str,
+    judge_model_name: str,
+    volcengine_access_key: str,
+    volcengine_secret_key: str,
+) -> None:
+    import asyncio
+    import os
+    from pathlib import Path
+
+    from google.adk.cli.utils.agent_loader import AgentLoader
+
+    from veadk.a2a.remote_ve_agent import RemoteVeAgent
+    from veadk.config import getenv, settings
+    from veadk.prompts.prompt_evaluator import eval_principle_prompt
+
+    try:
+        from deepeval.metrics import GEval, ToolCorrectnessMetric
+        from deepeval.test_case import LLMTestCaseParams
+
+        from veadk.evaluation.adk_evaluator import ADKEvaluator
+        from veadk.evaluation.deepeval_evaluator import DeepevalEvaluator
+    except ImportError:
+        raise ImportError(
+            "Please install veadk with `[evaluation]` extras, e.g., `pip install veadk-python[eval]`"
+        )
+
+    # ====== prepare agent instance ======
+    if not agent_dir and not agent_a2a_url:
+        raise ValueError(
+            "Option `--agent-dir` or  `--agent-a2a-url` should be provided one of them."
+        )
+
+    if agent_dir and agent_a2a_url:
+        logger.warning(
+            "`--agent-dir` and `--agent-a2a-url` are both provided, will use `--agent-a2a-url`."
+        )
+        agent_instance = RemoteVeAgent(name="a2a_agent", url=agent_a2a_url)
+        logger.info(f"Loaded agent from {agent_a2a_url}")
+
+    if not agent_dir and agent_a2a_url:
+        agent_instance = RemoteVeAgent(name="a2a_agent", url=agent_a2a_url)
+        logger.info(f"Loaded agent from {agent_a2a_url}")
+
+    if agent_dir and not agent_a2a_url:
+        agent_instance = AgentLoader(str(Path(agent_dir).parent.resolve())).load_agent(
+            str(Path(agent_dir).name)
+        )
+        logger.info(f"Loaded agent from {agent_dir}, agent name: {agent_instance.name}")
+
+    # ====== prepare envs ======
+    if volcengine_access_key and "VOLCENGINE_ACCESS_KEY" not in os.environ:
+        os.environ["VOLCENGINE_ACCESS_KEY"] = volcengine_access_key
+    if volcengine_secret_key and "VOLCENGINE_SECRET_KEY" not in os.environ:
+        os.environ["VOLCENGINE_SECRET_KEY"] = volcengine_secret_key
+
+    # ====== prepare evaluator instance ======
+    evaluator_instance = None
+    if evaluator == "adk" and judge_model_name:
+        logger.warning(
+            "Using Google ADK evaluator, `--judge-model-name` will be ignored."
+        )
+        evaluator_instance = ADKEvaluator(agent=agent_instance)
+
+        asyncio.run(evaluator_instance.evaluate(eval_set_file_path=evalset_file))
+
+    if evaluator == "deepeval":
+        if not volcengine_access_key:
+            volcengine_access_key = getenv("VOLCENGINE_ACCESS_KEY")
+        if not volcengine_secret_key:
+            volcengine_secret_key = getenv("VOLCENGINE_SECRET_KEY")
+
+        evaluator_instance = DeepevalEvaluator(
+            agent=agent_instance,
+            judge_model_api_key=settings.model.api_key,
+            judge_model_name=judge_model_name,
+        )
+
+        judge_model = evaluator_instance.judge_model
+
+        metrics = [
+            GEval(
+                threshold=0.8,
+                name="Base Evaluation",
+                criteria=eval_principle_prompt,
+                evaluation_params=[
+                    LLMTestCaseParams.INPUT,
+                    LLMTestCaseParams.ACTUAL_OUTPUT,
+                    LLMTestCaseParams.EXPECTED_OUTPUT,
+                ],
+                model=judge_model,
+            ),
+            ToolCorrectnessMetric(threshold=0.5),
+        ]
+
+        asyncio.run(
+            evaluator_instance.evaluate(
+                eval_set_file_path=evalset_file, metrics=metrics
+            )
+        )
diff --git a/veadk/evaluation/deepeval_evaluator/deepeval_evaluator.py b/veadk/evaluation/deepeval_evaluator/deepeval_evaluator.py
@@ -24,14 +24,13 @@
 from typing_extensions import override
 
 from veadk.config import getenv
-from veadk.evaluation.types import EvalResultCaseData, EvalResultMetadata
-from veadk.utils.logger import get_logger
-
 from veadk.evaluation.base_evaluator import BaseEvaluator, EvalResultData, MetricResult
+from veadk.evaluation.types import EvalResultCaseData, EvalResultMetadata
 from veadk.evaluation.utils.prometheus import (
     PrometheusPushgatewayConfig,
     push_to_prometheus,
 )
+from veadk.utils.logger import get_logger
 
 logger = get_logger(__name__)
 
@@ -45,20 +44,27 @@ class DeepevalEvaluator(BaseEvaluator):
     def __init__(
         self,
         agent,
-        judge_model_api_key: str = getenv("MODEL_JUDGE_API_KEY"),
-        judge_model_name: str = getenv(
-            "MODEL_JUDGE_NAME",
-            "doubao-seed-1-6-250615",
-        ),
-        judge_model_api_base: str = getenv(
-            "MODEL_JUDGE_API_BASE",
-            "https://ark.cn-beijing.volces.com/api/v3/",
-        ),
+        judge_model_api_key: str = "",
+        judge_model_name: str = "",
+        judge_model_api_base: str = "",
         name: str = "veadk_deepeval_evaluator",
         prometheus_config: PrometheusPushgatewayConfig | None = None,
     ):
         super().__init__(agent=agent, name=name)
 
+        if not judge_model_api_key:
+            judge_model_api_key = getenv("MODEL_JUDGE_API_KEY")
+        if not judge_model_name:
+            judge_model_name = getenv(
+                "MODEL_JUDGE_NAME",
+                "doubao-seed-1-6-250615",
+            )
+        if not judge_model_api_base:
+            judge_model_api_base = getenv(
+                "MODEL_JUDGE_API_BASE",
+                "https://ark.cn-beijing.volces.com/api/v3/",
+            )
+
         self.judge_model_name = judge_model_name
         self.judge_model = LocalModel(
             model=judge_model_name,