feat(uploadevalset): upload evalset (#244)

floritange · web-flow · commit 7f33f08c4fc9 · 2025-10-22T20:34:26.000+08:00
* feat(uploadevalset): upload evalset

* update(docs): update docs
diff --git a/docs/content/90.cli/1.overview.md b/docs/content/90.cli/1.overview.md
@@ -15,3 +15,4 @@ VeADK 提供如下命令便捷您的操作：
 | `veadk web` | 支持长短期记忆、知识库的前端调试界面 | 兼容 Google ADK web |
 | `veadk eval` | 支持不同后端的评测 | 评测后端包括 `adk` 与 `deepeval`，评测数据集源包括 Google ADK 评测集格式文件，以及 Tracing 文件 |
 | `veadk kb` | 知识库相关操作 | 向知识库添加本地文件或目录 |
+| `veadk uploadevalset` | 评测集相关操作 | 向Cozeloop推送评测数据集 |
diff --git a/docs/content/90.cli/2.commands.md b/docs/content/90.cli/2.commands.md
@@ -126,3 +126,17 @@ response = asyncio.run(
 
 print(response) # Your ID is 20250101.
 ```
+
+## 评测集上传
+
+将评测集上传到 CozeLoop 平台：
+
+```bash
+# cozeloop-workspace-id, cozeloop-evalset-id, cozeloop-api-key可从从环境变量中读取
+veadk uploadevalset --file <评测集JSON文件路径> ---cozeloop-workspace-id <CozeLoop工作空间ID> --cozeloop-evalset-id <CozeLoop评测集ID> --cozeloop-api-key <CozeLoop API Key>
+```
+
+环境变量配置：
+- `OBSERVABILITY_OPENTELEMETRY_COZELOOP_SERVICE_NAME`: 工作空间ID
+- `OBSERVABILITY_OPENTELEMETRY_COZELOOP_EVALSET_ID`: 评测集ID  
+- `OBSERVABILITY_OPENTELEMETRY_COZELOOP_API_KEY`: API Key
diff --git a/veadk/cli/cli.py b/veadk/cli/cli.py
@@ -22,6 +22,7 @@
 from veadk.cli.cli_pipeline import pipeline
 from veadk.cli.cli_prompt import prompt
 from veadk.cli.cli_web import web
+from veadk.cli.cli_uploadevalset import uploadevalset
 from veadk.version import VERSION
 
 
@@ -41,6 +42,7 @@ def veadk():
 veadk.add_command(pipeline)
 veadk.add_command(eval)
 veadk.add_command(kb)
+veadk.add_command(uploadevalset)
 
 if __name__ == "__main__":
     veadk()
diff --git a/veadk/cli/cli_uploadevalset.py b/veadk/cli/cli_uploadevalset.py
@@ -0,0 +1,125 @@
+# Copyright (c) 2025 Beijing Volcano Engine Technology Co., Ltd. and/or its affiliates.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import click
+import json
+import requests
+from veadk.utils.logger import get_logger
+from veadk.config import getenv
+from pathlib import Path
+
+logger = get_logger(__name__)
+
+
+@click.command()
+@click.option("--file", required=True, help="JSON file path containing dataset items")
+@click.option("--cozeloop-workspace-id", default=None, help="CozeLoop workspace ID")
+@click.option("--cozeloop-evalset-id", default=None, help="CozeLoop evaluation set ID")
+@click.option(
+    "--cozeloop-api-key",
+    default=None,
+    help="CozeLoop API key (or set COZELOOP_API_KEY env var)",
+)
+def uploadevalset(
+    file: str,
+    cozeloop_workspace_id: str,
+    cozeloop_evalset_id: str,
+    cozeloop_api_key: str,
+) -> None:
+    """Upload dataset items to CozeLoop evaluation set."""
+
+    if not cozeloop_workspace_id:
+        cozeloop_workspace_id = getenv(
+            "OBSERVABILITY_OPENTELEMETRY_COZELOOP_SERVICE_NAME"
+        )
+    if not cozeloop_evalset_id:
+        cozeloop_evalset_id = getenv("OBSERVABILITY_OPENTELEMETRY_COZELOOP_EVALSET_ID")
+    if not cozeloop_api_key:
+        cozeloop_api_key = getenv("OBSERVABILITY_OPENTELEMETRY_COZELOOP_API_KEY")
+
+    # Read JSON file
+    file_path = Path(file)
+    if not file_path.exists():
+        logger.error(f"File not found: {file}")
+        return
+
+    logger.info(f"Reading dataset from {file}")
+    with open(file_path, "r", encoding="utf-8") as f:
+        data = json.load(f)
+
+    # Prepare items
+    items = []
+    for case in data.get("eval_cases", []):
+        conversation = case.get("conversation", [])
+        for turn in conversation:
+            user_text = (
+                turn.get("user_content", {}).get("parts", [{}])[0].get("text", "")
+            )
+            output_text = (
+                turn.get("final_response", {}).get("parts", [{}])[0].get("text", "")
+            )
+
+            items.append(
+                {
+                    "turns": [
+                        {
+                            "field_datas": [
+                                {
+                                    "name": "input",
+                                    "content": {
+                                        "content_type": "Text",
+                                        "text": user_text,
+                                    },
+                                },
+                                {
+                                    "name": "output",
+                                    "content": {
+                                        "content_type": "Text",
+                                        "text": output_text,
+                                    },
+                                },
+                            ]
+                        }
+                    ]
+                }
+            )
+
+    # Upload to CozeLoop
+    url = f"https://api.coze.cn/v1/loop/evaluation/evaluation_sets/{cozeloop_evalset_id}/items"
+    logger.info(
+        f"Uploading {len(items)} items to workspace_id={cozeloop_workspace_id} evalset_id={cozeloop_evalset_id}"
+    )
+
+    response = requests.post(
+        url=url,
+        headers={
+            "Authorization": f"Bearer {cozeloop_api_key}",
+            "Content-Type": "application/json",
+            "X-TT-ENV": "ppe_eval_openapi",
+            "x-use-ppe": "1",
+        },
+        json={
+            "workspace_id": cozeloop_workspace_id,
+            "is_allow_partial_add": True,
+            "is_skip_invalid_items": True,
+            "items": items,
+        },
+    )
+
+    if response.status_code == 200:
+        logger.info(
+            f"Successfully uploaded dataset to CozeLoop evalset {cozeloop_evalset_id}"
+        )
+    else:
+        logger.error(f"Failed to upload dataset: {response.text}")