volcengine
diff --git a/‎02-use-cases/data_analysis_with_datalake/.dockerignore‎
Lines changed: 27 additions & 0 deletions b/‎02-use-cases/data_analysis_with_datalake/.dockerignore‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎02-use-cases/data_analysis_with_datalake/README.md‎
Lines changed: 146 additions & 0 deletions b/‎02-use-cases/data_analysis_with_datalake/README.md‎
Lines changed: 146 additions & 0 deletions
diff --git a/‎02-use-cases/data_analysis_with_datalake/agent.py‎
Lines changed: 88 additions & 0 deletions b/‎02-use-cases/data_analysis_with_datalake/agent.py‎
Lines changed: 88 additions & 0 deletions
diff --git a/‎02-use-cases/data_analysis_with_datalake/client.py‎
Lines changed: 76 additions & 0 deletions b/‎02-use-cases/data_analysis_with_datalake/client.py‎
Lines changed: 76 additions & 0 deletions
@@ -0,0 +1,27 @@
+# AgentKit configuration
+agentkit.yaml
+agentkit*.yaml
+
+# Python cache
+__pycache__/
+*.py[cod]
+*$py.class
+
+# Virtual environments
+.venv/
+venv/
+ENV/
+env/
+
+# IDE
+.vscode/
+.idea/
+.windsurf/
+
+# Git
+.git/
+.gitignore
+
+# Docker
+Dockerfile*
+.dockerignore
@@ -0,0 +1,146 @@
+# Data Analysis with Code Project
+
+## 项目概述
+
+这是一个基于 LanceDB 构建的数据分析框架，使用 IMDB 数据集，支持结构化数据查询、非结构化混合检索、元数据搜索和非结构化数据处理等多种功能。
+
+## 架构
+
+### 技术栈
+
+- **LanceDB**: 用于高效元数据搜数、向量和结构化数据存储与检索
+- **DuckDB**: 用于结构化数据的 SQL 查询
+- **LAS**: 用于非结构化数据的处理和生成，如视频生成
+
+### 核心组件
+
+#### 1. 结构化数据查询 (`duckdb_sql_execution.py`)
+
+- **功能**: 允许用户通过 SQL 语句查询结构化数据
+- **技术**: 基于 DuckDB 数据库引擎
+- **应用场景**: 执行传统的结构化数据查询、过滤和聚合操作
+
+#### 2. 非结构化混合检索 (`lancedb_hybrid_execution.py`)
+
+- **功能**: 支持将结构化查询与向量检索相结合，实现混合查询
+- **技术**: 基于 LanceDB 的向量检索能力
+- **应用场景**: 处理同时包含结构化属性和非结构化内容的查询需求
+
+#### 3. 元数据搜索 (`catalog_discovery.py`)
+
+- **功能**: 提供数据集元数据的搜索和发现功能
+- **技术**: 基于目录结构的元数据管理
+- **应用场景**: 帮助用户了解可用数据集的结构和内容
+
+#### 4. 非结构化数据处理 (`video_generation.py`)
+
+- **功能**: 支持将非结构化数据（如图片）转换为视频
+- **技术**: 基于视频生成算法
+- **应用场景**: 实现图片到视频的转换功能
+
+## 数据集说明
+
+本项目使用 IMDB 数据集，包含以下两个主要组成部分：
+
+### 1. 元数据表
+
+提供数据集的整体描述和结构信息，帮助用户了解可用的数据资源，其中包含每一列的描述、数据类型、样例值和可能的取值范围。
+
+### 2. IMDB 电影数据表 (`imdb_top_1000`)
+
+包含 1000 部电影的详细信息，主要字段包括：
+
+| 字段名                  | 类型   | 描述                                                                     |
+| ----------------------- | ------ | ------------------------------------------------------------------------ |
+| `series_title`          | 字符串 | 电影标题                                                                 |
+| `released_year`         | 字符串 | 上映年份（注意：虽然是年份数字，但为字符串类型，比较操作需用单引号包裹） |
+| `director`              | 字符串 | 导演                                                                     |
+| `genre`                 | 字符串 | 电影类型                                                                 |
+| `imdb_rating`           | 浮点数 | IMDB 评分                                                                |
+| `poster_curde_link`     | 字符串 | 电影缩略图海报链接                                                       |
+| `poster_precision_link` | 字符串 | 电影海报高清链接                                                         |
+
+## 配置流程
+
+### 1. 配置文件设置
+
+编辑 `data_analysis_with_code/agentkit_deploy/settings.txt` 文件，可选配置以下：
+
+```
+MODEL_AGENT_API_KEY=your_api_key_here
+VOLCENGINE_ACCESS_KEY=your_ak
+VOLCENGINE_SECRET_KEY=your_sk
+
+```
+
+### 2. 项目部署
+
+```bash
+uv python install 3.12
+uv venv -p 3.12 .venv
+source .venv/bin/activate
+uv pip install -r requirements.txt
+
+# veadk运行
+veadk web
+
+# 在agentkit上运行
+agentkit config --tos_bucket <your bucket name>
+agentkit launch
+```
+
+## 客户端连接
+
+### 方式一：使用 Python 客户端
+
+当使用 agentkit 运行时可以通过 client 进行连接
+
+```bash
+python client.py
+```
+
+### 方式二：使用 Web 界面
+
+```bash
+streamlit run web/app.py
+```
+
+## 示例问题
+
+1. **Q1: 你有哪些数据？**
+2. **Q2: 给我一些样例数据？**
+3. **Q3: Ang Lee 评分超过 7 分的有哪些电影？**
+4. **Q4: Ang Lee 评分超过 7 分的电影中，有哪个电影海报中含有动物？**
+5. **Q5: Life of Pi 的电影海报，变成视频**
+6. **Q6: 帮我找一张海报里有红色机车的电影，并把它做成视频**
+
+## 运行流程
+
+当用户提出问题时，系统将遵循以下流程处理：
+
+1. **搜数阶段 (Discovery)**：调用 `catalog_discovery` 工具确认可用的表名和字段信息。
+2. **数据分析阶段 (Query)**：
+   - 对于结构化统计或过滤查询，调用 `duckdb_sql_execution` 工具执行 SQL 查询
+   - 对于语义、视觉或混合检索查询，调用 `lancedb_hybrid_execution` 工具执行向量检索
+   - 对于图生视频等非结构化数据处理，调用 `video_generation` 工具执行相应操作
+3. **结果处理阶段 (Result Handling)**：
+   - 如果结果为空 `[]`，直接回答用户"未找到"
+   - 如果结果正常，立即返回最终答案
+
+## 文件结构
+
+```
+data_analysis_with_code/
+├── agent.py
+├── prompts.py
+├── requirements.txt
+├── settings.txt
+└── tools/
+    ├── catalog_discovery.py
+    ├── duckdb_sql_execution.py
+    ├── lancedb_hybrid_execution.py
+    └── video_generation.py
+├── client.py
+└── web/
+    └── app.py
+```
@@ -0,0 +1,88 @@
+# 导入所有必要的模块
+import os
+import sys
+import logging
+from pathlib import Path
+from dotenv import load_dotenv
+
+
+# 将当前目录添加到sys.path以便本地模块导入
+sys.path.append(str(Path(__file__).resolve().parent))
+# 加载 settings.txt（dotenv 格式）
+load_dotenv(
+    dotenv_path=str(Path(__file__).resolve().parent / "settings.txt"), override=False
+)
+
+# 导入veadk和agentkit相关模块
+from veadk import Agent, Runner  # noqa: E402
+from veadk.auth.veauth.ark_veauth import get_ark_token  # noqa: E402
+from veadk.memory.short_term_memory import ShortTermMemory  # noqa: E402
+from veadk.tools.builtin_tools.video_generate import video_generate  # noqa: E402
+from agentkit.apps import AgentkitAgentServerApp  # noqa: E402
+
+# 导入本地模块
+from tools.catalog_discovery import catalog_discovery  # noqa: E402
+from tools.duckdb_sql_execution import duckdb_sql_execution  # noqa: E402
+from tools.lancedb_hybrid_execution import lancedb_hybrid_execution  # noqa: E402
+from prompts import SYSTEM_PROMPT  # noqa: E402
+
+# Check if MODEL_AGENT_API_KEY environment variable exists and is not empty
+if "MODEL_AGENT_API_KEY" not in os.environ or not os.environ["MODEL_AGENT_API_KEY"]:
+    os.environ["MODEL_AGENT_API_KEY"] = get_ark_token()
+# Optionally assign to a variable for easier use in the file
+MODEL_AGENT_API_KEY = os.environ["MODEL_AGENT_API_KEY"]
+
+short_term_memory = ShortTermMemory(backend="local")
+
+# 设置日志
+logging.basicConfig(
+    level=logging.INFO,
+    format="%(asctime)s - %(levelname)s - %(message)s",
+)
+
+# --- Logging Configuration ---
+logger = logging.getLogger(__name__)
+
+tools = [
+    catalog_discovery,
+    duckdb_sql_execution,
+    lancedb_hybrid_execution,
+    video_generate,
+]
+
+# 创建带记忆的 Agent
+model_name = os.getenv(
+    "MODEL_AGENT_NAME", "doubao-seed-1-6-251015"
+)  # 默认使用更主流的豆包模型
+root_agent = Agent(
+    description="基于LanceDB的数据检索Agent，支持结构化和向量查询。典型问题包括：1.你有哪些数据？2.给我一些样例数据？3.Ang Lee 评分超过7分的有哪些电影？4.Ang Lee 评分超过7分的电影中，有哪个电影海报中含有动物？5.Life of Pi 的电影海报，变成视频",
+    instruction=SYSTEM_PROMPT,
+    model_name=model_name,
+    tools=tools,
+    short_term_memory=short_term_memory,
+)
+
+runner = Runner(agent=root_agent)
+
+# a2a_app = AgentkitA2aApp()
+
+# @a2a_app.agent_executor(runner=runner)
+# class MyAgentExecutor(A2aAgentExecutor):
+#     pass
+
+# # 当直接运行此文件时，启动本地服务
+# if __name__ == "__main__":
+#     logger.info("🚀 正在启动 A2A Agent 服务...")
+#     a2a_app.run(
+#         agent_card=get_agent_card(agent=root_agent, url="http://127.0.0.1:8000"),
+#         host="0.0.0.0",
+#         port=8000,
+#     )
+
+agent_server_app = AgentkitAgentServerApp(
+    agent=root_agent,
+    short_term_memory=short_term_memory,
+)
+
+if __name__ == "__main__":
+    agent_server_app.run(host="0.0.0.0", port=8000)
@@ -0,0 +1,76 @@
+import requests
+import httpx
+import random
+
+from google.adk.cli.adk_web_server import CreateSessionRequest, RunAgentRequest
+from google.genai.types import Content, Part
+import asyncio
+
+
+if __name__ == "__main__":
+    # Step 0: setup running configs
+    app_name = "data_analysis_with_code"
+    user_id = "agentkit_user"
+    session_id = "agentkit_sample_session"
+    base_url = ""
+    api_key = ""
+
+    task_num = 1
+
+    # Step 1: create a session
+    def create_session():
+        create_session_request = CreateSessionRequest(
+            session_id=session_id + f"_{random.randint(1, 9999)}",
+        )
+
+        response = requests.post(
+            url=f"{base_url}/apps/{app_name}/users/{user_id}/sessions/{create_session_request.session_id}",
+            headers={"Authorization": f"Bearer {api_key}"},
+        )
+
+        print(f"[create session] Response from server: {response.json()}")
+
+        return create_session_request.session_id
+
+    # Step 2: run agent with SSE
+    run_agent_request = RunAgentRequest(
+        app_name=app_name,
+        user_id=user_id,
+        session_id=create_session(),
+        new_message=Content(
+            parts=[Part(text="Ang Lee的电影评分超过7分，有哪些电影海报包含动物")],
+            role="user",
+        ),
+        stream=True,
+    )
+
+    print("[run agent] Event from server:")
+
+    # 3. Handle streaming events
+    async def send_request(message: str):
+        run_agent_request = RunAgentRequest(
+            app_name=app_name,
+            user_id=user_id,
+            session_id=create_session(),
+            new_message=Content(parts=[Part(text=message)], role="user"),
+            stream=True,
+        )
+
+        with httpx.stream(
+            "POST",
+            f"{base_url}/run_sse",
+            json=run_agent_request.model_dump(exclude_none=True),
+            timeout=120,
+            headers={"Authorization": f"Bearer {api_key}"},
+        ) as r:
+            for line in r.iter_lines():
+                print(line)
+
+    async def send_request_parallel():
+        tasks = [
+            send_request("Ang Lee的电影评分超过7分，有哪些电影海报包含动物")
+            for _ in range(task_num)
+        ]
+        await asyncio.gather(*tasks)
+
+    asyncio.run(send_request_parallel())