💬Generate LLM translations (#2208)

github-actions[bot] · web-flow · commit ae85fa8af076 · 2025-05-22T12:48:19.000+08:00
Co-authored-by: github-actions[bot] &lt;41898282+github-actions[bot]@users.noreply.github.com&gt;
diff --git a/docs/cn/guides/51-access-data-lake/index.md b/docs/cn/guides/51-access-data-lake/index.md
@@ -1,11 +1,13 @@
 ---
-title: 访问 Data Lake
+title: 面向 Data Lakehouse 的 Databend
 ---
 
-Databend 与三种强大的 Data Lake 技术——[Apache Hive](https://hive.apache.org/)、[Apache Iceberg](https://iceberg.apache.org/) 和 [Delta Lake](https://delta.io/) 实现了无缝集成。这种集成通过支持 Data Lake 功能的多个方面带来了独特的优势。Databend 提供了一个通用且全面的平台，使用户能够在 Data Lake 环境中更灵活、更高效地处理各种数据集。
+Databend 与流行的 Data Lake 技术集成，提供统一的 lakehouse 架构，将 Data Lake 的灵活性与数仓的性能相结合。
 
-此外，这三种技术在 Databend 中的集成具有不同的方法。有些（如 Apache Hive）在 catalog 级别集成，而另一些（如 Delta Lake）则在表引擎级别运行。基于 catalog 的集成建立了与 Data Lake 的集中连接，从而简化了跨多个表的访问和管理。另一方面，表引擎级别的集成提供了更精细的控制，允许在单个表级别进行定制优化和微调。
+| 技术 | 集成类型 | 主要特性 | 文档 |
+|------------|-----------------|--------------|---------------|
+| Apache Hive | Catalog 级别 | 支持传统 Data Lake，模式注册 | [Apache Hive Catalog](01-hive.md) |
+| Apache Iceberg™ | Catalog 级别 | ACID 事务，模式演化，时间回溯 | [Apache Iceberg™ Catalog](02-iceberg.md) |
+| Delta Lake | Table Engine 级别 | ACID 事务，数据版本控制，模式强制 | [Delta Lake Table Engine](03-delta.md) |
 
-- [Apache Hive Catalog](01-hive.md)
-- [Apache Iceberg Catalog](02-iceberg.md)
-- [Delta Lake Table Engine](03-delta.md)
+这些集成使 Databend 用户能够高效地查询、分析和管理 Data Lake 和数仓环境中的各种数据集，而无需重复数据。
diff --git a/docs/cn/guides/51-ai-functions/01-external-functions.md b/docs/cn/guides/51-ai-functions/01-external-functions.md
@@ -0,0 +1,77 @@
+# 用于自定义 AI/ML 的外部函数
+
+对于高级 AI/ML 场景，Databend 支持外部函数，可以将您的数据与使用 Python 等语言编写的自定义 AI/ML 基础设施连接起来。
+
+| 功能 | 描述 | 优势 |
+|---------|-------------|----------|
+| **模型灵活性** | 使用开源模型或您内部的 AI/ML 基础设施 | • 自由选择任何模型<br/>• 利用现有的 ML 投资<br/>• 随时掌握最新的 AI 进展 |
+| **GPU 加速** | 在配备 GPU 的机器上部署外部函数服务器 | • 更快地进行深度学习模型推理<br/>• 处理更大的批量大小<br/>• 支持计算密集型工作负载 |
+| **自定义 ML 模型** | 部署和使用您自己的机器学习模型 | • 专有算法<br/>• 领域特定模型<br/>• 针对您的数据进行微调 |
+| **高级 AI 管道** | 使用专用库构建复杂的 AI 工作流程 | • 多步骤处理<br/>• 自定义转换<br/>• 与 ML 框架集成 |
+| **可扩展性** | 在 Databend 之外处理资源密集型 AI 操作 | • 独立扩展<br/>• 优化资源分配<br/>• 高吞吐量处理 |
+
+## 实现概述
+
+1. 使用您的 AI/ML 代码（带有 [databend-udf](https://pypi.org/project/databend-udf) 的 Python）创建一个外部服务器
+2. 使用 `CREATE FUNCTION` 向 Databend 注册服务器
+3. 直接在 SQL 查询中调用您的 AI/ML 函数
+
+## 示例：自定义 AI 模型集成
+
+```python
+# Simple embedding UDF server demo
+from databend_udf import udf, UDFServer
+from sentence_transformers import SentenceTransformer
+
+# Load pre-trained model
+model = SentenceTransformer('all-mpnet-base-v2')  # 768-dimensional vectors
+
+@udf(
+    input_types=["STRING"],
+    result_type="ARRAY(FLOAT)",
+)
+def ai_embed_768(inputs: list[str], headers) -> list[list[float]]:
+    """Generate 768-dimensional embeddings for input texts"""
+    try:
+        # Process inputs in a single batch
+        embeddings = model.encode(inputs)
+        # Convert to list format
+        return [embedding.tolist() for embedding in embeddings]
+    except Exception as e:
+        print(f"Error generating embeddings: {e}")
+        # Return empty lists in case of error
+        return [[] for _ in inputs]
+
+if __name__ == '__main__':
+    print("Starting embedding UDF server on port 8815...")
+    server = UDFServer("0.0.0.0:8815")
+    server.add_function(ai_embed_768)
+    server.serve()
+```
+
+```sql
+-- Register the external function in Databend
+CREATE OR REPLACE FUNCTION ai_embed_768 (STRING)
+    RETURNS ARRAY(FLOAT)
+    LANGUAGE PYTHON
+    HANDLER = 'ai_embed_768'
+    ADDRESS = 'https://your-ml-server.example.com';
+
+-- Use the custom embedding in queries
+SELECT
+    id,
+    title,
+    cosine_distance(
+        ai_embed_768(content),
+        ai_embed_768('machine learning techniques')
+    ) AS similarity
+FROM articles
+ORDER BY similarity ASC
+LIMIT 5;
+```
+
+有关设置外部函数的详细说明，请参阅 [外部函数](/guides/query/external-function)。
+
+## 开始使用
+
+在 [Databend Cloud](https://databend.com) 上通过免费试用体验这些 AI 功能。
diff --git a/docs/cn/guides/51-ai-functions/02-built-in-functions.md b/docs/cn/guides/51-ai-functions/02-built-in-functions.md
@@ -0,0 +1,56 @@
+# 内置 AI 函数
+
+Databend 提供了由 Azure OpenAI Service 驱动的内置 AI 函数，可将 AI 功能无缝集成到您的 SQL 工作流程中。
+
+:::warning
+**数据隐私声明**：使用内置 AI 函数时，您的数据将被发送到 Azure OpenAI Service。 通过使用这些函数，您确认此数据传输并同意 [Azure OpenAI 数据隐私](https://learn.microsoft.com/zh-cn/legal/cognitive-services/openai/data-privacy) 条款。
+:::
+
+| 函数 | 描述 | 使用场景 |
+|----------|-------------|-----------|
+| [ai_text_completion](/sql/sql-functions/ai-functions/ai-text-completion) | 根据提示生成文本 | • 内容生成<br/>• 问题解答<br/>• 摘要 |
+| [ai_embedding_vector](/sql/sql-functions/ai-functions/ai-embedding-vector) | 将文本转换为向量表示 | • 语义搜索<br/>• 文档相似度<br/>• 内容推荐 |
+| [cosine_distance](/sql/sql-functions/vector-distance-functions/vector-cosine-distance) | 计算向量之间的相似度 | • 查找相似文档<br/>• 对搜索结果进行排序 |
+
+## Databend 中的 Vector 存储
+
+Databend 使用 `ARRAY(FLOAT NOT NULL)` 数据类型存储 embedding vector，从而可以使用 SQL 中的 `cosine_distance` 函数直接进行相似度计算。
+
+## 示例：使用 Embeddings 进行语义搜索
+
+```sql
+-- 创建一个包含 embeddings 的文档表
+CREATE TABLE articles (
+    id INT,
+    title VARCHAR,
+    content VARCHAR,
+    embedding ARRAY(FLOAT NOT NULL)
+);
+
+-- 存储包含 vector embeddings 的文档
+INSERT INTO articles (id, title, content, embedding)
+VALUES
+    (1, 'Python for Data Science', 'Python 是一种通用的编程语言...', 
+       ai_embedding_vector('Python 是一种通用的编程语言...')),
+    (2, 'Introduction to R', 'R 是一种流行的统计编程语言...', 
+       ai_embedding_vector('R 是一种流行的统计编程语言...'));
+
+-- 查找语义相似的文档
+SELECT
+    id, title,
+    cosine_distance(embedding, ai_embedding_vector('如何在数据分析中使用 Python？')) AS similarity
+FROM articles
+ORDER BY similarity ASC
+LIMIT 3;
+```
+
+## 示例：文本生成
+
+```sql
+-- 根据提示生成文本
+SELECT ai_text_completion('用三点解释云数仓的优势：') AS completion;
+```
+
+## 开始使用
+
+在 [Databend Cloud](https://databend.com) 上通过免费试用体验这些 AI 功能。
diff --git a/docs/cn/guides/51-ai-functions/index.md b/docs/cn/guides/51-ai-functions/index.md
@@ -1,79 +1,8 @@
-# Databend AI 功能
+# Databend AI 和 ML
 
-本指南介绍了 Databend 的内置 AI 函数，这些函数通过 SQL 查询实现自然语言处理任务，包括文本理解、生成等。
+Databend 提供了两种 AI 和 ML 集成方法：
 
-:::warning
-数据隐私和安全
-
-Databend 使用 Azure OpenAI Service 进行嵌入和文本补全。当您使用这些函数时，您的数据将被发送到 Azure OpenAI。这些功能在 Databend Cloud 上默认可用。
-
-**通过使用这些函数，您承认您的数据将被发送到 Azure OpenAI Service** 并同意 [Azure OpenAI 数据隐私](https://learn.microsoft.com/en-us/legal/cognitive-services/openai/data-privacy) 条款。
-:::
-
-## 关键 AI 函数
-
-| 函数 | 描述 | 何时使用 |
-|----------|-------------|------------|
-| [ai_text_completion](/sql/sql-functions/ai-functions/ai-text-completion) | 根据提示生成文本 | • 内容生成<br/>• 问题解答<br/>• 摘要<br/>• 文本扩展 |
-| [ai_embedding_vector](/sql/sql-functions/ai-functions/ai-embedding-vector) | 将文本转换为向量表示 | • 语义搜索<br/>• 文档相似度<br/>• 内容推荐<br/>• 文本分类 |
-| [cosine_distance](/sql/sql-functions/vector-distance-functions/vector-cosine-distance) | 计算向量之间的相似度 | • 查找相似文档<br/>• 对搜索结果进行排序<br/>• 衡量文本相似度 |
-
-## 什么是嵌入 (Embeddings)？
-
-嵌入是文本的向量表示，可以捕获语义。相似的文本在嵌入空间中具有更接近的向量，从而可以进行比较和分析，以执行诸如文档相似性和聚类之类的任务。
-
-## Databend 中的向量存储
-
-Databend 可以使用 `ARRAY(FLOAT NOT NULL)` 数据类型存储嵌入向量，并直接在 SQL 中使用 cosine_distance 函数执行相似度计算。
-
-## 示例：文档相似度搜索
-
-```sql
--- 创建一个用于存储文档的表
-CREATE TABLE articles (
-    id INT,
-    title VARCHAR,
-    content VARCHAR,
-    embedding ARRAY(FLOAT NOT NULL)
-);
-
--- 插入带有嵌入的文档
-INSERT INTO articles (id, title, content, embedding)
-VALUES
-    (1, 'Python for Data Science', 'Python 是一种通用的编程语言...', 
-       ai_embedding_vector('Python 是一种通用的编程语言...')),
-    (2, 'Introduction to R', 'R 是一种流行的统计编程语言...', 
-       ai_embedding_vector('R 是一种流行的统计编程语言...'));
-
--- 查找与查询相似的文档
-SELECT
-    id, title, content,
-    cosine_distance(embedding, ai_embedding_vector('如何在数据分析中使用 Python？')) AS similarity
-FROM articles
-ORDER BY similarity ASC
-LIMIT 3;
-```
-
-## 示例：文本补全
-
-```sql
--- 为提示生成补全
-SELECT ai_text_completion('用三点解释云数仓的优势：') AS completion;
-
--- 结果可能是：
--- 1. 可扩展性：云数仓可以根据需求轻松地向上或向下扩展，
---    无需预先进行容量规划。
--- 2. 成本效益：按需付费的定价模式降低了资本支出，
---    并允许企业仅为其使用的资源付费。
--- 3. 可访问性：云数仓使团队可以从任何地方访问数据，
---    从而促进远程工作和全球协作。
-```
-
-## 构建 AI 问答系统
-
-您可以使用 Databend 创建一个简单的问答系统，方法是：
-1. 存储带有嵌入的文档
-2. 查找与问题相关的文档
-3. 使用文本补全生成答案
-
-在 [Databend Cloud](https://databend.com) 上通过免费试用体验这些 AI 功能。
+| 方法 | 特性 | 使用场景 |
+|----------|----------|-----------|
+| **[外部函数](01-external-functions.md)** ✓ *推荐* | • 自定义模型<br/>• GPU 部署<br/>• 自定义管道<br/>• 数据隐私 | • 专业领域<br/>• 高性能<br/>• 隐私要求 |
+| **[内置函数](02-built-in-functions.md)** | • 文本补全<br/>• 嵌入<br/>• Vector 操作<br/>• 零设置 | • 快速原型设计<br/>• 通用 NLP<br/>• 简单实现 |