💬Generate LLM translations (#2187)

github-actions[bot] · web-flow · commit 188be8f6cc39 · 2025-05-21T12:26:50.000+08:00
Co-authored-by: github-actions[bot] &lt;41898282+github-actions[bot]@users.noreply.github.com&gt;
diff --git a/docs/cn/guides/40-load-data/04-transform/03-querying-orc.md b/docs/cn/guides/40-load-data/04-transform/03-querying-orc.md
@@ -1,17 +1,16 @@
 ---
-title: 查询 Stage 中的 ORC 文件
-sidebar_label: 查询 ORC 文件
+title: 查询 Stage 中的 Staged ORC 文件
+sidebar_label: ORC
 ---
-
 import StepsWrap from '@site/src/components/StepsWrap';
 import StepContent from '@site/src/components/Steps/step-content';
 
 ## 语法
 
 ```sql
-SELECT [<alias>.]<column> [, <column> ...] | [<alias>.]$<col_position> [, $<col_position> ...]
-FROM {@<stage_name>[/<path>] [<table_alias>] | '<uri>' [<table_alias>]}
-[(
+SELECT [<alias>.]<column> [, <column> ...] | [<alias>.]$<col_position> [, $<col_position> ...] 
+FROM {@<stage_name>[/<path>] [<table_alias>] | '<uri>' [<table_alias>]} 
+[( 
   [<connection_parameters>],
   [ PATTERN => '<regex_pattern>'],
   [ FILE_FORMAT => 'ORC | <custom_format_name>'],
@@ -21,7 +20,7 @@ FROM {@<stage_name>[/<path>] [<table_alias>] | '<uri>' [<table_alias>]}
 
 ## 教程
 
-在本教程中，我们将引导您完成下载 Iris 数据集（以 ORC 格式）、将其上传到 Amazon S3 存储桶、创建外部 Stage，并直接从 ORC 文件查询数据的过程。
+在本教程中，我们将引导您完成以下过程：下载 ORC 格式的 Iris 数据集，将其上传到 Amazon S3 存储桶，创建外部 Stage，以及直接从 ORC 文件查询数据。
 
 <StepsWrap>
 <StepContent number="1">
@@ -30,7 +29,7 @@ FROM {@<stage_name>[/<path>] [<table_alias>] | '<uri>' [<table_alias>]}
 
 从 https://github.com/tensorflow/io/raw/master/tests/test_orc/iris.orc 下载 iris 数据集，然后将其上传到您的 Amazon S3 存储桶。
 
-iris 数据集包含 3 个类别的 50 个实例，每个类别指的是一种鸢尾植物。它有 4 个属性：（1）萼片长度，（2）萼片宽度，（3）花瓣长度，（4）花瓣宽度，最后一列包含类别标签。
+iris 数据集包含 3 个类别，每个类别包含 50 个实例，其中每个类别都指的是一种鸢尾植物。它有 4 个属性：（1）萼片长度，（2）萼片宽度，（3）花瓣长度，（4）花瓣宽度，最后一列包含类别标签。
 
 </StepContent>
 <StepContent number="2">
@@ -40,7 +39,7 @@ iris 数据集包含 3 个类别的 50 个实例，每个类别指的是一种
 使用存储 iris 数据集文件的 Amazon S3 存储桶创建一个外部 Stage。
 
 ```sql
-CREATE STAGE orc_query_stage
+CREATE STAGE orc_query_stage 
     URL = 's3://databend-doc'
     CONNECTION = (
         AWS_KEY_ID = '<your-key-id>',
@@ -60,65 +59,17 @@ FROM @orc_query_stage
     FILE_FORMAT => 'orc',
     PATTERN => '.*[.]orc'
 );
-```
 
 ┌──────────────────────────────────────────────────────────────────────────────────────────────────┐
-│ sepal_length │ sepal_width │ petal_length │ petal_width │ species │
+│    sepal_length   │    sepal_width    │    petal_length   │    petal_width    │      species     │
 ├───────────────────┼───────────────────┼───────────────────┼───────────────────┼──────────────────┤
-│ 5.1 │ 3.5 │ 1.4 │ 0.2 │ setosa │
-│ 4.9 │ 3 │ 1.4 │ 0.2 │ setosa │
-│ 4.7 │ 3.2 │ 1.3 │ 0.2 │ setosa │
-│ 4.6 │ 3.1 │ 1.5 │ 0.2 │ setosa │
-│ 5 │ 3.6 │ 1.4 │ 0.2 │ setosa │
-│ 5.4 │ 3.9 │ 1.7 │ 0.4 │ setosa │
-│ 4.6 │ 3.4 │ 1.4 │ 0.3 │ setosa │
-│ 5 │ 3.4 │ 1.5 │ 0.2 │ setosa │
-│ 4.4 │ 2.9 │ 1.4 │ 0.2 │ setosa │
-│ 4.9 │ 3.1 │ 1.5 │ 0.1 │ setosa │
-│ 5.4 │ 3.7 │ 1.5 │ 0.2 │ setosa │
-│ 4.8 │ 3.4 │ 1.6 │ 0.2 │ setosa │
-│ 4.8 │ 3 │ 1.4 │ 0.1 │ setosa │
-│ 4.3 │ 3 │ 1.1 │ 0.1 │ setosa │
-│ 5.8 │ 4 │ 1.2 │ 0.2 │ setosa │
-│ 5.7 │ 4.4 │ 1.5 │ 0.4 │ setosa │
-│ 5.4 │ 3.9 │ 1.3 │ 0.4 │ setosa │
-│ 5.1 │ 3.5 │ 1.4 │ 0.3 │ setosa │
-│ 5.7 │ 3.8 │ 1.7 │ 0.3 │ setosa │
-│ 5.1 │ 3.8 │ 1.5 │ 0.3 │ setosa │
-│ · │ · │ · │ · │ · │
-│ · │ · │ · │ · │ · │
-│ · │ · │ · │ · │ · │
-│ 7.4 │ 2.8 │ 6.1 │ 1.9 │ virginica │
-│ 7.9 │ 3.8 │ 6.4 │ 2 │ virginica │
-│ 6.4 │ 2.8 │ 5.6 │ 2.2 │ virginica │
-│ 6.3 │ 2.8 │ 5.1 │ 1.5 │ virginica │
-│ 6.1 │ 2.6 │ 5.6 │ 1.4 │ virginica │
-│ 7.7 │ 3 │ 6.1 │ 2.3 │ virginica │
-│ 6.3 │ 3.4 │ 5.6 │ 2.4 │ virginica │
-│ 6.4 │ 3.1 │ 5.5 │ 1.8 │ virginica │
-│ 6 │ 3 │ 4.8 │ 1.8 │ virginica │
-│ 6.9 │ 3.1 │ 5.4 │ 2.1 │ virginica │
-│ 6.7 │ 3.1 │ 5.6 │ 2.4 │ virginica │
-│ 6.9 │ 3.1 │ 5.1 │ 2.3 │ virginica │
-│ 5.8 │ 2.7 │ 5.1 │ 1.9 │ virginica │
-│ 6.8 │ 3.2 │ 5.9 │ 2.3 │ virginica │
-│ 6.7 │ 3.3 │ 5.7 │ 2.5 │ virginica │
-│ 6.7 │ 3 │ 5.2 │ 2.3 │ virginica │
-│ 6.3 │ 2.5 │ 5 │ 1.9 │ virginica │
-│ 6.5 │ 3 │ 5.2 │ 2 │ virginica │
-│ 6.2 │ 3.4 │ 5.4 │ 2.3 │ virginica │
-│ 5.9 │ 3 │ 5.1 │ 1.8 │ virginica │
-│ 150 rows │ │ │ │ │
-│ (40 shown) │ │ │ │ │
+│               5.1 │               3.5 │               1.4 │               0.2 │ setosa           │
+│                 · │                 · │                 · │                 · │ ·                │
+│               5.9 │                 3 │               5.1 │               1.8 │ virginica        │
 └──────────────────────────────────────────────────────────────────────────────────────────────────┘
+```
 
-````
-
-您还可以直接查询远程的 ORC 文件：
-
-```sql
-SELECT * FROM 'https://datasets.databend.rs/iris.orc';
-````
+您也可以直接查询远程 ORC 文件：
 
 ```sql
 SELECT
diff --git a/docs/cn/guides/40-load-data/04-transform/04-querying-avro.md b/docs/cn/guides/40-load-data/04-transform/04-querying-avro.md
@@ -0,0 +1,110 @@
+---
+title: 查询 Stage 中的 Avro 文件
+sidebar_label: Avro
+---
+
+## 查询 Stage 中的 Avro 文件
+
+语法：
+```sql
+SELECT [<alias>.]$1:<column> [, $1:<column> ...]
+FROM {@<stage_name>[/<path>] [<table_alias>] | '<uri>' [<table_alias>]}
+[(
+  [<connection_parameters>],
+  [ PATTERN => '<regex_pattern>'],
+  [ FILE_FORMAT => 'AVRO'],
+  [ FILES => ( '<file_name>' [ , '<file_name>' ] [ , ... ] ) ]
+)]
+```
+
+:::info Tips
+可以使用 `$1:<column>` 直接将 Avro 文件作为 variant 查询。
+:::
+
+## Avro 查询功能概述
+
+Databend 提供对直接从 stage 查询 Avro 文件的全面支持。这允许灵活的数据探索和转换，而无需先将数据加载到表中。
+
+*   **Variant 表示**: Avro 文件中的每一行都被视为一个 variant，由 `$1` 引用。这允许灵活访问 Avro 数据中的嵌套结构。
+*   **类型映射**: 每个 Avro 类型都映射到 Databend 中相应的 variant 类型。
+*   **元数据访问**: 您可以访问元数据列，如 `metadata$filename` 和 `metadata$file_row_number`，以获取有关源文件和行的更多上下文。
+
+## 教程
+
+本教程演示如何查询存储在 stage 中的 Avro 文件。
+
+### 步骤 1. 准备 Avro 文件
+
+考虑一个具有以下名为 `user` 的 schema 的 Avro 文件：
+
+```json
+{
+  "type": "record",
+  "name": "user",
+  "fields": [
+    {
+      "name": "id",
+      "type": "long"
+    },
+    {
+      "name": "name",
+      "type": "string"
+    }
+  ]
+}
+```
+
+### 步骤 2. 创建外部 Stage
+
+使用您自己的 S3 bucket 和存储 Avro 文件的凭据创建一个外部 stage。
+
+```sql
+CREATE STAGE avro_query_stage
+URL = 's3://load/avro/'
+CONNECTION = (
+    ACCESS_KEY_ID = '<your-access-key-id>'
+    SECRET_ACCESS_KEY = '<your-secret-access-key>'
+);
+```
+
+### 步骤 3. 查询 Avro 文件
+
+#### 基本查询
+
+直接从 stage 查询 Avro 文件：
+
+```sql
+SELECT
+    CAST($1:id AS INT) AS id,
+    $1:name AS name
+FROM @avro_query_stage
+(
+    FILE_FORMAT => 'AVRO',
+    PATTERN => '.*[.]avro'
+);
+```
+
+#### 使用元数据查询
+
+直接从 stage 查询 Avro 文件，包括元数据列，如 `metadata$filename` 和 `metadata$file_row_number`：
+
+```sql
+SELECT
+    metadata$filename AS file,
+    metadata$file_row_number AS row,
+    CAST($1:id AS INT) AS id,
+    $1:name AS name
+FROM @avro_query_stage
+(
+    FILE_FORMAT => 'AVRO',
+    PATTERN => '.*[.]avro'
+);
+```
+
+## 类型映射到 Variant
+
+Databend 中的 Variants 存储为 JSONB。虽然大多数 Avro 类型都可以直接映射，但需要考虑一些特殊情况：
+
+*   **时间类型**: `TimeMillis` 和 `TimeMicros` 映射到 `INT64`，因为 JSONB 没有原生 Time 类型。用户在处理这些值时应注意原始类型。
+*   **Decimal 类型**: Decimals 加载为 `DECIMAL128` 或 `DECIMAL256`。如果精度超过支持的限制，可能会发生错误。
+*   **Enum 类型**: Avro `ENUM` 类型映射到 Databend 中的 `STRING` 值。
diff --git a/docs/cn/guides/40-load-data/04-transform/04-querying-metadata.md b/docs/cn/guides/40-load-data/04-transform/04-querying-metadata.md
@@ -3,52 +3,48 @@ title: 使用文件和列元数据
 sidebar_label: 元数据
 ---
 
-本指南解释了如何从已暂存的文件中查询元数据。元数据包括文件级别的元数据（例如文件名和行号）和列级别的元数据（例如列名、类型和可空性）。
+本指南介绍如何从已暂存的文件中查询元数据。下表总结了支持元数据查询的文件格式：
 
-## 访问文件级别元数据
+| 元数据类型           | 支持的文件格式                               |
+|---------------------|------------------------------------------------------|
+| 文件级别元数据       | CSV, TSV, Parquet, NDJSON, Avro                      |
+| 列级别元数据 (INFER_SCHEMA) | Parquet                                              |
 
-当读取 CSV、TSV、Parquet 和 NDJSON 格式的已暂存文件时，Databend 支持访问以下文件级别的元数据字段：
+以下文件级别元数据字段适用于支持的文件格式：
 
-| 文件元数据              | 类型    | 描述                                           |
-|----------------------------|---------|---------------------------------------------------|
-| `metadata$filename`        | VARCHAR | 读取行的文件名                                  |
-| `metadata$file_row_number` | INT     | 文件中的行号（从 0 开始）                          |
+| 文件元数据               | 类型      | 描述                                           |
+|----------------------------|---------|--------------------------------------------------|
+| `metadata$filename`        | VARCHAR | 读取行的文件名                                 |
+| `metadata$file_row_number` | INT     | 文件中的行号（从 0 开始）                        |
 
 这些元数据字段在以下位置可用：
 
-- 基于 Stage 的 SELECT 查询（例如，`SELECT FROM @stage`）
+- 对 Stage 的 SELECT 查询（例如，`SELECT FROM @stage`）
 - `COPY INTO <table>` 语句
 
 ### 示例
 
 1. 查询元数据字段
 
-从 Stage 读取时，您可以直接选择元数据字段：
+从 Stage 读取时，可以直接选择元数据字段：
 
 ```sql
 SELECT
   metadata$filename,
-  metadata$file_row_number,
-  *
-FROM @my_internal_stage/iris.parquet
-LIMIT 5;
+  metadata$file_row_number
+FROM @my_internal_stage
+LIMIT 1;
 ```
 
 ```sql
-┌──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
-│ metadata$filename │ metadata$file_row_number │        id       │    sepal_length   │    sepal_width    │    petal_length   │    petal_width    │      species     │ metadata$filename │ metadata$file_row_number │
-├───────────────────┼──────────────────────────┼─────────────────┼───────────────────┼───────────────────┼───────────────────┼───────────────────┼──────────────────┼───────────────────┼──────────────────────────┤
-│ iris.parquet      │                        0 │               1 │               5.1 │               3.5 │               1.4 │               0.2 │ setosa           │ iris.parquet      │                        0 │
-│ iris.parquet      │                        1 │               2 │               4.9 │                 3 │               1.4 │               0.2 │ setosa           │ iris.parquet      │                        1 │
-│ iris.parquet      │                        2 │               3 │               4.7 │               3.2 │               1.3 │               0.2 │ setosa           │ iris.parquet      │                        2 │
-│ iris.parquet      │                        3 │               4 │               4.6 │               3.1 │               1.5 │               0.2 │ setosa           │ iris.parquet      │                        3 │
-│ iris.parquet      │                        4 │               5 │                 5 │               3.6 │               1.4 │               0.2 │ setosa           │ iris.parquet      │                        4 │
-└──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘
+│ metadata$filename │ metadata$file_row_number  │
+├───────────────────┼───────────────────────────┤
+│ iris.parquet      │                        10 │
 ```
 
 2. 在 COPY INTO 中使用元数据
 
-您可以使用 COPY INTO 将元数据字段传递到目标表列中：
+可以使用 COPY INTO 将元数据字段传递到目标表列中：
 
 ```sql
 COPY INTO iris_with_meta 
@@ -58,18 +54,18 @@ FILE_FORMAT=(TYPE=parquet);
 
 ## 从文件推断列元数据
 
-Databend 允许您使用 [INFER_SCHEMA](/sql/sql-functions/table-functions/infer-schema) 函数从 Parquet 格式的已暂存文件中检索以下列级别的元数据：
+Databend 允许您使用 [INFER_SCHEMA](/sql/sql-functions/table-functions/infer-schema) 函数从已暂存的文件中检索列级别元数据。目前 **Parquet** 文件支持此功能。
 
-| 列元数据 | 类型    | 描述                                           |
-|-----------------|---------|---------------------------------------------------|
-| `column_name`   | String  | 指示列的名称。                                  |
+| 列元数据    | 类型      | 描述                                           |
+|-----------------|---------|--------------------------------------------------|
+| `column_name`   | String  | 指示列的名称。                                 |
 | `type`          | String  | 指示列的数据类型。                               |
 | `nullable`      | Boolean | 指示列是否允许空值。                             |
 | `order_id`      | UInt64  | 表示列在表中的位置。                             |
 
 ### 示例
 
-以下示例从 `@my_internal_stage` 中暂存的 Parquet 文件中检索列元数据：
+以下示例从 `@my_internal_stage` 中暂存的 Parquet 文件检索列元数据：
 
 ```sql
 SELECT * FROM INFER_SCHEMA(location => '@my_internal_stage/iris.parquet');
diff --git a/docs/cn/guides/40-load-data/04-transform/index.md b/docs/cn/guides/40-load-data/04-transform/index.md