Merge remote-tracking branch 'upstream/develop' into fix1009

hd9568 · hd9568 · commit 0604a87d262f · 2025-10-10T07:17:40.000Z
diff --git a/docs/api/paddle/distributed/parallelize_cn.rst b/docs/api/paddle/distributed/parallelize_cn.rst
@@ -9,7 +9,7 @@ parallelize
 
 
 .. note::
-    如果提供的 ``config`` 的键中不包含 ``dp_config``，``mp_config`` 与 ``pp_config`` 中的任何字段，则本函数会直接返回 model 与 optimizer。
+    如果提供的 ``config`` 的键中不包含 ``dp_config`` ， ``mp_config`` 与 ``pp_config`` 中的任何字段，则本函数会直接返回 model 与 optimizer。
 
 
 参数
@@ -20,21 +20,21 @@ parallelize
     - **mesh** (paddle.distributed.ProcessMesh，可选) - 模型与优化器（如提供）并行所发生的进程空间。最佳用法：在调用本 API 之前，通过
       调用 ``paddle.distributed.set_mesh`` 方法来配置 mesh 信息，并将本 API 的 mesh 参数设置为 None。注意，如果您通过本 API 传递
       了 mesh 信息，传入的 mesh 会覆盖外部设置的 mesh。
-    - **config** (dict，可选) - 用来指导并行化的配置。该配置是一个字典，键的值可以从``dp_config``，``mp_config`` 与
+    - **config** (dict，可选) - 用来指导并行化的配置。该配置是一个字典，键的值可以从 ``dp_config`` ， ``mp_config`` 与
       ``pp_config`` 中进行选择，分别来指导数据并行、模型并行与流水线并行的并行化。一个合法的 config 可以是： ``{"dp_config":
       请参考本文档 dp_config 部分以获取更多内容, "mp_config": 请参考本文档 mp_config 部分以获取更多内容,
-      "pp_config": 请参考本文档 pp_config 部分以获取更多内容}``。
+      "pp_config": 请参考本文档 pp_config 部分以获取更多内容}`` 。
 
       dp_config (dict)：指导数据并行的配置。该配置是一个字典，字典的键为 ``sharding_level`` 对应的值可以从 ``0/1/2/3`` 中选择。
-      分别代表数据并行、sharding 并行 stage 1/2/3。一个合法的 dp_config 可以是：``{"sharding_level": 2}``.
+      分别代表数据并行、sharding 并行 stage 1/2/3。一个合法的 dp_config 可以是：``{"sharding_level": 2}`` .
 
       mp_config (dict)：指导模型并行的配置。该配置是一个字典，字典的键为 ``parallelize_plan`` 对应值仍然为一个字典，将标识的 Layer 的
       名字或一个参数的名字与对应的策略进行映射。注意：这里被标识的 Layer 的名字可以按照正则字符串的格式来书写。注意：如果将一个参数的名字与
       策略进行映射，该参数的名字必须以 weight 或者 bias 结尾。所有合法的策略包含：``ColWiseParallel``，``RowWiseParallel``，
       ``SequenceParallelBegin``，``SequenceParallelDisable``，``SequenceParallelEnable``，``SequenceParallelEnd``，
       ``PrepareLayerInput`` 和 ``PrepareLayerOutput``。一个合法的 mp_config 可以是： ``{"parallelize_plan":
       {"llama.embed_tokens": ColWiseParallel(), "llama.norm": SequenceParallelEnable(),
-      "lm_head.weight": ColWiseParallel()}}``。
+      "lm_head.weight": ColWiseParallel()}}`` 。
 
       pp_config (dict)：指导流水线并行的配置。该配置是一个字典，字典的键为 ``split_spec`` 与 ``global_spec`` （可选）。``split_spec``
       可以是一个字典或者是一个字符串。如果 ``split_spec`` 是一个字典，它将标识的 Layer 的名字与一个 ``SplitPoint`` 的值进行映射。
diff --git a/docs/api/paddle/static/IpuStrategy_cn.rst b/docs/api/paddle/static/IpuStrategy_cn.rst
@@ -137,7 +137,7 @@ COPY-FROM: paddle.static.IpuStrategy.disable_pattern
 register_patch(self)
 '''''''''
 
-注册 patch function 以支持 IPU 上的动转静功能。该函数仅应在 IPU 动转静时使用，注册的函数会影响原动转静的逻辑，可通过``release_patch``释放注册的函数。
+注册 patch function 以支持 IPU 上的动转静功能。该函数仅应在 IPU 动转静时使用，注册的函数会影响原动转静的逻辑，可通过 ``release_patch`` 释放注册的函数。
 
 **代码示例**
 
@@ -183,19 +183,19 @@ COPY-FROM: paddle.static.IpuStrategy.parse_optimizer
 num_ipus
 '''''''''
 
-返回 IpuStrategy 实例中的 IPU 设备个数，类型为 ``Int``。
+返回 IpuStrategy 实例中的 IPU 设备个数，类型为 ``Int`` 。
 
 is_training
 '''''''''
 
-返回 IpuStrategy 实例中的计算模式是训练模式或推理模式，类型为 ``Bool``。
+返回 IpuStrategy 实例中的计算模式是训练模式或推理模式，类型为 ``Bool`` 。
 
 enable_pipelining
 '''''''''
 
-返回 IpuStrategy 实例中是否使能数据流水线功能，类型为 ``Bool``。
+返回 IpuStrategy 实例中是否使能数据流水线功能，类型为 ``Bool`` 。
 
 enable_fp16
 '''''''''
 
-返回 IpuStrategy 实例中是否使能 float16 计算图，类型为 ``Bool``。
+返回 IpuStrategy 实例中是否使能 float16 计算图，类型为 ``Bool`` 。
diff --git a/docs/api/paddle/static/nn/embedding_cn.rst b/docs/api/paddle/static/nn/embedding_cn.rst
@@ -66,7 +66,7 @@ embedding
     - **size** (tuple|list) - embedding 矩阵的维度。必须包含两个元素，第一个元素为 vocab_size(词表大小)，第二个为 emb_size（embedding 层维度）。
     - **is_sparse** (bool，可选) - 是否使用稀疏的更新方式，这个参数只会影响反向的梯度更新的性能，sparse 更新速度更快，推荐使用稀疏更新的方式。但某些 optimizer 不支持 sparse 更新，比如 :ref:`cn_api_paddle_optimizer_Adadelta` 、 :ref:`cn_api_paddle_optimizer_Adamax`，此时 is_sparse 必须为 False。默认为 False。
     - **is_distributed** (bool，可选) - 是否使用分布式的方式存储 embedding 矩阵，仅在多机分布式 cpu 训练中使用。默认为 False。
-    - **padding_idx** (int|long|None，可选) - padding_idx 需在区间 ``[-vocab_size, vocab_size)``，否则不生效，``padding_idx < 0`` 时，padding_idx 会被改成``vocab_size + padding_idx``，input 中等于 padding_index 的 id 对应的 embedding 信息会被设置为 0，且这部分填充数据在训练时将不会被更新。如果为 None，不作处理，默认为 None。
+    - **padding_idx** (int|long|None，可选) - padding_idx 需在区间 ``[-vocab_size, vocab_size)`` ，否则不生效， ``padding_idx < 0`` 时，padding_idx 会被改成   ``vocab_size + padding_idx`` ，input 中等于 padding_index 的 id 对应的 embedding 信息会被设置为 0，且这部分填充数据在训练时将不会被更新。如果为 None，不作处理，默认为 None。
     - **param_attr** (ParamAttr，可选) - 指定权重参数属性的对象。默认值为 None，表示使用默认的权重参数属性。具体用法请参见 :ref:`cn_api_paddle_ParamAttr`。此外，可以通过 ``param_attr`` 参数加载用户自定义或预训练的词向量。只需将本地词向量转为 numpy 数据格式，且保证本地词向量的 shape 和 embedding 的 ``size`` 参数一致，然后使用 :ref:`cn_api_paddle_to_tensor` 进行初始化，即可实现加载自定义或预训练的词向量。
     - **dtype** (str|paddle.dtype|np.dtype，可选) - 输出 Tensor 的数据类型，数据类型必须为：float32 或 float64，默认为 float32。
 
diff --git a/docs/api/paddle/vision/ops/distribute_fpn_proposals_cn.rst b/docs/api/paddle/vision/ops/distribute_fpn_proposals_cn.rst
@@ -25,7 +25,7 @@ distribute_fpn_proposals
     - **refer_level** （int） - 具有指定比例的 FPN 层的引用级别。
     - **refer_scale** （int） - 具有指定级别的 FPN 层的引用比例。
     - **pixel_offset** (bool, 可选）- 是否有像素偏移。如果是 True, 在计算形状大小时时会偏移 1。默认值为 False。
-    - **rois_num** (Tensor, 可选): 每张图所包含的 RoI 数量。是形状为[B]的 1-D Tensor, 数据类型为 int32。其中 B 是图像数量。如果``rois_num`` 不为 None， 将会返回一个形状为[B]的 1-D Tensor, 其中每个元素是每张图在对应层级上的 RoI 数量。默认值为 None。
+    - **rois_num** (Tensor, 可选): 每张图所包含的 RoI 数量。是形状为[B]的 1-D Tensor, 数据类型为 int32。其中 B 是图像数量。如果 ``rois_num`` 不为 None， 将会返回一个形状为[B]的 1-D Tensor, 其中每个元素是每张图在对应层级上的 RoI 数量。默认值为 None。
     - **name** (str，可选) - 具体用法请参见 :ref:`api_guide_Name`，一般无需设置，默认值为 None。
 
 返回
diff --git a/docs/dev_guides/custom_device_docs/custom_runtime_cn.rst b/docs/dev_guides/custom_device_docs/custom_runtime_cn.rst
@@ -16,45 +16,45 @@
 Device 接口
 ############
 
-+---------------------------+----------------------------------------------+------+
-|         接口名称          |                   功能简介                   | 必选 |
-+===========================+==============================================+======+
-| initialize                | 初始化硬件后端。                             | N    |
-+---------------------------+----------------------------------------------+------+
-| finalize                  | 去初始化硬件后端。                           | N    |
-+---------------------------+----------------------------------------------+------+
-| init_device               | 初始化指定硬件设备。                         | N    |
-+---------------------------+----------------------------------------------+------+
-| deinit_device             | 去初始化指定硬件设备。                       | N    |
-+---------------------------+----------------------------------------------+------+
-| set_device                | 设置当前使用的硬件设备。                     | Y    |
-+---------------------------+----------------------------------------------+------+
-| get_device                | 获取当前使用的硬件设备。                     | Y    |
-+---------------------------+----------------------------------------------+------+
-| synchronize_device        | 同步指定的硬件设备。                         | Y    |
-+---------------------------+----------------------------------------------+------+
-| get_device_count          | 查询可用设备数量。                           | Y    |
-+---------------------------+----------------------------------------------+------+
-| get_device_list           | 查询可用设备号。                             | Y    |
-+---------------------------+----------------------------------------------+------+
-| get_compute_capability    | 查询设备算力。                               | Y    |
-+---------------------------+----------------------------------------------+------+
-| get_runtime_version       | 查询运行时版本号。                           | Y    |
-+---------------------------+----------------------------------------------+------+
-| get_driver_version        | 查询驱动版本号。                             | Y    |
-+---------------------------+----------------------------------------------+------+
-| get_multi_process         | 获取设备上的 MultiProcessor 数量。           | N    |
-+---------------------------+----------------------------------------------+------+
-| get_max_threads_per_mp    | 获取设备每个 MultiProcessor 上的最大线程数。 | N    |
-+---------------------------+----------------------------------------------+------+
-| get_max_threads_per_block | 获取设备每个 Block 能够运行的最大线程数。    | N    |
-+---------------------------+----------------------------------------------+------+
-| get_max_grid_dim_size     | 获取设备最大网格维度大小。                   | N    |
-+---------------------------+----------------------------------------------+------+
-| init_eigen_device         | 初始化 Eigen GPU 设备对象。                  | N    |
-+---------------------------+----------------------------------------------+------+
-| destroy_eigen_device      | 销毁 Eigen GPU 设备对象。                    | N    |
-+---------------------------+----------------------------------------------+------+
++---------------------------+-----------------------------------------------+------+
+| 接口名称                  | 功能简介                                      | 必选 |
++===========================+===============================================+======+
+| initialize                | 初始化硬件后端。                              | N    |
++---------------------------+-----------------------------------------------+------+
+| finalize                  | 去初始化硬件后端。                            | N    |
++---------------------------+-----------------------------------------------+------+
+| init_device               | 初始化指定硬件设备。                          | N    |
++---------------------------+-----------------------------------------------+------+
+| deinit_device             | 去初始化指定硬件设备。                        | N    |
++---------------------------+-----------------------------------------------+------+
+| set_device                | 设置当前使用的硬件设备。                      | Y    |
++---------------------------+-----------------------------------------------+------+
+| get_device                | 获取当前使用的硬件设备。                      | Y    |
++---------------------------+-----------------------------------------------+------+
+| synchronize_device        | 同步指定的硬件设备。                          | Y    |
++---------------------------+-----------------------------------------------+------+
+| get_device_count          | 查询可用设备数量。                            | Y    |
++---------------------------+-----------------------------------------------+------+
+| get_device_list           | 查询可用设备号。                              | Y    |
++---------------------------+-----------------------------------------------+------+
+| get_compute_capability    | 查询设备算力。                                | Y    |
++---------------------------+-----------------------------------------------+------+
+| get_runtime_version       | 查询运行时版本号。                            | Y    |
++---------------------------+-----------------------------------------------+------+
+| get_driver_version        | 查询驱动版本号。                              | Y    |
++---------------------------+-----------------------------------------------+------+
+| get_multi_process         | 获取设备上的 MultiProcessor 数量。            | N    |
++---------------------------+-----------------------------------------------+------+
+| get_max_threads_per_mp    | 获取设备每个 MultiProcessor 上的最大线程数。  | N    |
++---------------------------+-----------------------------------------------+------+
+| get_max_threads_per_block | 获取设备每个 Block 能够运行的最大线程数。     | N    |
++---------------------------+-----------------------------------------------+------+
+| get_max_grid_dim_size     | 获取设备最大网格维度大小。                    | N    |
++---------------------------+-----------------------------------------------+------+
+| init_eigen_device         | 初始化 Eigen GPU 设备对象。                   | N    |
++---------------------------+-----------------------------------------------+------+
+| destroy_eigen_device      | 销毁 Eigen GPU 设备对象。                     | N    |
++---------------------------+-----------------------------------------------+------+
 
 
 Memory 接口
diff --git a/docs/dev_guides/custom_device_docs/custom_runtime_en.rst b/docs/dev_guides/custom_device_docs/custom_runtime_en.rst
diff --git a/docs/dev_guides/custom_device_docs/device_api_en.md b/docs/dev_guides/custom_device_docs/device_api_en.md