@@ -9,7 +9,7 @@ parallelize
99
1010
1111.. note ::
12- 如果提供的 ``config `` 的键中不包含 ``dp_config ``, ``mp_config `` 与 ``pp_config `` 中的任何字段,则本函数会直接返回 model 与 optimizer。
12+ 如果提供的 ``config `` 的键中不包含 ``dp_config `` , ``mp_config `` 与 ``pp_config `` 中的任何字段,则本函数会直接返回 model 与 optimizer。
1313
1414
1515参数
@@ -20,21 +20,21 @@ parallelize
2020 - **mesh ** (paddle.distributed.ProcessMesh,可选) - 模型与优化器(如提供)并行所发生的进程空间。最佳用法:在调用本 API 之前,通过
2121 调用 ``paddle.distributed.set_mesh `` 方法来配置 mesh 信息,并将本 API 的 mesh 参数设置为 None。注意,如果您通过本 API 传递
2222 了 mesh 信息,传入的 mesh 会覆盖外部设置的 mesh。
23- - **config ** (dict,可选) - 用来指导并行化的配置。该配置是一个字典,键的值可以从``dp_config``, ``mp_config `` 与
23+ - **config ** (dict,可选) - 用来指导并行化的配置。该配置是一个字典,键的值可以从 ``dp_config `` , ``mp_config `` 与
2424 ``pp_config `` 中进行选择,分别来指导数据并行、模型并行与流水线并行的并行化。一个合法的 config 可以是: ``{"dp_config":
2525 请参考本文档 dp_config 部分以获取更多内容, "mp_config": 请参考本文档 mp_config 部分以获取更多内容,
26- "pp_config": 请参考本文档 pp_config 部分以获取更多内容} ``。
26+ "pp_config": 请参考本文档 pp_config 部分以获取更多内容} `` 。
2727
2828 dp_config (dict):指导数据并行的配置。该配置是一个字典,字典的键为 ``sharding_level `` 对应的值可以从 ``0/1/2/3 `` 中选择。
29- 分别代表数据并行、sharding 并行 stage 1/2/3。一个合法的 dp_config 可以是:``{"sharding_level": 2} ``.
29+ 分别代表数据并行、sharding 并行 stage 1/2/3。一个合法的 dp_config 可以是:``{"sharding_level": 2} `` .
3030
3131 mp_config (dict):指导模型并行的配置。该配置是一个字典,字典的键为 ``parallelize_plan `` 对应值仍然为一个字典,将标识的 Layer 的
3232 名字或一个参数的名字与对应的策略进行映射。注意:这里被标识的 Layer 的名字可以按照正则字符串的格式来书写。注意:如果将一个参数的名字与
3333 策略进行映射,该参数的名字必须以 weight 或者 bias 结尾。所有合法的策略包含:``ColWiseParallel ``,``RowWiseParallel ``,
3434 ``SequenceParallelBegin ``,``SequenceParallelDisable ``,``SequenceParallelEnable ``,``SequenceParallelEnd ``,
3535 ``PrepareLayerInput `` 和 ``PrepareLayerOutput ``。一个合法的 mp_config 可以是: ``{"parallelize_plan":
3636 {"llama.embed_tokens": ColWiseParallel(), "llama.norm": SequenceParallelEnable(),
37- "lm_head.weight": ColWiseParallel()}} ``。
37+ "lm_head.weight": ColWiseParallel()}} `` 。
3838
3939 pp_config (dict):指导流水线并行的配置。该配置是一个字典,字典的键为 ``split_spec `` 与 ``global_spec `` (可选)。``split_spec ``
4040 可以是一个字典或者是一个字符串。如果 ``split_spec `` 是一个字典,它将标识的 Layer 的名字与一个 ``SplitPoint `` 的值进行映射。
0 commit comments