@@ -35,11 +35,11 @@ sharding
3535
3636优化器分片策略,包含以下配置项:
3737
38- - **``enable`` ** (bool) - 是否启用优化器分片策略。默认:False。
38+ - ** ``enable `` ** (bool) - 是否启用优化器分片策略。默认:False。
3939
40- - **``stage`` ** (int) - 可以设置为 1、2 或 3。1 表示切分优化器状态,2 代表切分优化器状态和梯度,3 表示切分优化器状态、梯度和参数。默认:1。
40+ - ** ``stage `` ** (int) - 可以设置为 1、2 或 3。1 表示切分优化器状态,2 代表切分优化器状态和梯度,3 表示切分优化器状态、梯度和参数。默认:1。
4141
42- - **``degree`` ** (int) - 分片的数量。默认:8。
42+ - ** ``degree `` ** (int) - 分片的数量。默认:8。
4343
4444**代码示例 **
4545
@@ -51,11 +51,11 @@ fused_passes
5151
5252计算融合策略,包含以下配置项:
5353
54- - **``enable`` ** (bool) - 是否启用计算融合策略。默认:False。
54+ - ** ``enable `` ** (bool) - 是否启用计算融合策略。默认:False。
5555
56- - **``gemm_epilogue`` ** (bool) - 是否融合 ``Linear `` 层中的 ``matmul `` 和 ``add `` 计算。默认:False。
56+ - ** ``gemm_epilogue `` ** (bool) - 是否融合 ``Linear `` 层中的 ``matmul `` 和 ``add `` 计算。默认:False。
5757
58- - **``dropout_add`` ** (bool) - 是否融合 ``dropout `` 和 ``add `` 计算。默认:False。
58+ - ** ``dropout_add `` ** (bool) - 是否融合 ``dropout `` 和 ``add `` 计算。默认:False。
5959
6060**代码示例 **
6161
@@ -67,11 +67,11 @@ gradient_merge
6767
6868梯度融合策略,包含以下配置项:
6969
70- - **``enable`` ** (bool) - 是否启用梯度融合策略。默认:False。
70+ - ** ``enable `` ** (bool) - 是否启用梯度融合策略。默认:False。
7171
72- - **``k_steps`` ** (int) - 梯度融合的步数。默认:1。
72+ - ** ``k_steps `` ** (int) - 梯度融合的步数。默认:1。
7373
74- - **``avg`` ** (bool) - 是否平均梯度。默认:True。
74+ - ** ``avg `` ** (bool) - 是否平均梯度。默认:True。
7575
7676**代码示例 **
7777
@@ -83,13 +83,13 @@ pipeline
8383
8484流水线并行策略,包含以下配置项:
8585
86- - **``enable`` ** (bool) - 是否启用流水线并行策略。默认:False。
86+ - ** ``enable `` ** (bool) - 是否启用流水线并行策略。默认:False。
8787
88- - **``schedule_mode`` ** (str) - 流水线并行的调度模式。默认:1F1B。
88+ - ** ``schedule_mode `` ** (str) - 流水线并行的调度模式。默认:1F1B。
8989
90- - **``micro_batch_size`` ** (int) - mini-batch 中包含的每个 micro-batch 的大小。默认:1。
90+ - ** ``micro_batch_size `` ** (int) - mini-batch 中包含的每个 micro-batch 的大小。默认:1。
9191
92- - **``accumulate_steps`` ** (int) - 累积步数。默认:1。
92+ - ** ``accumulate_steps `` ** (int) - 累积步数。默认:1。
9393
9494**代码示例 **
9595
0 commit comments