@@ -7,13 +7,13 @@ GradScaler
77
88
99
10- GradScaler 用于动态图模式下的"自动混合精度"的训练。它控制 loss 的缩放比例,有助于避免浮点数溢出的问题。这个类具有 ``scale() `` 、 ``unscale_() `` 、 ``step() `` 、 ``update() `` 、 ``minimize() `` 和参数的 ``get()/set() `` 等方法。
10+ GradScaler 用于动态图模式下的"自动混合精度"的训练。它控制 loss 的缩放比例,有助于避免浮点数溢出的问题。这个类具有 ``scale() ``、 ``unscale_() ``、 ``step() ``、 ``update() ``、 ``minimize() `` 和参数的 ``get()/set() `` 等方法。
1111
12- ``scale() `` 用于让 loss 乘上一个缩放的比例。
13- ``unscale_() `` 用于让 loss 除去一个缩放的比例。
14- ``step() `` 与 ``optimizer.step() `` 类似,执行参数的更新,不更新缩放比例 loss_scaling。
15- ``update() `` 更新缩放比例。
16- ``minimize() `` 与 ``optimizer.minimize() `` 类似,执行参数的更新,同时更新缩放比例 loss_scaling,等效与 ``step() `` + ``update() `` 。
12+ ``scale() `` 用于让 loss 乘上一个缩放的比例。
13+ ``unscale_() `` 用于让 loss 除去一个缩放的比例。
14+ ``step() `` 与 ``optimizer.step() `` 类似,执行参数的更新,不更新缩放比例 loss_scaling。
15+ ``update() `` 更新缩放比例。
16+ ``minimize() `` 与 ``optimizer.minimize() `` 类似,执行参数的更新,同时更新缩放比例 loss_scaling,等效与 ``step() `` + ``update() ``。
1717
1818通常,GradScaler 和 ``paddle.amp.auto_cast `` 一起使用,来实现动态图模式下的"自动混合精度"。
1919
@@ -57,7 +57,7 @@ scale(var)
5757
5858COPY-FROM: paddle.amp.GradScaler.scale
5959
60- minimize(optimizer, * args, ** kwargs)
60+ minimize(optimizer, args, kwargs)
6161'''''''''
6262
6363这个函数与 ``optimizer.minimize() `` 类似,用于执行参数更新。
@@ -106,7 +106,8 @@ unscale_(optimizer)
106106 ``minimize() `` 用法同上。
107107
108108**参数 **
109- - **optimizer ** (Optimizer) - 用于更新参数的优化器。
109+
110+ - **optimizer ** (Optimizer) - 用于更新参数的优化器。
110111
111112**代码示例 **
112113
0 commit comments