@@ -7,13 +7,13 @@ GradScaler
7
7
8
8
9
9
10
- GradScaler 用于动态图模式下的"自动混合精度"的训练。它控制 loss 的缩放比例,有助于避免浮点数溢出的问题。这个类具有 ``scale() `` 、 ``unscale_() `` 、 ``step() `` 、 ``update() `` 、 ``minimize() `` 和参数的 ``get()/set() `` 等方法。
10
+ GradScaler 用于动态图模式下的"自动混合精度"的训练。它控制 loss 的缩放比例,有助于避免浮点数溢出的问题。这个类具有 ``scale() ``、 ``unscale_() ``、 ``step() ``、 ``update() ``、 ``minimize() `` 和参数的 ``get()/set() `` 等方法。
11
11
12
- ``scale() `` 用于让 loss 乘上一个缩放的比例。
13
- ``unscale_() `` 用于让 loss 除去一个缩放的比例。
14
- ``step() `` 与 ``optimizer.step() `` 类似,执行参数的更新,不更新缩放比例 loss_scaling。
15
- ``update() `` 更新缩放比例。
16
- ``minimize() `` 与 ``optimizer.minimize() `` 类似,执行参数的更新,同时更新缩放比例 loss_scaling,等效与 ``step() `` + ``update() `` 。
12
+ ``scale() `` 用于让 loss 乘上一个缩放的比例。
13
+ ``unscale_() `` 用于让 loss 除去一个缩放的比例。
14
+ ``step() `` 与 ``optimizer.step() `` 类似,执行参数的更新,不更新缩放比例 loss_scaling。
15
+ ``update() `` 更新缩放比例。
16
+ ``minimize() `` 与 ``optimizer.minimize() `` 类似,执行参数的更新,同时更新缩放比例 loss_scaling,等效与 ``step() `` + ``update() ``。
17
17
18
18
通常,GradScaler 和 ``paddle.amp.auto_cast `` 一起使用,来实现动态图模式下的"自动混合精度"。
19
19
@@ -57,7 +57,7 @@ scale(var)
57
57
58
58
COPY-FROM: paddle.amp.GradScaler.scale
59
59
60
- minimize(optimizer, * args, ** kwargs)
60
+ minimize(optimizer, args, kwargs)
61
61
'''''''''
62
62
63
63
这个函数与 ``optimizer.minimize() `` 类似,用于执行参数更新。
@@ -106,7 +106,8 @@ unscale_(optimizer)
106
106
``minimize() `` 用法同上。
107
107
108
108
**参数 **
109
- - **optimizer ** (Optimizer) - 用于更新参数的优化器。
109
+
110
+ - **optimizer ** (Optimizer) - 用于更新参数的优化器。
110
111
111
112
**代码示例 **
112
113
0 commit comments