[GPT-3/MOE] Adapt recompute for latest paddle (#3191)

sljlp · web-flow · commit b72aa7e5bfe7 · 2022-09-06T13:56:34.000+08:00
diff --git a/examples/language_model/gpt-3/dygraph/modeling.py b/examples/language_model/gpt-3/dygraph/modeling.py
@@ -1178,6 +1178,4 @@ def _logits_helper(embedding, output):
                          loss_fn=GPTPretrainingCriterionPipe(),
                          topology=topology,
                          seg_method="layer:TransformerDecoderLayer",
-                         recompute_interval=1 if use_recompute else 0,
-                         recompute_partition=False,
-                         recompute_offload=False)
+                         recompute_interval=1 if use_recompute else 0)
diff --git a/examples/language_model/gpt-3/dygraph/run.sh b/examples/language_model/gpt-3/dygraph/run.sh
@@ -23,5 +23,5 @@ python -m paddle.distributed.launch --log_dir $log_dir --gpus "0,1,2,3,4,5,6,7"
     --sharding_degree 1\
     --use_pure_fp16 True\
     --use_recompute False\
-    --sharding_stage 2\
+    --sharding_stage 1\
     --sharding_offload False
diff --git a/examples/language_model/moe/dygraph/modeling.py b/examples/language_model/moe/dygraph/modeling.py
@@ -456,7 +456,7 @@ def __init__(self,
             }
             self.moe_mlp = MoeLayer(d_model=d_model,
                                     experts=experts_list,
-                                    gate_config=gate_config,
+                                    gate=gate_config,
                                     moe_group=moe_group,
                                     mp_group=mp_group,
                                     recompute_interval=self.recompute_interval)

Original file line number	Diff line number	Diff line change
`@@ -456,7 +456,7 @@ def __init__(self,`
`456`	`456`	`}`
`457`	`457`	`self.moe_mlp = MoeLayer(d_model=d_model,`
`458`	`458`	`experts=experts_list,`
`459`		`- gate_config=gate_config,`
	`459`	`+ gate=gate_config,`
`460`	`460`	`moe_group=moe_group,`
`461`	`461`	`mp_group=mp_group,`
`462`	`462`	`recompute_interval=self.recompute_interval)`