[CodeStyle] Remove some code with paddle.fluid (#2633)

ZHUI · web-flow · commit 40417bf8de21 · 2022-06-27T11:48:41.000+08:00
* remove fluid
diff --git a/examples/language_model/gpt-3/dygraph/modeling.py b/examples/language_model/gpt-3/dygraph/modeling.py
@@ -22,7 +22,6 @@
 import paddle.tensor as tensor
 from paddle.fluid import layers
 from paddle.nn.layer.transformer import _convert_param_attr_to_list
-from paddle.fluid.initializer import Normal, Constant, NumpyArrayInitializer
 
 from paddlenlp.transformers import PretrainedModel, register_base_model
 
diff --git a/examples/language_model/gpt-3/static/dataset.py b/examples/language_model/gpt-3/static/dataset.py
@@ -363,7 +363,7 @@ def data_gen():
                     yield tuple(
                         [np.expand_dims(np.array(x), axis=0) for x in data])
 
-            data_loader = paddle.fluid.io.DataLoader.from_generator(
+            data_loader = paddle.io.DataLoader.from_generator(
                 feed_list=data_holders, capacity=70, iterable=False)
             data_loader.set_sample_generator(data_gen,
                                              batch_size=args.micro_batch_size,
diff --git a/examples/language_model/gpt-3/static/run_pretrain_static.py b/examples/language_model/gpt-3/static/run_pretrain_static.py
@@ -77,7 +77,7 @@ def dist_optimizer(args, topo):
         args.global_batch_size, micro_batch_size)
     acc_steps = bsz_per_dp // micro_batch_size
 
-    exec_strategy = paddle.fluid.ExecutionStrategy()
+    exec_strategy = paddle.static.ExecutionStrategy()
     exec_strategy.num_threads = 2
     exec_strategy.num_iteration_per_drop_scope = 1
 
@@ -320,8 +320,7 @@ def do_train(args):
 
             clip = None
             if args.grad_clip > 0:
-                clip = paddle.fluid.clip.GradientClipByGlobalNorm(
-                    clip_norm=args.grad_clip)
+                clip = paddle.nn.ClipGradByGlobalNorm(clip_norm=args.grad_clip)
 
             decay_param = [
                 p.name for n, p in model.named_parameters()
diff --git a/examples/language_model/moe/dygraph/dataset.py b/examples/language_model/moe/dygraph/dataset.py
@@ -106,7 +106,7 @@ def construct_samples_and_shuffle_data(name, data_prefix, documents, sizes,
     np_rng.set_state(savedState)
 
     if paddle.distributed.get_world_size() > 1:
-        if paddle.fluid.framework.in_dygraph_mode():
+        if paddle.in_dynamic_mode():
             paddle.distributed.barrier()
 
     # Load mappings.
diff --git a/examples/language_model/moe/dygraph/framework/adamw.py b/examples/language_model/moe/dygraph/framework/adamw.py
@@ -14,9 +14,9 @@
 
 from paddle.optimizer import Optimizer
 from paddle.optimizer.adam import Adam
-from paddle.fluid import core
+from paddle.framework import core
 from paddle.fluid import framework
-from paddle.fluid.framework import Variable
+from paddle.static import Variable
 from paddle.fluid.dygraph import base as imperative_base
 from collections.abc import Callable
 import paddle
diff --git a/examples/language_model/moe/dygraph/framework/storage_process.py b/examples/language_model/moe/dygraph/framework/storage_process.py
@@ -12,11 +12,11 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from paddle.fluid import core
+from paddle.framework import core
 import numpy as np
 from collections import OrderedDict
 
-from paddle.fluid.framework import in_dygraph_mode, _in_legacy_dygraph
+from paddle.framework import in_dygraph_mode, _in_legacy_dygraph
 
 if in_dygraph_mode():
     from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_storage import ParamStorage, GradStorage
diff --git a/examples/language_model/moe/dygraph/modeling.py b/examples/language_model/moe/dygraph/modeling.py
@@ -21,9 +21,7 @@
 import paddle.nn.functional as F
 import paddle.tensor as tensor
 from paddle.fluid import layers
-from paddle.fluid.framework import in_dygraph_mode
 from paddle.nn.layer.transformer import _convert_param_attr_to_list
-from paddle.fluid.initializer import Normal, Constant, NumpyArrayInitializer
 
 from paddlenlp.transformers import PretrainedModel, register_base_model
 
diff --git a/examples/language_model/moe/dygraph/run_moe_pretrain.py b/examples/language_model/moe/dygraph/run_moe_pretrain.py
@@ -35,12 +35,10 @@
 from utils import get_timers, set_timers
 from types import MethodType
 from paddle import _C_ops
-from paddle.fluid import core
-from paddle.fluid.dygraph import to_variable
+from paddle.framework import core
 import paddle.distributed as dist
 from framework import assign_group_by_size, flatten_dense_tensors, obtain_storage, AdamW, group_sharded_parallel
 from paddle.incubate.distributed.models import moe
-from paddle.fluid.framework import in_dygraph_mode
 from paddle.distributed.fleet.meta_parallel.sharding.sharding_utils import ShardingScaler
 from paddle.distributed.fleet.meta_parallel.sharding.group_sharded_utils import GroupShardedScaler
 
@@ -179,8 +177,8 @@ def unscale_method(self, optimizer):
             if (param._grad_ivar() is not None) and (
                 param._grad_ivar().dtype == core.VarDesc.VarType.FP32)
         ]
-    temp_found_inf_fp16 = to_variable(np.array([0]).astype(np.bool))
-    temp_found_inf_fp32 = to_variable(np.array([0]).astype(np.bool))
+    temp_found_inf_fp16 = paddle.to_tensor(np.array([0]).astype(np.bool))
+    temp_found_inf_fp32 = paddle.to_tensor(np.array([0]).astype(np.bool))
 
     if len(param_grads_fp16):
         _C_ops.check_finite_and_unscale(param_grads_fp16, self._scale,
@@ -443,7 +441,7 @@ def do_train(args):
             scaler = fleet.distributed_scaler(scaler)
             scaler._unscale = MethodType(unscale_method, scaler)
         else:
-            wrap_scale_func = GroupShardedScaler if in_dygraph_mode(
+            wrap_scale_func = GroupShardedScaler if paddle.in_dynamic_mode(
             ) else ShardingScaler
             scaler = wrap_scale_func(scaler)
 
diff --git a/examples/language_model/moe/dygraph/userdefine_optimizer.py b/examples/language_model/moe/dygraph/userdefine_optimizer.py
@@ -16,11 +16,10 @@
 import sys
 import paddle
 from paddle.optimizer import Optimizer
-from paddle.fluid.clip import ClipGradByGlobalNorm
-from paddle.fluid.dygraph import base as imperative_base
-from paddle.fluid import framework
-from paddle.fluid.framework import Variable
-from paddle.fluid import core
+from paddle.nn import ClipGradByGlobalNorm
+from paddle import framework
+from paddle.static import Variable
+from paddle.framework import core
 from paddle.fluid import layers
 from paddle.distributed.fleet.utils.hybrid_parallel_util import fused_allreduce_gradients
 
@@ -46,7 +45,7 @@ def __init__(self, clip, hcg):
         self._clip = clip
         self._hcg = hcg
 
-    @imperative_base.no_grad
+    @paddle.no_grad
     def _dygraph_clip(self, params_grads):
         params_and_grads = []
         sum_square_list_dist = []
@@ -141,7 +140,7 @@ def __init__(self, optimizer, hcg):
             self._inner_opt._grad_clip = HybridParallelClipGrad(
                 self._inner_opt._grad_clip, hcg)
 
-    @imperative_base.no_grad
+    @paddle.no_grad
     @framework.dygraph_only
     def step(self):
         parameters_list = _obtain_optimizer_parameters_list(self._inner_opt)
diff --git a/model_zoo/ernie-1.0/run_pretrain_static.py b/model_zoo/ernie-1.0/run_pretrain_static.py
@@ -182,7 +182,7 @@ def dist_optimizer(args, topo):
         args.global_batch_size, micro_batch_size)
     accumulate_steps = bsz_per_dp // micro_batch_size
 
-    exec_strategy = paddle.fluid.ExecutionStrategy()
+    exec_strategy = paddle.static.ExecutionStrategy()
     exec_strategy.num_threads = 1
     exec_strategy.num_iteration_per_drop_scope = 10000
 
@@ -466,8 +466,7 @@ def do_train(args):
 
         clip = None
         if args.grad_clip > 0:
-            clip = paddle.fluid.clip.GradientClipByGlobalNorm(
-                clip_norm=args.grad_clip)
+            clip = paddle.nn.ClipGradByGlobalNorm(clip_norm=args.grad_clip)
 
         decay_param = [
             p.name for n, p in model.named_parameters()
diff --git a/model_zoo/gpt/dataset.py b/model_zoo/gpt/dataset.py
@@ -359,7 +359,7 @@ def data_gen():
                     yield tuple(
                         [np.expand_dims(np.array(x), axis=0) for x in data])
 
-            data_loader = paddle.fluid.io.DataLoader.from_generator(
+            data_loader = paddle.io.DataLoader.from_generator(
                 feed_list=data_holders, capacity=70, iterable=False)
             data_loader.set_batch_generator(data_gen, places)
         else:
diff --git a/model_zoo/gpt/run_pretrain_static.py b/model_zoo/gpt/run_pretrain_static.py
@@ -77,7 +77,7 @@ def dist_optimizer(args, topo):
         args.global_batch_size, micro_batch_size)
     acc_steps = bsz_per_dp // micro_batch_size
 
-    exec_strategy = paddle.fluid.ExecutionStrategy()
+    exec_strategy = paddle.static.ExecutionStrategy()
     exec_strategy.num_threads = 2
     exec_strategy.num_iteration_per_drop_scope = 1
 
@@ -307,8 +307,7 @@ def do_train(args):
 
             clip = None
             if args.grad_clip > 0:
-                clip = paddle.fluid.clip.GradientClipByGlobalNorm(
-                    clip_norm=args.grad_clip)
+                clip = paddle.nn.ClipGradByGlobalNorm(clip_norm=args.grad_clip)
 
             decay_param = [
                 p.name for n, p in model.named_parameters()
diff --git a/paddlenlp/trainer/trainer_base.py b/paddlenlp/trainer/trainer_base.py
@@ -179,7 +179,7 @@ def __init__(
                           paddle.optimizer.lr.LRScheduler] = (None, None),
     ):
         if paddle.distributed.get_world_size() > 1:
-            if not paddle.fluid.dygraph.parallel_helper._is_parallel_ctx_initialized(
+            if not paddle.distributed.parallel.parallel_helper._is_parallel_ctx_initialized(
             ):
                 paddle.distributed.init_parallel_env()
 
@@ -874,7 +874,7 @@ def _load_rng_state(self, checkpoint):
         random.setstate(checkpoint_rng_state["python"])
         np.random.set_state(checkpoint_rng_state["numpy"])
 
-        core = paddle.fluid.core
+        core = paddle.framework.core
         if core.is_compiled_with_cuda():
             for i in range(core.get_cuda_device_count()):
                 core.default_cuda_generator(i)._is_init_py = True
@@ -1125,8 +1125,8 @@ def _save_checkpoint(self, model, metrics=None):
             np.random.get_state(),
             "cuda": [k.current_seed() for k in paddle.get_cuda_rng_state()],
             "cpu":
-            paddle.fluid.core.default_cpu_generator().get_state().current_seed(
-            ),
+            paddle.framework.core.default_cpu_generator().get_state().
+            current_seed(),
         }
 
         # A process can arrive here before the process 0 has a chance to save the model, in which case output_dir may
diff --git a/paddlenlp/transformers/gpt/modeling.py b/paddlenlp/transformers/gpt/modeling.py
@@ -1166,7 +1166,7 @@ def prepare_inputs_for_generation(self,
         if attention_mask is not None:
             if len(attention_mask.shape) == 4:
                 attention_mask = attention_mask[:, -1, -1, :]
-            if "int" in paddle.fluid.data_feeder.convert_dtype(
+            if "int" in paddle.common_ops_import.convert_dtype(
                     attention_mask.dtype):
                 attention_mask = (1.0 - attention_mask) * -1e4
         if cache is not None: