[Bug fixes] update gpt testing issue (#4438)

wj-Mcat · web-flow · commit be7d123409d5 · 2023-01-12T12:01:16.000+08:00
diff --git a/model_zoo/gpt/README.md b/model_zoo/gpt/README.md
@@ -96,7 +96,7 @@ CUDA_VISIBLE_DEVICES=0 python run_pretrain.py \
   --device gpu \
   --warmup_steps 320000 \
   --warmup_ratio 0.01 \
-  --per_device_train_batch_size 4 \
+  --mirco_batch_size 4 \
   --eval_steps 100 \
   --do_train true \
   --do_predict true
@@ -129,7 +129,7 @@ python -m paddle.distributed.launch --gpus "0,1,2,3,4,5,6,7" run_pretrain.py \
   --device gpu \
   --warmup_steps 320000 \
   --warmup_ratio 0.01 \
-  --per_device_train_batch_size 4 \
+  --mirco_batch_size 8 \
   --eval_steps 100 \
   --do_train true \
   --do_predict true
diff --git a/model_zoo/gpt/run_pretrain.py b/model_zoo/gpt/run_pretrain.py
@@ -52,11 +52,7 @@
 @dataclass
 class TrainingArguments(TrainingArguments):
     min_lr: float = field(default=1e-5, metadata={"help": "The initial min learning rate for Adam."})
-
-    # per_device_train_batch_size
-    @property
-    def micro_batch_size(self):
-        return self.per_device_train_batch_size
+    micro_batch_size: int = field(default=4, metadata={"help": "the batch-size of trainin"})
 
     @property
     def eval_freq(self):
@@ -349,6 +345,7 @@ def do_train():
     ).parse_args_into_dataclasses()
     training_args.eval_iters = 10
     training_args.test_iters = training_args.eval_iters * 10
+    # training_args.per_device_train_batch_size = 2
 
     paddle.set_device(training_args.device)
     if paddle.distributed.get_world_size() > 1:
@@ -455,6 +452,9 @@ def do_train():
         elif last_checkpoint is not None:
             checkpoint = last_checkpoint
 
+        print("==============================")
+        print(f"last checkpoint : {checkpoint}")
+
         # Training
         if training_args.do_train:
             train_result = trainer.train(resume_from_checkpoint=checkpoint)
diff --git a/scripts/regression/ci_case.sh b/scripts/regression/ci_case.sh
@@ -286,11 +286,6 @@ if [ ! -f 'test.py' ];then
     sed -i "s/python3/python/g" Makefile
     sed -i "s/python-config/python3.7m-config/g" Makefile
     cd ${nlp_dir}/model_zoo/gpt/
-    mkdir pre_data
-    cd ./pre_data
-    wget -q https://bj.bcebos.com/paddlenlp/models/transformers/gpt/data/gpt_en_dataset_300m_ids.npy
-    wget -q https://bj.bcebos.com/paddlenlp/models/transformers/gpt/data/gpt_en_dataset_300m_idx.npz
-    cd ../
     # pretrain
     python -m paddle.distributed.launch run_pretrain.py \
     --model_name_or_path "__internal_testing__/gpt" \
@@ -302,8 +297,10 @@ if [ ! -f 'test.py' ];then
     --device gpu \
     --warmup_steps 320000 \
     --warmup_ratio 0.01 \
-    --per_device_train_batch_size 4 \
+    --micro_batch_size 8 \
     --eval_steps 100 \
+    --overwrite_output_dir true \
+    --dataloader_drop_last true \
     --do_train true \
     --do_predict true >${log_path}/gpt_pretrain >>${log_path}/gpt_pretrain 2>&1
     print_info $? gpt_pretrain