add save_step for ernie_matching (#798)

tianxin · web-flow · commit fda3ff7fc112 · 2021-07-26T20:22:35.000+08:00
* add FewCLUE 9 datasets

* fix a bug for tnews

* Add CI for Ernie text matching

* Add CI for Ernie text matching

* Add CI for Ernie text matching

* fix encoding problem for windows

* add save_step for ernie_matching
diff --git a/examples/text_matching/ernie_matching/train_pairwise.py b/examples/text_matching/ernie_matching/train_pairwise.py
@@ -33,18 +33,19 @@
 
 # yapf: disable
 parser = argparse.ArgumentParser()
-parser.add_argument("--margin", default=0.2, type=float, help="Margin for pos_score and neg_score")
-parser.add_argument("--eval_step", default=100, type=int, help="Steps interval for evaluation")
+parser.add_argument("--margin", default=0.2, type=float, help="Margin for pos_score and neg_score.")
 parser.add_argument("--save_dir", default='./checkpoint', type=str, help="The output directory where the model checkpoints will be written.")
 parser.add_argument("--max_seq_length", default=128, type=int, help="The maximum total input sequence length after tokenization. "
     "Sequences longer than this will be truncated, sequences shorter will be padded.")
 parser.add_argument("--batch_size", default=32, type=int, help="Batch size per GPU/CPU for training.")
 parser.add_argument("--learning_rate", default=5e-5, type=float, help="The initial learning rate for Adam.")
 parser.add_argument("--weight_decay", default=0.0, type=float, help="Weight decay if we apply some.")
 parser.add_argument("--epochs", default=3, type=int, help="Total number of training epochs to perform.")
+parser.add_argument("--eval_step", default=100, type=int, help="Step interval for evaluation.")
+parser.add_argument('--save_step', default=10000, type=int, help="Step interval for saving checkpoint.")
 parser.add_argument("--warmup_proportion", default=0.0, type=float, help="Linear warmup proption over the training process.")
 parser.add_argument("--init_from_ckpt", type=str, default=None, help="The path of checkpoint to be loaded.")
-parser.add_argument("--seed", type=int, default=1000, help="random seed for initialization")
+parser.add_argument("--seed", type=int, default=1000, help="Random seed for initialization.")
 parser.add_argument('--device', choices=['cpu', 'gpu'], default="gpu", help="Select which device to train model, defaults to gpu.")
 args = parser.parse_args()
 # yapf: enable
@@ -196,12 +197,12 @@ def do_train():
             optimizer.clear_grad()
 
             if global_step % args.eval_step == 0 and rank == 0:
+                evaluate(model, metric, dev_data_loader, "dev")
+
+            if global_step % args.save_step == 0 and rank == 0:
                 save_dir = os.path.join(args.save_dir, "model_%d" % global_step)
                 if not os.path.exists(save_dir):
                     os.makedirs(save_dir)
-
-                evaluate(model, metric, dev_data_loader, "dev")
-
                 save_param_path = os.path.join(save_dir, 'model_state.pdparams')
                 paddle.save(model.state_dict(), save_param_path)
                 tokenizer.save_pretrained(save_dir)
diff --git a/examples/text_matching/ernie_matching/train_pointwise.py b/examples/text_matching/ernie_matching/train_pointwise.py
@@ -40,9 +40,11 @@
 parser.add_argument("--learning_rate", default=5e-5, type=float, help="The initial learning rate for Adam.")
 parser.add_argument("--weight_decay", default=0.0, type=float, help="Weight decay if we apply some.")
 parser.add_argument("--epochs", default=3, type=int, help="Total number of training epochs to perform.")
+parser.add_argument("--eval_step", default=100, type=int, help="Step interval for evaluation.")
+parser.add_argument('--save_step', default=10000, type=int, help="Step interval for saving checkpoint.")
 parser.add_argument("--warmup_proportion", default=0.0, type=float, help="Linear warmup proption over the training process.")
 parser.add_argument("--init_from_ckpt", type=str, default=None, help="The path of checkpoint to be loaded.")
-parser.add_argument("--seed", type=int, default=1000, help="random seed for initialization")
+parser.add_argument("--seed", type=int, default=1000, help="Random seed for initialization.")
 parser.add_argument('--device', choices=['cpu', 'gpu'], default="gpu", help="Select which device to train model, defaults to gpu.")
 args = parser.parse_args()
 # yapf: enable
@@ -177,12 +179,14 @@ def do_train():
             optimizer.step()
             lr_scheduler.step()
             optimizer.clear_grad()
-            if global_step % 100 == 0 and rank == 0:
+
+            if global_step % args.eval_step == 0 and rank == 0:
+                evaluate(model, criterion, metric, dev_data_loader)
+
+            if global_step % args.save_step == 0 and rank == 0:
                 save_dir = os.path.join(args.save_dir, "model_%d" % global_step)
                 if not os.path.exists(save_dir):
                     os.makedirs(save_dir)
-                evaluate(model, criterion, metric, dev_data_loader)
-
                 save_param_path = os.path.join(save_dir, 'model_state.pdparams')
                 paddle.save(model.state_dict(), save_param_path)
                 tokenizer.save_pretrained(save_dir)