Transformer full procedure ci/ce (#839)

FrostML · web-flow · commit 496c4cd05e8a · 2021-08-11T20:21:28.000+08:00
diff --git a/examples/machine_translation/transformer/README.md b/examples/machine_translation/transformer/README.md
@@ -77,7 +77,7 @@ python train.py --config ./configs/transformer.base.yaml
 同样，可以执行如下命令实现八卡训练：
 
 ``` sh
-export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
+unset CUDA_VISIBLE_DEVICES
 python -m paddle.distributed.launch --gpus "0,1,2,3,4,5,6,7" train.py --config ./configs/transformer.base.yaml
 ```
 
@@ -154,7 +154,7 @@ python train.py --config ../configs/transformer.base.yaml
 ##### fleet 的方式启动单机多卡：
 ``` shell
 cd static/
-export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
+unset CUDA_VISIBLE_DEVICES
 python -m paddle.distributed.launch --gpus="0,1,2,3,4,5,6,7" train.py --config ../configs/transformer.base.yaml --distributed
 ```
 
diff --git a/examples/machine_translation/transformer/deploy/python/README.md b/examples/machine_translation/transformer/deploy/python/README.md
@@ -32,7 +32,7 @@ python inference.py \
 * `--config`: yaml 配置文件，和训练时使用的相同，不过因为模型导出时已经固定了模型结构，因此，模型超参相关配置将不会再起作用，仅有 `reader` 相关配置、`infer_batch_size` 以及 `inference_model_dir` 仍会有效。
 * `--batch_size`: 与配置文件中 `infer_batch_size` 意义相同，是指的使用 Paddle Inference 的时候一个 batch 的句子数目。
 * `--device`: 使用的设备，可以是 gpu，xpu 或是 cpu。
-* `--use_mkl`: 是否使用 mkl，没有设定表示不使用 mkl。
+* `--use_mkl`: 是否使用 mkl，没有设定表示不使用 mkl。可以通过 `--use_mkl True` 指定。
 * `--threads`: 仅在使用 mkl 的时候起效，用于指定计算 math 库时的线程数。
 * `--model_dir`: 导出的 Paddle Inference 可用的模型路径，与配置文件中的 `inference_model_dir` 对应。
 
diff --git a/examples/machine_translation/transformer/deploy/python/benchmark.sh b/examples/machine_translation/transformer/deploy/python/benchmark.sh
@@ -17,7 +17,7 @@ for batch_size in "1" "2" "4"; do
             --config="../../configs/transformer.${model}.yaml" \
             --model_dir=${model_dir} \
             --device cpu \
-            --use_mkl \
+            --use_mkl True \
             --threads=${threads} \
             --batch_size=${batch_size} \
             --profile > ${log_path}/transformer_${model}_cpu_mkl_threads${threads}_bs${batch_size}_inference.log 2>&1 
diff --git a/examples/machine_translation/transformer/deploy/python/inference.py b/examples/machine_translation/transformer/deploy/python/inference.py
@@ -33,7 +33,11 @@ def parse_args():
         choices=["gpu", "xpu", "cpu"],
         help="Device to use during inference. ")
     parser.add_argument(
-        "--use_mkl", action="store_true", help="Whether to use mkl. ")
+        "--use_mkl",
+        default=False,
+        type=eval,
+        choices=[True, False],
+        help="Whether to use mkl. ")
     parser.add_argument(
         "--threads",
         default=1,
@@ -50,6 +54,7 @@ def parse_args():
         "--profile", action="store_true", help="Whether to profile. ")
     parser.add_argument(
         "--test_file",
+        nargs='+',
         default=None,
         type=str,
         help="The file for testing. Normally, it shouldn't be set and in this case, the default WMT14 dataset will be used to process testing."
diff --git a/examples/machine_translation/transformer/faster_transformer/README.md b/examples/machine_translation/transformer/faster_transformer/README.md
@@ -213,7 +213,7 @@ cd PaddleNLP/paddlenlp/ops/
 ``` sh
 mkdir build
 cd build/
-cmake .. -DSM=xx -DCMAKE_BUILD_TYPE=Release -DPADDLE_LIB=/path/to/paddle_inference_lib/ -DDEMO=./demo/transformer_e2e.cc -DWITH_STATIC_LIB=OFF -DON_INFER=ON
+cmake .. -DSM=xx -DCMAKE_BUILD_TYPE=Release -DPADDLE_LIB=/path/to/paddle_inference_lib/ -DDEMO=./demo/transformer_e2e.cc -DWITH_STATIC_LIB=OFF -DON_INFER=ON -DWITH_MKL=ON
 make -j
 cd ../
 ```
@@ -233,7 +233,7 @@ cd ../
     └── threadpool/
   └── version.txt
   ```
-* `-DDEMO` 说明预测库使用 demo 的位置。
+* `-DDEMO` 说明预测库使用 demo 的位置。最好使用绝对路径，若使用相对路径，需要是相对于 `PaddleNLP/paddlenlp/ops/faster_transformer/src/` 的相对路径。
 * **当使用预测库的自定义 op 的时候，请务必开启 `-DON_INFER=ON` 选项，否则，不会得到预测库的可执行文件。**
 
 编译完成后，在 `build/bin/` 路径下将会看到 `transformer_e2e` 的一个可执行文件。通过设置对应的设置参数完成执行的过程。
diff --git a/examples/machine_translation/transformer/faster_transformer/encoder_decoding_predict.py b/examples/machine_translation/transformer/faster_transformer/encoder_decoding_predict.py
@@ -64,6 +64,7 @@ def parse_args():
         help="Whether to profile the performance using newstest2014 dataset. ")
     parser.add_argument(
         "--test_file",
+        nargs='+',
         default=None,
         type=str,
         help="The file for testing. Normally, it shouldn't be set and in this case, the default WMT14 dataset will be used to process testing."
diff --git a/examples/machine_translation/transformer/predict.py b/examples/machine_translation/transformer/predict.py
@@ -26,6 +26,7 @@ def parse_args():
     )
     parser.add_argument(
         "--test_file",
+        nargs='+',
         default=None,
         type=str,
         help="The file for testing. Normally, it shouldn't be set and in this case, the default WMT14 dataset will be used to process testing."
diff --git a/examples/machine_translation/transformer/static/predict.py b/examples/machine_translation/transformer/static/predict.py
@@ -46,6 +46,7 @@ def parse_args():
     )
     parser.add_argument(
         "--test_file",
+        nargs='+',
         default=None,
         type=str,
         help="The file for testing. Normally, it shouldn't be set and in this case, the default WMT14 dataset will be used to process testing."
diff --git a/examples/machine_translation/transformer/train.py b/examples/machine_translation/transformer/train.py
@@ -140,9 +140,6 @@ def do_train(args):
         batch_id = 0
         batch_start = time.time()
         for input_data in train_loader:
-            #NOTE: Used for benchmark and use None as default. 
-            if args.max_iter and step_idx == args.max_iter:
-                break
             train_reader_cost = time.time() - batch_start
             (src_word, trg_word, lbl_word) = input_data
 
@@ -237,6 +234,9 @@ def do_train(args):
                     paddle.save(optimizer.state_dict(),
                                 os.path.join(model_dir, "transformer.pdopt"))
 
+            #NOTE: Used for benchmark and use None as default. 
+            if args.max_iter and step_idx == args.max_iter:
+                break
             batch_id += 1
             step_idx += 1
             scheduler.step()
diff --git a/paddlenlp/ops/README.md b/paddlenlp/ops/README.md
@@ -206,7 +206,7 @@ cd PaddleNLP/paddlenlp/ops/
 ``` sh
 mkdir build
 cd build/
-cmake .. -DSM=xx -DCMAKE_BUILD_TYPE=Release -DPADDLE_LIB=/path/to/paddle_inference_lib/ -DDEMO=./faster_transformer/src/demo/transformer_e2e.cc -DWITH_STATIC_LIB=OFF -DON_INFER=ON -DWITH_MKL=ON
+cmake .. -DSM=xx -DCMAKE_BUILD_TYPE=Release -DPADDLE_LIB=/path/to/paddle_inference_lib/ -DDEMO=./demo/transformer_e2e.cc -DWITH_STATIC_LIB=OFF -DON_INFER=ON -DWITH_MKL=ON
 make -j
 cd ../
 ```
@@ -226,7 +226,7 @@ cd ../
     └── threadpool/
   └── version.txt
   ```
-* `-DDEMO` 说明预测库使用 demo 的位置。比如指定 -DDEMO=./faster_transformer/src/demo/transformer_e2e.cc 或是 -DDEMO=./faster_transformer/src/demo/gpt.cc。
+* `-DDEMO` 说明预测库使用 demo 的位置。比如指定 -DDEMO=./demo/transformer_e2e.cc 或是 -DDEMO=./demo/gpt.cc。最好使用绝对路径，若使用相对路径，需要是相对于 `PaddleNLP/paddlenlp/ops/faster_transformer/src/` 的相对路径。
 * `-DWITH_GPT`，如果是编译 GPT 的预测库可执行文件，需要加上 `-DWITH_GPT=ON`。
 * **当使用预测库的自定义 op 的时候，请务必开启 `-DON_INFER=ON` 选项，否则，不会得到预测库的可执行文件。**
 
diff --git a/tests/prepare.sh b/tests/prepare.sh
@@ -1,5 +1,179 @@
-cd ../examples/machine_translation/transformer/
-wget https://paddlenlp.bj.bcebos.com/models/transformers/transformer/tranformer-base-wmt_ende_bpe.tar.gz
-tar -zxf tranformer-base-wmt_ende_bpe.tar.gz
-mv base_trained_models/ trained_models/
-cd -
+MODE=$1
+
+if [ ${MODE} = "lite_train_infer" ]; then
+    cd ../examples/machine_translation/transformer/
+    # The whole procedure of lite_train_infer should be less than 15min.
+    # Hence, set maximum output length is 16. 
+    sed -i "s/^max_out_len.*/max_out_len: 16/g" configs/transformer.base.yaml
+    sed -i "s/^max_out_len.*/max_out_len: 16/g" configs/transformer.big.yaml
+    # Data set prepared. 
+    if [ ! -f WMT14.en-de.partial.tar.gz ]; then
+        wget https://paddlenlp.bj.bcebos.com/datasets/WMT14.en-de.partial.tar.gz
+        tar -zxf WMT14.en-de.partial.tar.gz
+    fi
+    # Set soft link.
+    if [ -f train.en ]; then
+        rm -f train.en
+    fi
+    if [ -f train.de ]; then
+        rm -f train.de
+    fi
+    if [ -f dev.en ]; then
+        rm -f dev.en
+    fi
+    if [ -f dev.de ]; then
+        rm -f dev.de
+    fi
+    if [ -f test.en ]; then
+        rm -f test.en
+    fi
+    if [ -f test.de ]; then
+        rm -f test.de
+    fi
+    mkdir -p ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/
+    rm -f ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33712
+    rm -f ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33708
+    # Vocab
+    cp -f WMT14.en-de.partial/wmt14_ende_data_bpe/vocab_all.bpe.33712 ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33712
+    cp -f WMT14.en-de.partial/wmt14_ende_data_bpe/vocab_all.bpe.33708 ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33708
+    # Train
+    ln -s WMT14.en-de.partial/wmt14_ende_data_bpe/train.tok.clean.bpe.en train.en
+    ln -s WMT14.en-de.partial/wmt14_ende_data_bpe/train.tok.clean.bpe.de train.de
+    # Dev
+    ln -s WMT14.en-de.partial/wmt14_ende_data_bpe/dev.tok.bpe.en dev.en
+    ln -s WMT14.en-de.partial/wmt14_ende_data_bpe/dev.tok.bpe.de dev.de
+    #Test
+    ln -s WMT14.en-de.partial/wmt14_ende_data_bpe/test.tok.bpe.en test.en
+    ln -s WMT14.en-de.partial/wmt14_ende_data_bpe/test.tok.bpe.de test.de
+    cd -
+elif [ ${MODE} = "whole_infer" ]; then
+    cd ../examples/machine_translation/transformer/
+    sed -i "s/^max_out_len.*/max_out_len: 256/g" configs/transformer.base.yaml
+    sed -i "s/^max_out_len.*/max_out_len: 1024/g" configs/transformer.big.yaml
+
+    # Trained transformer base model checkpoint. 
+    # For infer. 
+    if [ ! -f tranformer-base-wmt_ende_bpe.tar.gz ]; then
+        wget https://paddlenlp.bj.bcebos.com/models/transformers/transformer/tranformer-base-wmt_ende_bpe.tar.gz
+        tar -zxf tranformer-base-wmt_ende_bpe.tar.gz
+        mv base_trained_models/ trained_models/
+    fi
+    # For train. 
+    if [ ! -f WMT14.en-de.partial.tar.gz ]; then
+        wget https://paddlenlp.bj.bcebos.com/datasets/WMT14.en-de.partial.tar.gz
+        tar -zxf WMT14.en-de.partial.tar.gz
+    fi
+    # Whole data set prepared. 
+    if [ ! -f WMT14.en-de.tar.gz ]; then
+        wget https://paddlenlp.bj.bcebos.com/datasets/WMT14.en-de.tar.gz
+        tar -zxf WMT14.en-de.tar.gz
+    fi
+    # Set soft link.
+    if [ -f train.en ]; then
+        rm -f train.en
+    fi
+    if [ -f train.de ]; then
+        rm -f train.de
+    fi
+    if [ -f dev.en ]; then
+        rm -f dev.en
+    fi
+    if [ -f dev.de ]; then
+        rm -f dev.de
+    fi
+    if [ -f test.en ]; then
+        rm -f test.en
+    fi
+    if [ -f test.de ]; then
+        rm -f test.de
+    fi
+    mkdir -p ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/
+    rm -f ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33712
+    rm -f ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33708
+    # Vocab
+    cp -f WMT14.en-de.partial/wmt14_ende_data_bpe/vocab_all.bpe.33712 ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33712
+    cp -f WMT14.en-de.partial/wmt14_ende_data_bpe/vocab_all.bpe.33708 ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33708
+    # Train with partial data. 
+    ln -s WMT14.en-de.partial/wmt14_ende_data_bpe/train.tok.clean.bpe.en train.en
+    ln -s WMT14.en-de.partial/wmt14_ende_data_bpe/train.tok.clean.bpe.de train.de
+    # Dev with partial data. 
+    ln -s WMT14.en-de.partial/wmt14_ende_data_bpe/dev.tok.bpe.en dev.en
+    ln -s WMT14.en-de.partial/wmt14_ende_data_bpe/dev.tok.bpe.de dev.de
+    # Test with whole data. 
+    ln -s WMT14.en-de/wmt14_ende_data_bpe/newstest2014.tok.bpe.33708.en test.en
+    ln -s WMT14.en-de/wmt14_ende_data_bpe/newstest2014.tok.bpe.33708.de test.de
+    cd -
+elif [ ${MODE} = "whole_train_infer" ]; then
+    cd ../examples/machine_translation/transformer/
+    sed -i "s/^max_out_len.*/max_out_len: 256/g" configs/transformer.base.yaml
+    sed -i "s/^max_out_len.*/max_out_len: 1024/g" configs/transformer.big.yaml
+
+    # Whole data set prepared. 
+    if [ ! -f WMT14.en-de.tar.gz ]; then
+        wget https://paddlenlp.bj.bcebos.com/datasets/WMT14.en-de.tar.gz
+        tar -zxf WMT14.en-de.tar.gz
+    fi
+    # Set soft link. 
+    if [ -f train.en ]; then
+        rm -f train.en
+    fi
+    if [ -f train.de ]; then
+        rm -f train.de
+    fi
+    if [ -f dev.en ]; then
+        rm -f dev.en
+    fi
+    if [ -f dev.de ]; then
+        rm -f dev.de
+    fi
+    if [ -f test.en ]; then
+        rm -f test.en
+    fi
+    if [ -f test.de ]; then
+        rm -f test.de
+    fi
+    mkdir -p ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/
+    rm -f ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33712
+    rm -f ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33708
+    # Vocab
+    cp -f WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33712 ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33712
+    cp -f WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33708 ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33708
+    # Train with whole data. 
+    ln -s WMT14.en-de/wmt14_ende_data_bpe/train.tok.clean.bpe.33708.en train.en
+    ln -s WMT14.en-de/wmt14_ende_data_bpe/train.tok.clean.bpe.33708.de train.de
+    # Dev with whole data. 
+    ln -s WMT14.en-de/wmt14_ende_data_bpe/newstest2013.tok.bpe.33708.en dev.en
+    ln -s WMT14.en-de/wmt14_ende_data_bpe/newstest2013.tok.bpe.33708.de dev.de
+    # Test with whole data. 
+    ln -s WMT14.en-de/wmt14_ende_data_bpe/newstest2014.tok.bpe.33708.en test.en
+    ln -s WMT14.en-de/wmt14_ende_data_bpe/newstest2014.tok.bpe.33708.de test.de
+    cd -
+else # infer
+    cd ../examples/machine_translation/transformer/
+    sed -i "s/^max_out_len.*/max_out_len: 256/g" configs/transformer.base.yaml
+    sed -i "s/^max_out_len.*/max_out_len: 1024/g" configs/transformer.big.yaml
+
+    # Trained transformer base model checkpoint. 
+    if [ ! -f tranformer-base-wmt_ende_bpe.tar.gz ]; then
+        wget https://paddlenlp.bj.bcebos.com/models/transformers/transformer/tranformer-base-wmt_ende_bpe.tar.gz
+        tar -zxf tranformer-base-wmt_ende_bpe.tar.gz
+        mv base_trained_models/ trained_models/
+    fi
+    # Set soft link.
+    if [ -f test.en ]; then
+        rm -f test.en
+    fi
+    if [ -f test.de ]; then
+        rm -f test.de
+    fi
+    mkdir -p ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/
+    rm -f ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33712
+    rm -f ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33708
+    # Vocab
+    cp -f WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33712 ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33712
+    cp -f WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33708 ~/.paddlenlp/datasets/WMT14ende/WMT14.en-de/wmt14_ende_data_bpe/vocab_all.bpe.33708
+    # Test with whole data. 
+    ln -s WMT14.en-de/wmt14_ende_data_bpe/newstest2014.tok.bpe.33708.en test.en
+    ln -s WMT14.en-de/wmt14_ende_data_bpe/newstest2014.tok.bpe.33708.de test.de
+    cd -
+fi
diff --git a/tests/transformer_base_dygraph_params.txt b/tests/transformer_base_dygraph_params.txt
@@ -4,7 +4,7 @@ python:python3.7
 gpu_list:0|0,1
 null:null
 null:null
---max_iter:lite_train_infer=501
+--max_iter:lite_train_infer=500
 null:null
 null:null
 null:null
@@ -13,21 +13,21 @@ null:null
 null:null
 ##
 trainer:norm_train
-norm_train:../examples/machine_translation/transformer/train.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --benchmark
+norm_train:../examples/machine_translation/transformer/train.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --train_file ../examples/machine_translation/transformer/train.en ../examples/machine_translation/transformer/train.de --dev_file ../examples/machine_translation/transformer/dev.en ../examples/machine_translation/transformer/dev.de
 pact_train:null
 fpgm_train:null
 distill_train:null
 null:null
 null:null
 ##
 ===========================eval_params=========================== 
-eval:../examples/machine_translation/transformer/predict.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --benchmark
+eval:../examples/machine_translation/transformer/predict.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --test_file ../examples/machine_translation/transformer/test.en ../examples/machine_translation/transformer/test.de --without_ft
 null:null
 ##
 ===========================infer_params===========================
 null:null
 null:null
-norm_export:../examples/machine_translation/transformer/export_model.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --benchmark
+norm_export:../examples/machine_translation/transformer/export_model.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml
 quant_export:null
 fpgm_export:null
 distill_export:null
@@ -37,11 +37,11 @@ export2:null
 infer_model:null
 infer_export:null
 infer_quant:null
-inference:../examples/machine_translation/transformer/deploy/python/inference.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --benchmark --profile
---device:gpu
+inference:../examples/machine_translation/transformer/deploy/python/inference.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --profile --test_file ../examples/machine_translation/transformer/test.en ../examples/machine_translation/transformer/test.de
+--device:gpu|cpu
 --use_mkl:True
---threads:6
---batch_size:4
+--threads:1|6
+--batch_size:32
 null:null
 null:null
 null:null
diff --git a/tests/transformer_base_static_params.txt b/tests/transformer_base_static_params.txt
@@ -4,7 +4,7 @@ python:python3.7
 gpu_list:0|0,1
 null:null
 null:null
---max_iter:501
+--max_iter:lite_train_infer=500
 null:null
 null:null
 null:null
@@ -13,15 +13,15 @@ null:null
 null:null
 ##
 trainer:norm_train
-norm_train:../examples/machine_translation/transformer/static/train.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --benchmark
+norm_train:../examples/machine_translation/transformer/static/train.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --distributed --train_file ../examples/machine_translation/transformer/train.en ../examples/machine_translation/transformer/train.de --dev_file ../examples/machine_translation/transformer/dev.en ../examples/machine_translation/transformer/dev.de
 pact_train:null
 fpgm_train:null
 distill_train:null
 null:null
 null:null
 ##
 ===========================eval_params=========================== 
-eval:../examples/machine_translation/transformer/static/predict.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --benchmark
+eval:../examples/machine_translation/transformer/static/predict.py --config ../examples/machine_translation/transformer/configs/transformer.base.yaml --test_file ../examples/machine_translation/transformer/test.en ../examples/machine_translation/transformer/test.de
 null:null
 ##
 ===========================infer_params===========================
diff --git a/tests/transformer_big_dygraph_params.txt b/tests/transformer_big_dygraph_params.txt
diff --git a/tests/transformer_big_static_params.txt b/tests/transformer_big_static_params.txt

Original file line number	Diff line number	Diff line change
`@@ -26,6 +26,7 @@ def parse_args():`
`26`	`26`	`)`
`27`	`27`	`parser.add_argument(`
`28`	`28`	`"--test_file",`
	`29`	`+ nargs='+',`
`29`	`30`	`default=None,`
`30`	`31`	`type=str,`
`31`	`32`	`help="The file for testing. Normally, it shouldn't be set and in this case, the default WMT14 dataset will be used to process testing."`
Original file line number	Diff line number	Diff line change
`@@ -46,6 +46,7 @@ def parse_args():`
`46`	`46`	`)`
`47`	`47`	`parser.add_argument(`
`48`	`48`	`"--test_file",`
	`49`	`+ nargs='+',`
`49`	`50`	`default=None,`
`50`	`51`	`type=str,`
`51`	`52`	`help="The file for testing. Normally, it shouldn't be set and in this case, the default WMT14 dataset will be used to process testing."`