[Pretrained weight] Change ernie-1.0 to ernie-1.0-base-zh (#2224)

ZHUI · web-flow · commit ec3c633c96a2 · 2022-05-18T17:40:48.000+08:00
* ernie-1.0 -&gt; ernie-1.0-base-zh

* change name of some readme.
diff --git a/applications/neural_search/recall/domain_adaptive_pretraining/README.md b/applications/neural_search/recall/domain_adaptive_pretraining/README.md
@@ -105,7 +105,7 @@ python -u  -m paddle.distributed.launch \
     --log_dir "output/$task_name/log" \
     run_pretrain_static.py \
     --model_type "ernie" \
-    --model_name_or_path "ernie-1.0" \
+    --model_name_or_path "ernie-1.0-base-zh" \
     --input_dir "./data" \
     --output_dir "output/$task_name" \
     --max_seq_len 512 \
diff --git a/applications/neural_search/recall/domain_adaptive_pretraining/scripts/run_pretrain_static.sh b/applications/neural_search/recall/domain_adaptive_pretraining/scripts/run_pretrain_static.sh
@@ -8,7 +8,7 @@ PYTHONPATH=../../../  python -u  -m paddle.distributed.launch \
     --log_dir "output/$task_name/log" \
     run_pretrain_static.py \
     --model_type "ernie" \
-    --model_name_or_path "ernie-1.0" \
+    --model_name_or_path "ernie-1.0-base-zh" \
     --input_dir "./data" \
     --output_dir "output/$task_name" \
     --max_seq_len 512 \
diff --git a/applications/neural_search/recall/simcse/scripts/train.sh b/applications/neural_search/recall/simcse/scripts/train.sh
@@ -14,7 +14,7 @@ python -u -m paddle.distributed.launch --gpus '0,1,2,3' \
     --output_emb_size 256 \
 	--train_set_file "./recall/train_unsupervised.csv" \
 	--test_set_file "./recall/dev.csv" 
-	--model_name_or_path "ernie-1.0"
+	--model_name_or_path "ernie-1.0-base-zh"
 
 # simcse cpu
 # python 	train.py \
@@ -31,7 +31,7 @@ python -u -m paddle.distributed.launch --gpus '0,1,2,3' \
 #     --output_emb_size 256 \
 # 	--train_set_file "./recall/train_unsupervised.csv" \
 # 	--test_set_file "./recall/dev.csv" 
-# 	--model_name_or_path "ernie-1.0"
+# 	--model_name_or_path "ernie-1.0-base-zh"
 
 # post training + simcse
 # python -u -m paddle.distributed.launch --gpus '0,1,2,3' \
diff --git a/docs/get_started/quick_start.rst b/docs/get_started/quick_start.rst
@@ -25,7 +25,7 @@
 
 .. code-block::
 
-    >>> MODEL_NAME = "ernie-1.0"
+    >>> MODEL_NAME = "ernie-1.0-base-zh"
     >>> ernie_model = paddlenlp.transformers.ErnieModel.from_pretrained(MODEL_NAME)
     
 加载预训练模型ERNIE用于文本分类任务的Fine-tune网络，只需指定想要使用的模型名称和文本分类的类别数即可完成网络定义。
diff --git a/docs/model_zoo/transformers/ERNIE/contents.rst b/docs/model_zoo/transformers/ERNIE/contents.rst
@@ -12,7 +12,7 @@ ERNIE模型汇总
 +----------------------------------------------------------------------------------+--------------+----------------------------------------------------------------------------------+
 | Pretrained Weight                                                                | Language     | Details of the model                                                             |
 +==================================================================================+==============+==================================================================================+
-|``ernie-1.0``                                                                     | Chinese      | 12-layer, 768-hidden,                                                            |
+|``ernie-1.0-base-zh``                                                             | Chinese      | 12-layer, 768-hidden,                                                            |
 |                                                                                  |              | 12-heads, 108M parameters.                                                       |
 |                                                                                  |              | Trained on Chinese text.                                                         |
 +----------------------------------------------------------------------------------+--------------+----------------------------------------------------------------------------------+
diff --git a/docs/model_zoo/transformers/all/transformers.rst b/docs/model_zoo/transformers/all/transformers.rst
@@ -289,7 +289,7 @@ Transformer预训练模型汇总
 |                    |                                                                                  |              | 1-heads, 3M parameters.                 |
 |                    |                                                                                  |              | Trained on Chinese legal corpus.        |
 +--------------------+----------------------------------------------------------------------------------+--------------+-----------------------------------------+
-|ERNIE_              |``ernie-1.0``                                                                     | Chinese      | 12-layer, 768-hidden,                   |
+|ERNIE_              |``ernie-1.0-base-zh``                                                             | Chinese      | 12-layer, 768-hidden,                   |
 |                    |                                                                                  |              | 12-heads, 108M parameters.              |
 |                    |                                                                                  |              | Trained on Chinese text.                |
 |                    +----------------------------------------------------------------------------------+--------------+-----------------------------------------+
diff --git a/docs/trainer.md b/docs/trainer.md
@@ -52,8 +52,8 @@ parser = PdArgumentParser(TrainingArguments, DataArguments)
     - 这里的，`labels`如果模型没有使用到，我们还需要额外定义`criterion`，计算最后的loss损失。
 ```python
 train_dataset = load_dataset("chnsenticorp", splits=["train"])
-model = AutoModelForSequenceClassification.from_pretrained("ernie-1.0", num_classes=len(train_dataset.label_list))
-tokenizer = AutoTokenizer.from_pretrained("ernie-1.0")
+model = AutoModelForSequenceClassification.from_pretrained("ernie-1.0-base-zh", num_classes=len(train_dataset.label_list))
+tokenizer = AutoTokenizer.from_pretrained("ernie-1.0-base-zh")
 
 def convert_example(example, tokenizer):
     encoded_inputs = tokenizer(text=example["text"], max_seq_len=128, pad_to_max_seq_len=True)
diff --git a/examples/few_shot/pet/README.md b/examples/few_shot/pet/README.md
@@ -38,7 +38,7 @@ python -u -m paddle.distributed.launch --gpus "0" \
 	--learning_rate 1E-4 \
 	--epochs 10 \
 	--max_seq_length 512 \
-	--language_model "ernie-1.0" \
+	--language_model "ernie-1.0-base-zh" \
     --rdrop_coef 0 \
 ```
 参数含义说明
diff --git a/examples/information_extraction/DuEE/README.md b/examples/information_extraction/DuEE/README.md
@@ -91,7 +91,7 @@ test_ds = DuEventExtraction(args.test_data, args.vocab_path, args.tag_path)
 ```python
 from paddlenlp.transformers import ErnieForTokenClassification
 
-model = ErnieForTokenClassification.from_pretrained("ernie-1.0", num_classes=len(label_map))
+model = ErnieForTokenClassification.from_pretrained("ernie-1.0-base-zh", num_classes=len(label_map))
 ```
 
 同时，对于枚举分类数据采用的是基于ERNIE的文本分类模型，枚举角色类型为环节。模型原理图如下：
@@ -106,7 +106,7 @@ model = ErnieForTokenClassification.from_pretrained("ernie-1.0", num_classes=len
 **同样地，PaddleNLP提供了ERNIE预训练模型常用文本分类模型，可以通过指定模型名字完成一键加载**：
 
 ```python
-model = ErnieForSequenceClassification.from_pretrained("ernie-1.0", num_classes=len(label_map))
+model = ErnieForSequenceClassification.from_pretrained("ernie-1.0-base-zh", num_classes=len(label_map))
 ```
 
 ### 快速复现基线Step3：数据处理
@@ -117,7 +117,7 @@ model = ErnieForSequenceClassification.from_pretrained("ernie-1.0", num_classes=
 ```python
 from paddlenlp.transformers import ErnieTokenizer
 
-tokenizer = ErnieTokenizer.from_pretrained("ernie-1.0")
+tokenizer = ErnieTokenizer.from_pretrained("ernie-1.0-base-zh")
 ```
 
 文本数据处理直接调用tokenizer即可输出模型所需输入数据。
diff --git a/examples/information_extraction/DuIE/README.md b/examples/information_extraction/DuIE/README.md
@@ -51,8 +51,8 @@ F1 = (2 * P * R) / (P + R)，其中
 ```python
 from paddlenlp.transformers import ErnieForTokenClassification, ErnieTokenizer
 
-model = ErnieForTokenClassification.from_pretrained("ernie-1.0", num_classes=(len(label_map) - 2) * 2 + 2)
-tokenizer = ErnieTokenizer.from_pretrained("ernie-1.0")
+model = ErnieForTokenClassification.from_pretrained("ernie-1.0-base-zh", num_classes=(len(label_map) - 2) * 2 + 2)
+tokenizer = ErnieTokenizer.from_pretrained("ernie-1.0-base-zh")
 ```
 
 文本数据处理直接调用tokenizer即可输出模型所需输入数据。
diff --git a/examples/text_classification/pretrained_models/README.md b/examples/text_classification/pretrained_models/README.md
@@ -28,7 +28,7 @@
 本项目针对中文文本分类问题，开源了一系列模型，供用户可配置地使用：
 
 + BERT([Bidirectional Encoder Representations from Transformers](https://arxiv.org/abs/1810.04805))中文模型，简写`bert-base-chinese`， 其由12层Transformer网络组成。
-+ ERNIE([Enhanced Representation through Knowledge Integration](https://arxiv.org/abs/1904.09223))，支持ERNIE 1.0中文模型（简写`ernie-1.0`）和ERNIE Tiny中文模型（简写`ernie-tiny`)。
++ ERNIE([Enhanced Representation through Knowledge Integration](https://arxiv.org/abs/1904.09223))，支持ERNIE 1.0中文模型（简写`ernie-1.0-base-zh`）和ERNIE Tiny中文模型（简写`ernie-tiny`)。
    其中`ernie`由12层Transformer网络组成，`ernie-tiny`由3层Transformer网络组成。
 + RoBERTa([A Robustly Optimized BERT Pretraining Approach](https://arxiv.org/abs/1907.11692))，支持24层Transformer网络的`roberta-wwm-ext-large`和12层Transformer网络的`roberta-wwm-ext`。
 
@@ -37,7 +37,7 @@
 | bert-base-chinese  | 0.93833 | 0.94750 |
 | bert-wwm-chinese | 0.94583 | 0.94917 |
 | bert-wwm-ext-chinese | 0.94667 | 0.95500 |
-| ernie-1.0  | 0.94667  | 0.95333  |
+| ernie-1.0-base-zh  | 0.94667  | 0.95333  |
 | ernie-tiny  | 0.93917  | 0.94833 |
 | roberta-wwm-ext  | 0.94750  | 0.95250 |
 | roberta-wwm-ext-large | 0.95250 | 0.95333 |
@@ -94,9 +94,9 @@ $ python -m paddle.distributed.launch --gpus "0" train.py --device gpu --save_di
 
 ```python
 # 使用ernie预训练模型
-# ernie-1.0
-model = AutoModelForSequenceClassification.from_pretrained('ernie-1.0',num_classes=2))
-tokenizer = AutoTokenizer.from_pretrained('ernie-1.0')
+# ernie-1.0-base-zh
+model = AutoModelForSequenceClassification.from_pretrained('ernie-1.0-base-zh',num_classes=2))
+tokenizer = AutoTokenizer.from_pretrained('ernie-1.0-base-zh')
 
 # 使用bert预训练模型
 # bert-base-chinese
diff --git a/examples/text_correction/ernie-csc/README.md b/examples/text_correction/ernie-csc/README.md
@@ -33,7 +33,7 @@ pip install -r requirements.txt
 ## 模型训练
 
 ### 参数
-- `model_name_or_path` 目前支持的预训练模型有："ernie-1.0"。
+- `model_name_or_path` 目前支持的预训练模型有："ernie-1.0-base-zh"。
 - `max_seq_length` 表示最大句子长度，超过该长度的部分将被切分成下一个样本。
 - `batch_size` 表示每次迭代**每张卡**上的样本数目。
 - `learning_rate` 表示基础学习率大小，将于learning rate scheduler产生的值相乘作为当前学习率。
@@ -71,13 +71,13 @@ python change_sgml_to_txt.py -i extra_train_ds/train.sgml -o extra_train_ds/trai
 ### 单卡训练
 
 ```python
-python train.py --batch_size 32 --logging_steps 100 --epochs 10 --learning_rate 5e-5 --model_name_or_path ernie-1.0 --output_dir ./checkpoints/ --extra_train_ds_dir ./extra_train_ds/ --max_seq_length 192
+python train.py --batch_size 32 --logging_steps 100 --epochs 10 --learning_rate 5e-5 --model_name_or_path ernie-1.0-base-zh --output_dir ./checkpoints/ --extra_train_ds_dir ./extra_train_ds/ --max_seq_length 192
 ```
 
 ### 多卡训练
 
 ```python
-python -m paddle.distributed.launch --gpus "0,1"  train.py --batch_size 32 --logging_steps 100 --epochs 10 --learning_rate 5e-5 --model_name_or_path ernie-1.0 --output_dir ./checkpoints/ --extra_train_ds_dir ./extra_train_ds/ --max_seq_length 192
+python -m paddle.distributed.launch --gpus "0,1"  train.py --batch_size 32 --logging_steps 100 --epochs 10 --learning_rate 5e-5 --model_name_or_path ernie-1.0-base-zh --output_dir ./checkpoints/ --extra_train_ds_dir ./extra_train_ds/ --max_seq_length 192
 ```
 
 ## 模型预测
@@ -109,7 +109,7 @@ sh run_sighan_predict.sh
 - `params_path` 是指动态图训练保存的参数路径。
 - `output_path` 是指静态图参数导出路径。
 - `pinyin_vocab_file_path` 指拼音表路径。
-- `model_name_or_path` 目前支持的预训练模型有："ernie-1.0"。
+- `model_name_or_path` 目前支持的预训练模型有："ernie-1.0-base-zh"。
 
 **运行方式**
 
diff --git a/examples/text_matching/ernie_matching/README.md b/examples/text_matching/ernie_matching/README.md
@@ -67,8 +67,8 @@ tokenizer = ppnlp.transformers.ErnieGramTokenizer.from_pretrained('ernie-gram-zh
 
 # 使用 ERNIE 预训练模型
 # ernie-1.0
-#model = ppnlp.transformers.ErnieModel.from_pretrained('ernie-1.0'))
-#tokenizer = ppnlp.transformers.ErnieTokenizer.from_pretrained('ernie-1.0')
+#model = ppnlp.transformers.ErnieModel.from_pretrained('ernie-1.0-base-zh'))
+#tokenizer = ppnlp.transformers.ErnieTokenizer.from_pretrained('ernie-1.0-base-zh')
 
 # ernie-tiny
 # model = ppnlp.transformers.ErnieModel.from_pretrained('ernie-tiny'))
diff --git a/examples/text_matching/sentence_transformers/README.md b/examples/text_matching/sentence_transformers/README.md
@@ -93,8 +93,8 @@ $ python -m paddle.distributed.launch --gpus "0" train.py --device gpu --save_di
 ```python
 # 使用 ERNIE 预训练模型
 # ernie-1.0
-model = ppnlp.transformers.ErnieModel.from_pretrained('ernie-1.0')
-tokenizer = ppnlp.transformers.ErnieTokenizer.from_pretrained('ernie-1.0')
+model = ppnlp.transformers.ErnieModel.from_pretrained('ernie-1.0-base-zh')
+tokenizer = ppnlp.transformers.ErnieTokenizer.from_pretrained('ernie-1.0-base-zh')
 
 # ernie-tiny
 # model = ppnlp.transformers.ErnieModel.from_pretrained('ernie-tiny')
diff --git a/model_zoo/ernie-1.0/README.md b/model_zoo/ernie-1.0/README.md
@@ -73,7 +73,7 @@ python data_tools/trans_to_json.py  --input_path ./clue_corpus_small_14g --outpu
 现在我们得到了jsonl格式的数据集，下面是针对训练任务的数据集应用，此处以ernie为例。
 ```
 python -u  data_tools/create_pretraining_data.py \
-    --model_name ernie-1.0 \
+    --model_name ernie-1.0-base-zh \
     --tokenizer_name ErnieTokenizer \
     --input_path clue_corpus_small_14g.jsonl \
     --split_sentences\
@@ -100,7 +100,7 @@ python -u  -m paddle.distributed.launch \
     --log_dir "output/ernie-1.0-dp8-gb512/log" \
     run_pretrain.py \
     --model_type "ernie" \
-    --model_name_or_path "ernie-1.0" \
+    --model_name_or_path "ernie-1.0-base-zh" \
     --input_dir "./data" \
     --output_dir "output/ernie-1.0-dp8-gb512" \
     --max_seq_len 512 \
@@ -201,7 +201,7 @@ python run_seq_cls.py \
     --do_train \
     --do_eval \
     --do_predict \
-    --model_name_or_path ernie-1.0 \
+    --model_name_or_path ernie-1.0-base-zh \
     --dataset $dataset \
     --output_dir ./tmp/$dataset
 ```
@@ -214,7 +214,7 @@ python run_ner.py \
     --do_train \
     --do_eval \
     --do_predict \
-    --model_name_or_path ernie-1.0 \
+    --model_name_or_path ernie-1.0-base-zh \
     --dataset $dataset \
     --output_dir ./tmp/$dataset
 ```
@@ -226,7 +226,7 @@ dataset="cmrc2018"
 python run_qa.py \
     --do_train \
     --do_eval \
-    --model_name_or_path ernie-1.0 \
+    --model_name_or_path ernie-1.0-base-zh \
     --dataset $dataset \
     --output_dir ./tmp/$dataset
 ```
@@ -251,7 +251,7 @@ python run_seq_cls.py \
     --do_eval \
     --do_predict \
     --do_export \
-    --model_name_or_path ernie-1.0 \
+    --model_name_or_path ernie-1.0-base-zh \
     --dataset $dataset \
     --output_dir ./tmp/$dataset \
     --eval_steps 200 \
diff --git a/model_zoo/ernie-1.0/data_tools/README.md b/model_zoo/ernie-1.0/data_tools/README.md
@@ -102,7 +102,7 @@ optional arguments:
   -h, --help            show this help message and exit
   --model_name MODEL_NAME
                         What model to use.
-                        必须设置，如：ernie-1.0, 可以参考已有的模型名称 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/model_zoo/transformers.rst
+                        必须设置，如：ernie-1.0-base-zh, 可以参考已有的模型名称 https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/model_zoo/transformers.rst
   --tokenizer_name {ErnieTokenizer,BertTokenizer,GPTTokenizer,GPTChineseTokenizer}
                         What type of tokenizer to use.
                         模型对应的tokenizer, 目前暂时只支持 Ernie，Bert，GPT
@@ -150,7 +150,7 @@ common config:
 通过下面脚本转化，我们可以得到处理好的预训练数据，token ids:`baike_sample_ids.npy`, 文章索引信息`baike_sample_idx.npz`.
 ```
 python -u  create_pretraining_data.py \
-    --model_name ernie-1.0 \
+    --model_name ernie-1.0-base-zh \
     --tokenizer_name ErnieTokenizer \
     --input_path baike_sample.jsonl \
     --split_sentences\
@@ -219,7 +219,7 @@ python trans_to_json.py  --input_path ./clue_corpus_small_14g --output_path clue
 现在我们得到了jsonl格式的数据集，下面是针对训练任务的数据集应用，此处以ernie为例。
 ```
 python -u  create_pretraining_data.py \
-    --model_name ernie-1.0 \
+    --model_name ernie-1.0-base-zh \
     --tokenizer_name ErnieTokenizer \
     --input_path clue_corpus_small_14g.jsonl \
     --split_sentences\
diff --git a/model_zoo/ernie-1.0/data_tools/dataset_utils.py b/model_zoo/ernie-1.0/data_tools/dataset_utils.py
@@ -752,7 +752,7 @@ def build_dataset(index, name):
             elif dataset_type == DSET_TYPE_ERNIE:
                 dataset = ErnieDataset(
                     indexed_dataset=indexed_dataset,
-                    tokenizer=tokenizer,  #ErnieTokenizer.from_pretrained("ernie-1.0"),
+                    tokenizer=tokenizer,
                     masked_lm_prob=masked_lm_prob,
                     short_seq_prob=short_seq_prob,
                     binary_head=binary_head,
diff --git a/model_zoo/ernie-1.0/run_gb512_s1m.sh b/model_zoo/ernie-1.0/run_gb512_s1m.sh
@@ -14,7 +14,7 @@ python -u  -m paddle.distributed.launch \
     --log_dir "output/$task_name/log" \
     run_pretrain.py \
     --model_type "ernie" \
-    --model_name_or_path "ernie-1.0" \
+    --model_name_or_path "ernie-1.0-base-zh" \
     --input_dir "./data" \
     --output_dir "output/$task_name" \
     --max_seq_len 512 \
diff --git a/model_zoo/ernie-1.0/run_gb512_s1m_static.sh b/model_zoo/ernie-1.0/run_gb512_s1m_static.sh
@@ -16,7 +16,7 @@ python -u  -m paddle.distributed.launch \
     --log_dir "output/$task_name/log" \
     run_pretrain_static.py \
     --model_type "ernie" \
-    --model_name_or_path "ernie-1.0" \
+    --model_name_or_path "ernie-1.0-base-zh" \
     --input_dir "./data" \
     --output_dir "output/$task_name" \
     --max_seq_len 512 \
diff --git a/model_zoo/ernie-1.0/run_gb512_s1m_trainer.sh b/model_zoo/ernie-1.0/run_gb512_s1m_trainer.sh
@@ -12,7 +12,7 @@ python -u  -m paddle.distributed.launch \
     --log_dir "output/$task_name""_log" \
     run_pretrain_trainer.py \
     --model_type "ernie" \
-    --model_name_or_path "ernie-1.0" \
+    --model_name_or_path "ernie-1.0-base-zh" \
     --input_dir "./data" \
     --output_dir "output/$task_name" \
     --max_seq_length 512 \
diff --git a/paddlenlp/transformers/ernie/modeling.py b/paddlenlp/transformers/ernie/modeling.py
@@ -119,6 +119,7 @@ class ErniePretrainedModel(PretrainedModel):
 
     model_config_file = "model_config.json"
     pretrained_init_configuration = {
+        # Deprecated, alias for ernie-1.0-base-zh
         "ernie-1.0": {
             "attention_probs_dropout_prob": 0.1,
             "hidden_act": "relu",
@@ -132,6 +133,19 @@ class ErniePretrainedModel(PretrainedModel):
             "vocab_size": 18000,
             "pad_token_id": 0,
         },
+        "ernie-1.0-base-zh": {
+            "attention_probs_dropout_prob": 0.1,
+            "hidden_act": "relu",
+            "hidden_dropout_prob": 0.1,
+            "hidden_size": 768,
+            "initializer_range": 0.02,
+            "max_position_embeddings": 513,
+            "num_attention_heads": 12,
+            "num_hidden_layers": 12,
+            "type_vocab_size": 2,
+            "vocab_size": 18000,
+            "pad_token_id": 0,
+        },
         "ernie-tiny": {
             "attention_probs_dropout_prob": 0.1,
             "hidden_act": "relu",
@@ -297,8 +311,11 @@ class ErniePretrainedModel(PretrainedModel):
     resource_files_names = {"model_state": "model_state.pdparams"}
     pretrained_resource_files_map = {
         "model_state": {
+            # Deprecated, alias for ernie-1.0-base-zh
             "ernie-1.0":
             "https://bj.bcebos.com/paddlenlp/models/transformers/ernie/ernie_v1_chn_base.pdparams",
+            "ernie-1.0-base-zh":
+            "https://bj.bcebos.com/paddlenlp/models/transformers/ernie/ernie_v1_chn_base.pdparams",
             "ernie-tiny":
             "https://bj.bcebos.com/paddlenlp/models/transformers/ernie_tiny/ernie_tiny.pdparams",
             "ernie-2.0-en":
diff --git a/paddlenlp/transformers/ernie/tokenizer.py b/paddlenlp/transformers/ernie/tokenizer.py
@@ -78,8 +78,11 @@ class ErnieTokenizer(PretrainedTokenizer):
     resource_files_names = {"vocab_file": "vocab.txt"}  # for save_pretrained
     pretrained_resource_files_map = {
         "vocab_file": {
+            # Deprecated, alias for ernie-1.0-base-zh
             "ernie-1.0":
             "https://bj.bcebos.com/paddlenlp/models/transformers/ernie/vocab.txt",
+            "ernie-1.0-base-zh":
+            "https://bj.bcebos.com/paddlenlp/models/transformers/ernie/vocab.txt",
             "ernie-tiny":
             "https://bj.bcebos.com/paddlenlp/models/transformers/ernie_tiny/vocab.txt",
             "ernie-2.0-en":
@@ -116,6 +119,9 @@ class ErnieTokenizer(PretrainedTokenizer):
         "ernie-1.0": {
             "do_lower_case": True
         },
+        "ernie-1.0-base-zh": {
+            "do_lower_case": True
+        },
         "ernie-tiny": {
             "do_lower_case": True
         },