Upload dualencoder params to bos (#1795)

LiuChiachi · web-flow · commit d6d77ecf035e · 2022-03-18T23:02:40.000+08:00
* upload dual encoder params to bos

* update example code

* fix model name

* update rocketqa model name

* remove useless blank line
diff --git a/paddlenlp/transformers/ernie/modeling.py b/paddlenlp/transformers/ernie/modeling.py
@@ -186,7 +186,7 @@ class ErniePretrainedModel(PretrainedModel):
             "vocab_size": 30522,
             "pad_token_id": 0,
         },
-        "ernie-base-cn-query-encoder": {
+        "rocketqa-zh-dureader-query-encoder": {
             "attention_probs_dropout_prob": 0.1,
             "hidden_act": "relu",
             "hidden_dropout_prob": 0.1,
@@ -199,7 +199,7 @@ class ErniePretrainedModel(PretrainedModel):
             "vocab_size": 18000,
             "pad_token_id": 0,
         },
-        "ernie-base-cn-title-encoder": {
+        "rocketqa-zh-dureader-para-encoder": {
             "attention_probs_dropout_prob": 0.1,
             "hidden_act": "relu",
             "hidden_dropout_prob": 0.1,
@@ -212,7 +212,7 @@ class ErniePretrainedModel(PretrainedModel):
             "vocab_size": 18000,
             "pad_token_id": 0,
         },
-        "ernie-base-en-query-encoder": {
+        "rocketqa-v1-marco-query-encoder": {
             "attention_probs_dropout_prob": 0.1,
             "hidden_act": "gelu",
             "hidden_dropout_prob": 0.1,
@@ -225,7 +225,7 @@ class ErniePretrainedModel(PretrainedModel):
             "vocab_size": 30522,
             "pad_token_id": 0,
         },
-        "ernie-base-en-title-encoder": {
+        "rocketqa-v1-marco-para-encoder": {
             "attention_probs_dropout_prob": 0.1,
             "hidden_act": "gelu",
             "hidden_dropout_prob": 0.1,
@@ -252,14 +252,14 @@ class ErniePretrainedModel(PretrainedModel):
             "https://bj.bcebos.com/paddlenlp/models/transformers/ernie_v2_base/ernie_v2_eng_base_finetuned_squad.pdparams",
             "ernie-2.0-large-en":
             "https://bj.bcebos.com/paddlenlp/models/transformers/ernie_v2_large/ernie_v2_eng_large.pdparams",
-            "ernie-base-cn-query-encoder":
-            "https://bj.bcebos.com/paddlenlp/models/transformers/semantic_indexing/ernie_base_cn_query_encoder.pdparams",
-            "ernie-base-cn-title-encoder":
-            "https://bj.bcebos.com/paddlenlp/models/transformers/semantic_indexing/ernie_base_cn_title_encoder.pdparams",
-            "ernie-base-en-query-encoder":
-            "https://bj.bcebos.com/paddlenlp/models/transformers/semantic_indexing/ernie_base_en_query_encoder.pdparams",
-            "ernie-base-en-title-encoder":
-            "https://bj.bcebos.com/paddlenlp/models/transformers/semantic_indexing/ernie_base_en_title_encoder.pdparams",
+            "rocketqa-zh-dureader-query-encoder":
+            "https://bj.bcebos.com/paddlenlp/models/transformers/rocketqa/rocketqa_zh_dureader_query_encoder.pdparams",
+            "rocketqa-zh-dureader-para-encoder":
+            "https://bj.bcebos.com/paddlenlp/models/transformers/rocketqa/rocketqa_zh_dureader_para_encoder.pdparams",
+            "rocketqa-v1-marco-query-encoder":
+            "https://bj.bcebos.com/paddlenlp/models/transformers/rocketqa/rocketqa_v1_marco_query_encoder.pdparams",
+            "rocketqa-v1-marco-para-encoder":
+            "https://bj.bcebos.com/paddlenlp/models/transformers/rocketqa/rocketqa_v1_marco_para_encoder.pdparams",
         }
     }
     base_model_prefix = "ernie"
diff --git a/paddlenlp/transformers/ernie/tokenizer.py b/paddlenlp/transformers/ernie/tokenizer.py
@@ -93,14 +93,14 @@ class ErnieTokenizer(PretrainedTokenizer):
             "https://bj.bcebos.com/paddlenlp/models/transformers/ernie-gen-large/vocab.txt",
             "ernie-gen-large-430g-en":
             "https://bj.bcebos.com/paddlenlp/models/transformers/ernie-gen-large-430g/vocab.txt",
-            "ernie-base-cn-query-encoder":
-            "https://bj.bcebos.com/paddlenlp/models/transformers/ernie/vocab.txt",
-            "ernie-base-cn-title-encoder":
-            "https://bj.bcebos.com/paddlenlp/models/transformers/ernie/vocab.txt",
-            "ernie-base-en-query-encoder":
-            "https://bj.bcebos.com/paddlenlp/models/transformers/ernie_v2_base/vocab.txt",
-            "ernie-base-en-title-encoder":
-            "https://bj.bcebos.com/paddlenlp/models/transformers/ernie_v2_base/vocab.txt",
+            "rocketqa-zh-dureader-query-encoder":
+            "https://bj.bcebos.com/paddlenlp/models/transformers/rocketqa/rocketqa-zh-dureader-vocab.txt",
+            "rocketqa-zh-dureader-para-encoder":
+            "https://bj.bcebos.com/paddlenlp/models/transformers/rocketqa/rocketqa-zh-dureader-vocab.txt",
+            "rocketqa-v1-marco-query-encoder":
+            "https://bj.bcebos.com/paddlenlp/models/transformers/rocketqa/rocketqa-v1-marco-vocab.txt",
+            "rocketqa-v1-marco-para-encoder":
+            "https://bj.bcebos.com/paddlenlp/models/transformers/rocketqa/rocketqa-v1-marco-vocab.txt",
         }
     }
     pretrained_init_configuration = {
@@ -131,16 +131,16 @@ class ErnieTokenizer(PretrainedTokenizer):
         "ppminilm-6l-768h": {
             "do_lower_case": True
         },
-        "ernie-base-cn-query-encoder": {
+        "rocketqa-zh-dureader-query-encoder": {
             "do_lower_case": True
         },
-        "ernie-base-cn-title-encoder": {
+        "rocketqa-zh-dureader-para-encoder": {
             "do_lower_case": True
         },
-        "ernie-base-en-query-encoder": {
+        "rocketqa-v1-marco-query-encoder": {
             "do_lower_case": True
         },
-        "ernie-base-en-title-encoder": {
+        "rocketqa-v1-marco-para-encoder": {
             "do_lower_case": True
         },
     }
diff --git a/paddlenlp/transformers/semantic_indexing/modeling.py b/paddlenlp/transformers/semantic_indexing/modeling.py
@@ -58,9 +58,11 @@ class allows two ErnieEncoder models to be trained at the same time.
 
         .. code-block::
 
-            from paddlenlp.transformers import ErnieDualEncoder
+            import paddle
+            from paddlenlp.transformers import ErnieDualEncoder, ErnieTokenizer
         
-            model = ErnieDualEncoder("ernie-base-cn-query-encoder", "ernie-base-cn-title-encoder")
+            model = ErnieDualEncoder("rocketqa-zh-dureader-query-encoder", "rocketqa-zh-dureader-para-encoder")
+            tokenizer = ErnieTokenizer.from_pretrained("rocketqa-zh-dureader-query-encoder")
 
             inputs = tokenizer("Welcome to use PaddlePaddle and PaddleNLP!")
             inputs = {k:paddle.to_tensor([v]) for (k, v) in inputs.items()}
@@ -130,7 +132,6 @@ def cosine_sim(self,
                    title_token_type_ids=None,
                    title_position_ids=None,
                    title_attention_mask=None):
-
         query_cls_embedding = self.get_pooled_embedding(
             query_input_ids, query_token_type_ids, query_position_ids,
             query_attention_mask)