Add SimBERT for text matching (#706)

leeyy2020 · web-flow · commit a96c61f77d00 · 2021-07-13T19:38:57.000+08:00
* add SimBERT

* add with_pool for BertModel

* add SimBERT

* add SimBERT

* add SimBERT

* add SimBERT

* add SimBERT

* add SimBERT

* fix some problem in README.md

* fix the description of simbert

* fix the description of simbert

* fix the description of simbert

* fix the description of simbert

* fix the description of simbert
diff --git a/docs/model_zoo/transformers.rst b/docs/model_zoo/transformers.rst
@@ -9,8 +9,8 @@ PaddleNLP为用户提供了常用的 ``BERT``、``ERNIE``、``ALBERT``、``RoBER
 Transformer预训练模型汇总
 ------------------------------------
 
-下表汇总了介绍了目前PaddleNLP支持的各类预训练模型以及对应预训练权重。我们目前提供了 **67** 种预训练的参数权重供用户使用，
-其中包含了 **32** 种中文语言模型的预训练权重。
+下表汇总了介绍了目前PaddleNLP支持的各类预训练模型以及对应预训练权重。我们目前提供了 **68** 种预训练的参数权重供用户使用，
+其中包含了 **33** 种中文语言模型的预训练权重。
 
 +--------------------+-------------------------------------+--------------+-----------------------------------------+
 | Model              | Pretrained Weight                   | Language     | Details of the model                    |
@@ -115,6 +115,11 @@ Transformer预训练模型汇总
 |                    |                                     |              | Trained on cased Chinese Simplified     |
 |                    |                                     |              | and Traditional text using              |
 |                    |                                     |              | Whole-Word-Masking with extented data.  |
+|                    +-------------------------------------+--------------+-----------------------------------------+
+|                    |``simbert-base-chinese``             | Chinese      | 12-layer, 768-hidden,                   |
+|                    |                                     |              | 12-heads, 108M parameters.              |
+|                    |                                     |              | Trained on 22 million pairs of similar  |
+|                    |                                     |              | sentences crawed from Baidu Know.       |
 +--------------------+-------------------------------------+--------------+-----------------------------------------+
 |BigBird_            |``bigbird-base-uncased``             | English      | 12-layer, 768-hidden,                   |
 |                    |                                     |              | 12-heads, _M parameters.                |
@@ -427,6 +432,7 @@ Reference
   `huggingface/xlnet_chinese_large <https://huggingface.co/clue/xlnet_chinese_large>`_,
   `Knover/luge-dialogue <https://github.com/PaddlePaddle/Knover/tree/luge-dialogue/luge-dialogue>`_,
   `huawei-noah/Pretrained-Language-Model/NEZHA-PyTorch/ <https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA-PyTorch>`_
+  `ZhuiyiTechnology/simbert <https://github.com/ZhuiyiTechnology/simbert>`_
 - Lan, Zhenzhong, et al. "Albert: A lite bert for self-supervised learning of language representations." arXiv preprint arXiv:1909.11942 (2019).
 - Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
 - Zaheer, Manzil, et al. "Big bird: Transformers for longer sequences." arXiv preprint arXiv:2007.14062 (2020).
diff --git a/examples/text_matching/simbert/README.md b/examples/text_matching/simbert/README.md
@@ -0,0 +1,50 @@
+# SimBERT模型
+
+## 模型简介
+[SimBERT](https://github.com/ZhuiyiTechnology/simbert)的模型权重是以Google开源的BERT模型为基础，基于微软的UniLM思想设计了融检索与生成于一体的任务，来进一步微调后得到的模型，所以它同时具备相似问生成和相似句检索能力。
+
+## 快速开始
+
+### 代码结构说明
+
+以下是本项目主要代码结构及说明：
+
+```text
+simbert/
+├── data.py #训练样本的数据加载以及转换
+├── predict.py # 模型预测
+└── README.md # 文档说明
+```
+
+### 模型预测
+
+启动预测：
+```shell
+export CUDA_VISIBLE_DEVICES=0
+python predict.py --input_file ./datasets/lcqmc/dev.tsv
+```
+
+待预测数据如以下示例：
+
+
+```text
+世界上什么东西最小   世界上什么东西最小？
+光眼睛大就好看吗  眼睛好看吗？
+小蝌蚪找妈妈怎么样   小蝌蚪找妈妈是谁画的
+```
+
+按照predict.py.py进行预测得到相似度
+
+如
+
+```text
+{'query': '世界上什么东西最小', 'title': '世界上什么东西最小？', 'similarity': 0.992725}
+{'query': '光眼睛大就好看吗', 'title': '眼睛好看吗？', 'similarity': 0.74502724}
+{'query': '小蝌蚪找妈妈怎么样', 'title': '小蝌蚪找妈妈是谁画的', 'similarity': 0.8192148}
+```
+
+## Reference
+
+关于SimBERT更多信息参考[科学空间](https://spaces.ac.cn/archives/7427)
+
+SimBERT项目地址 https://github.com/ZhuiyiTechnology/simbert
diff --git a/examples/text_matching/simbert/data.py b/examples/text_matching/simbert/data.py
@@ -0,0 +1,52 @@
+import paddle
+import numpy as np
+
+from paddlenlp.datasets import MapDataset
+
+
+def create_dataloader(dataset,
+                      mode='train',
+                      batch_size=1,
+                      batchify_fn=None,
+                      trans_fn=None):
+    if trans_fn:
+        dataset = dataset.map(trans_fn)
+
+    shuffle = True if mode == 'train' else False
+    if mode == 'train':
+        batch_sampler = paddle.io.DistributedBatchSampler(
+            dataset, batch_size=batch_size, shuffle=shuffle)
+    else:
+        batch_sampler = paddle.io.BatchSampler(
+            dataset, batch_size=batch_size, shuffle=shuffle)
+
+    return paddle.io.DataLoader(
+        dataset=dataset,
+        batch_sampler=batch_sampler,
+        collate_fn=batchify_fn,
+        return_list=True)
+
+
+def read_text_pair(data_path):
+    """Reads data."""
+    with open(data_path, 'r', encoding='utf-8') as f:
+        for line in f:
+            data = line.rstrip().split("\t")
+            if len(data) != 2:
+                continue
+            yield {'query': data[0], 'title': data[1]}
+
+
+def convert_example(example, tokenizer, max_seq_length=512, phase="train"):
+
+    query, title = example['query'], example['title']
+
+    query_encoded_inputs = tokenizer(text=query, max_seq_len=max_seq_length)
+    query_input_ids = query_encoded_inputs["input_ids"]
+    query_token_type_ids = query_encoded_inputs["token_type_ids"]
+    title_encoded_inputs = tokenizer(text=title, max_seq_len=max_seq_length)
+
+    title_input_ids = title_encoded_inputs["input_ids"]
+    title_token_type_ids = title_encoded_inputs["token_type_ids"]
+
+    return query_input_ids, query_token_type_ids, title_input_ids, title_token_type_ids
diff --git a/examples/text_matching/simbert/predict.py b/examples/text_matching/simbert/predict.py
@@ -0,0 +1,123 @@
+# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from functools import partial
+import argparse
+import sys
+import os
+import random
+import time
+
+import numpy as np
+import paddle
+import paddle.nn.functional as F
+import paddlenlp as ppnlp
+from paddlenlp.datasets import load_dataset
+from paddlenlp.data import Stack, Tuple, Pad
+
+from data import create_dataloader, read_text_pair
+from data import convert_example
+
+# yapf: disable
+parser = argparse.ArgumentParser()
+parser.add_argument("--input_file", type=str, required=True, help="The full path of input file")
+# parser.add_argument("--params_path", type=str, required=True, help="The path to model parameters to be loaded.")
+parser.add_argument("--max_seq_length", default=64, type=int, help="The maximum total input sequence length after tokenization. "
+    "Sequences longer than this will be truncated, sequences shorter will be padded.")
+parser.add_argument("--batch_size", default=32, type=int, help="Batch size per GPU/CPU for training.")
+parser.add_argument('--device', choices=['cpu', 'gpu'], default="gpu", help="Select which device to train model, defaults to gpu.")
+args = parser.parse_args()
+# yapf: enable
+
+
+def predict(model, data_loader):
+    """
+    Predicts the similarity.
+
+    Args:
+        model (obj:`SemanticIndexBase`): A model to extract text embedding or calculate similarity of text pair.
+        data_loaer (obj:`List(Example)`): The processed data ids of text pair: [query_input_ids, query_token_type_ids, title_input_ids, title_token_type_ids]
+    Returns:
+        results(obj:`List`): cosine similarity of text pairs.
+    """
+    results = []
+
+    model.eval()
+
+    with paddle.no_grad():
+        for batch_data in data_loader:
+            query_input_ids, query_token_type_ids, title_input_ids, title_token_type_ids = batch_data
+            query_input_ids = paddle.to_tensor(query_input_ids)
+            query_token_type_ids = paddle.to_tensor(query_token_type_ids)
+            title_input_ids = paddle.to_tensor(title_input_ids)
+            title_token_type_ids = paddle.to_tensor(title_token_type_ids)
+
+            vecs_query = model(
+                input_ids=query_input_ids, token_type_ids=query_token_type_ids)
+            vecs_title = model(
+                input_ids=title_input_ids, token_type_ids=title_token_type_ids)
+            vecs_query = vecs_query[1].numpy()
+            vecs_title = vecs_title[1].numpy()
+
+            vecs_query = vecs_query / (vecs_query**2).sum(axis=1,
+                                                          keepdims=True)**0.5
+            vecs_title = vecs_title / (vecs_title**2).sum(axis=1,
+                                                          keepdims=True)**0.5
+            sims = (vecs_query * vecs_title).sum(axis=1)
+
+            results.extend(sims)
+
+    return results
+
+
+if __name__ == "__main__":
+    paddle.set_device(args.device)
+
+    model = ppnlp.transformers.BertModel.from_pretrained(
+        'simbert-base-chinese', with_pool='linear')
+    tokenizer = ppnlp.transformers.BertTokenizer.from_pretrained(
+        'simbert-base-chinese')
+
+    trans_func = partial(
+        convert_example,
+        tokenizer=tokenizer,
+        max_seq_length=args.max_seq_length,
+        phase="predict")
+
+    batchify_fn = lambda samples, fn=Tuple(
+        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # query_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # query_segment
+        Pad(axis=0, pad_val=tokenizer.pad_token_id),  # title_input
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # tilte_segment
+    ): [data for data in fn(samples)]
+
+    valid_ds = load_dataset(
+        read_text_pair, data_path=args.input_file, lazy=False)
+
+    valid_data_loader = create_dataloader(
+        valid_ds,
+        mode='predict',
+        batch_size=args.batch_size,
+        batchify_fn=batchify_fn,
+        trans_fn=trans_func)
+
+    y_sims = predict(model, valid_data_loader)
+
+    valid_ds = load_dataset(
+        read_text_pair, data_path=args.input_file, lazy=False)
+
+    for idx, prob in enumerate(y_sims):
+        text_pair = valid_ds[idx]
+        text_pair["similarity"] = y_sims[idx]
+        print(text_pair)
diff --git a/paddlenlp/transformers/bert/modeling.py b/paddlenlp/transformers/bert/modeling.py
@@ -75,17 +75,19 @@ class BertPooler(Layer):
     """
     """
 
-    def __init__(self, hidden_size):
+    def __init__(self, hidden_size, with_pool):
         super(BertPooler, self).__init__()
         self.dense = nn.Linear(hidden_size, hidden_size)
         self.activation = nn.Tanh()
+        self.with_pool = with_pool
 
     def forward(self, hidden_states):
         # We "pool" the model by simply taking the hidden state corresponding
         # to the first token.
         first_token_tensor = hidden_states[:, 0]
         pooled_output = self.dense(first_token_tensor)
-        pooled_output = self.activation(pooled_output)
+        if self.with_pool == 'tanh':
+            pooled_output = self.activation(pooled_output)
         return pooled_output
 
 
@@ -253,6 +255,20 @@ class BertPretrainedModel(PretrainedModel):
             "initializer_range": 0.02,
             "pad_token_id": 0,
         },
+        "simbert-base-chinese": {
+            "vocab_size": 13685,
+            "hidden_size": 768,
+            "num_hidden_layers": 12,
+            "num_attention_heads": 12,
+            "intermediate_size": 3072,
+            "hidden_act": "gelu",
+            "hidden_dropout_prob": 0.1,
+            "attention_probs_dropout_prob": 0.1,
+            "max_position_embeddings": 512,
+            "type_vocab_size": 2,
+            "initializer_range": 0.02,
+            "pad_token_id": 0,
+        },
     }
     resource_files_names = {"model_state": "model_state.pdparams"}
     pretrained_resource_files_map = {
@@ -279,6 +295,8 @@ class BertPretrainedModel(PretrainedModel):
             "https://paddlenlp.bj.bcebos.com/models/transformers/macbert/macbert-base-chinese.pdparams",
             "macbert-large-chinese":
             "https://paddlenlp.bj.bcebos.com/models/transformers/macbert/macbert-large-chinese.pdparams",
+            "simbert-base-chinese":
+            "https://paddlenlp.bj.bcebos.com/models/transformers/simbert/simbert-base-chinese-v1.pdparams",
         }
     }
     base_model_prefix = "bert"
@@ -353,7 +371,8 @@ def __init__(self,
                  max_position_embeddings=512,
                  type_vocab_size=16,
                  initializer_range=0.02,
-                 pad_token_id=0):
+                 pad_token_id=0,
+                 with_pool='tanh'):
         super(BertModel, self).__init__()
         self.pad_token_id = pad_token_id
         self.initializer_range = initializer_range
@@ -369,7 +388,7 @@ def __init__(self,
             attn_dropout=attention_probs_dropout_prob,
             act_dropout=0)
         self.encoder = nn.TransformerEncoder(encoder_layer, num_hidden_layers)
-        self.pooler = BertPooler(hidden_size)
+        self.pooler = BertPooler(hidden_size, with_pool)
         self.apply(self.init_weights)
 
     def forward(self,
diff --git a/paddlenlp/transformers/bert/tokenizer.py b/paddlenlp/transformers/bert/tokenizer.py
@@ -271,6 +271,8 @@ class BertTokenizer(PretrainedTokenizer):
             "https://paddle-hapi.bj.bcebos.com/models/bert/bert-base-chinese-vocab.txt",
             "macbert-base-chinese":
             "https://paddle-hapi.bj.bcebos.com/models/bert/bert-base-chinese-vocab.txt",
+            "simbert-base-chinese":
+            "https://paddlenlp.bj.bcebos.com/models/transformers/simbert/vocab.txt",
         }
     }
     pretrained_init_configuration = {
@@ -307,6 +309,9 @@ class BertTokenizer(PretrainedTokenizer):
         "macbert-base-chinese": {
             "do_lower_case": False
         },
+        "simbert-base-chinese":{
+            "do_lower_case": True
+        },
     }
     padding_side = 'right'
 

Original file line number	Diff line number	Diff line change
`@@ -271,6 +271,8 @@ class BertTokenizer(PretrainedTokenizer):`
`271`	`271`	`"https://paddle-hapi.bj.bcebos.com/models/bert/bert-base-chinese-vocab.txt",`
`272`	`272`	`"macbert-base-chinese":`
`273`	`273`	`"https://paddle-hapi.bj.bcebos.com/models/bert/bert-base-chinese-vocab.txt",`
	`274`	`+ "simbert-base-chinese":`
	`275`	`+ "https://paddlenlp.bj.bcebos.com/models/transformers/simbert/vocab.txt",`
`274`	`276`	`}`
`275`	`277`	`}`
`276`	`278`	`pretrained_init_configuration = {`
`@@ -307,6 +309,9 @@ class BertTokenizer(PretrainedTokenizer):`
`307`	`309`	`"macbert-base-chinese": {`
`308`	`310`	`"do_lower_case": False`
`309`	`311`	`},`
	`312`	`+ "simbert-base-chinese":{`
	`313`	`+ "do_lower_case": True`
	`314`	`+ },`
`310`	`315`	`}`
`311`	`316`	`padding_side = 'right'`
`312`	`317`