Merge pull request #1420 from linjieccc/up_wordtag

wawltor · web-flow · commit 10ac335ccdca · 2021-12-10T16:14:50.000+08:00
Update usage of wordtag
diff --git a/docs/model_zoo/taskflow.md b/docs/model_zoo/taskflow.md
@@ -83,9 +83,9 @@ seg(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
 
 #### 自定义词典
 
-用户可以通过装载自定义词典来定制化分词结果。
+用户可以通过装载自定义词典来定制化分词结果。词典文件每一行表示一个自定义item，可以由一个单词或者多个单词组成。
 
-词典文件`custom_seg.txt`示例：
+词典文件`user_dict.txt`示例：
 
 ```text
 平原上的火焰
@@ -103,14 +103,15 @@ seg(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
 ```python
 from paddlenlp import Taskflow
 
-my_seg = Taskflow("word_segmentation", custom_vocab="custom_seg.txt")
+my_seg = Taskflow("word_segmentation", user_dict="user_dict.txt")
 my_seg("平原上的火焰计划于年末上映")
 >>> ['平原上的火焰', '计划', '于', '年', '末', '上映']
 ```
 
 #### 可配置参数说明
 
 * `batch_size`：批处理大小，请结合机器情况进行调整，默认为1。
+* `user_dict`：用户自定义词典文件，默认为None。
 
 ### 词性标注
 
@@ -139,9 +140,9 @@ tag(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
 
 #### 自定义词典
 
-用户可以通过装载自定义词典来定制化分词和词性标注结果。
+用户可以通过装载自定义词典来定制化分词和词性标注结果。词典文件每一行表示一个自定义item，可以由一个单词或者多个单词组成，单词后面可以添加自定义标签，格式为`item/tag`，如果不添加自定义标签，则使用模型默认标签。
 
-词典文件`custom_pos.txt`示例：
+词典文件`user_dict.txt`示例：
 
 ```text
 赛里木湖/LAKE
@@ -161,14 +162,15 @@ tag(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
 ```python
 from paddlenlp import Taskflow
 
-my_pos = Taskflow("pos_tagging", custom_vocab="custom_pos.txt")
+my_pos = Taskflow("pos_tagging", user_dict="user_dict.txt")
 my_pos("赛里木湖是新疆海拔最高的高山湖泊")
 >>> [('赛里木湖', 'LAKE'), ('是', 'v'), ('新疆', 'LOC'), ('海拔最高', 'n'), ('的', 'u'), ('高', 'a'), ('山', 'n'), ('湖', 'n'), ('泊', 'n')]
 ```
 
 #### 可配置参数说明
 
 * `batch_size`：批处理大小，请结合机器情况进行调整，默认值为1。
+* `user_dict`：用户自定义词典文件，默认为None。
 
 ### 命名实体识别
 
@@ -183,9 +185,53 @@ ner(["热梅茶是一道以梅子为主要原料制作的茶饮", "《孤女》
 >>> [[('热梅茶', '饮食类_饮品'), ('是', '肯定词'), ('一道', '数量词'), ('以', '介词'), ('梅子', '饮食类'), ('为', '肯定词'), ('主要原料', '物体类'), ('制作', '场景事件'), ('的', '助词'), ('茶饮', '饮食类_饮品')], [('《', 'w'), ('孤女', '作品类_实体'), ('》', 'w'), ('是', '肯定词'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('的', '助词'), ('小说', '作品类_概念'), ('，', 'w'), ('作者', '人物类_概念'), ('是', '肯定词'), ('余兼羽', '人物类_实体')]]
 ```
 
+#### 自定义词典
+
+用户可以通过装载自定义词典来定制化分词和词性标注结果。词典文件每一行表示一个自定义item，可以由一个单词或者多个单词组成，单词后面可以添加自定义标签，格式为`item/tag`，如果不添加自定义标签，则使用模型默认标签。
+
+词典文件`user_dict.txt`示例：
+
+```text
+长津湖/电影类_实体
+收/词汇用语 尾/术语类
+最 大
+海外票仓
+```
+
+以"《长津湖》收尾，北美是最大海外票仓"为例，原本的输出结果为：
+
+```text
+[('《', 'w'), ('长津湖', '作品类_实体'), ('》', 'w'), ('收尾', '场景事件'), ('，', 'w'), ('北美', '世界地区类'), ('是', '肯定词'), ('最大', '修饰词'), ('海外', '场所类'), ('票仓', '词汇用语')]
+```
+
+装载自定义词典及输出结果示例：
+
+```python
+from paddlenlp import Taskflow
+
+my_ner = Taskflow("ner", user_dict="user_dict.txt")
+my_ner("《长津湖》收尾，北美是最大海外票仓")
+>>> [('《', 'w'), ('长津湖', '电影类_实体'), ('》', 'w'), ('收', '词汇用语'), ('尾', '术语类'), ('，', 'w'), ('北美', '世界地区类'), ('是', '肯定词'), ('最', '修饰词'), ('大', '修饰词'), ('海外票仓', '场所类')]
+```
+
+#### 自定义NER模型
+
+用户可以使用自己的数据训练自定义NER模型，参考[NER-WordTag增量训练示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/ernie-ctm)。
+
+使用Taskflow加载自定义模型进行一键预测：
+
+```shell
+from paddlenlp import Taskflow
+
+my_ner = Taskflow("ner", params_path="/path/to/your/params", tag_path="/path/to/your/tag")
+```
+
 #### 可配置参数说明
 
 * `batch_size`：批处理大小，请结合机器情况进行调整，默认为1。
+* `user_dict`：用户自定义词典文件，默认为None。
+* `params_path`：模型参数文件路径，默认为None。
+* `tag_path`：标签文件路径，默认为None。
 
 ### 文本纠错
 
diff --git a/examples/text_to_knowledge/ernie-ctm/README.md b/examples/text_to_knowledge/ernie-ctm/README.md
@@ -81,15 +81,6 @@ data/
 《/w 全球化与中国：理论与发展趋势/作品类_实体 》/w 是/肯定词 2010年/时间类 经济管理出版社/组织机构类 出版/场景事件 的/助词 图书/作品类_概念 ，/w 作者/人物类_概念 是/肯定词 余永定/人物类_实体 、/w 路爱国/人物类_实体 、/w 高海红/人物类_实体 。/w
 ```
 
-WordTag模型使用了**BIOES标注体系**，用户可以在标签文件中（该示例为`tags.txt`）按照该标注体系自定义添加词性或命名实体类别，标签文件示例：
-
-```text
-B-组织机构类_企事业单位
-I-组织机构类_企事业单位
-E-组织机构类_企事业单位
-S-组织机构类_企事业单位
-```
-
 #### 模型训练
 
 ```shell
diff --git a/examples/text_to_knowledge/ernie-ctm/predict.py b/examples/text_to_knowledge/ernie-ctm/predict.py
@@ -78,8 +78,7 @@ def do_predict(data,
         input_ids = paddle.to_tensor(input_ids)
         token_type_ids = paddle.to_tensor(token_type_ids)
         seq_len = paddle.to_tensor(seq_len)
-        logits, _ = model(input_ids, token_type_ids)
-        _, pred_tags = viterbi_decoder(logits, seq_len)
+        pred_tags = model(input_ids, token_type_ids, lengths=seq_len)
         all_pred_tags.extend(pred_tags.numpy().tolist())
     results = decode(data, all_pred_tags, summary_num, idx_to_tags)
     return results
@@ -95,14 +94,9 @@ def do_predict(data,
     tags_to_idx = load_dict(os.path.join(args.data_dir, "tags.txt"))
     idx_to_tags = dict(zip(*(tags_to_idx.values(), tags_to_idx.keys())))
 
-    crf = LinearChainCrf(len(tags_to_idx), 100, with_start_stop_tag=False)
-    viterbi_decoder = ViterbiDecoder(crf.transitions, False)
-
     model = ErnieCtmWordtagModel.from_pretrained(
         "wordtag",
-        num_tag=len(tags_to_idx),
-        num_cls_label=4,
-        ignore_index=tags_to_idx["O"])
+        num_tag=len(tags_to_idx))
     tokenizer = ErnieCtmTokenizer.from_pretrained("wordtag")
 
     if args.params_path and os.path.isfile(args.params_path):
@@ -113,7 +107,7 @@ def do_predict(data,
     results = do_predict(data, 
                          model, 
                          tokenizer, 
-                         viterbi_decoder, 
+                         model.viterbi_decoder, 
                          tags_to_idx, 
                          idx_to_tags,
                          batch_size=args.batch_size)
diff --git a/examples/text_to_knowledge/ernie-ctm/train.py b/examples/text_to_knowledge/ernie-ctm/train.py
@@ -64,17 +64,17 @@ def set_seed(seed):
 
 
 @paddle.no_grad()
-def evaluate(model, metric, criterion, data_loader, tags, tags_to_idx):
+def evaluate(model, metric, data_loader, tags, tags_to_idx):
     model.eval()
     metric.reset()
     losses = []
     for batch in data_loader():
         input_ids, token_type_ids, seq_len, tags = batch
-        seq_logits, _ = model(input_ids,
+        loss, seq_logits = model(input_ids,
                               token_type_ids,
                               lengths=seq_len,
                               tag_labels=tags)
-        loss = criterion(seq_logits, seq_len, tags).mean()
+        loss = loss.mean()
         losses.append(loss.numpy())
         
         correct = metric.compute(
@@ -109,9 +109,9 @@ def do_train(args):
     tokenizer = ErnieCtmTokenizer.from_pretrained("wordtag")
     model = ErnieCtmWordtagModel.from_pretrained(
         "wordtag",
-        num_tag=len(tags_to_idx),
-        num_cls_label=4,
-        ignore_index=tags_to_idx["O"])
+        num_tag=len(tags_to_idx))
+    model.crf_loss = LinearChainCrfLoss(
+        LinearChainCrf(len(tags_to_idx), 0.1, with_start_stop_tag=False))
 
     trans_func = partial(
         convert_example,
@@ -170,9 +170,6 @@ def do_train(args):
     logger.info("WarmUp steps: %s" % warmup)
 
     metric = SequenceAccuracy()
-    crf_lr = 0.1
-    crf = LinearChainCrf(len(tags_to_idx), crf_lr, with_start_stop_tag=False)
-    criterion = LinearChainCrfLoss(crf)
 
     total_loss = 0
     global_step = 0
@@ -185,12 +182,11 @@ def do_train(args):
             global_step += 1
             input_ids, token_type_ids, seq_len, tags = batch
 
-            seq_logits, _ = model(
+            loss, _ = model(
                 input_ids,
                 token_type_ids,
                 lengths=seq_len,
                 tag_labels=tags)
-            loss = criterion(seq_logits, seq_len, tags)
             loss = loss.mean()
             total_loss += loss
             loss.backward()
@@ -219,7 +215,7 @@ def do_train(args):
                 model_to_save.save_pretrained(output_dir)
                 tokenizer.save_pretrained(output_dir)
 
-        evaluate(model, metric, criterion, dev_data_loader, tags, tags_to_idx)
+        evaluate(model, metric, dev_data_loader, tags, tags_to_idx)
 
 
 def print_arguments(args):
diff --git a/paddlenlp/taskflow/knowledge_mining.py b/paddlenlp/taskflow/knowledge_mining.py
@@ -128,7 +128,7 @@
           from paddlenlp import Taskflow 
 
           # 默认使用WordTag词类知识标注工具
-          wordtag = Taskflow("knowledge_mining")
+          wordtag = Taskflow("knowledge_mining", model="wordtag")
           wordtag("《孤女》是2010年九州出版社出版的小说，作者是余兼羽")
           '''
           [{'text': '《孤女》是2010年九州出版社出版的小说，作者是余兼羽', 'items': [{'item': '《', 'offset': 0, 'wordtag_label': 'w', 'length': 1}, {'item': '孤女', 'offset': 1, 'wordtag_label': '作品类_实体', 'length': 2}, {'item': '》', 'offset': 3, 'wordtag_label': 'w', 'length': 1}, {'item': '是', 'offset': 4, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '2010年', 'offset': 5, 'wordtag_label': '时间类', 'length': 5, 'termid': '时间阶段_cb_2010年'}, {'item': '九州出版社', 'offset': 10, 'wordtag_label': '组织机构类', 'length': 5, 'termid': '组织机构_eb_九州出版社'}, {'item': '出版', 'offset': 15, 'wordtag_label': '场景事件', 'length': 2, 'termid': '场景事件_cb_出版'}, {'item': '的', 'offset': 17, 'wordtag_label': '助词', 'length': 1, 'termid': '助词_cb_的'}, {'item': '小说', 'offset': 18, 'wordtag_label': '作品类_概念', 'length': 2, 'termid': '小说_cb_小说'}, {'item': '，', 'offset': 20, 'wordtag_label': 'w', 'length': 1}, {'item': '作者', 'offset': 21, 'wordtag_label': '人物类_概念', 'length': 2, 'termid': '人物_cb_作者'}, {'item': '是', 'offset': 23, 'wordtag_label': '肯定词', 'length': 1, 'termid': '肯定否定词_cb_是'}, {'item': '余兼羽', 'offset': 24, 'wordtag_label': '人物类_实体', 'length': 3}]}]
@@ -207,8 +207,6 @@ def __init__(self,
         self._termtree = TermTree.from_dir(term_schema_path, term_data_path,
                                            self._linking)
         
-        self.crf = LinearChainCrf(len(self._tags_to_index), 100, with_start_stop_tag=False)
-        self._viterbi_decoder = ViterbiDecoder(self.crf.transitions, False)
         self._usage = usage
         self._summary_num = 2
 
@@ -510,6 +508,9 @@ def _construct_input_spec(self):
             paddle.static.InputSpec(shape=[None, None],
                                     dtype="int64",
                                     name="token_type_ids"),  # token_type_ids
+            paddle.static.InputSpec(shape=[None],
+                                    dtype="int64",
+                                    name="seq_len"),  # seq_len
         ]
 
     def _construct_model(self, model):
@@ -518,9 +519,7 @@ def _construct_model(self, model):
         """
         model_instance = ErnieCtmWordtagModel.from_pretrained(
             model,
-            num_cls_label=4,
-            num_tag=len(self._tags_to_index),
-            ignore_index=self._tags_to_index["O"])
+            num_tag=len(self._tags_to_index))
         config_keys = ErnieCtmWordtagModel.pretrained_init_configuration[
             self.model]
         self.kwargs.update(config_keys)
@@ -554,11 +553,10 @@ def _run_model(self, inputs):
             input_ids, token_type_ids, seq_len = batch
             self.input_handles[0].copy_from_cpu(input_ids.numpy())
             self.input_handles[1].copy_from_cpu(token_type_ids.numpy())
+            self.input_handles[2].copy_from_cpu(seq_len.numpy())
             self.predictor.run()
-            logits = self.output_handle[0].copy_to_cpu()
-            score, pred_tags = self._viterbi_decoder(
-                paddle.to_tensor(logits), seq_len)
-            all_pred_tags.extend(pred_tags.numpy().tolist())
+            pred_tags = self.output_handle[0].copy_to_cpu()
+            all_pred_tags.extend(pred_tags.tolist())
         inputs['all_pred_tags'] = all_pred_tags
         return inputs
 
diff --git a/paddlenlp/taskflow/lexical_analysis.py b/paddlenlp/taskflow/lexical_analysis.py
@@ -94,8 +94,8 @@ class LacTask(Task):
     def __init__(self, task, model, **kwargs):
         super().__init__(task=task, model=model, **kwargs)
         self._usage = usage
-        self._custom_vocab = self.kwargs[
-            'custom_vocab'] if 'custom_vocab' in self.kwargs else None
+        self._user_dict = self.kwargs[
+            'user_dict'] if 'user_dict' in self.kwargs else None
         word_dict_path = download_file(
             self._task_path, "lac_params" + os.path.sep + "word.dic",
             URLS['lac_params'][0], URLS['lac_params'][1])
@@ -113,9 +113,9 @@ def __init__(self, task, model, **kwargs):
         self._id2tag_dict = dict(
             zip(self._tag_vocab.values(), self._tag_vocab.keys()))
         self._get_inference_model()
-        if self._custom_vocab:
+        if self._user_dict:
             self._custom = Customization()
-            self._custom.load_customization(self._custom_vocab)
+            self._custom.load_customization(self._user_dict)
         else:
             self._custom = None
 
diff --git a/paddlenlp/taskflow/named_entity_recognition.py b/paddlenlp/taskflow/named_entity_recognition.py
@@ -24,6 +24,7 @@
 from .utils import download_file
 from .utils import TermTree
 from .knowledge_mining import WordTagTask
+from .utils import Customization
 
 usage = r"""
           from paddlenlp import Taskflow 
@@ -35,8 +36,7 @@
           '''
 
           ner = Taskflow("ner")
-          ner(["热梅茶是一道以梅子为主要原料制作的茶饮",
-               "《孤女》是2010年九州出版社出版的小说，作者是余兼羽"])
+          ner(["热梅茶是一道以梅子为主要原料制作的茶饮", "《孤女》是2010年九州出版社出版的小说，作者是余兼羽"])
           '''
           [[('热梅茶', '饮食类_饮品'), ('是', '肯定词'), ('一道', '数量词'), ('以', '介词'), ('梅子', '饮食类'), ('为', '肯定词'), ('主要原料', '物体类'), ('制作', '场景事件'), ('的', '助词'), ('茶饮', '饮食类_饮品')], [('《', 'w'), ('孤女', '作品类_实体'), ('》', 'w'), ('是', '肯定词'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('的', '助词'), ('小说', '作品类_概念'), ('，', 'w'), ('作者', '人物类_概念'), ('是', '肯定词'), ('余兼羽', '人物类_实体')]]
           '''
@@ -56,6 +56,13 @@ class NERTask(WordTagTask):
 
     def __init__(self, model, task, **kwargs):
         super().__init__(model=model, task=task, **kwargs)
+        self._user_dict = self.kwargs[
+            'user_dict'] if 'user_dict' in self.kwargs else None
+        if self._user_dict:
+            self._custom = Customization()
+            self._custom.load_customization(self._user_dict)
+        else:
+            self._custom = None
 
     def _decode(self, batch_texts, batch_pred_tags):
         batch_results = []
@@ -65,7 +72,8 @@ def _decode(self, batch_texts, batch_pred_tags):
                 for index in batch_pred_tags[sent_index][self.summary_num:-1]
             ]
             sent = batch_texts[sent_index]
-            
+            if self._custom:
+                self._custom.parse_customization(sent, tags, prefix=True)
             sent_out = []
             tags_out = []
             partial_word = ""
diff --git a/paddlenlp/taskflow/utils.py b/paddlenlp/taskflow/utils.py
diff --git a/paddlenlp/transformers/ernie_ctm/modeling.py b/paddlenlp/transformers/ernie_ctm/modeling.py