PaddlePaddle
diff --git a/‎docs/model_zoo/taskflow.md‎
Lines changed: 48 additions & 21 deletions b/‎docs/model_zoo/taskflow.md‎
Lines changed: 48 additions & 21 deletions
diff --git a/‎examples/text_to_knowledge/nptag/data.py‎
Lines changed: 1 addition & 2 deletions b/‎examples/text_to_knowledge/nptag/data.py‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎examples/text_to_knowledge/nptag/predict.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/text_to_knowledge/nptag/predict.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/text_to_knowledge/nptag/train.py‎
Lines changed: 4 additions & 4 deletions b/‎examples/text_to_knowledge/nptag/train.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎model_zoo/uie/README.md‎
Lines changed: 6 additions & 6 deletions b/‎model_zoo/uie/README.md‎
Lines changed: 6 additions & 6 deletions
@@ -32,7 +32,7 @@ PaddleNLP提供**开箱即用**的产业级NLP预置任务能力，无需训练
 | [词性标注](#词性标注)              | `Taskflow("pos_tagging")`        | ✅        | ✅        | ✅        | ✅          | ✅          | 基于百度前沿词法分析工具LAC                            |
 | [命名实体识别](#命名实体识别)      | `Taskflow("ner")`                 | ✅        | ✅        | ✅        | ✅          | ✅          | 覆盖最全中文实体标签                                   |
 | [依存句法分析](#依存句法分析)      | `Taskflow("dependency_parsing")`  | ✅        | ✅        | ✅        |            | ✅          | 基于最大规模中文依存句法树库研发的DDParser             |
-| [信息抽取](#信息抽取)           | `Taskflow("information_extraction")`| ✅        | ✅        | ✅        | ✅          | ✅          | 适配多场景的开放域通用信息抽取工具                     |
+| [信息抽取](#信息抽取)           | `Taskflow("information_extraction")`| ✅        | ✅        | ✅        | ✅         | ✅          | 适配多场景的开放域通用信息抽取工具                     |
 | [『解语』-知识标注](#解语知识标注) | `Taskflow("knowledge_mining")`     | ✅        | ✅        | ✅        | ✅          | ✅          | 覆盖所有中文词汇的知识标注工具                         |
 | [文本纠错](#文本纠错)              | `Taskflow("text_correction")`    | ✅        | ✅        | ✅        | ✅          | ✅          | 融合拼音特征的端到端文本纠错模型ERNIE-CSC              |
 | [文本相似度](#文本相似度)          | `Taskflow("text_similarity")`    | ✅        | ✅        | ✅        |            |            | 基于百度知道2200万对相似句组训练                       |
@@ -422,15 +422,15 @@ from paddlenlp import Taskflow
   >>> ie = Taskflow('information_extraction', schema=schema)
   >>> pprint(ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！")) # Better print results using pprint
   [{'时间': [{'end': 6,
-            'probability': 0.9907337794563702,
+            'probability': 0.9857378532924486,
             'start': 0,
             'text': '2月8日上午'}],
     '赛事名称': [{'end': 23,
-              'probability': 0.8944205558197353,
+              'probability': 0.8503089953268272,
               'start': 6,
               'text': '北京冬奥会自由式滑雪女子大跳台决赛'}],
     '选手': [{'end': 31,
-            'probability': 0.8914297225026147,
+            'probability': 0.8981548639781138,
             'start': 28,
             'text': '谷爱凌'}]}]
   ```
@@ -481,21 +481,48 @@ from paddlenlp import Taskflow
 
   评论观点抽取，是指抽取文本中包含的评价维度、观点词。
 
-  例如抽取的目标是文本中包含的评价维度以及对应的观点词，schema构造如下：
+  例如抽取的目标是文本中包含的评价维度及其对应的观点词和情感倾向，schema构造如下：
 
   ```text
-  {'评价维度': '观点词'}
+  {'评价维度': ['观点词', '情感倾向[正向，负向]']}
   ```
 
-  评论观点抽取默认统一使用`评价维度`和`观点词`作为schema。
-
   预测：
 
   ```python
-  >>> schema = {'评价维度': '观点词'} # Define the schema for opinion extraction
+  >>> schema = {'评价维度': ['观点词', '情感倾向[正向，负向]']} # Define the schema for opinion extraction
   >>> ie.set_schema(schema) # Reset schema
-  >>> ie('个人觉得管理太混乱了，票价太高了')
-  [{'评价维度': [{'text': '管理', 'start': 4, 'end': 6, 'probability': 0.8902373594544031, 'relations': {'观点词': [{'text': '混乱', 'start': 7, 'end': 9, 'probability': 0.9993566520321409}]}}, {'text': '票价', 'start': 11, 'end': 13, 'probability': 0.9856116411308662, 'relations': {'观点词': [{'text': '高', 'start': 14, 'end': 15, 'probability': 0.995628420935013}]}}]}]
+  >>> pprint(ie("地址不错，服务一般，设施陈旧")) # Better print results using pprint
+  [{'评价维度': [{'end': 2,
+              'probability': 0.9888139270606509,
+              'relations': {'情感倾向[正向，负向]': [{'probability': 0.998228967796706,
+                                            'text': '正向'}],
+                            '观点词': [{'end': 4,
+                                    'probability': 0.9927847072459528,
+                                    'start': 2,
+                                    'text': '不错'}]},
+              'start': 0,
+              'text': '地址'},
+            {'end': 12,
+              'probability': 0.9588297379365116,
+              'relations': {'情感倾向[正向，负向]': [{'probability': 0.9949389795770394,
+                                            'text': '负向'}],
+                            '观点词': [{'end': 14,
+                                    'probability': 0.9286753967902683,
+                                    'start': 12,
+                                    'text': '陈旧'}]},
+              'start': 10,
+              'text': '设施'},
+            {'end': 7,
+              'probability': 0.9592857070501211,
+              'relations': {'情感倾向[正向，负向]': [{'probability': 0.9952498258302498,
+                                            'text': '负向'}],
+                            '观点词': [{'end': 9,
+                                    'probability': 0.9949359182521675,
+                                    'start': 7,
+                                    'text': '一般'}]},
+              'start': 5,
+              'text': '服务'}]}]
   ```
 
 
@@ -531,15 +558,15 @@ from paddlenlp import Taskflow
   >>> ie.set_schema(schema)
   >>> pprint(ie('李治即位后，让身在感业寺的武则天续起头发，重新纳入后宫。')) # Better print results using pprint
   [{'丈夫': [{'end': 2,
-            'probability': 0.993496447299993,
+            'probability': 0.989690572797457,
             'relations': {'妻子': [{'end': 16,
-                                  'probability': 0.9994008822614759,
+                                  'probability': 0.9987625986790256,
                                   'start': 13,
                                   'text': '武则天'}]},
             'start': 0,
             'text': '李治'}],
     '寺庙': [{'end': 12,
-            'probability': 0.998334669586864,
+            'probability': 0.9888581774497425,
             'start': 9,
             'text': '感业寺'}]}]
   ```
@@ -563,20 +590,20 @@ from paddlenlp import Taskflow
   >>> schema = ['时间', '选手', '赛事名称']
   >>> ie = Taskflow('information_extraction', schema=schema, model="uie-tiny")
   >>> ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！")
-  [{'时间': [{'text': '2月8日上午', 'start': 0, 'end': 6, 'probability': 0.9939956659967066}], '选手': [{'text': '谷爱凌', 'start': 28, 'end': 31, 'probability': 0.8323544377549155}], '赛事名称': [{'text': '北京冬奥会自由式滑雪女子大跳台决赛', 'start': 6, 'end': 23, 'probability': 0.624098394612048}]}]
+  [{'时间': [{'text': '2月8日上午', 'start': 0, 'end': 6, 'probability': 0.9492842181233527}], '选手': [{'text': '谷爱凌', 'start': 28, 'end': 31, 'probability': 0.7277186614493836}], '赛事名称': [{'text': '北京冬奥会自由式滑雪女子大跳台决赛', 'start': 6, 'end': 23, 'probability': 0.8751028059367947}]}]
   ```
 
 #### 定制训练
 
-对于简单的抽取目标可以直接使用```paddlenlp.Taskflow```实现零样本（zero-shot）抽取，对于细分场景我们推荐使用[定制训练](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/uie)（标注少量数据进行模型微调）以进一步提升效果。
+对于简单的抽取目标可以直接使用```paddlenlp.Taskflow```实现零样本（zero-shot）抽取，对于细分场景我们推荐使用[定制训练](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie)（标注少量数据进行模型微调）以进一步提升效果。
 
 我们在互联网、医疗、金融三大垂类自建测试集上进行了实验：
 
 <table>
-<tr><th row_span='2'><th colspan='2'>互联网<th colspan='2'>医疗<th colspan='2'>金融
+<tr><th row_span='2'><th colspan='2'>金融<th colspan='2'>医疗<th colspan='2'>互联网
 <tr><td><th>0-shot<th>5-shot<th>0-shot<th>5-shot<th>0-shot<th>5-shot
-<tr><td>uie-tiny<td>75.92<td>78.45<td>63.34<td>74.65<td>42.03<td>65.78
-<tr><td>uie-base<td>80.13<td>81.53<td>66.71<td>79.94<td>41.29<td>70.91
+<tr><td>uie-tiny<td>41.11<td>64.53<td>65.40<td>75.72<td>78.32<td>79.68
+<tr><td>uie-base<td>46.43<td>70.92<td>71.83<td>85.72<td>78.33<td>81.86
 </table>
 
 0-shot表示无训练数据直接通过```paddlenlp.Taskflow```进行预测，5-shot表示基于5条标注数据进行模型微调。
@@ -826,8 +853,8 @@ from paddlenlp import Taskflow
 |       `Taskflow("pos_tagging")`                              |             `$HOME/.paddlenlp/taskflow/lac`                  | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/lexical_analysis) |
 |                `Taskflow("ner", mode="fast")`                |             `$HOME/.paddlenlp/taskflow/lac`                  | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/lexical_analysis) |
 |              `Taskflow("ner", mode="accurate")`              |             `$HOME/.paddlenlp/taskflow/wordtag`              | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/ernie-ctm) |
-|              `Taskflow("information_extraction", model="uie-base")`              |             `$HOME/.paddlenlp/taskflow/information_extraction/uie-base`              | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/uie) |
-|              `Taskflow("information_extraction", model="uie-tiny")`              |             `$HOME/.paddlenlp/taskflow/information_extraction/uie-tiny`              | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/uie) |
+|              `Taskflow("information_extraction", model="uie-base")`              |             `$HOME/.paddlenlp/taskflow/information_extraction/uie-base`              | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie) |
+|              `Taskflow("information_extraction", model="uie-tiny")`              |             `$HOME/.paddlenlp/taskflow/information_extraction/uie-tiny`              | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie) |
 |     `Taskflow("text_correction", model="ernie-csc")`     |  `$HOME/.paddlenlp/taskflow/text_correction/ernie-csc`   | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_correction/ernie-csc) |
 |      `Taskflow("dependency_parsing", model="ddparser")`      |   `$HOME/.paddlenlp/taskflow/dependency_parsing/ddparser`    | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/dependency_parsing/ddparser) |
 | `Taskflow("dependency_parsing", model="ddparser-ernie-1.0")` | `$HOME/.paddlenlp/taskflow/dependency_parsing/ddparser-ernie-1.0` | [示例](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/dependency_parsing/ddparser) |
 
@@ -59,7 +59,6 @@ def convert_example(example,
         tokens,
         return_length=True,
         is_split_into_words=True,
-        pad_to_max_seq_len=True,
         max_seq_len=max_seq_len)
 
     label_indices = list(
@@ -70,7 +69,7 @@ def convert_example(example,
 
     label_tokens = list(example["label"]) + ["[PAD]"] * (max_cls_len -
                                                          len(example["label"]))
-    labels = np.full([max_seq_len], fill_value=-100, dtype=np.int64)
+    labels = np.full([inputs["seq_len"]], fill_value=-100, dtype=np.int64)
     labels[label_indices] = tokenzier.convert_tokens_to_ids(label_tokens)
     return inputs["input_ids"], inputs["token_type_ids"], labels
 
 
@@ -54,8 +54,8 @@ def do_predict(data,
     ]
 
     batchify_fn = lambda samples, fn=Tuple(
-        Stack(dtype='int64'),  # input_ids
-        Stack(dtype='int64'),  # token_type_ids
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype='int64'),  # input_ids
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype='int64'),  # token_type_ids
         Stack(dtype='int64'),  # label_indices
     ): fn(samples)
 
 
@@ -23,7 +23,7 @@
 import paddle.nn.functional as F
 from paddlenlp.utils.log import logger
 from paddlenlp.transformers import ErnieCtmNptagModel, ErnieCtmTokenizer, LinearDecayWithWarmup
-from paddlenlp.data import Stack, Tuple
+from paddlenlp.data import Pad, Stack, Tuple
 from paddlenlp.datasets import load_dataset
 
 from data import convert_example, create_dataloader, read_custom_data
@@ -108,9 +108,9 @@ def do_train(args):
         convert_example, tokenzier=tokenizer, max_seq_len=args.max_seq_len)
 
     batchify_fn = lambda samples, fn=Tuple(
-        Stack(dtype='int64'),  # input_ids
-        Stack(dtype='int64'),  # token_type_ids
-        Stack(dtype='int64'),  # labels
+        Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype='int64'),  # input_ids
+        Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype='int64'),  # token_type_ids
+        Pad(axis=0, pad_val=-100, dtype='int64'),  # labels
     ): fn(samples)
 
     train_data_loader = create_dataloader(
 
@@ -64,15 +64,15 @@ UIE可以从自然语言文本中，抽取出结构化的关键字段信息，
 >>> ie = Taskflow('information_extraction', schema=schema)
 >>> pprint(ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！"))
 [{'时间': [{'end': 6,
-          'probability': 0.9907337794563702,
+          'probability': 0.9857378532924486,
           'start': 0,
           'text': '2月8日上午'}],
   '赛事名称': [{'end': 23,
-            'probability': 0.8944205558197353,
+            'probability': 0.8503089953268272,
             'start': 6,
             'text': '北京冬奥会自由式滑雪女子大跳台决赛'}],
   '选手': [{'end': 31,
-          'probability': 0.8914297225026147,
+          'probability': 0.8981548639781138,
           'start': 28,
           'text': '谷爱凌'}]}]
 ```
@@ -247,10 +247,10 @@ python evaluate.py \
 我们在互联网、医疗、金融三大垂类自建测试集上进行了实验：
 
 <table>
-<tr><th row_span='2'><th colspan='2'>互联网<th colspan='2'>医疗<th colspan='2'>金融
+<tr><th row_span='2'><th colspan='2'>金融<th colspan='2'>医疗<th colspan='2'>互联网
 <tr><td><th>0-shot<th>5-shot<th>0-shot<th>5-shot<th>0-shot<th>5-shot
-<tr><td>uie-tiny<td>75.92<td>78.45<td>63.34<td>74.65<td>42.03<td>65.78
-<tr><td>uie-base<td>80.13<td>81.53<td>66.71<td>79.94<td>41.29<td>70.91
+<tr><td>uie-tiny<td>41.11<td>64.53<td>65.40<td>75.72<td>78.32<td>79.68
+<tr><td>uie-base<td>46.43<td>70.92<td>71.83<td>85.72<td>78.33<td>81.86
 </table>
 
 0-shot表示无训练数据直接通过```paddlenlp.Taskflow```进行预测，5-shot表示基于5条标注数据进行模型微调。实验表明UIE在垂类场景可以通过少量数据（few-shot）进一步提升效果。
Original file line number	Diff line number	Diff line change
`@@ -54,8 +54,8 @@ def do_predict(data,`
`54`	`54`	`]`
`55`	`55`
`56`	`56`	`batchify_fn = lambda samples, fn=Tuple(`
`57`		`- Stack(dtype='int64'), # input_ids`
`58`		`- Stack(dtype='int64'), # token_type_ids`
	`57`	`+ Pad(axis=0, pad_val=tokenizer.pad_token_id, dtype='int64'), # input_ids`
	`58`	`+ Pad(axis=0, pad_val=tokenizer.pad_token_type_id, dtype='int64'), # token_type_ids`
`59`	`59`	`Stack(dtype='int64'), # label_indices`
`60`	`60`	`): fn(samples)`
`61`	`61`