13
13
![ GitHub] ( https://img.shields.io/github/license/paddlepaddle/paddlenlp )
14
14
15
15
## News <img src =" ./docs/imgs/news_icon.png " width =" 40 " />
16
- * [ 2021-08-22] [ 《千言:面向事实一致性的生成评测比赛》 ] (https://aistudio.baidu.com/aistudio/competition/detail/105)正式开赛啦🔥🔥🔥,欢迎大家踊跃报名 !! [ PaddleNLP比赛基线地址] ( https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_generation/unimo-text )
17
- * [ 2021-08-22] PaddleNLP 2.0.8版本已发布!:tada : 更多详细升级信息请查看[ Release Note] ( https://github.com/PaddlePaddle/PaddleNLP/releases/tag/v2.0.8 ) .
18
- * [ 2021-06-07] 《基于深度学习的自然语言处理》直播打卡课正在进行中🔥🔥🔥,快来打卡吧:[ https://aistudio.baidu.com/aistudio/course/introduce/24177 ] ( https://aistudio.baidu.com/aistudio/course/introduce/24177 )
19
- * [ 2021-06-04] 新增多粒度语言知识预训练模型[ ERNIE-Gram] ( https://arxiv.org/abs/2010.12148 ) ,多项中文NLP任务取得SOTA成绩,获取2.0.2版本快速体验吧!
16
+ * [ 2021-10-12] PaddleNLP 2.1版本已发布!新增开箱即用的NLP任务能力、Prompt Tuning应用示例与生成任务的高性能推理!:tada : 更多详细升级信息请查看[ Release Note] ( https://github.com/PaddlePaddle/PaddleNLP/releases/tag/v2.1 ) 。
17
+ * [ 2021-08-22] [ 《千言:面向事实一致性的生成评测比赛》 ] (https://aistudio.baidu.com/aistudio/competition/detail/105)正式开赛啦🔥🔥🔥,欢迎大家踊跃报名 !! [ PaddleNLP比赛基线地址] ( https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_generation/unimo-text ) 。
18
+
20
19
21
20
## 简介
22
21
23
- PaddleNLP 2.0是飞桨生态的文本领域核心库 ,具备** 易用的文本领域API** ,** 多场景的应用示例** 、和** 高性能分布式训练** 三大特点,旨在提升开发者文本领域的开发效率,并提供基于飞桨2.0核心框架的NLP任务最佳实践 。
22
+ PaddleNLP是飞桨自然语言处理开发库 ,具备** 易用的文本领域API** ,** 多场景的应用示例** 、和** 高性能分布式训练** 三大特点,旨在提升开发者在文本领域的开发效率,并提供丰富的NLP应用示例 。
24
23
25
24
- ** 易用的文本领域API**
26
- - 提供从数据加载、文本预处理、模型组网评估、到推理加速的领域API:支持丰富中文数据集加载的[ Dataset API] ( https://paddlenlp.readthedocs.io/zh/latest/data_prepare/dataset_list.html ) ;灵活高效地完成数据预处理的[ Data API] ( https://paddlenlp.readthedocs.io/zh/latest/source/paddlenlp.data.html ) ;提供60+预训练模型的[ Transformer API] ( ./docs/model_zoo/transformers.rst ) 等,可大幅提升NLP任务建模与迭代的效率。
27
-
25
+ - 提供丰富的工业级预置任务能力[ Taskflow] ( ./docs/model_zoo/taskflow.md ) 和全流程的文本领域API:支持丰富中文数据集加载的[ Dataset API] ( https://paddlenlp.readthedocs.io/zh/latest/data_prepare/dataset_list.html ) ;灵活高效地完成数据预处理的[ Data API] ( https://paddlenlp.readthedocs.io/zh/latest/source/paddlenlp.data.html ) ;提供60+预训练模型的[ Transformer API] ( ./docs/model_zoo/transformers.rst ) 等,可大幅提升NLP任务建模的效率。
28
26
29
27
- ** 多场景的应用示例**
30
- - 覆盖从学术到工业级的NLP[ 应用示例] ( #多场景的应用示例 ) ,涵盖从NLP基础技术、NLP核心技术、NLP系统应用以及相关拓展应用。全面基于飞桨核心框架2.0全新API体系开发,为开发提供飞桨2.0框架在文本领域的最佳实践。
31
-
28
+ - 覆盖从学术到工业级的NLP[ 应用示例] ( #多场景的应用示例 ) ,涵盖NLP基础技术、NLP核心技术、NLP系统应用以及相关拓展应用。全面基于飞桨核心框架2.0全新API体系开发,为开发提供飞桨框架在文本领域的最佳实践。
32
29
33
30
- ** 高性能分布式训练**
34
31
- 基于飞桨核心框架领先的自动混合精度优化策略,结合分布式Fleet API,支持4D混合并行策略,可高效地完成超大规模参数的模型训练。
@@ -38,11 +35,11 @@ PaddleNLP 2.0是飞桨生态的文本领域核心库,具备**易用的文本
38
35
### 环境依赖
39
36
40
37
- python >= 3.6
41
- - paddlepaddle >= 2.1.0
38
+ - paddlepaddle >= 2.2rc
42
39
43
40
### pip安装
44
41
45
- ```
42
+ ``` shell
46
43
pip install --upgrade paddlenlp
47
44
```
48
45
@@ -52,7 +49,7 @@ pip install --upgrade paddlenlp
52
49
53
50
### Taskflow:开箱即用的工业级NLP能力
54
51
55
- Taskflow旨在提供开箱即用的NLP预置任务能力,覆盖自然语言理解与自然语言生成两大场景,在中文场景上提供 ** 工业级的效果** 与** 极致的预测性能** 。
52
+ Taskflow旨在提供 ** 开箱即用 ** 的NLP预置任务能力,覆盖自然语言理解与生成两大场景,提供 ** 工业级的效果** 与** 极致的预测性能** 。
56
53
57
54
``` python
58
55
from paddlenlp import Taskflow
@@ -81,7 +78,7 @@ ddp("百度是一家高科技公司")
81
78
82
79
### Transformer API: 强大的预训练模型生态底座
83
80
84
- 覆盖** 15 ** 个网络结构和** 67 ** 个预训练模型参数 ,既包括百度自研的预训练模型如ERNIE系列, PLATO, SKEP等,也涵盖业界主流的中文预训练模型。也欢迎开发者贡献更多预训练模型 !🤗
81
+ 覆盖** 22 ** 个网络结构和** 90 ** 余个预训练模型参数 ,既包括百度自研的预训练模型如ERNIE系列, PLATO, SKEP等,也涵盖业界主流的中文预训练模型如。欢迎开发者贡献更多预训练模型 !🤗
85
82
86
83
``` python
87
84
from paddlenlp.transformers import *
@@ -169,33 +166,44 @@ PaddleNLP提供了多粒度、多场景的NLP应用示例,面向动态图模
169
166
### NLP 核心技术
170
167
171
168
#### 文本分类 (Text Classification)
169
+
172
170
| 模型 | 简介 |
173
171
| :----- | ------ |
174
172
| [ RNN/CNN/GRU/LSTM] ( ./examples/text_classification/rnn ) | 实现了经典的RNN, CNN, GRU, LSTM等经典文本分类结构。|
175
173
| [ BiLSTM-Attention] ( ./examples/text_classification/rnn ) | 基于BiLSTM网络结构引入注意力机制提升文本分类效果。 |
176
174
| [ BERT/ERNIE] ( ./examples/text_classification/pretrained_models ) | 提供基于预训练模型的文本分类任务实现,包含训练、预测和推理部署的全流程应用。 |
177
175
178
176
#### 文本匹配 (Text Matching)
177
+
179
178
| 模型 | 简介 |
180
179
| :--------------- | ---------- |
181
180
| [ SimCSE] ( ./examples/text_matching/simcse/ ) :star2 : | 基于论文[ SimCSE: Simple Contrastive Learning of Sentence Embeddings] ( https://arxiv.org/abs/2104.08821 ) 实现无监督语义匹配模型,无需标注数据仅利用无监督数据也能训练效果出众的语义匹配模型。|
181
+ | [ ERNIE-Gram w/ R-Drop] ( ./examples/text_matching/question_matching/ ) | 提供基于ERNIE-Gram预训练模型结合R-Drop策略的问题匹配任在千言数据集上的基线代码。|
182
182
| [ SimNet] ( ./examples/text_matching/simnet/ ) | 百度自研的语义匹配框架,使用BOW、CNN、GRNN等核心网络作为表示层,在百度内搜索、推荐等多个应用场景得到广泛易用。|
183
183
| [ ERNIE] ( ./examples/text_matching/ernie_matching/ ) | 基于ERNIE使用LCQMC数据完成中文句对匹配任务,提供了Pointwise和Pairwise两种类型学习方式。 |
184
- | [ Sentence-BERT] ( ./examples/text_matching/sentence_transformers/ ) | 提供基于Siamese双塔结构的文本匹配模型[ Sentence-BERT] ( https://arxiv.org/abs/1908.1008 ) 实现,可用于获取文本的向量化表示。
184
+ | [ Sentence-BERT] ( ./examples/text_matching/sentence_transformers/ ) | 提供基于Siamese双塔结构的文本匹配模型[ Sentence-BERT] ( https://arxiv.org/abs/1908.1008 ) 实现,可用于获取文本的向量化表示。 |
185
185
| [ SimBERT] ( ./examples/text_matching/simbert/ ) | 提供[ SimBERT] ( https://github.com/ZhuiyiTechnology/simbert ) 模型实现,用于获取文本的向量化表示。|
186
186
187
187
#### 文本生成 (Text Generation)
188
+
188
189
| 模型 | 简介 |
189
190
| :------------ | ---------- |
190
191
| [ Seq2Seq] ( ./examples/text_generation/couplet ) | 实现了经典的Seq2Seq with Attention的网络结构,并提供在自动对联的文本生成应用示例。 |
191
192
| [ VAE-Seq2Seq] ( ./examples/text_generation/vae-seq2seq ) | 在Seq2Seq框架基础上,加入VAE结构以实现更加多样化的文本生成。|
192
193
| [ ERNIE-GEN] ( ./examples/text_generation/ernie-gen ) | [ ERNIE-GEN] ( https://arxiv.org/abs/2001.11314 ) 是百度NLP提出的基于多流(multi-flow)机制生成完整语义片段的预训练模型,基于该模型实现了提供了智能写诗的应用示例。|
193
194
195
+ #### 文本纠错 (Text Correction)
196
+
197
+ | 模型 | 简介 |
198
+ | :------------ | ---------- |
199
+ | [ ERNIE-CSC] ( ./examples/text_correction/ernie-csc ) :star1: | [ ERNIE-CSC] ( https://aclanthology.org/2021.findings-acl.198.pdf ) 是基于ERNIE预训练模型融合了拼音特征的端到端中文拼写纠错模型,在SIGHAN数据集上取得SOTA的效果。|
200
+
194
201
#### 语义索引 (Semantic Indexing)
195
202
196
203
提供一套完整的语义索引开发流程,并提供了In-Batch Negative和Hardest Negatives两种策略,开发者可基于该示例实现一个轻量级的语义索引系统,更多信息请查看[ 语义索引应用示例] ( ./examples/semantic_indexing/ ) 。
197
204
198
205
#### 信息抽取 (Information Extraction)
206
+
199
207
| 任务 | 简介 |
200
208
| :--------------- | ---- |
201
209
| [ DuEE] ( ./examples/information_extraction/DuEE/ ) | 基于[ DuEE] ( https://link.springer.com/chapter/10.1007/978-3-030-60457-8_44 ) 数据集,使用预训练模型的方式提供句子级和篇章级的事件抽取示例。 |
@@ -244,18 +252,17 @@ PaddleNLP提供了多粒度、多场景的NLP应用示例,面向动态图模
244
252
245
253
:star2 : [ ** 解语** ] ( ./examples/text_to_knowledge/ ) 是由百度知识图谱部开发的文本知识关联框架,覆盖中文全词类的知识库和知识标注工具,能够帮助开发者面对更加多元的应用场景,方便地融合自有知识体系,显著提升中文文本解析和挖掘效果,还可以便捷地利用知识增强机器学习模型效果。
246
254
247
- - [ TermTree: 中文全词类的知识库] ( ./examples/text_to_knowledge/termtree ) :star2 :
248
- - [ WordTag: 中文词类知识标注工具] ( ./examples/text_to_knowledge/wordtag ) :star2 :
255
+ * [ TermTree: 中文全词类的知识库] ( ./examples/text_to_knowledge/termtree ) :star2 :
256
+ * [ WordTag: 中文词类知识标注工具] ( ./examples/text_to_knowledge/wordtag ) :star2 :
249
257
250
258
#### 文本图学习 (Text Graph Learning)
251
259
252
260
| 模型 | 简介 |
253
261
| :------------ | ------- |
254
- | [ ERNIESage] ( ./examples/text_graph/erniesage ) | 基于[ 飞桨PGL] ( https://github.com/PaddlePaddle/PGL ) 图学习框架结合PaddleNLP Transformer API实现的文本图学习模型 。|
262
+ | [ ERNIESage] ( ./examples/text_graph/erniesage ) | 基于[ 飞桨PGL] ( https://github.com/PaddlePaddle/PGL ) 图学习框架结合PaddleNLP Transformer API实现的文本与图结构融合的模型 。|
255
263
256
264
#### 模型压缩 (Model Compression)
257
265
258
-
259
266
| 模型 | 简介 |
260
267
| :--------------------------------------------------------- | ------------------------------------------------------------ |
261
268
| [ MiniLMv2] ( examples/model_compression/minilmv2 ) :star2 : | 基于[ MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers] ( https://arxiv.org/abs/2012.15828 ) 论文策略的实现,是一种通用蒸馏方法。本实例以` bert-base-chinese ` 为教师模型,利用中文数据进行了通用蒸馏。 |
0 commit comments