File tree Expand file tree Collapse file tree 16 files changed +21
-23
lines changed
advanced_guide/fastergeneration Expand file tree Collapse file tree 16 files changed +21
-23
lines changed Original file line number Diff line number Diff line change @@ -256,7 +256,7 @@ PaddleNLP提供了多粒度、多场景的NLP应用示例,面向动态图模
256
256
| 模型 | 简介 |
257
257
| :--------------------------------------------------------- | ------------------------------------------------------------ |
258
258
| [ MiniLMv2] ( examples/model_compression/minilmv2 ) | 基于[ MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers] ( https://arxiv.org/abs/2012.15828 ) 论文策略的实现,是一种通用蒸馏方法。本实例以` bert-base-chinese ` 为教师模型,利用中文数据进行了通用蒸馏。 |
259
- | [ TinyBERT] ( ./examples/model_compression /tinybert ) | 基于论文[ TinyBERT: Distilling BERT for Natural Language Understanding] ( https://arxiv.org/abs/1909.10351 ) 的实现,提供了通用蒸馏和下游任务蒸馏的脚本。本实例利用开源模型` tinybert-6l-768d-v2 ` 初始化,在GLUE的7个数据集上进行下游任务的蒸馏,最终模型参数量缩小1/2,预测速度提升2倍,同时保证模型精度几乎无损,其中精度可达教师模型` bert-base-uncased ` 的 98.90%。 |
259
+ | [ TinyBERT] ( ./model_zoo /tinybert ) | 基于论文[ TinyBERT: Distilling BERT for Natural Language Understanding] ( https://arxiv.org/abs/1909.10351 ) 的实现,提供了通用蒸馏和下游任务蒸馏的脚本。本实例利用开源模型` tinybert-6l-768d-v2 ` 初始化,在GLUE的7个数据集上进行下游任务的蒸馏,最终模型参数量缩小1/2,预测速度提升2倍,同时保证模型精度几乎无损,其中精度可达教师模型` bert-base-uncased ` 的 98.90%。 |
260
260
| [ OFA-BERT] ( ./examples/model_compression/ofa/ ) | 基于PaddleSlim Once-For-ALL(OFA)策略对BERT在GLUE任务的下游模型进行压缩,在精度无损的情况下可减少33%参数量,达到模型小型化的提速的效果。 |
261
261
| [ Distill-LSTM] ( ./examples/model_compression/distill_lstm/ ) | 基于[ Distilling Task-Specific Knowledge from BERT into Simple Neural Networks] ( https://arxiv.org/abs/1903.12136 ) 论文策略的实现,将BERT中英文分类的下游模型知识通过蒸馏的方式迁移至LSTM的小模型结构中,取得比LSTM单独训练更好的效果。 |
262
262
| [ PP-MiniLM] ( examples/model_compression/pp-minilm ) :star2 : | 基于 PaddleSlim 通过模型蒸馏、剪裁、量化等级联模型压缩技术发布中文特色小模型 PP-MiniLM(6L768H) 及压缩方案,保证模型精度的同时模型推理速度达 BERT-base 的4.2倍,参数量相比减少52%,模型精度在中文语言理解评测基准 CLUE 高0.32。 |
Original file line number Diff line number Diff line change 1
1
# 详细介绍
2
- 本权重为使用PaddleNLP提供的[ ERNIE-1.0预训练教程] ( https://github.com/PaddlePaddle/PaddleNLP/blob/develop/examples/language_model /ernie-1.0 ) ,在CLUECorpusSmall 14g数据集上训练得到的权重。
2
+ 本权重为使用PaddleNLP提供的[ ERNIE-1.0预训练教程] ( https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo /ernie-1.0 ) ,在CLUECorpusSmall 14g数据集上训练得到的权重。
3
3
4
4
本模型结构与ernie-1.0完全相同。使用训练配置` batch_size=512, max_steps=100w ` , 训练得到。模型使用方法与原始ernie-1.0权重相同。
5
5
6
- 预训练全流程参见:https://github.com/PaddlePaddle/PaddleNLP/blob/develop/examples/language_model /ernie-1.0/README.md
6
+ 预训练全流程参见:https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo /ernie-1.0/README.md
7
7
8
8
# 使用示例
9
9
Original file line number Diff line number Diff line change @@ -93,7 +93,7 @@ FasterGeneration是PaddleNLP v2.2版本加入的一个高性能推理功能,
93
93
除了以上简单示例之外,PaddleNLP的examples中所有使用了 `model.generate() ` 的示例都可以通过调整到合适的参数使用高性能推理。具体如下:
94
94
95
95
- `examples/dialogue/unified_transformer <https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/dialogue/unified_transformer >`_
96
- - `examples/language_model/ gpt/faster_gpt <https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/language_model /gpt/faster_gpt >`_
96
+ - `model_zoo/ gpt/faster_gpt <https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo /gpt/faster_gpt >`_
97
97
- `examples/text_generation/unimo-text <https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_generation/unimo-text >`_
98
98
- `examples/text_summarization/bart <https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_summarization/bart >`_
99
99
Original file line number Diff line number Diff line change @@ -976,7 +976,7 @@ seg_accurate(texts)
976
976
<details ><summary ><b >参考资料</b > </summary ><div >
977
977
978
978
1 . [ fxsjy/jieba] ( https://github.com/fxsjy/jieba )
979
- 2 . [ ZhuiyiTechnology/simbert] ( https://github.com/ZhuiyiTechnology/simbert )
979
+ 2 . [ ZhuiyiTechnology/simbert] ( https://github.com/ZhuiyiTechnology/simbert )
980
980
3 . [ CPM: A Large-scale Generative Chinese Pre-trained Language Model] ( https://arxiv.org/abs/2012.00413 )
981
981
982
982
</div ></details >
Original file line number Diff line number Diff line change @@ -81,7 +81,7 @@ if training_args.do_train:
81
81
trainer.log_metrics(" train" , metrics)
82
82
trainer.save_state()
83
83
```
84
- 预训练的使用方式可以参考[ ERNIE-1.0 Trainer] ( https://github.com/PaddlePaddle/PaddleNLP/blob/develop/examples/language_model /ernie-1.0/run_pretrain_trainer.py ) 版本。
84
+ 预训练的使用方式可以参考[ ERNIE-1.0 Trainer] ( https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo /ernie-1.0/run_pretrain_trainer.py ) 版本。
85
85
86
86
87
87
## Trainer 实例化参数介绍
Original file line number Diff line number Diff line change @@ -163,7 +163,7 @@ mpirun -n 4 python gpt_mp_sample.py --tensor_para_size 4 --layer_para_size 1
163
163
除了以上示例之外,PaddleNLP的examples中大多使用了` model.generate ` 的示例都可以通过调整到合适的参数使用高性能推理。具体如下:
164
164
165
165
- [ examples/dialogue/unified_transformer] ( https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/dialogue/unified_transformer )
166
- - [ examples/language_model/ gpt/faster_gpt] ( https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/language_model /gpt/faster_gpt )
166
+ - [ model_zoo/ gpt/faster_gpt] ( https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo /gpt/faster_gpt )
167
167
- [ examples/text_generation/unimo-text] ( https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_generation/unimo-text )
168
168
- [ examples/text_summarization/bart] ( https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_summarization/bart )
169
169
Original file line number Diff line number Diff line change 14
14
15
15
16
16
## ** 模型预训练**
17
- 模型预训练过程可参考[ Electra的README] ( https://github.com/PaddlePaddle/PaddleNLP/blob/develop/examples/language_model /electra/README.md )
17
+ 模型预训练过程可参考[ Electra的README] ( https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo /electra/README.md )
18
18
19
19
## ** Fine-tuning**
20
20
Original file line number Diff line number Diff line change @@ -18,7 +18,7 @@ Fine-tuning 使用GLUE数据,这部分Paddle已提供,在执行Fine-tuning
18
18
19
19
20
20
## ** 模型预训练**
21
- 模型预训练过程可参考[ Electra的README] ( https://github.com/PaddlePaddle/PaddleNLP/blob/develop/examples/language_model /electra/README.md )
21
+ 模型预训练过程可参考[ Electra的README] ( https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo /electra/README.md )
22
22
23
23
## ** Fine-tuning**
24
24
Original file line number Diff line number Diff line change 1
1
## ERNIE
2
2
3
- 注:PaddleNLP提供了最新版本的Ernie预训练代码,采用了全新的数据流设置。请使用[ ernie-1.0] ( ../../ernie-1.0 ) 目录训练模型。不建议本示例进行模型训练任务。
3
+ 注:PaddleNLP提供了最新版本的Ernie预训练代码,采用了全新的数据流设置。请使用[ ernie-1.0] ( ../../../../model_zoo/ ernie-1.0 ) 目录训练模型。不建议本示例进行模型训练任务。
4
4
5
5
ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架,它将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的知识,实现模型效果不断进化。
6
6
Original file line number Diff line number Diff line change 3
3
## 模型介绍
4
4
GPT-[ 3] ( https://arxiv.org/pdf/2005.14165.pdf ) 是以[ Transformer] ( https://arxiv.org/abs/1706.03762 ) 为基础的语言生成模型。GPT-3模型的最大参数量可以达到170B,如此大规模参数的模型对于训练使用的深度学习框架是一个巨大的挑战。
5
5
6
- 本示例主要提供了GPT-3的训练过程,数据准备、预测部署等内容请参见[ GPT] ( ../gpt ) 目录。
6
+ 本示例主要提供了GPT-3的训练过程,数据准备、预测部署等内容请参见[ GPT] ( ../../../model_zoo/ gpt ) 目录。
7
7
本示例包含了GPT-3的[ 静态图] ( ./static ) 和动态图的多级并行训练流程。
8
8
用户可以根据自己的需求,训练GPT-3模型,或者参考本示例,使用模型并行、流水线并行等策略,开发训练其他大模型。
9
9
You can’t perform that action at this time.
0 commit comments