Skip to content

Commit a3e92bb

Browse files
authored
Merge pull request #3438 from westfish/qg-taskflow
add qg-taskflow
2 parents 6011ed8 + 426b757 commit a3e92bb

File tree

6 files changed

+588
-4
lines changed

6 files changed

+588
-4
lines changed

docs/model_zoo/taskflow.md

Lines changed: 51 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,7 @@
11
# PaddleNLP一键预测功能:Taskflow API
22

33

4+
45
<p align="left">
56
<a href="https://pypi.org/project/paddlenlp/"><img src="https://img.shields.io/pypi/v/paddlenlp.svg?label=pip&logo=PyPI&logoColor=white"></a>
67
<a href="https://github.com/PaddlePaddle/PaddleNLP/releases"><img src="https://img.shields.io/github/v/release/PaddlePaddle/PaddleNLP?color=ffa"></a>
@@ -44,7 +45,7 @@ PaddleNLP提供**开箱即用**的产业级NLP预置任务能力,无需训练
4445
| [文图生成](#文图生成) | `Taskflow("text_to_image")` |||| | | 文图生成大模型 |
4546
| [文本摘要](#文本摘要) | `Taskflow("text_summarization")` ||||| | 文本摘要大模型 |
4647
| [文档智能](#文档智能) | `Taskflow("document_intelligence")` ||||| | 基于跨模态通用文档预训练模型ERNIE-LayoutX |
47-
48+
| [问题生成](#问题生成) | `Taskflow("question_generation")` ||||| | 问题生成大模型 |
4849

4950
## QuickStart
5051

@@ -1620,6 +1621,55 @@ from paddlenlp import Taskflow
16201621

16211622
</div></details>
16221623

1624+
### 问题生成
1625+
<details><summary>&emsp; 通过UNIMO-Text模型来根据上下文和答案生成问题 </summary><div>
1626+
1627+
#### 支持单条、批量预测
1628+
1629+
```python
1630+
>>> from paddlenlp import Taskflow
1631+
# 默认模型为 unimo-text-1.0-dureader_qg-template1
1632+
>>> question_generator = Taskflow("question_generation")
1633+
# 单条输入
1634+
>>> question_generator([
1635+
{"context": "奇峰黄山千米以上的山峰有77座,整座黄山就是一座花岗岩的峰林,自古有36大峰,36小峰,最高峰莲花峰、最险峰天都峰和观日出的最佳点光明顶构成黄山的三大主峰。", "answer": "莲花峰"}
1636+
])
1637+
'''
1638+
['黄山最高峰是什么']
1639+
'''
1640+
# 多条输入
1641+
>>> question_generator([
1642+
{"context": "奇峰黄山千米以上的山峰有77座,整座黄山就是一座花岗岩的峰林,自古有36大峰,36小峰,最高峰莲花峰、最险峰天都峰和观日出的最佳点光明顶构成黄山的三大主峰。", "answer": "莲花峰"},
1643+
{"context": "弗朗索瓦·韦达外文名:franciscusvieta国籍:法国出生地:普瓦图出生日期:1540年逝世日期:1603年12月13日职业:数学家主要成就:为近代数学的发展奠定了基础。", "answer": "法国"}
1644+
])
1645+
'''
1646+
['黄山最高峰是什么', '弗朗索瓦是哪里人']
1647+
'''
1648+
```
1649+
1650+
#### 可配置参数说明
1651+
* `model`:可选模型,默认为unimo-text-1.0-dureader_qg-template1,支持的模型支持的模型有["unimo-text-1.0", "unimo-text-1.0-dureader_qg-template1", ]
1652+
* `device`:运行设备,默认为"gpu"。
1653+
* `template`:模版,可选项有[0, 1, 2, 3],1表示使用默认模版,0表示不使用模版。
1654+
* `batch_size`:批处理大小,请结合机器情况进行调整,默认为1。
1655+
* `output_scores`:是否要输出解码得分,默认为False。
1656+
* `is_select_from_num_return_sequences`:是否对多个返回序列挑选最优项输出,当为True时,若num_return_sequences不为1则自动根据解码得分选择得分最高的序列最为最终结果,否则返回num_return_sequences个序列,默认为True。
1657+
* `max_length`:生成代码的最大长度,默认为50。
1658+
* `min_length`:生成代码的最小长度,默认为3。
1659+
* `decode_strategy`:解码策略,支持beam_search和sampling,默认为beam_search。
1660+
* `temperature`:解码参数temperature,默认为1.0。
1661+
* `top_k`:解码参数top_k,默认为0。
1662+
* `top_p`:解码参数top_p,默认为1.0。
1663+
* `num_beams`:解码参数num_beams,表示beam_search解码的beam size,默认为6。
1664+
* `num_beam_groups`:解码参数num_beam_groups,默认为1。
1665+
* `diversity_rate`:解码参数diversity_rate,默认为0.0。
1666+
* `length_penalty`:解码长度控制值,默认为1.2。
1667+
* `num_return_sequences`:解码返回序列数,默认为1。
1668+
* `repetition_penalty`:解码重复惩罚值,默认为1。
1669+
* `use_faster`:表示是否开启基于FasterTransformer的高性能预测,注意FasterTransformer的高性能预测仅支持gpu,默认为False。
1670+
* `use_fp16_decoding`: 表示在开启高性能预测的时候是否使用fp16来完成预测过程,若不使用则使用fp32,默认为False。
1671+
1672+
</div></details>
16231673

16241674
## PART Ⅱ &emsp; 定制化训练
16251675

examples/question_generation/unimo-text/README.md

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -14,7 +14,7 @@
1414
- [数据准备](#数据准备)
1515
- [数据加载](#数据加载)
1616
- [数据处理](#数据处理)
17-
- [从本地文件创建数据集(可选)](#从本地文件创建数据集(可选))
17+
- [从本地文件创建数据集-可选](#从本地文件创建数据集-可选)
1818
- [模型训练](#模型训练)
1919
- [模型预测](#模型预测)
2020
- [模型转换部署](#模型转换部署)
@@ -117,8 +117,8 @@ train_ds, dev_ds = load_dataset('dureader_qg', splits=('train', 'dev'))
117117
问题: <question_text>
118118
```
119119

120-
#### 从本地文件创建数据集(可选)
121-
在许多情况下,我们需要使用本地数据集来训练我们的文本分类模型,本项目支持使用固定格式本地数据集文件进行训练。
120+
#### 从本地文件创建数据集-可选
121+
在许多情况下,我们需要使用本地数据集来训练我们的问题生成模型,本项目支持使用固定格式本地数据集文件进行训练。
122122
使用本地文件,只需要在模型训练时指定`train_file` 为本地训练数据地址,`predict_file` 为本地测试数据地址即可。
123123

124124
本地数据集目录结构如下:

0 commit comments

Comments
 (0)