@@ -83,9 +83,9 @@ seg(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
83
83
84
84
#### 自定义词典
85
85
86
- 用户可以通过装载自定义词典来定制化分词结果。
86
+ 用户可以通过装载自定义词典来定制化分词结果。词典文件每一行表示一个自定义item,可以由一个单词或者多个单词组成。
87
87
88
- 词典文件` custom_seg .txt` 示例:
88
+ 词典文件` user_dict .txt` 示例:
89
89
90
90
``` text
91
91
平原上的火焰
@@ -103,14 +103,15 @@ seg(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
103
103
``` python
104
104
from paddlenlp import Taskflow
105
105
106
- my_seg = Taskflow(" word_segmentation" , custom_vocab = " custom_seg .txt" )
106
+ my_seg = Taskflow(" word_segmentation" , user_dict = " user_dict .txt" )
107
107
my_seg(" 平原上的火焰计划于年末上映" )
108
108
>> > [' 平原上的火焰' , ' 计划' , ' 于' , ' 年' , ' 末' , ' 上映' ]
109
109
```
110
110
111
111
#### 可配置参数说明
112
112
113
113
* ` batch_size ` :批处理大小,请结合机器情况进行调整,默认为1。
114
+ * ` user_dict ` :用户自定义词典文件,默认为None。
114
115
115
116
### 词性标注
116
117
@@ -139,9 +140,9 @@ tag(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
139
140
140
141
#### 自定义词典
141
142
142
- 用户可以通过装载自定义词典来定制化分词和词性标注结果。
143
+ 用户可以通过装载自定义词典来定制化分词和词性标注结果。词典文件每一行表示一个自定义item,可以由一个单词或者多个单词组成,单词后面可以添加自定义标签,格式为 ` item/tag ` ,如果不添加自定义标签,则使用模型默认标签。
143
144
144
- 词典文件` custom_pos .txt` 示例:
145
+ 词典文件` user_dict .txt` 示例:
145
146
146
147
``` text
147
148
赛里木湖/LAKE
@@ -161,14 +162,15 @@ tag(["第十四届全运会在西安举办", "三亚是一个美丽的城市"])
161
162
``` python
162
163
from paddlenlp import Taskflow
163
164
164
- my_pos = Taskflow(" pos_tagging" , custom_vocab = " custom_pos .txt" )
165
+ my_pos = Taskflow(" pos_tagging" , user_dict = " user_dict .txt" )
165
166
my_pos(" 赛里木湖是新疆海拔最高的高山湖泊" )
166
167
>> > [(' 赛里木湖' , ' LAKE' ), (' 是' , ' v' ), (' 新疆' , ' LOC' ), (' 海拔最高' , ' n' ), (' 的' , ' u' ), (' 高' , ' a' ), (' 山' , ' n' ), (' 湖' , ' n' ), (' 泊' , ' n' )]
167
168
```
168
169
169
170
#### 可配置参数说明
170
171
171
172
* ` batch_size ` :批处理大小,请结合机器情况进行调整,默认值为1。
173
+ * ` user_dict ` :用户自定义词典文件,默认为None。
172
174
173
175
### 命名实体识别
174
176
@@ -183,9 +185,53 @@ ner(["热梅茶是一道以梅子为主要原料制作的茶饮", "《孤女》
183
185
>> > [[(' 热梅茶' , ' 饮食类_饮品' ), (' 是' , ' 肯定词' ), (' 一道' , ' 数量词' ), (' 以' , ' 介词' ), (' 梅子' , ' 饮食类' ), (' 为' , ' 肯定词' ), (' 主要原料' , ' 物体类' ), (' 制作' , ' 场景事件' ), (' 的' , ' 助词' ), (' 茶饮' , ' 饮食类_饮品' )], [(' 《' , ' w' ), (' 孤女' , ' 作品类_实体' ), (' 》' , ' w' ), (' 是' , ' 肯定词' ), (' 2010年' , ' 时间类' ), (' 九州出版社' , ' 组织机构类' ), (' 出版' , ' 场景事件' ), (' 的' , ' 助词' ), (' 小说' , ' 作品类_概念' ), (' ,' , ' w' ), (' 作者' , ' 人物类_概念' ), (' 是' , ' 肯定词' ), (' 余兼羽' , ' 人物类_实体' )]]
184
186
```
185
187
188
+ #### 自定义词典
189
+
190
+ 用户可以通过装载自定义词典来定制化分词和词性标注结果。词典文件每一行表示一个自定义item,可以由一个单词或者多个单词组成,单词后面可以添加自定义标签,格式为` item/tag ` ,如果不添加自定义标签,则使用模型默认标签。
191
+
192
+ 词典文件` user_dict.txt ` 示例:
193
+
194
+ ``` text
195
+ 长津湖/电影类_实体
196
+ 收/词汇用语 尾/术语类
197
+ 最 大
198
+ 海外票仓
199
+ ```
200
+
201
+ 以"《长津湖》收尾,北美是最大海外票仓"为例,原本的输出结果为:
202
+
203
+ ``` text
204
+ [('《', 'w'), ('长津湖', '作品类_实体'), ('》', 'w'), ('收尾', '场景事件'), (',', 'w'), ('北美', '世界地区类'), ('是', '肯定词'), ('最大', '修饰词'), ('海外', '场所类'), ('票仓', '词汇用语')]
205
+ ```
206
+
207
+ 装载自定义词典及输出结果示例:
208
+
209
+ ``` python
210
+ from paddlenlp import Taskflow
211
+
212
+ my_ner = Taskflow(" ner" , user_dict = " user_dict.txt" )
213
+ my_ner(" 《长津湖》收尾,北美是最大海外票仓" )
214
+ >> > [(' 《' , ' w' ), (' 长津湖' , ' 电影类_实体' ), (' 》' , ' w' ), (' 收' , ' 词汇用语' ), (' 尾' , ' 术语类' ), (' ,' , ' w' ), (' 北美' , ' 世界地区类' ), (' 是' , ' 肯定词' ), (' 最' , ' 修饰词' ), (' 大' , ' 修饰词' ), (' 海外票仓' , ' 场所类' )]
215
+ ```
216
+
217
+ #### 自定义NER模型
218
+
219
+ 用户可以使用自己的数据训练自定义NER模型,参考[ NER-WordTag增量训练示例] ( https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/ernie-ctm ) 。
220
+
221
+ 使用Taskflow加载自定义模型进行一键预测:
222
+
223
+ ``` shell
224
+ from paddlenlp import Taskflow
225
+
226
+ my_ner = Taskflow(" ner" , params_path=" /path/to/your/params" , tag_path=" /path/to/your/tag" )
227
+ ```
228
+
186
229
#### 可配置参数说明
187
230
188
231
* ` batch_size ` :批处理大小,请结合机器情况进行调整,默认为1。
232
+ * ` user_dict ` :用户自定义词典文件,默认为None。
233
+ * ` params_path ` :模型参数文件路径,默认为None。
234
+ * ` tag_path ` :标签文件路径,默认为None。
189
235
190
236
### 文本纠错
191
237
0 commit comments