@@ -111,6 +111,7 @@ my_seg("平原上的火焰计划于年末上映")
111
111
#### 可配置参数说明
112
112
113
113
* ` batch_size ` :批处理大小,请结合机器情况进行调整,默认为1。
114
+ * ` custom_vocab ` :用户自定义词典文件,默认为None。
114
115
115
116
### 词性标注
116
117
@@ -169,6 +170,7 @@ my_pos("赛里木湖是新疆海拔最高的高山湖泊")
169
170
#### 可配置参数说明
170
171
171
172
* ` batch_size ` :批处理大小,请结合机器情况进行调整,默认值为1。
173
+ * ` custom_vocab ` :用户自定义词典文件,默认为None。
172
174
173
175
### 命名实体识别
174
176
@@ -183,9 +185,67 @@ ner(["热梅茶是一道以梅子为主要原料制作的茶饮", "《孤女》
183
185
>> > [[(' 热梅茶' , ' 饮食类_饮品' ), (' 是' , ' 肯定词' ), (' 一道' , ' 数量词' ), (' 以' , ' 介词' ), (' 梅子' , ' 饮食类' ), (' 为' , ' 肯定词' ), (' 主要原料' , ' 物体类' ), (' 制作' , ' 场景事件' ), (' 的' , ' 助词' ), (' 茶饮' , ' 饮食类_饮品' )], [(' 《' , ' w' ), (' 孤女' , ' 作品类_实体' ), (' 》' , ' w' ), (' 是' , ' 肯定词' ), (' 2010年' , ' 时间类' ), (' 九州出版社' , ' 组织机构类' ), (' 出版' , ' 场景事件' ), (' 的' , ' 助词' ), (' 小说' , ' 作品类_概念' ), (' ,' , ' w' ), (' 作者' , ' 人物类_概念' ), (' 是' , ' 肯定词' ), (' 余兼羽' , ' 人物类_实体' )]]
184
186
```
185
187
188
+ - 标签集合:
189
+
190
+ | 人物类_实体| 物体类| 生物类_动物| 医学术语类| 链接地址| 肯定词|
191
+ | 人物类_概念| 物体类_兵器| 品牌名| 术语类_生物体| 个性特征| 否定词|
192
+ | 作品类_实体| 物体类_化学物质| 场所类| 疾病损伤类| 感官特征| 数量词|
193
+ | 作品类_概念| 其他角色类| 场所类_交通场所| 疾病损伤类_植物病虫害| 场景事件| 叹词|
194
+ | 组织机构类| 文化类| 位置方位| 宇宙类| 介词| 拟声词|
195
+ | 组织机构类_企事业单位| 文化类_语言文字| 世界地区类| 事件类| 介词_方位介词| 修饰词|
196
+ | 组织机构类_医疗卫生机构| 文化类_奖项赛事活动| 饮食类| 时间类| 助词| 外语单词|
197
+ | 组织机构类_国家机关| 文化类_制度政策协议| 饮食类_菜品| 时间类_特殊日| 代词| 英语单词|
198
+ | 组织机构类_体育组织机构| 文化类_姓氏与人名| 饮食类_饮品| 术语类| 连词| 汉语拼音|
199
+ | 组织机构类_教育组织机构| 生物类| 药物类| 术语类_符号指标类| 副词| 词汇用语|
200
+ | 组织机构类_军事组织机构| 生物类_植物| 药物类_中药| 信息资料| 疑问词| w(标点)|
201
+
202
+ #### 自定义词典
203
+
204
+ 用户可以通过装载自定义词典来定制化分词和词性标注结果。
205
+
206
+ 词典文件` custom_ner.txt ` 示例:
207
+
208
+ ``` text
209
+ 长津湖/电影类_实体
210
+ 收/词汇用语 尾/术语类
211
+ 最 大
212
+ 海外票仓
213
+ ```
214
+
215
+ 以"《长津湖》收尾,北美是最大海外票仓"为例,原本的输出结果为:
216
+
217
+ ``` text
218
+ [('《', 'w'), ('长津湖', '作品类_实体'), ('》', 'w'), ('收尾', '场景事件'), (',', 'w'), ('北美', '世界地区类'), ('是', '肯定词'), ('最大', '修饰词'), ('海外', '场所类'), ('票仓', '词汇用语')]
219
+ ```
220
+
221
+ 装载自定义词典及输出结果示例:
222
+
223
+ ``` python
224
+ from paddlenlp import Taskflow
225
+
226
+ my_ner = Taskflow(" ner" , custom_vocab = " custom_ner.txt" )
227
+ my_ner(" 《长津湖》收尾,北美是最大海外票仓" )
228
+ >> > [(' 《' , ' w' ), (' 长津湖' , ' 电影类_实体' ), (' 》' , ' w' ), (' 收' , ' 词汇用语' ), (' 尾' , ' 术语类' ), (' ,' , ' w' ), (' 北美' , ' 世界地区类' ), (' 是' , ' 肯定词' ), (' 最' , ' 修饰词' ), (' 大' , ' 修饰词' ), (' 海外票仓' , ' 场所类' )]
229
+ ```
230
+
231
+ #### 自定义NER模型
232
+
233
+ 用户可以使用自己的数据训练自定义NER模型,参考[ NER-WordTag增量训练示例] ( https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge/ernie-ctm ) 。
234
+
235
+ 使用Taskflow加载自定义模型进行一键预测:
236
+
237
+ ``` shell
238
+ from paddlenlp import Taskflow
239
+
240
+ my_ner = Taskflow(" ner" , params_path=" /path/to/your/params" , tag_path=" /path/to/your/tag" )
241
+ ```
242
+
186
243
#### 可配置参数说明
187
244
188
245
* ` batch_size ` :批处理大小,请结合机器情况进行调整,默认为1。
246
+ * ` custom_vocab ` :用户自定义词典文件,默认为None。
247
+ * ` params_path ` :模型参数文件路径,默认为None。
248
+ * ` tag_path ` :标签文件路径,默认为None。
189
249
190
250
### 文本纠错
191
251
0 commit comments