@@ -41,21 +41,131 @@ WordTag模型对所有的词预测到上位词类之后,会直接根据预测
41
41
WordTag共包含66种词性及专名类别标签,标签集合如下表
42
42
43
43
<table >
44
+ <thead>
45
+ <th colspan='7'>WordTag标签集合</th>
46
+ </thead>
47
+ <tbody>
48
+ <tr>
49
+ <td>人物类_实体</td>
50
+ <td>组织机构类_军事组织机构_概念</td>
51
+ <td>文化类_制度政策协议</td>
52
+ <td>位置方位</td>
53
+ <td>术语类_医药学术语</td>
54
+ <td>信息资料_性别</td>
55
+ <td>否定词</td>
56
+ </tr>
57
+ <tr>
58
+ <td>人物类_概念</td>
59
+ <td>组织机构类_医疗卫生机构</td>
60
+ <td>文化类_姓氏与人名</td>
61
+ <td>世界地区类</td>
62
+ <td>术语类_生物体</td>
63
+ <td>链接地址</td>
64
+ <td>数量词</td>
65
+ </tr>
66
+ <tr>
67
+ <td>作品类_实体</td>
68
+ <td>组织机构类_医疗卫生机构_概念</td>
69
+ <td>生物类</td>
70
+ <td>世界地区类_国家</td>
71
+ <td>疾病损伤类</td>
72
+ <td>个性特征</td>
73
+ <td>数量词_序数词</td>
74
+ </tr>
75
+ <tr>
76
+ <td>作品类_概念</td>
77
+ <td>组织机构类_教育组织机构</td>
78
+ <td>生物类_植物</td>
79
+ <td>世界地区类_区划概念</td>
80
+ <td>疾病损伤类_植物病虫害</td>
81
+ <td>感官特征</td>
82
+ <td>数量词_单位数量词</td>
83
+ </tr>
84
+ <tr>
85
+ <td>组织机构类</td>
86
+ <td>组织机构类_教育组织机构_概念</td>
87
+ <td>生物类_动物</td>
88
+ <td>世界地区类_地理概念</td>
89
+ <td>宇宙类</td>
90
+ <td>场景事件</td>
91
+ <td>叹词</td>
92
+ </tr>
93
+ <tr>
94
+ <td>组织机构类_概念</td>
95
+ <td>物体类</td>
96
+ <td>品牌名</td>
97
+ <td>饮食类</td>
98
+ <td>事件类</td>
99
+ <td>介词</td>
100
+ <td>拟声词</td>
101
+ </tr>
102
+ <tr>
103
+ <td>组织机构类_企事业单位</td>
104
+ <td>物体类_概念</td>
105
+ <td>品牌名_品牌类型</td>
106
+ <td>饮食类_菜品</td>
107
+ <td>时间类</td>
108
+ <td>介词_方位介词</td>
109
+ <td>修饰词</td>
110
+ </tr>
111
+ <tr>
112
+ <td>组织机构类_企事业单位_概念</td>
113
+ <td>物体类_兵器</td>
114
+ <td>场所类</td>
115
+ <td>饮食类_饮品</td>
116
+ <td>时间类_特殊日</td>
117
+ <td>助词</td>
118
+ <td>修饰词_性质</td>
119
+ </tr>
120
+ <tr>
121
+ <td>组织机构类_国家机关</td>
122
+ <td>物体类_化学物质</td>
123
+ <td>场所类_概念</td>
124
+ <td>药物类</td>
125
+ <td>时间类_朝代</td>
126
+ <td>代词</td>
127
+ <td>修饰词_类型</td>
128
+ </tr>
129
+ <tr>
130
+ <td>组织机构类_国家机关_概念</td>
131
+ <td>其他角色类</td>
132
+ <td>场所类_交通场所</td>
133
+ <td>药物类_中药</td>
134
+ <td>时间类_具体时间</td>
135
+ <td>连词</td>
136
+ <td>修饰词_化</td>
137
+ </tr>
138
+ <tr>
139
+ <td>组织机构类_体育组织机构</td>
140
+ <td>文化类</td>
141
+ <td>场所类_交通场所_概念</td>
142
+ <td>术语类</td>
143
+ <td>时间类_时长</td>
144
+ <td>副词</td>
145
+ <td>外语单词</td>
146
+ </tr>
147
+ <tr>
148
+ <td>组织机构类_体育组织机构_概念</td>
149
+ <td>文化类_语言文字</td>
150
+ <td>场所类_网上场所</td>
151
+ <td>术语类_术语类型</td>
152
+ <td>词汇用语</td>
153
+ <td>疑问词</td>
154
+ <td>汉语拼音</td>
155
+ </tr>
156
+ <tr>
157
+ <td>组织机构类_军事组织机构</td>
158
+ <td>文化类_奖项赛事活动</td>
159
+ <td>场所类_网上场所_概念</td>
160
+ <td>术语类_符号指标类</td>
161
+ <td>信息资料</td>
162
+ <td>肯定词</td>
163
+ <td>w(标点)</td>
164
+ </tr>
165
+ </tbody>
166
+ </table >
44
167
45
- <tr ><th colspan =' 6 ' >WordTag标签集合
46
- <tr ><td >人物类_实体<td >物体类<td >生物类_动物<td >医学术语类<td >链接地址<td >肯定词
47
- <tr ><td >人物类_概念<td >物体类_兵器<td >品牌名<td >术语类_生物体<td >个性特征<td >否定词
48
- <tr ><td >作品类_实体<td >物体类_化学物质<td >场所类<td >疾病损伤类<td >感官特征<td >数量词
49
- <tr ><td >作品类_概念<td >其他角色类<td >场所类_交通场所<td >疾病损伤类_植物病虫害<td >场景事件<td >叹词
50
- <tr ><td >组织机构类<td >文化类<td >位置方位<td >宇宙类<td >介词<td >拟声词
51
- <tr ><td >组织机构类_企事业单位<td >文化类_语言文字<td >世界地区类<td >事件类<td >介词_方位介词<td >修饰词
52
- <tr ><td >组织机构类_医疗卫生机构<td >文化类_奖项赛事活动<td >饮食类<td >时间类<td >助词<td >外语单词
53
- <tr ><td >组织机构类_国家机关<td >文化类_制度政策协议<td >饮食类_菜品<td >时间类_特殊日<td >代词<td >英语单词
54
- <tr ><td >组织机构类_体育组织机构<td >文化类_姓氏与人名<td >饮食类_饮品<td >术语类<td >连词<td >汉语拼音
55
- <tr ><td >组织机构类_教育组织机构<td >生物类<td >药物类<td >术语类_符号指标类<td >副词<td >词汇用语
56
- <tr ><td >组织机构类_军事组织机构<td >生物类_植物<td >药物类_中药<td >信息资料<td >疑问词<td >w(标点)
57
168
58
- </table >
59
169
60
170
## WordTag应用场景
61
171
@@ -109,6 +219,10 @@ python predict.py --max_seq_len 128 --batch_size 2
109
219
110
220
Taskflow默认使用TermTreeV1.0实现Term-Linking, 用户也可以基于自己的TermTree实现Term-Linking,参见[ 自定义TermTree] ( ../termtree ) 。
111
221
222
+ ## Release Note
223
+
224
+ - 2022.06:新增25个细化词类,用于下游挖掘任务
225
+
112
226
## WordTag后续计划
113
227
114
228
1 . 持续优化知识标注模型,获得更加精准的标注结果;
0 commit comments