Skip to content

Commit 56783d9

Browse files
authored
update wordtag doc (#2393)
1 parent 75735a8 commit 56783d9

File tree

1 file changed

+127
-13
lines changed

1 file changed

+127
-13
lines changed

examples/text_to_knowledge/wordtag/README.md

Lines changed: 127 additions & 13 deletions
Original file line numberDiff line numberDiff line change
@@ -41,21 +41,131 @@ WordTag模型对所有的词预测到上位词类之后,会直接根据预测
4141
WordTag共包含66种词性及专名类别标签,标签集合如下表
4242

4343
<table>
44+
<thead>
45+
<th colspan='7'>WordTag标签集合</th>
46+
</thead>
47+
<tbody>
48+
<tr>
49+
<td>人物类_实体</td>
50+
<td>组织机构类_军事组织机构_概念</td>
51+
<td>文化类_制度政策协议</td>
52+
<td>位置方位</td>
53+
<td>术语类_医药学术语</td>
54+
<td>信息资料_性别</td>
55+
<td>否定词</td>
56+
</tr>
57+
<tr>
58+
<td>人物类_概念</td>
59+
<td>组织机构类_医疗卫生机构</td>
60+
<td>文化类_姓氏与人名</td>
61+
<td>世界地区类</td>
62+
<td>术语类_生物体</td>
63+
<td>链接地址</td>
64+
<td>数量词</td>
65+
</tr>
66+
<tr>
67+
<td>作品类_实体</td>
68+
<td>组织机构类_医疗卫生机构_概念</td>
69+
<td>生物类</td>
70+
<td>世界地区类_国家</td>
71+
<td>疾病损伤类</td>
72+
<td>个性特征</td>
73+
<td>数量词_序数词</td>
74+
</tr>
75+
<tr>
76+
<td>作品类_概念</td>
77+
<td>组织机构类_教育组织机构</td>
78+
<td>生物类_植物</td>
79+
<td>世界地区类_区划概念</td>
80+
<td>疾病损伤类_植物病虫害</td>
81+
<td>感官特征</td>
82+
<td>数量词_单位数量词</td>
83+
</tr>
84+
<tr>
85+
<td>组织机构类</td>
86+
<td>组织机构类_教育组织机构_概念</td>
87+
<td>生物类_动物</td>
88+
<td>世界地区类_地理概念</td>
89+
<td>宇宙类</td>
90+
<td>场景事件</td>
91+
<td>叹词</td>
92+
</tr>
93+
<tr>
94+
<td>组织机构类_概念</td>
95+
<td>物体类</td>
96+
<td>品牌名</td>
97+
<td>饮食类</td>
98+
<td>事件类</td>
99+
<td>介词</td>
100+
<td>拟声词</td>
101+
</tr>
102+
<tr>
103+
<td>组织机构类_企事业单位</td>
104+
<td>物体类_概念</td>
105+
<td>品牌名_品牌类型</td>
106+
<td>饮食类_菜品</td>
107+
<td>时间类</td>
108+
<td>介词_方位介词</td>
109+
<td>修饰词</td>
110+
</tr>
111+
<tr>
112+
<td>组织机构类_企事业单位_概念</td>
113+
<td>物体类_兵器</td>
114+
<td>场所类</td>
115+
<td>饮食类_饮品</td>
116+
<td>时间类_特殊日</td>
117+
<td>助词</td>
118+
<td>修饰词_性质</td>
119+
</tr>
120+
<tr>
121+
<td>组织机构类_国家机关</td>
122+
<td>物体类_化学物质</td>
123+
<td>场所类_概念</td>
124+
<td>药物类</td>
125+
<td>时间类_朝代</td>
126+
<td>代词</td>
127+
<td>修饰词_类型</td>
128+
</tr>
129+
<tr>
130+
<td>组织机构类_国家机关_概念</td>
131+
<td>其他角色类</td>
132+
<td>场所类_交通场所</td>
133+
<td>药物类_中药</td>
134+
<td>时间类_具体时间</td>
135+
<td>连词</td>
136+
<td>修饰词_化</td>
137+
</tr>
138+
<tr>
139+
<td>组织机构类_体育组织机构</td>
140+
<td>文化类</td>
141+
<td>场所类_交通场所_概念</td>
142+
<td>术语类</td>
143+
<td>时间类_时长</td>
144+
<td>副词</td>
145+
<td>外语单词</td>
146+
</tr>
147+
<tr>
148+
<td>组织机构类_体育组织机构_概念</td>
149+
<td>文化类_语言文字</td>
150+
<td>场所类_网上场所</td>
151+
<td>术语类_术语类型</td>
152+
<td>词汇用语</td>
153+
<td>疑问词</td>
154+
<td>汉语拼音</td>
155+
</tr>
156+
<tr>
157+
<td>组织机构类_军事组织机构</td>
158+
<td>文化类_奖项赛事活动</td>
159+
<td>场所类_网上场所_概念</td>
160+
<td>术语类_符号指标类</td>
161+
<td>信息资料</td>
162+
<td>肯定词</td>
163+
<td>w(标点)</td>
164+
</tr>
165+
</tbody>
166+
</table>
44167

45-
<tr><th colspan='6'>WordTag标签集合
46-
<tr><td>人物类_实体<td>物体类<td>生物类_动物<td>医学术语类<td>链接地址<td>肯定词
47-
<tr><td>人物类_概念<td>物体类_兵器<td>品牌名<td>术语类_生物体<td>个性特征<td>否定词
48-
<tr><td>作品类_实体<td>物体类_化学物质<td>场所类<td>疾病损伤类<td>感官特征<td>数量词
49-
<tr><td>作品类_概念<td>其他角色类<td>场所类_交通场所<td>疾病损伤类_植物病虫害<td>场景事件<td>叹词
50-
<tr><td>组织机构类<td>文化类<td>位置方位<td>宇宙类<td>介词<td>拟声词
51-
<tr><td>组织机构类_企事业单位<td>文化类_语言文字<td>世界地区类<td>事件类<td>介词_方位介词<td>修饰词
52-
<tr><td>组织机构类_医疗卫生机构<td>文化类_奖项赛事活动<td>饮食类<td>时间类<td>助词<td>外语单词
53-
<tr><td>组织机构类_国家机关<td>文化类_制度政策协议<td>饮食类_菜品<td>时间类_特殊日<td>代词<td>英语单词
54-
<tr><td>组织机构类_体育组织机构<td>文化类_姓氏与人名<td>饮食类_饮品<td>术语类<td>连词<td>汉语拼音
55-
<tr><td>组织机构类_教育组织机构<td>生物类<td>药物类<td>术语类_符号指标类<td>副词<td>词汇用语
56-
<tr><td>组织机构类_军事组织机构<td>生物类_植物<td>药物类_中药<td>信息资料<td>疑问词<td>w(标点)
57168

58-
</table>
59169

60170
## WordTag应用场景
61171

@@ -109,6 +219,10 @@ python predict.py --max_seq_len 128 --batch_size 2
109219

110220
Taskflow默认使用TermTreeV1.0实现Term-Linking, 用户也可以基于自己的TermTree实现Term-Linking,参见[自定义TermTree](../termtree)
111221

222+
## Release Note
223+
224+
- 2022.06:新增25个细化词类,用于下游挖掘任务
225+
112226
## WordTag后续计划
113227

114228
1. 持续优化知识标注模型,获得更加精准的标注结果;

0 commit comments

Comments
 (0)