Skip to content

Commit 55e96ba

Browse files
authored
Fix the link for the termtree (#402)
* Fix the link for the termtree * fix the format for the termtree readme
1 parent e11763d commit 55e96ba

File tree

3 files changed

+29
-27
lines changed

3 files changed

+29
-27
lines changed

examples/text_to_knowledge/README.md

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -7,13 +7,13 @@
77

88
![解语框架结构](./doc/img/text_to_knowledge.png)
99

10-
**解语由以下三部分构成:**
10+
**解语由以下三部分构成:**
1111

1212
- [百科知识树(TermTree)](./termtree) :包括能够描述所有中文词汇的TermType词类体系,以及Term关系和属性值。
1313
- 中文知识标注工具集:包括[词类知识标注工具(WordTag)](./wordtag) 和名词短语标注工具(NPTag),为中文文本解析提供词类序列标注框架,结合百科知识树可实现定制化词类序列标注。
1414
- [中文预训练语言模型(ERNIE-CTM)](./ernie-ctm) :适用于中文文本挖掘任务的预训练语言模型,汉字字表扩充为2万+,解决中文文本挖掘中常见的UNK(未收录字符)问题。
1515

16-
**本次发布的解语开源试用版包括:**
16+
**本次发布的解语开源试用版包括:**
1717

1818
- 百科知识树(TermTree)V1.0试用版:包括简化版的TermType词类体系,和约100w的term集。
1919
- 中文词类知识标注工具(WordTag)V1.0版。
@@ -146,7 +146,7 @@ WordTag的标注结果中,区分了“人物类\_实体”和“人物类\_概
146146

147147
## 后续计划
148148

149-
1. 发布百科知识树(TermTree)正式版数据,建立知识共建社区,支持用户提交应用词表/应用图谱 & 定制化TermTree;
149+
1. 发布百科知识树(TermTree)正式版数据,建立知识共建社区,支持用户提交应用词表/应用图谱 & 定制化TermTree, [TermTree下载链接](https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz)
150150
2. 持续优化ERNIE-CTM预训练模型,支持多种参数规模模型发布,探索更好的适配中文解析挖掘任务的预训练模型;
151151
3. 持续优化中文文本知识标注工具集,提供更加精准的知识标注服务;发布多粒度标注工具,支持更加丰富的应用场景。
152152

@@ -169,4 +169,4 @@ WordTag的标注结果中,区分了“人物类\_实体”和“人物类\_概
169169

170170
## 问题与反馈
171171

172-
解语在持续优化中,如果您有任何建议或问题,欢迎提交issue到Github。
172+
解语在持续优化中,如果您有任何建议或问题,欢迎提交issue到Github。

examples/text_to_knowledge/termtree/README.md

Lines changed: 21 additions & 19 deletions
Original file line numberDiff line numberDiff line change
@@ -2,17 +2,19 @@
22
TermTree(百科知识树)是一个描述所有中文词汇(包括概念、实体/专名、领域术语、语法词等,统一称之为Term)的树状知识库,完整的TermTree由两部分构成:
33

44
> I. TermType词类体系:覆盖所有中文词汇词类的树状知识体系,是对中文词汇集合的一种全划分层次表示;
5-
>
5+
>
66
> II. Term关系和属性值:描述具体Term之间关系和Term属性值网状图谱,用于整合各应用知识图谱;
77
88
本次发布的TermTreeV1.0试用版是TermTree的一个常用子集,包括两部分内容:
99

1010
> A. 简化版的TermType词类体系,由160+ termtype(三层结构)和 7000+ subtype构成。
11-
>
11+
>
1212
> B. 约100w的term集(挂接在TermType词类体系下),包括大多数常用概念(src=cb,基础概念库,termtype准确率为98%)和一部分高频百科实体(src=eb,基础实体库,termtype准确率为95%)。
1313
>
1414
> 开源版不包括Term关系和属性值,但给出了实体的百科词条链接,应用方可以利用百科链接整合其他知识图谱使用。
1515
16+
我们提供了TermTreeV1.0试用版的下载链接供大家使用,[下载链接](https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz)
17+
1618
**注:** 与其他常见应用知识图谱不同,TermTree的核心是概念词,而非专名实体词。因为,在中文文本中,概念词的含义是相对稳定的,而专名实体词随应用变化(例如,不同电商有不同的商品实体集,不同的小说站有不同的小说实体集),因此,TermTree通过 “提供常用概念集 + 可插拔的应用实体集/应用知识图谱” 来达到支持不同的应用适配。
1719

1820
**常见问题1:为什么TermTree采用树状结构(Tree),而不是网状结构(Net/Graph)?**
@@ -99,7 +101,7 @@ TermTree(百科知识树)是一个描述所有中文词汇(包括概念、
99101
]
100102
},
101103
{
102-
"id": "688dc07cc98f02cbd4d21e2700290590",
104+
"id": "688dc07cc98f02cbd4d21e2700290590",
103105
"subtype": [
104106
"影视作品_cb_韩国电影"
105107
],
@@ -114,7 +116,7 @@ TermTree(百科知识树)是一个描述所有中文词汇(包括概念、
114116
]
115117
},
116118
{
117-
"id": "bbf4abe6ac412b181eac383333ca9fef",
119+
"id": "bbf4abe6ac412b181eac383333ca9fef",
118120
"subtype": [
119121
"影视作品_cb_剧情电影"
120122
],
@@ -154,20 +156,20 @@ TermTree(百科知识树)是一个描述所有中文词汇(包括概念、
154156

155157
5. 为重要的概念/实体构建完整上位归类路径(**注:** TermTreeV1.0试用版暂不包括),用于细粒度特征计算和知识推断,参见以下示例
156158

157-
| term | 类别| src| 上位归类路径示例 |
158-
|---|---|---|---|
159-
|苹果 | 植物类|cb|苹果 → 苹果属 → 蔷薇科 → 蔷薇目 → 双子叶植物纲 → 被子植物门 → 种子植物 → 植物界 → 真核生物域 → 生物|
160-
| 黄香蕉苹果| 饮食类|cb|黄香蕉苹果 →苹果 →水果 → 蔬果和菌藻类 →食材 →食物 →饮食|
161-
|甲型流感 | 疾病类|cb|甲型流感 → 流行性感冒 → 感冒 → 呼吸道感染 → 呼吸系统疾病 → 疾病损伤 → 生物疾病|
162-
|甲型流感病毒| 微生物类|cb|甲型流感病毒 → 流行性感冒病毒 → 正粘病毒科 → RNA病毒 → 生物病毒 → 病原微生物 → 微生物 → 生物|
163-
|琴房| 区域场所类|cb|琴房 → 音乐室 → 活动室 →活动场所 →区域场所|
164-
|琴房| 音乐类|eb|琴房 → 歌曲 →音乐作品 →艺术作品 →作品 → 作品与出版物|
165-
|认同感 | 生活用语类|cb|认同感 →正面感受 → 感受 → 知觉感受 → 个体描述 → 生活用语|
166-
| 认同感| 图书类|eb|认同感 →书籍 →图书 →书刊 →出版物 → 作品与出版物|
167-
|佛罗伦萨足球俱乐部| 体育组织机构|eb|佛罗伦萨足球俱乐部 →意大利足球联赛球队→职业足球俱乐部→足球俱乐部 →足球队 →球队 →运动队 →体育组织机构 →组织机构|
168-
|佛罗伦萨市 | 世界地区类|cb|佛罗伦萨市 →托斯卡纳大区 →意大利 →南欧 →欧洲 →地球区域 →世界地区|
169-
|言情小说 | 小说类|cb|言情小说 →情感小说 →小说 →文学作品 →作品 →作品与出版物|
170-
| 言情小说| 音乐类|eb|言情小说 → 歌曲 →音乐作品 →艺术作品 →作品 → 作品与出版物|
159+
| term | 类别| src| 上位归类路径示例 |
160+
|---|---|---|---|
161+
|苹果 | 植物类|cb|苹果 → 苹果属 → 蔷薇科 → 蔷薇目 → 双子叶植物纲 → 被子植物门 → 种子植物 → 植物界 → 真核生物域 → 生物|
162+
| 黄香蕉苹果| 饮食类|cb|黄香蕉苹果 →苹果 →水果 → 蔬果和菌藻类 →食材 →食物 →饮食|
163+
|甲型流感 | 疾病类|cb|甲型流感 → 流行性感冒 → 感冒 → 呼吸道感染 → 呼吸系统疾病 → 疾病损伤 → 生物疾病|
164+
|甲型流感病毒| 微生物类|cb|甲型流感病毒 → 流行性感冒病毒 → 正粘病毒科 → RNA病毒 → 生物病毒 → 病原微生物 → 微生物 → 生物|
165+
|琴房| 区域场所类|cb|琴房 → 音乐室 → 活动室 →活动场所 →区域场所|
166+
|琴房| 音乐类|eb|琴房 → 歌曲 →音乐作品 →艺术作品 →作品 → 作品与出版物|
167+
|认同感 | 生活用语类|cb|认同感 →正面感受 → 感受 → 知觉感受 → 个体描述 → 生活用语|
168+
| 认同感| 图书类|eb|认同感 →书籍 →图书 →书刊 →出版物 → 作品与出版物|
169+
|佛罗伦萨足球俱乐部| 体育组织机构|eb|佛罗伦萨足球俱乐部 →意大利足球联赛球队→职业足球俱乐部→足球俱乐部 →足球队 →球队 →运动队 →体育组织机构 →组织机构|
170+
|佛罗伦萨市 | 世界地区类|cb|佛罗伦萨市 →托斯卡纳大区 →意大利 →南欧 →欧洲 →地球区域 →世界地区|
171+
|言情小说 | 小说类|cb|言情小说 →情感小说 →小说 →文学作品 →作品 →作品与出版物|
172+
| 言情小说| 音乐类|eb|言情小说 → 歌曲 →音乐作品 →艺术作品 →作品 → 作品与出版物|
171173
> **注:** TermType词类体系可视为所有上位归类路径的集合。
172174
173175
## TermTree应用方式
@@ -195,4 +197,4 @@ TermTree(百科知识树)是一个描述所有中文词汇(包括概念、
195197

196198
## 问题与反馈
197199

198-
百科知识树在持续扩充优化中,如果您有任何建议或发现数据问题,欢迎提交issue到Github。
200+
百科知识树在持续扩充优化中,如果您有任何建议或发现数据问题,欢迎提交issue到Github。

examples/text_to_knowledge/wordtag/predictor.py

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -23,7 +23,7 @@
2323
import pandas as pd
2424
from paddlenlp.datasets import MapDataset
2525
from paddlenlp.data import Stack, Pad, Tuple
26-
from paddle.utils.download import get_path_from_url
26+
from paddlenlp.utils.downloader import get_path_from_url
2727
from paddlenlp.utils.env import MODEL_HOME
2828
from paddlenlp.transformers import ErnieCtmWordtagModel, ErnieCtmTokenizer
2929

@@ -93,8 +93,8 @@
9393
}
9494

9595
URLS = {
96-
"termtree.rawbase":
97-
"https://paddlenlp.bj.bcebos.com/paddlenlp/resource/termtree.rawbase",
96+
"TermTree.V1.0":
97+
"https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz",
9898
"termtree_type.csv":
9999
"https://paddlenlp.bj.bcebos.com/paddlenlp/resource/termtree_type.csv",
100100
"termtree_tags.txt":
@@ -116,7 +116,7 @@ def __init__(self, model_name="wordtag", term_linking=True, tag_path=None):
116116
The tag vocab path.
117117
"""
118118
term_schema_path = self._download_termtree("termtree_type.csv")
119-
term_data_path = self._download_termtree("termtree.rawbase")
119+
term_data_path = self._download_termtree("TermTree.V1.0")
120120
if tag_path is None:
121121
tag_path = self._download_termtree("termtree_tags.txt")
122122
self._tags_to_index, self._index_to_tags = self._load_labels(tag_path)

0 commit comments

Comments
 (0)