-
Notifications
You must be signed in to change notification settings - Fork 1k
Open
Description
1、GitHub下载 中文人名语料库 的数据。
2、将120万数据导入数据库,并将数据拆分成“姓名、姓、名字、单字人名用字、双字人名用字前、双字人名用字后”,然后分别统计字频。
3、由于badcase已经被我删除,这里出现的人名用字都是吉字、和中性字,可以放心使用。
4、通过字频,可以计算一个新词组的人名成词概率,给这个概率设置一个区间(拍脑袋就行),作为判断一个词组是不是人名的标准。
5、Unicode.org有一个汉字的库,里面有汉字的拼音、笔画、康熙部首;如果找不到就退而求其次,去爬汉典网的数据。
6、字意五行标记,金刀戈等属于金属、或兵器的部首,属金,其他类推。
7、释义,可以先用汉典或萌典的数据。
8、性别标记,库里有,或自己重新计算。
9、成语5万个,库里有;诗词,自己去找,GitHub上有很多。自己匹配。
会遇见哪些问题?
1、人名成词概率高,但是他可能也是一个地名,如杨萌路、杨庄。
2、人名成词概率高,但是他可能也是一个机构名/机构简写/品牌名,如范思哲、谭木匠。
3、人名成词概率高,但是他可能也是一个常用词,如高原、金星。
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels