如何做一个取名产品？

1、GitHub下载 中文人名语料库 的数据。

2、将120万数据导入数据库，并将数据拆分成“姓名、姓、名字、单字人名用字、双字人名用字前、双字人名用字后”，然后分别统计字频。

3、由于badcase已经被我删除，这里出现的人名用字都是吉字、和中性字，可以放心使用。

4、通过字频，可以计算一个新词组的人名成词概率，给这个概率设置一个区间（拍脑袋就行），作为判断一个词组是不是人名的标准。

5、Unicode.org有一个汉字的库，里面有汉字的拼音、笔画、康熙部首；如果找不到就退而求其次，去爬汉典网的数据。

6、字意五行标记，金刀戈等属于金属、或兵器的部首，属金，其他类推。

7、释义，可以先用汉典或萌典的数据。

8、性别标记，库里有，或自己重新计算。

9、成语5万个，库里有；诗词，自己去找，GitHub上有很多。自己匹配。

## 会遇见哪些问题？

1、人名成词概率高，但是他可能也是一个地名，如杨萌路、杨庄。

2、人名成词概率高，但是他可能也是一个机构名/机构简写/品牌名，如范思哲、谭木匠。

3、人名成词概率高，但是他可能也是一个常用词，如高原、金星。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如何做一个取名产品？ #23

会遇见哪些问题？

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

如何做一个取名产品？ #23

Description

会遇见哪些问题？

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions