Skip to content

Latest commit

 

History

History
65 lines (36 loc) · 1.36 KB

File metadata and controls

65 lines (36 loc) · 1.36 KB

汉字相关的数据,如拼音、简繁体等。

简繁体转换

有两种思路:

  1. 简体与繁体字的对应表。
  2. 汉字编码对应表。简体GBK编码 <===> Unicode编码 <===> 繁体字BIG5编码。VC----实现汉字简繁转换

已搜集数据

汉字与拼音的对应表,格式如下:

3400    QIU1
3401    TIAN3 TIAN4
3404    KUA4
3405    WU3
3406    YIN3
340C    SI4 YI2
3416    YE4
341C    CHOU2
3421    NUO4

第一列是十六进制的Unicode编码,第二列是拼音+声调,多个发音用空格隔开

另一张汉字与拼音对应表,未整理

简繁体字、词的对应表,单字部分同时包含了 简:繁繁:简,如:

"垩": "堊",
....隔了N行...
"堊": "垩",

有PDF、Word、Excel文件。

Excel文件是汉字的GB18030与Unicode编码.xls,内容如下:

汉字 GBK(GB18030)编码 Unicode编码
D2BB 4E00
B6A1 4E01
8140 4E02

注意简繁体并不是一对一的关系,比如

"反复": "反複",
"反复": "反覆",