File tree Expand file tree Collapse file tree 3 files changed +26
-33
lines changed
Expand file tree Collapse file tree 3 files changed +26
-33
lines changed Original file line number Diff line number Diff line change 11# 全文每个汉字关联字可视化
22
3- 使用:Web tool。直接打开 https://garywill.github.io/cc-visualize/
3+ - 使用:Web tool。直接打开 https://garywill.github.io/cc-visualize/
4+ - CLI:计划中。有待将js代码的web部分与可复用部分解耦,并分离到不同文件中
45
56
67## 作用
10112 . 分辨网上泛滥的,机器简转繁造成的,大量“文献”所含有的大量错字
1112
12133 . 找出大段文本中的非寻常字符:仅日本用的简化版汉字、兼容区汉字符、非中非英的其他语言符号等、扩展区的汉字(少用字)、笔划偏旁字符
13- > Unicode的坑,汉字也有类似punycode attack的问题
14+ > Unicode的坑,汉字也有类似punycode attack的问题。已经发现有输入法码表中混入了不应有的字符。这也是做这个功能起因之一
15+ > ![ 兀] ( https://user-images.githubusercontent.com/32130780/175266740-caad17d0-39c8-4d5d-a02a-ec04a16ddab5.png )
1416
1517## 截图预览
1618
1921![ Screenshot] ( Screenshot.png )
2022
2123颜色:
22- - 淡绿色:既是繁体也是中文简体
2324- 淡蓝色:繁体
2425- 淡黄色:中文简体
2526 > 受某一边数据可能遗漏的影响,被标作简体的字,不一定仅是简体字。(按理说,繁体亦然)
27+ - 淡绿色:既是繁体也是中文简体
2628
2729可能为非寻常字符的颜色:
2830- 红色:仅日文用简化字
2931- 红紫色:兼容汉字符
3032- 蓝紫色:汉字笔划偏旁字符
31- - 灰色:未定义编码字符
3233- 橙色边框:扩展区汉字(一般为少见字)
34+ - 灰色:未定义编码字符
3335
3436
3537## 原理
@@ -115,6 +117,12 @@ UCD提供txt(文件数量多)和[xml](https://www.unicode.org/Public/15.0.0/
115117
116118结合` opencc.map2 ` 及` uncode_data.map2 ` 生成总数据表使用
117119
120+ ## 代码说明
121+
122+ 文件名以` pre ` 开头的为预处理脚本。用于将原始数据生成` .js ` 包装的数据文件(文件内容类似` xxxx.xxx = { ..很多行... } ` ),以便于web使用。
123+
124+
125+
118126## 同类其他工具和数据资料
119127
120128其他的能够查到汉字变体和关联关系的工具
Original file line number Diff line number Diff line change @@ -196,26 +196,6 @@ function genCharTipLine(c, charObj)
196196}
197197
198198
199- // function getCharPropStr(char) {
200- // var prop = "";
201- // if (summary_map[char])
202- // {
203- //
204- // if (summary_map[char]['isSimp'])
205- // prop += "简";
206- // if (summary_map[char]['isTrad'])
207- // prop += "繁";
208- // if (summary_map[char]['isVari_HK'])
209- // prop += "港";
210- // if (summary_map[char]['isVari_TW'])
211- // prop += "台";
212- // if (summary_map[char]['isVari_JP'])
213- // prop += "日";
214- // }
215- // return prop;
216- // }
217-
218-
219199function c2utf16 ( c ) {
220200 var code ;
221201
@@ -319,8 +299,3 @@ function isCurrentlyThisUnusual(unusualsObj)
319299 }
320300 return false ;
321301}
322-
323-
324-
325- console . log ( Array . from ( `\u4e00\u3400\u{20000}\u{2a700}\u{2b740}\u{2b820}\u{2ceb0}` ) ) ;
326- console . log ( Array . from ( `一㐀𠀀𪜀𫝀𫠠𬺰` ) ) ;
Original file line number Diff line number Diff line change @@ -184,9 +184,15 @@ <h1 style="text-align: center;">汉字 关联及变体 文本 全文 可视化
184184(日式)美麗壮闊広大
185185(其他)美丽壮阔⼴⼤
186186
187- (繁体)觀世音菩薩
188- (简体)观世音菩萨
189- (日式)観世音菩薩
187+ (繁体)觀世音菩薩 佛說阿彌陀經
188+ (简体)观世音菩萨 佛说阿弥陀经
189+ (日式)観世音菩薩 仏説阿弥陀経
190+ (其他)觀世音菩薩 佛說阿彌陀經
191+
192+ (繁体)老子·道德經 莊子·逍遙遊
193+ (简体)老子·道德经 庄子·逍遥游
194+ (日式)老子·道徳経 荘子·逍遙遊
195+ (其他)老⼦·道德经 庄⼦·逍遥游
190196
191197(繁体)中秋快樂
192198(简体)中秋快乐
@@ -198,9 +204,11 @@ <h1 style="text-align: center;">汉字 关联及变体 文本 全文 可视化
198204(日式)頭髪由濕変幹
199205(其他)頭髮由濕變⼲
200206
207+ 以上这些字符可见Unicode埋的坑,如果混进文献中,会不会困扰你呢?下面是标点和其他符号
208+
201209英文标点:~!@#$%^*()_+`=-,./?[]{}|\
202210
203- 中文标点:~!¥……()——·「」、,。《》?“”『』
211+ 中文标点:~!¥ ……()——·「」、,。《》?“”『』
204212
205213单位:°′″$£¥‰%℃¤
206214
@@ -214,6 +222,8 @@ <h1 style="text-align: center;">汉字 关联及变体 文本 全文 可视化
214222
215223注音:ㄡㄗㄚㄠㄝㄓㄔㄕㄖㄒㄏㄐㄍㄇㄈ
216224
225+ 扩展区汉字:一㐀𠀀𪜀𫝀𫠠𬺰
226+
217227特殊:■△▲§№☆★○●◎
218228
219229日文假名:さしすせそづサニヌネノハ
You can’t perform that action at this time.
0 commit comments