Skip to content

Commit b856ffd

Browse files
committed
文本更新
1 parent 4516b63 commit b856ffd

File tree

3 files changed

+26
-33
lines changed

3 files changed

+26
-33
lines changed

README.md

Lines changed: 12 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,7 @@
11
# 全文每个汉字关联字可视化
22

3-
使用:Web tool。直接打开 https://garywill.github.io/cc-visualize/
3+
- 使用:Web tool。直接打开 https://garywill.github.io/cc-visualize/
4+
- CLI:计划中。有待将js代码的web部分与可复用部分解耦,并分离到不同文件中
45

56

67
## 作用
@@ -10,7 +11,8 @@
1011
2. 分辨网上泛滥的,机器简转繁造成的,大量“文献”所含有的大量错字
1112

1213
3. 找出大段文本中的非寻常字符:仅日本用的简化版汉字、兼容区汉字符、非中非英的其他语言符号等、扩展区的汉字(少用字)、笔划偏旁字符
13-
> Unicode的坑,汉字也有类似punycode attack的问题
14+
> Unicode的坑,汉字也有类似punycode attack的问题。已经发现有输入法码表中混入了不应有的字符。这也是做这个功能起因之一
15+
> ![](https://user-images.githubusercontent.com/32130780/175266740-caad17d0-39c8-4d5d-a02a-ec04a16ddab5.png)
1416
1517
## 截图预览
1618

@@ -19,17 +21,17 @@
1921
![Screenshot](Screenshot.png)
2022

2123
颜色:
22-
- 淡绿色:既是繁体也是中文简体
2324
- 淡蓝色:繁体
2425
- 淡黄色:中文简体
2526
> 受某一边数据可能遗漏的影响,被标作简体的字,不一定仅是简体字。(按理说,繁体亦然)
27+
- 淡绿色:既是繁体也是中文简体
2628

2729
可能为非寻常字符的颜色:
2830
- 红色:仅日文用简化字
2931
- 红紫色:兼容汉字符
3032
- 蓝紫色:汉字笔划偏旁字符
31-
- 灰色:未定义编码字符
3233
- 橙色边框:扩展区汉字(一般为少见字)
34+
- 灰色:未定义编码字符
3335

3436

3537
## 原理
@@ -115,6 +117,12 @@ UCD提供txt(文件数量多)和[xml](https://www.unicode.org/Public/15.0.0/
115117

116118
结合`opencc.map2``uncode_data.map2`生成总数据表使用
117119

120+
## 代码说明
121+
122+
文件名以`pre`开头的为预处理脚本。用于将原始数据生成`.js`包装的数据文件(文件内容类似`xxxx.xxx = { ..很多行... }`),以便于web使用。
123+
124+
125+
118126
## 同类其他工具和数据资料
119127

120128
其他的能够查到汉字变体和关联关系的工具

checkessay.js

Lines changed: 0 additions & 25 deletions
Original file line numberDiff line numberDiff line change
@@ -196,26 +196,6 @@ function genCharTipLine(c, charObj)
196196
}
197197

198198

199-
// function getCharPropStr(char) {
200-
// var prop = "";
201-
// if (summary_map[char])
202-
// {
203-
//
204-
// if (summary_map[char]['isSimp'])
205-
// prop += "简";
206-
// if (summary_map[char]['isTrad'])
207-
// prop += "繁";
208-
// if (summary_map[char]['isVari_HK'])
209-
// prop += "港";
210-
// if (summary_map[char]['isVari_TW'])
211-
// prop += "台";
212-
// if (summary_map[char]['isVari_JP'])
213-
// prop += "日";
214-
// }
215-
// return prop;
216-
// }
217-
218-
219199
function c2utf16(c) {
220200
var code;
221201

@@ -319,8 +299,3 @@ function isCurrentlyThisUnusual(unusualsObj)
319299
}
320300
return false;
321301
}
322-
323-
324-
325-
console.log(Array.from(`\u4e00\u3400\u{20000}\u{2a700}\u{2b740}\u{2b820}\u{2ceb0}`));
326-
console.log(Array.from(`一㐀𠀀𪜀𫝀𫠠𬺰`));

index.html

Lines changed: 14 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -184,9 +184,15 @@ <h1 style="text-align: center;">汉字 关联及变体 文本 全文 可视化
184184
(日式)美麗壮闊広大
185185
(其他)美丽壮阔⼴⼤
186186

187-
(繁体)觀世音菩薩
188-
(简体)观世音菩萨
189-
(日式)観世音菩薩
187+
(繁体)觀世音菩薩 佛說阿彌陀經
188+
(简体)观世音菩萨 佛说阿弥陀经
189+
(日式)観世音菩薩 仏説阿弥陀経
190+
(其他)觀世音菩薩 佛說阿彌陀經
191+
192+
(繁体)老子·道德經 莊子·逍遙遊
193+
(简体)老子·道德经 庄子·逍遥游
194+
(日式)老子·道徳経 荘子·逍遙遊
195+
(其他)老⼦·道德经 庄⼦·逍遥游
190196

191197
(繁体)中秋快樂
192198
(简体)中秋快乐
@@ -198,9 +204,11 @@ <h1 style="text-align: center;">汉字 关联及变体 文本 全文 可视化
198204
(日式)頭髪由濕変幹
199205
(其他)頭髮由濕變⼲
200206

207+
以上这些字符可见Unicode埋的坑,如果混进文献中,会不会困扰你呢?下面是标点和其他符号
208+
201209
英文标点:~!@#$%^*()_+`=-,./?[]{}|\
202210

203-
中文标点:~!¥……()——·「」、,。《》?“”『』
211+
中文标点:~!¥ ……()——·「」、,。《》?“”『』
204212

205213
单位:°′″$£¥‰%℃¤
206214

@@ -214,6 +222,8 @@ <h1 style="text-align: center;">汉字 关联及变体 文本 全文 可视化
214222

215223
注音:ㄡㄗㄚㄠㄝㄓㄔㄕㄖㄒㄏㄐㄍㄇㄈ
216224

225+
扩展区汉字:一㐀𠀀𪜀𫝀𫠠𬺰
226+
217227
特殊:■△▲§№☆★○●◎
218228

219229
日文假名:さしすせそづサニヌネノハ

0 commit comments

Comments
 (0)