Add 字頭原貌

syimyuzya · syimyuzya · commit 923b5579cb5c · 2025-02-03T16:19:28.000+08:00
字頭原貌 is taken from poem's "字頭-原貌" field (only those marked with
"校" but not with "部件換位" or "調整碼位", as the latter cases are for
equivalent characters), plus our patches.
diff --git a/build.py b/build.py
@@ -83,7 +83,7 @@ class Patch:
     校正釋義: str
     原釋義參照: str
     校正釋義參照: str
-    當刪說明: str
+    字頭說明: str
     備注: str
 
 
@@ -106,8 +106,9 @@ class 廣韻Row:
     韻目原貌: str
     音韻地位: str
     反切: str
+    字頭原貌: str
     字頭: str
-    字頭當刪: str
+    字頭說明: str
     釋義: str
     釋義參照: str
 
@@ -174,7 +175,7 @@ def main():
                 釋義參照 = ''
 
         # 修正
-        字頭當刪 = ''
+        字頭說明 = ''
         if (patch := patches.get(字序_key)) is not None:
             assert patch.原字頭 == 字頭, (
                 f'patching 小韻 #{原書小韻號}/{小韻字號} 字 "{patch.原字頭}", but the actual 字 is "{字頭}"'
@@ -192,12 +193,10 @@ def main():
                     f'cannot use "～" in 校正字頭 when 字頭 contains correction: "{字頭}"'
                 )
             字頭 = patch.校正字頭.replace('～', 字頭)
-            if 字頭.endswith('/-]'):
-                字頭當刪 = patch.當刪說明 or '當刪'
-            else:
-                assert not patch.當刪說明, (
-                    f'patching 當刪說明 on 小韻 #{原書小韻號}/{小韻字號} 字 "{patch.原字頭}", but 校正字頭 is not marked for removal'
-                )
+
+            # 字頭說明 is an added field, thus it does not have an original value
+            字頭說明 = patch.字頭說明
+
             if patch.校正釋義 or patch.原釋義:
                 assert patch.原釋義 == 釋義, (
                     f'patching 釋義 on 小韻 #{原書小韻號}/{小韻字號} 字 "{patch.原字頭}", but the actual 釋義 is "{釋義}"'
@@ -212,15 +211,17 @@ def main():
         elif 字序_data[字序_key].sbgy_字.endswith('/-]'):
             assert not 字頭.startswith('[')
             字頭 = f'[{字頭}/-]'
-            字頭當刪 = '當刪'
 
         字_check = 字序_data[字序_key].字
         assert 字頭 == 字_check, (
-            f'字頭 mismatch between 字序表 and patched data: "{字_check}" != "{字頭}" (小韻 {原書小韻號}/{小韻字號})'
+            f'字頭 mismatch between 字序表 and (patched) 廣韻 data: "{字_check}" != "{字頭}" (小韻 {原書小韻號}/{小韻字號})'
         )
         if 字頭.startswith('['):
-            校前, 校後 = 字頭[1:-1].split('/')
-            字頭 = 校後 if 校後 != '-' else 校前
+            字頭原貌, 字頭 = 字頭[1:-1].split('/')
+            字頭 = '' if 字頭 == '-' else 字頭
+            字頭原貌 = '' if 字頭原貌 == '-' else 字頭原貌
+        else:
+            字頭原貌 = ''
 
         # 小韻號
         if 原書小韻號 in has_細分:
@@ -254,7 +255,16 @@ def main():
             釋義 = 釋義.replace(poem_反切 + '切', 反切原貌 + '切')
 
         廣韻_data[字序_key] = 廣韻Row(
-            小韻號, 小韻字號, 韻目原貌, 音韻地位, 反切, 字頭, 字頭當刪, 釋義, 釋義參照
+            小韻號,
+            小韻字號,
+            韻目原貌,
+            音韻地位,
+            反切,
+            字頭原貌,
+            字頭,
+            字頭說明,
+            釋義,
+            釋義參照,
         )
 
     for 小韻號, cov in 小韻細分_coverage.items():
diff --git a/check.py b/check.py
@@ -15,6 +15,7 @@
         . ( <.> | ⦉.⦊ | \(.\) | ⦅.⦆ )*  # 原貌及校正
     ){2}"""
 )
+PATTERN_IDC = re.compile(r'[\u2ff0-\u2fff\u303e\u31ef]')
 
 
 def contains_ascii(s: str):
@@ -28,7 +29,7 @@ def contains_ascii(s: str):
     with open('韻書/廣韻.csv') as f:
         assert (
             next(f).rstrip('\n')
-            == '小韻號,小韻字號,韻目原貌,音韻地位,反切,字頭,字頭當刪,釋義,釋義參照'
+            == '小韻號,小韻字號,韻目原貌,音韻地位,反切,字頭原貌,字頭,字頭說明,釋義,釋義參照'
         )
         for line in f:
             (
@@ -37,8 +38,9 @@ def contains_ascii(s: str):
                 韻目原貌,
                 音韻地位描述,
                 反切,
+                字頭原貌,
                 字頭,
-                字頭當刪,
+                字頭說明,
                 釋義,
                 釋義參照,
             ) = line.rstrip('\n').split(',')
@@ -48,9 +50,13 @@ def contains_ascii(s: str):
                 f'invalid 小韻字號: {小韻字號}'
             )
             assert len(韻目原貌) == 1, f'invalid 韻目原𩩕: {韻目原貌}'
-            assert len(字頭) == 1 or re.match(r'[\u2ff0-\u2fff\u303e\u31ef]', 字頭), (
-                f'invalid 字頭: {字頭}'
-            )
+            assert 字頭原貌 != 字頭, f'字頭原貌 same as 字頭: {字頭}'
+            for field, 字 in (('字頭原貌', 字頭原貌), ('字頭', 字頭)):
+                if not 字:
+                    continue
+                assert 字 != '-' and (len(字) == 1 or PATTERN_IDC.match(字)), (
+                    f'invalid {field}: {字}'
+                )
 
             assert PATTERN_描述.fullmatch(音韻地位描述) is not None, (
                 f'invalid 音韻地位: {音韻地位描述}'
@@ -59,7 +65,7 @@ def contains_ascii(s: str):
             if 反切:
                 assert PATTERN_反切.fullmatch(反切) is not None, f'invalid 反切: {反切}'
 
-            assert 釋義 + 釋義參照, '釋義 and 釋義參照 should not be both empty'
+            assert 釋義 or 釋義參照, '釋義 and 釋義參照 should not be both empty'
             assert not contains_ascii(釋義), (
                 '釋義 should not contain any ASCII characters'
             )
diff --git a/src/patches.csv b/src/patches.csv
@@ -1,4 +1,4 @@
-原書小韻號,小韻字號,原字頭,校正字頭,原釋義,校正釋義,原釋義參照,校正釋義參照,當刪說明,備注
+原書小韻號,小韻字號,原字頭,校正字頭,原釋義,校正釋義,原釋義參照,校正釋義參照,字頭說明,備注
 11,2,,融,,上同,,上,,左下為「𢆉」形，poem表因未入U而缺
 130,4,襹,～,襹毛羽衣皃,𧞬襹毛羽衣皃,,,,poem表承「宋本廣韻データ」用 PUA 字元 U+EE42，當為 U+277AC「𧞬」
 141,1,𤿎,[～/𢻹],,,,,,《形聲考》校
diff --git a/韻書/廣韻.csv b/韻書/廣韻.csv

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-原書小韻號,小韻字號,原字頭,校正字頭,原釋義,校正釋義,原釋義參照,校正釋義參照,當刪說明,備注`
	`1`	`+原書小韻號,小韻字號,原字頭,校正字頭,原釋義,校正釋義,原釋義參照,校正釋義參照,字頭說明,備注`
`2`	`2`	`11,2,,融,,上同,,上,,左下為「𢆉」形，poem表因未入U而缺`
`3`	`3`	`130,4,襹,～,襹毛羽衣皃,𧞬襹毛羽衣皃,,,,poem表承「宋本廣韻データ」用 PUA 字元 U+EE42，當為 U+277AC「𧞬」`
`4`	`4`	`141,1,𤿎,[～/𢻹],,,,,,《形聲考》校`