nk2028
diff --git a/‎build.py‎
Lines changed: 48 additions & 49 deletions b/‎build.py‎
Lines changed: 48 additions & 49 deletions
diff --git a/‎src/split.csv‎
Lines changed: 0 additions & 20 deletions b/‎src/split.csv‎
Lines changed: 0 additions & 20 deletions
@@ -12,39 +12,29 @@ class 小韻Row:
     音韻地位: str
 
 
-def load_小韻表() -> dict[str, 小韻Row]:
-    小韻_data: dict[str, 小韻Row] = {}
+def load_小韻表() -> tuple[
+    dict[str, 小韻Row], dict[str, list[str]], dict[str, list[str]]
+]:
+    小韻_data = dict[str, 小韻Row]()
+    細分號_by_原書小韻 = dict[str, list[str]]()
+    細分轄字_by_小韻 = dict[str, list[str]]()
     with open('src/小韻表.tsv') as fin:
         header = next(fin)
         assert header.rstrip('\n').split('\t') == [
             '小韻號',
             '首字',
             '反切',
             '音韻地位',
+            '細分轄字',
         ], repr(header)
         for line in fin:
-            row = line.rstrip('\n').split('\t')
-            小韻_data[row[0]] = 小韻Row(*row)
-    return 小韻_data
-
-
-def load_小韻細分(
-    小韻_data: dict[str, 小韻Row],
-) -> tuple[dict[str, list[str]], dict[str, list[str]]]:
-    has_細分: dict[str, list[str]] = {}
-    小韻細分_data: dict[str, list[str]] = {}
-    with open('src/split.csv') as fin:
-        next(fin)
-        for row in csv.reader(fin):
-            小韻號 = row[0]
-            assert 小韻號[-1].isalpha()
-            反切 = row[1]
-            assert 小韻_data[小韻號].反切 == 反切, (
-                f'反切 mismatch in 小韻 #{小韻號}, 小韻_data: {小韻_data[小韻號][2]}, 小韻細分_data: {反切}'
-            )
-            has_細分.setdefault(小韻號[:-1], []).append(小韻號[-1])
-            小韻細分_data[小韻號] = row
-    return has_細分, 小韻細分_data
+            小韻號, 首字, 反切, 音韻地位, 細分轄字 = line.rstrip('\n').split('\t')
+            小韻_data[小韻號] = 小韻Row(小韻號, 首字, 反切, 音韻地位)
+            if 小韻號[-1].isalpha():
+                原書小韻號 = 小韻號[:-1]
+                細分號_by_原書小韻.setdefault(原書小韻號, []).append(小韻號[-1])
+                細分轄字_by_小韻[小韻號] = 細分轄字
+    return 小韻_data, 細分號_by_原書小韻, 細分轄字_by_小韻
 
 
 @dataclass
@@ -114,15 +104,15 @@ class 廣韻Row:
 
 
 def main():
-    小韻_data = load_小韻表()
-    has_細分, 小韻細分_data = load_小韻細分(小韻_data)
+    小韻_data, 細分號_by_原書小韻, 細分轄字_by_小韻 = load_小韻表()
     字序_data = load_字序表()
     patches = load_patches()
 
-    小韻細分_coverage: dict[str, set[str]] = {}
-    patch_coverage = set()
+    小韻號_seen = set[str]()
+    小韻細分_coverage = dict[str, set[str]]()
+    patch_coverage = set[tuple[str, str]]()
 
-    poem_data: dict[tuple[str, str], dict[str, str]] = {}
+    poem_data = dict[tuple[str, str], dict[str, str]]()
     with open('src/廣韻(20170209).csv') as fin:
         for row in csv.DictReader(fin):
             key = (row['小韻序'], row['小韻內字序'])
@@ -134,7 +124,7 @@ def main():
         poem_小韻內字序 = 字序_data[字序_key].poem_小韻內字序
         if not poem_小韻內字序:
             poem_反切 = poem_data[(原書小韻號, '1')]['廣韻反切(覈校後)']
-            字頭 = ''
+            含原貌字頭 = ''
             釋義 = ''
             釋義參照 = ''
         else:
@@ -149,7 +139,7 @@ def main():
                 字頭覈校說明,
                 poem_反切,
                 字頭原貌,
-                字頭,
+                含原貌字頭,
                 釋義,
                 釋義補充,
                 韻目原貌,
@@ -166,7 +156,7 @@ def main():
                 )
             )
             if 字頭覈校說明 == '校':
-                字頭 = f'[{字頭原貌}/{字頭}]'
+                含原貌字頭 = f'[{字頭原貌}/{含原貌字頭}]'
             if not 釋義:
                 釋義參照 = '下'
             elif 釋義補充:
@@ -177,8 +167,8 @@ def main():
         # 修正
         字頭說明 = ''
         if (patch := patches.get(字序_key)) is not None:
-            assert patch.原字頭 == 字頭, (
-                f'patching 小韻 #{原書小韻號}/{小韻字號} 字 "{patch.原字頭}", but the actual 字 is "{字頭}"'
+            assert patch.原字頭 == 含原貌字頭, (
+                f'patching 小韻 #{原書小韻號}/{小韻字號} 字 "{patch.原字頭}", but the actual 字 is "{含原貌字頭}"'
             )
             patch_coverage.add(字序_key)
             assert patch.校正字頭, (
@@ -189,10 +179,10 @@ def main():
                     f'invalid 校正字頭: "{patch.校正字頭}"'
                 )
             if '～' in patch.校正字頭:
-                assert not 字頭.startswith('['), (
-                    f'cannot use "～" in 校正字頭 when 字頭 contains correction: "{字頭}"'
+                assert not 含原貌字頭.startswith('['), (
+                    f'cannot use "～" in 校正字頭 when 字頭 contains correction: "{含原貌字頭}"'
                 )
-            字頭 = patch.校正字頭.replace('～', 字頭)
+            含原貌字頭 = patch.校正字頭.replace('～', 含原貌字頭)
 
             # 字頭說明 is an added field, thus it does not have an original value
             字頭說明 = patch.字頭說明
@@ -209,34 +199,43 @@ def main():
                 )
                 釋義參照 = patch.校正釋義參照
         elif 字序_data[字序_key].sbgy_字.endswith('/-]'):
-            assert not 字頭.startswith('[')
-            字頭 = f'[{字頭}/-]'
+            assert not 含原貌字頭.startswith('[')
+            含原貌字頭 = f'[{含原貌字頭}/-]'
 
         字_check = 字序_data[字序_key].字
-        assert 字頭 == 字_check, (
-            f'字頭 mismatch between 字序表 and (patched) 廣韻 data: "{字_check}" != "{字頭}" (小韻 {原書小韻號}/{小韻字號})'
+        assert 含原貌字頭 == 字_check, (
+            f'字頭 mismatch between 字序表 and (patched) 廣韻 data: "{字_check}" != "{含原貌字頭}" (小韻 {原書小韻號}/{小韻字號})'
         )
-        if 字頭.startswith('['):
-            字頭原貌, 字頭 = 字頭[1:-1].split('/')
+        if 含原貌字頭.startswith('['):
+            字頭原貌, 字頭 = 含原貌字頭[1:-1].split('/')
             字頭 = '' if 字頭 == '-' else 字頭
             字頭原貌 = '' if 字頭原貌 == '-' else 字頭原貌
         else:
+            字頭 = 含原貌字頭
             字頭原貌 = ''
 
         # 小韻號
-        if 原書小韻號 in has_細分:
-            for 細分 in has_細分[原書小韻號]:
+        # NOTE 字頭 & 細分轄字 in 小韻表.tsv does not contain 字頭原貌 (yet)
+        字頭或原貌 = 字頭 or 字頭原貌
+        if 原書小韻號 in 細分號_by_原書小韻:
+            for 細分 in 細分號_by_原書小韻[原書小韻號]:
                 小韻號 = 原書小韻號 + 細分
-                if 字頭 in 小韻細分_data[小韻號][2]:
-                    小韻細分_coverage.setdefault(小韻號, set()).add(字頭)
+                if 字頭或原貌 in 細分轄字_by_小韻[小韻號]:
+                    小韻細分_coverage.setdefault(小韻號, set()).add(字頭或原貌)
                     break
             else:
                 raise ValueError(
-                    f'cannot determine 小韻細分 for {字頭} (小韻 #{原書小韻號})'
+                    f'cannot determine 小韻細分 for {字頭或原貌} (小韻 #{原書小韻號})'
                 )
         else:
             小韻號 = 原書小韻號
 
+        if 小韻號 not in 小韻號_seen:
+            assert 字頭或原貌 == 小韻_data[小韻號].首字, (
+                f'首字 mismatch for 小韻 #{小韻號}: {字頭或原貌} != {小韻_data[小韻號].首字}'
+            )
+            小韻號_seen.add(小韻號)
+
         # 音韻地位
         音韻地位 = 小韻_data[小韻號].音韻地位
 
@@ -268,7 +267,7 @@ def main():
         )
 
     for 小韻號, cov in 小韻細分_coverage.items():
-        specified = set(小韻細分_data[小韻號][2])
+        specified = set(細分轄字_by_小韻[小韻號])
         diff = specified - cov
         assert not diff, (
             f'字頭 listed in 小韻細分_data but not seen: {"".join(sorted(diff))} (小韻 #{小韻號})'