Skip to content

Commit 703433b

Browse files
authored
[itn] add whitelist (#263)
* [itn] add whitelist * [itn] add whitelist
1 parent 2b04bc3 commit 703433b

File tree

5 files changed

+22
-3
lines changed

5 files changed

+22
-3
lines changed

itn/chinese/data/default/whitelist.tsv

Lines changed: 15 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -61,3 +61,18 @@
6161
五台山 五台山
6262
六盘水 六盘水
6363
八宿 八宿
64+
十二五 十二五
65+
十三五 十三五
66+
十四五 十四五
67+
几十万 几十万
68+
几百万 几百万
69+
几千万 几千万
70+
十几万 十几万
71+
二十几万 二十几万
72+
三十几万 三十几万
73+
四十几万 四十几万
74+
五十几万 五十几万
75+
六十几万 六十几万
76+
七十几万 七十几万
77+
八十几万 八十几万
78+
九十几万 九十几万

itn/chinese/test/data/normalizer.txt

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -30,3 +30,4 @@
3030
可以拨打幺二三零六来咨询 => 可以拨打12306来咨询
3131
二点五平方电线,五,五十五,疑是银河落九天,十二块五 => 2.5平方电线,5,55,疑是银河落9天,12块5
3232
三百九十九三盒 => 3993盒
33+
十三五规划期间获得了十几万和几十万甚至二十几万的投资 => 十三五规划期间获得了十几万和几十万甚至二十几万的投资

itn/chinese/test/data/normalizer_disable_standalone_number_disable_0_to_9.txt

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -38,4 +38,5 @@
3838
这是零百 => 这是零百
3939
这是零千 => 这是零千
4040
这是一百一个,一千两位,一万三天 => 这是100一个,1000两位,10000三天
41-
这是九百九周,九千九月,九万九年 => 这是900九周,9000九月,90000九年
41+
这是九百九周,九千九月,九万九年 => 这是900九周,9000九月,90000九年
42+
十三五规划期间获得了十几万和几十万甚至二十几万的投资 => 十三五规划期间获得了十几万和几十万甚至二十几万的投资

itn/chinese/test/data/normalizer_disable_standalone_number_enable_0_to_9.txt

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -7,4 +7,5 @@
77
这是零百 => 这是零百
88
这是零千 => 这是零千
99
这是一百一个,一千两位,一万三天 => 这是100 1个,1000 2位,10000 3天
10-
这是九百九周,九千九月,九万九年 => 这是900 9周,9000 9月,90000 9年
10+
这是九百九周,九千九月,九万九年 => 这是900 9周,9000 9月,90000 9年
11+
十三五规划期间获得了十几万和几十万甚至二十几万的投资 => 十三五规划期间获得了十几万和几十万甚至二十几万的投资

itn/chinese/test/data/normalizer_enable_standalone_number_disable_0_to_9.txt

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -38,4 +38,5 @@
3838
这是零百 => 这是零百
3939
这是零千 => 这是零千
4040
这是一百一个,一千两位,一万三天 => 这是100一个,1000两位,10000三天
41-
这是九百九周,九千九月,九万九年 => 这是900九周,9000九月,90000九年
41+
这是九百九周,九千九月,九万九年 => 这是900九周,9000九月,90000九年
42+
十三五规划期间获得了十几万和几十万甚至二十几万的投资 => 十三五规划期间获得了十几万和几十万甚至二十几万的投资

0 commit comments

Comments
 (0)