Vietnamese MRC 1.0 fix case (#312)

folivoramanh · pre-commit-ci[bot] · mgrafu · commit b8506adc2eb7 · 2025-10-29T11:44:28.000-07:00
* fix and add cases Signed-off-by: folivoramanh <palasek182@gmail.com> * [pre-commit.ci] auto fixes from pre-commit.com hooks for more information, see https://pre-commit.ci --------- Signed-off-by: folivoramanh <palasek182@gmail.com> Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> Signed-off-by: Mariana Graterol Fuenmayor <marianag@nvidia.com>
diff --git a/nemo_text_processing/text_normalization/data_loader_utils.py b/nemo_text_processing/text_normalization/data_loader_utils.py
@@ -45,6 +45,8 @@
     "FRACTION",
     "TIME",
     "ADDRESS",
+    "ROMAN",
+    "RANGE",
 ]
 
 
diff --git a/nemo_text_processing/text_normalization/vi/data/measure/measurements_minimal.tsv b/nemo_text_processing/text_normalization/vi/data/measure/measurements_minimal.tsv
@@ -1,6 +1,14 @@
 °f	độ f
+°F	độ F
 °c	độ c
+°C	độ C
 °k	độ k
+°K	độ K
+°	độ
+°E	độ đông
+°N	độ bắc
+°S	độ nam
+°W	độ tây
 ha	héc ta
 mi	mile
 ft	foot
diff --git a/nemo_text_processing/text_normalization/vi/data/roman/key_word.tsv b/nemo_text_processing/text_normalization/vi/data/roman/key_word.tsv
@@ -9,4 +9,8 @@ năm
 khoản
 phụ lục
 khóa
-số
+số
+điều
+tiểu mục
+bài
+khối
diff --git a/nemo_text_processing/text_normalization/vi/taggers/date.py b/nemo_text_processing/text_normalization/vi/taggers/date.py
@@ -15,7 +15,7 @@
 import pynini
 from pynini.lib import pynutil
 
-from nemo_text_processing.text_normalization.vi.graph_utils import NEMO_DIGIT, GraphFst
+from nemo_text_processing.text_normalization.vi.graph_utils import NEMO_DIGIT, NEMO_SPACE, GraphFst
 from nemo_text_processing.text_normalization.vi.utils import get_abs_path, load_labels
 
 
@@ -32,6 +32,23 @@ class DateFst(GraphFst):
     def __init__(self, cardinal, deterministic: bool = True):
         super().__init__(name="date", kind="classify", deterministic=deterministic)
 
+        # Vietnamese date keywords
+        DAY_WORD = "ngày"
+        MONTH_WORD = "tháng"
+        YEAR_WORD = "năm"
+        ORDINAL_YEAR_WORD = "năm thứ"
+
+        # Prebuilt patterns for common usage
+        day_prefix = pynini.accep(DAY_WORD + NEMO_SPACE)
+        month_prefix = pynini.accep(MONTH_WORD + NEMO_SPACE)
+        year_prefix = pynini.accep(YEAR_WORD + NEMO_SPACE)
+        ordinal_year_prefix = pynini.accep(ORDINAL_YEAR_WORD + NEMO_SPACE)
+
+        delete_day_prefix = pynutil.delete(DAY_WORD + NEMO_SPACE)
+        delete_month_prefix = pynutil.delete(MONTH_WORD + NEMO_SPACE)
+        delete_year_prefix = pynutil.delete(YEAR_WORD + NEMO_SPACE)
+        delete_ordinal_year_prefix = pynutil.delete(ORDINAL_YEAR_WORD + NEMO_SPACE)
+
         day_mappings = load_labels(get_abs_path("data/date/days.tsv"))
         month_mappings = load_labels(get_abs_path("data/date/months.tsv"))
         era_mappings = load_labels(get_abs_path("data/date/year_suffix.tsv"))
@@ -60,73 +77,82 @@ def __init__(self, cardinal, deterministic: bool = True):
 
         patterns = []
 
+        # DD/MM/YYYY format (Vietnamese standard)
         date_sep = day_part + pynutil.delete(separator) + month_part + pynutil.delete(separator) + year_part
         patterns.append(pynini.compose(day_digit + separator + month_digit + separator + year_digit, date_sep))
         patterns.append(
             pynini.compose(
-                pynini.accep("ngày ") + day_digit + separator + month_digit + separator + year_digit,
-                pynutil.delete("ngày ") + date_sep,
+                day_prefix + day_digit + separator + month_digit + separator + year_digit,
+                delete_day_prefix + date_sep,
             )
         )
 
-        for sep in [separator, pynini.accep(" ")]:
+        # YYYY/MM/DD format (ISO standard) - output in Vietnamese order
+        iso_year_part = pynutil.insert("year: \"") + year_convert + pynutil.insert("\" ")
+        iso_month_part = pynutil.insert("month: \"") + month_convert + pynutil.insert("\" ")
+        iso_day_part = pynutil.insert("day: \"") + day_convert + pynutil.insert("\"")
+
+        iso_date_sep = (
+            iso_year_part + pynutil.delete(separator) + iso_month_part + pynutil.delete(separator) + iso_day_part
+        )
+        patterns.append(pynini.compose(year_digit + separator + month_digit + separator + day_digit, iso_date_sep))
+
+        for sep in [separator, pynini.accep(NEMO_SPACE)]:
             patterns.append(
                 pynini.compose(
-                    pynini.accep("tháng ") + month_digit + sep + year_digit,
-                    pynutil.delete("tháng ") + month_part + pynutil.delete(sep) + year_part,
+                    month_prefix + month_digit + sep + year_digit,
+                    delete_month_prefix + month_part + pynutil.delete(sep) + year_part,
                 )
             )
 
         day_month_sep = day_part + pynutil.delete(separator) + month_final
         patterns.append(
-            pynini.compose(
-                pynini.accep("ngày ") + day_digit + separator + month_digit, pynutil.delete("ngày ") + day_month_sep
-            )
+            pynini.compose(day_prefix + day_digit + separator + month_digit, delete_day_prefix + day_month_sep)
         )
 
         patterns.append(
             pynini.compose(
-                pynini.accep("ngày ") + day_digit + pynini.accep(" tháng ") + month_digit,
-                pynutil.delete("ngày ") + day_part + pynutil.delete(" tháng ") + month_final,
+                day_prefix + day_digit + pynini.accep(NEMO_SPACE + MONTH_WORD + NEMO_SPACE) + month_digit,
+                delete_day_prefix + day_part + pynutil.delete(NEMO_SPACE + MONTH_WORD + NEMO_SPACE) + month_final,
             )
         )
 
         patterns.append(
             pynini.compose(
-                pynini.accep("ngày ")
+                day_prefix
                 + day_digit
-                + pynini.accep(" tháng ")
+                + pynini.accep(NEMO_SPACE + MONTH_WORD + NEMO_SPACE)
                 + month_digit
-                + pynini.accep(" năm ")
+                + pynini.accep(NEMO_SPACE + YEAR_WORD + NEMO_SPACE)
                 + year_digit,
-                pynutil.delete("ngày ")
+                delete_day_prefix
                 + day_part
-                + pynutil.delete(" tháng ")
+                + pynutil.delete(NEMO_SPACE + MONTH_WORD + NEMO_SPACE)
                 + month_part
-                + pynutil.delete(" năm ")
+                + pynutil.delete(NEMO_SPACE + YEAR_WORD + NEMO_SPACE)
                 + year_part,
             )
         )
 
-        patterns.append(pynini.compose(pynini.accep("năm ") + year_digit, pynutil.delete("năm ") + year_part))
+        patterns.append(pynini.compose(year_prefix + year_digit, delete_year_prefix + year_part))
 
         era_abbrs = list(era_to_full.keys())
         for era_abbr in era_abbrs:
             patterns.append(
                 pynini.compose(
-                    pynini.accep("năm ") + year_digit + pynini.accep(" ") + pynini.accep(era_abbr),
-                    pynutil.delete("năm ") + year_part + pynutil.delete(" ") + era_part,
+                    year_prefix + year_digit + pynini.accep(NEMO_SPACE) + pynini.accep(era_abbr),
+                    delete_year_prefix + year_part + pynutil.delete(NEMO_SPACE) + era_part,
                 )
             )
 
             patterns.append(
                 pynini.compose(
-                    pynini.accep("năm thứ ") + year_digit + pynini.accep(" ") + pynini.accep(era_abbr),
-                    pynutil.delete("năm thứ ")
+                    ordinal_year_prefix + year_digit + pynini.accep(NEMO_SPACE) + pynini.accep(era_abbr),
+                    delete_ordinal_year_prefix
                     + pynutil.insert("ordinal: \"")
                     + year_convert
                     + pynutil.insert("\" ")
-                    + pynutil.delete(" ")
+                    + pynutil.delete(NEMO_SPACE)
                     + era_part,
                 )
             )
diff --git a/nemo_text_processing/text_normalization/vi/taggers/decimal.py b/nemo_text_processing/text_normalization/vi/taggers/decimal.py
@@ -113,7 +113,27 @@ def __init__(self, cardinal: GraphFst, deterministic: bool = True):
             )
             patterns.append(abbr_pattern)
 
-        # 5. Compound abbreviations: 1tr2 -> một triệu hai trăm nghìn, 2t3 -> hai tỷ ba trăm triệu
+        # 5. Decimal with abbreviations: 2,5tr, but avoid measure conflicts
+        measure_prefix_labels = load_labels(get_abs_path("data/measure/prefixes.tsv"))
+        measure_prefixes = {prefix.lower() for prefix, _ in measure_prefix_labels}
+
+        # Filter quantity abbreviations to avoid measure conflicts
+        safe_quantity_abbrs = [
+            (abbr, full) for abbr, full in quantity_abbr_labels if abbr.lower() not in measure_prefixes
+        ]
+
+        for abbr, full_name in safe_quantity_abbrs:
+            decimal_abbr_pattern = (
+                (integer_part + pynutil.insert(NEMO_SPACE)).ques
+                + pynutil.delete(NEMO_COMMA)
+                + pynutil.insert(NEMO_SPACE)
+                + fractional_part
+                + pynutil.insert(f" quantity: \"{full_name}\"")
+                + pynutil.delete(abbr)
+            )
+            patterns.append(decimal_abbr_pattern)
+
+        # 6. Compound abbreviations: 1tr2 -> một triệu hai trăm nghìn, 2t3 -> hai tỷ ba trăm triệu
         compound_expansions = {
             "tr": ("triệu", "trăm nghìn"),  # 1tr2 -> một triệu hai trăm nghìn
             "t": ("tỷ", "trăm triệu"),  # 2t3 -> hai tỷ ba trăm triệu
diff --git a/nemo_text_processing/text_normalization/vi/taggers/measure.py b/nemo_text_processing/text_normalization/vi/taggers/measure.py
@@ -115,17 +115,19 @@ def __init__(
 
         # Optional negative sign handling for Vietnamese
         optional_graph_negative = pynini.closure(
-            pynini.cross(pynini.union("âm", "trừ"), "negative: \"true\" "),
+            pynini.cross("-", "negative: \"true\" "),
             0,
             1,
         )
 
         # Domain restriction patterns - only match core number+unit patterns
         # Remove punctuation handling to let punctuation tagger handle it separately
         optional_space = pynini.closure(NEMO_SPACE, 0, 1)
-        integer_measure_domain = number + optional_space + unit_pattern
-        decimal_measure_domain = decimal_number + optional_space + unit_pattern
-        fraction_measure_domain = number + "/" + number + optional_space + unit_pattern
+        optional_negative_sign = pynini.closure("-" + optional_space, 0, 1)
+
+        integer_measure_domain = optional_negative_sign + number + optional_space + unit_pattern
+        decimal_measure_domain = optional_negative_sign + decimal_number + optional_space + unit_pattern
+        fraction_measure_domain = optional_negative_sign + number + "/" + number + optional_space + unit_pattern
 
         cardinal_number_graph = pynutil.insert('integer: "') + (number @ cardinal_graph) + pynutil.insert('"')
 
diff --git a/nemo_text_processing/text_normalization/vi/taggers/punctuation.py b/nemo_text_processing/text_normalization/vi/taggers/punctuation.py
@@ -26,7 +26,7 @@ class PunctuationFst(GraphFst):
     def __init__(self, deterministic: bool = True):
         super().__init__(name="punctuation", kind="classify", deterministic=deterministic)
 
-        s = "!#%&'()*+,-./:;<=>?@^_`{|}~"
+        s = "!#%&'()*+,-./:;<=>?@^_`{|}~′″°"
 
         punct = pynini.union(*s)
         self.punct_marks = punct
diff --git a/nemo_text_processing/text_normalization/vi/taggers/tokenize_and_classify.py b/nemo_text_processing/text_normalization/vi/taggers/tokenize_and_classify.py
@@ -168,14 +168,14 @@ def __init__(
                 | pynutil.add_weight(money_graph, 1.1)
                 | pynutil.add_weight(range_graph, 1.1)
                 | pynutil.add_weight(decimal_graph, 1.1)
-                | pynutil.add_weight(roman_graph, 1.1)
                 | pynutil.add_weight(date_graph, 1.1)
                 | pynutil.add_weight(cardinal_graph, 1.1)
                 | pynutil.add_weight(ordinal_graph, 1.1)
                 | pynutil.add_weight(fraction_graph, 1.1)
                 | pynutil.add_weight(time_graph, 1.1)
                 | pynutil.add_weight(measure_graph, 1.1)
                 | pynutil.add_weight(word_graph, 100)
+                | pynutil.add_weight(roman_graph, 101)
             )
             punct = (
                 pynutil.insert("tokens { ") + pynutil.add_weight(punct_graph, 2.1) + pynutil.insert(" }")
diff --git a/nemo_text_processing/text_normalization/vi/taggers/word.py b/nemo_text_processing/text_normalization/vi/taggers/word.py
@@ -15,7 +15,7 @@
 import pynini
 from pynini.lib import pynutil
 
-from nemo_text_processing.text_normalization.vi.graph_utils import NEMO_NOT_SPACE, GraphFst
+from nemo_text_processing.text_normalization.vi.graph_utils import NEMO_ALPHA, NEMO_DIGIT, NEMO_NOT_SPACE, GraphFst
 
 
 class WordFst(GraphFst):
@@ -30,5 +30,17 @@ class WordFst(GraphFst):
 
     def __init__(self, deterministic: bool = True):
         super().__init__(name="word", kind="classify", deterministic=deterministic)
-        word = pynutil.insert("name: \"") + pynini.closure(NEMO_NOT_SPACE, 1) + pynutil.insert("\"")
+
+        # Symbols that should cause token breaks
+        # Include measure symbols, currency symbols, and digits
+        symbols_to_exclude = pynini.union("°", "′", "″", "$", "€", "₩", "£", "¥", "#", "%", "₫", NEMO_DIGIT).optimize()
+
+        word_chars = pynini.closure(pynini.difference(NEMO_NOT_SPACE, symbols_to_exclude), 1)
+        default_word_graph = word_chars
+
+        alpha_word_graph = pynini.closure(NEMO_ALPHA, 1)
+
+        graph = pynutil.add_weight(alpha_word_graph, -1.0) | default_word_graph
+
+        word = pynutil.insert("name: \"") + graph + pynutil.insert("\"")
         self.fst = word.optimize()
diff --git a/nemo_text_processing/text_normalization/vi/verbalizers/measure.py b/nemo_text_processing/text_normalization/vi/verbalizers/measure.py
@@ -12,6 +12,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import pynini
+
 from nemo_text_processing.text_normalization.vi.graph_utils import (
     GraphFst,
     delete_preserve_order,
@@ -43,17 +45,23 @@ def __init__(self, decimal: GraphFst, cardinal: GraphFst, fraction: GraphFst, de
         # Extract components
         unit = extract_field("units")
 
+        # Handle negative sign - Vietnamese uses "âm" for negative numbers
+        optional_negative = pynini.closure(pynini.cross("negative: \"true\"", "âm ") + delete_space, 0, 1)
+        if not deterministic:
+            # Alternative ways to say negative in Vietnamese
+            optional_negative |= pynini.closure(pynini.cross("negative: \"true\"", "trừ ") + delete_space, 0, 1)
+
         # Combine all number types into single graph
         number_graph = (
             extract_wrapper_content("decimal", decimal.numbers)
             | extract_wrapper_content("cardinal", cardinal.numbers)
             | extract_wrapper_content("fraction", fraction.numbers)
         )
 
-        # Main pattern: number + space + unit (most common case)
-        graph = number_graph + delete_space + insert_space + unit
+        # Main pattern: [negative] number + space + unit (most common case)
+        graph = optional_negative + number_graph + delete_space + insert_space + unit
 
-        # Handle preserve_order: unit + space + number
-        graph |= unit + delete_space + insert_space + number_graph + delete_preserve_order
+        # Handle preserve_order: [negative] unit + space + number
+        graph |= optional_negative + unit + delete_space + insert_space + number_graph + delete_preserve_order
 
         self.fst = self.delete_tokens(graph).optimize()
diff --git a/nemo_text_processing/text_normalization/vi/verbalizers/money.py b/nemo_text_processing/text_normalization/vi/verbalizers/money.py
@@ -88,10 +88,27 @@ def __init__(self, deterministic: bool = True):
             + currency_maj
         )
 
+        # 6. Decimal with quantity: integer + fractional + quantity + currency - for cases like 2,5 triệu đồng
+        graph_decimal_with_quantity = (
+            integer_part
+            + delete_space
+            + insert_space
+            + pynutil.insert(NEMO_COMMA_VI)
+            + insert_space
+            + fractional_part
+            + delete_space
+            + insert_space
+            + quantity
+            + delete_space
+            + insert_space
+            + currency_maj
+        )
+
         # Create main graph with proper priority order (similar to English)
         graph = (
             graph_minor  # Handle minor-only cases first
             | graph_integer_with_minor  # Handle major+minor cases
+            | graph_decimal_with_quantity  # Handle decimal with quantity cases (before simpler decimal)
             | graph_with_quantity  # Handle quantity cases
             | graph_decimal  # Handle decimal cases
             | graph_integer  # Handle simple cases (most common, lowest priority)

Original file line number	Diff line number	Diff line change
`@@ -45,6 +45,8 @@`
`45`	`45`	`"FRACTION",`
`46`	`46`	`"TIME",`
`47`	`47`	`"ADDRESS",`
	`48`	`+ "ROMAN",`
	`49`	`+ "RANGE",`
`48`	`50`	`]`
`49`	`51`
`50`	`52`