Enhance Hungarian normalisation: add new entries, improve force change handling, and implement Roman numeral conversion

sarpba · sarpba · commit fcd1cbf8c792 · 2025-04-20T15:53:26.000+02:00
diff --git a/src/f5_tts/infer/normalisers/hun/README.md b/src/f5_tts/infer/normalisers/hun/README.md
@@ -0,0 +1 @@
+Magyar szüvegnormalizáló az F5-TTS kiejtésének javításához.
diff --git a/src/f5_tts/infer/normalisers/hun/changes.csv b/src/f5_tts/infer/normalisers/hun/changes.csv
@@ -1,3 +1,6 @@
+AI, é áj
+MI, emi
+PDA, pédéa
 GPS, dzipiesz
 chips, csipsz
 Kyle, kájl
@@ -452,4 +455,105 @@ Hannibal, Hannibál
 Eugen, Ögen
 Colonna, Kolonna
 Orsini, Orszíni
-campagna, kampannya
+campagna, kampannya
+Mozart, Mócárt
+Travis, Travísz
+Parker, Parkőr
+Gabby, Gábí
+Nicholas, Niklesz
+Sparks, Szparksz
+Beaufort, Bófor
+grizzly, gízli
+Shackleford, Saklefőr
+Banks, Bénksz
+Carteret, Kardöret
+hospital, hászpital
+Matt, Met
+Moby, Móbí
+Joe, Dzsó
+Laird, Lérd
+Megan, Megön
+Allison, Áliszn
+Braves, Brévsz
+Dodgers, Dádzsörsz
+Liz, Líz
+Vail, Véll
+Tina, Tiná
+Henry, Henrí
+Wake, Vék
+Forest, Fóreszt
+Duke, Dúk
+Colorado, Kolorádó
+Monica, Móniká
+Olivia, Olívia
+Oliv, Ollev
+Leslie, Lezlí
+Gwen, Gven
+Clue, Klú
+Josie, Dzsózi
+Stephanie, Sztefeni
+Chapel, Csápl
+Hill, Hil
+Rolling, Róllin
+Stones, Sztónz
+Tattoo, Tátú
+Yout, Yó
+Nobby, Nábí
+Virginia, Vördzsínia
+wake, Vék
+fair, fer
+Morehead, Mórhed
+City, Szidí
+Kevin, Kevön
+Adrian, Édrien
+Melton, Meltön
+New York, Nyújork
+Los Angeles, lászendzselesz
+Chicago, Sikágó
+Houston, Hjúsztn
+Phoenix, Főnix
+Philadelphia, Filadelfia
+San Antonio, szen antonió
+San Diego, szen diégo
+Dallas, dálesz
+San Jose, szenhózé
+Austin, osztin
+Jacksonville, dzsekszonvil
+Fort Worth, fortvörsz
+Columbus, kolumbusz
+Charlotte, sárlot
+San Francisco, szenfrensziszkó
+Indianapolis, indianapolisz
+Seattle, szietl
+Denver, denvör
+Washington, vasington
+Boston, bosztön
+El Paso, elpászó
+Nashville, nesvil
+Detroit, ditroit
+Oklahoma City, oklahomasziti
+Portland, portlend
+Las Vegas, lászvégász
+Memphis, memfisz
+Louisville, lúivill
+Baltimore, baltimór
+Milwaukee, milvóki
+Albuquerque, elbökörki
+Tucson, túszon
+Fresno, freznó
+Mesa, méza
+Sacramento, szakramento
+Atlanta, etlentá
+Kansas City, kenzeszsziti
+Colorado, kolorádó
+Texas, tekszasz
+Florida, florida
+Georgia, dzsordzsa
+Ohio, ohájó
+Nevada, nevada
+Arizona, arizóna
+Tennessee, teneszi
+California, kalifornia
+New Jersey, nyúdzsörzi
+Illinois, illinoj
+Michigan, misigen 
diff --git a/src/f5_tts/infer/normalisers/hun/force_changes.csv b/src/f5_tts/infer/normalisers/hun/force_changes.csv
@@ -1,5 +1,6 @@
-%, százalék
-ninjutsu, nindzsucu
-tweet, tvít
-chips, csipsz
-ly, j
+%, százalék, 1, 1
+ninjutsu, nindzsucu, 0, 0
+tweet, tvít, 0, 0
+chips, csipsz, 0, 0
+w, v, 0, 0
+ly, j, 0, 0
diff --git a/src/f5_tts/infer/normalisers/hun/normaliser.py b/src/f5_tts/infer/normalisers/hun/normaliser.py
@@ -6,22 +6,66 @@
 # Határozzuk meg a normaliser.py könyvtárát
 base_dir = os.path.dirname(os.path.abspath(__file__))
 
+# Római számokat arab számmá alakító segédfüggvény
+def roman_to_int(s):
+    roman_map = {'I': 1, 'V': 5, 'X': 10, 'L': 50, 'C': 100, 'D': 500, 'M': 1000}
+    total = 0
+    prev = 0
+    for char in reversed(s):
+        val = roman_map[char]
+        if val < prev:
+            total -= val
+        else:
+            total += val
+        prev = val
+    return total
+
+def replace_roman_numerals(text):
+    """
+    Minden olyan tokent, ami csak római számból áll (I,V,X,L,C,D,M),
+    opcionálisan egy végponttal, arab számmá alakítjuk.
+    Pl. 'VI' -> '6', 'IX.' -> '9.'
+    """
+    pattern = re.compile(r'\b([MDCLXVI]+)(\.)?\b')
+    def repl(m):
+        roman, dot = m.group(1), m.group(2) or ''
+        # csak akkor alakítjuk, ha érvényes római számként értelmezhető
+        try:
+            arab = roman_to_int(roman)
+        except KeyError:
+            return m.group(0)
+        return f"{arab}{dot}"
+    return pattern.sub(repl, text)
+
 def load_force_changes(filename="force_changes.csv"):
-    # A fájl elérési útja a base_dir könyvtárhoz képest
+    """
+    A force_changes.csv most négy oszlopos:
+    key, value, spaces_before, spaces_after
+    """
     file_path = os.path.join(base_dir, filename)
     force_changes = {}
     with open(file_path, encoding='utf-8') as csvfile:
         reader = csv.reader(csvfile)
         for row in reader:
-            if row:
-                key, value = row
-                force_changes[key.strip()] = value.strip()
+            if not row:
+                continue
+            key, value, spaces_before, spaces_after = row
+            key = key.strip()
+            value = value.strip()
+            # számokra castelünk
+            before = int(spaces_before.strip())
+            after = int(spaces_after.strip())
+            force_changes[key] = (value, before, after)
     return force_changes
 
 def apply_force_changes(text, force_changes):
-    # Fix cserék alkalmazása a szövegre
-    for key, value in force_changes.items():
-        text = text.replace(key, f' {value} ')
+    """
+    A CSV-ben megadott szócsere után annyi szóközt teszünk
+    előre-utólag, amennyit a 3–4. oszlopban látunk.
+    """
+    for key, (value, before, after) in force_changes.items():
+        replacement = ' ' * before + value + ' ' * after
+        text = text.replace(key, replacement)
     return text
 
 def load_changes(filename="changes.csv"):
@@ -43,33 +87,19 @@ def apply_changes(text, changes):
         text = re.sub(pattern, value, text, flags=re.IGNORECASE)
     return text
 
-ordinals = {
-    1: 'első',
-    2: 'második',
-    3: 'harmadik',
-    4: 'negyedik',
-    5: 'ötödik',
-    6: 'hatodik',
-    7: 'hetedik',
-    8: 'nyolcadik',
-    9: 'kilencedik',
-    10: 'tizedik',
-    # További sorszámok hozzáadása szükség szerint
-}
 
-def replace_ordinals(text, ordinals):
-    # Sorszámok átírása, kivéve ha a mondat végén vannak
-    def repl(match):
-        num = int(match.group(1))
-        start, end = match.span()
-        following_text = text[end:]
-        if re.match(r'^\s*$', following_text) or re.match(r'^\s*[\.!\?]', following_text):
-            return match.group(0)
-        ordinal_word = ordinals.get(num, num2words(num, to='ordinal', lang='hu'))
-        return ordinal_word
-    pattern = r'(\d+)\.(?![\s]*$|[\s]*[\.!\?])'
-    text = re.sub(pattern, repl, text)
-    return text
+def replace_ordinals(text):
+    """
+    Bármilyen nagyságú arab számból álló sorszámot (pl. 1233.) 
+    átír num2words segítségével magyar ordítóvá.
+    A patrón biztosítja, hogy a mondatvégén álló számot ponttal ne bántsa.
+    """
+    pattern = re.compile(r'\b(\d+)\.(?!\s*$|\s*[\.!\?])')
+    def repl(m):
+        num = int(m.group(1))
+        # a num2words kész ordító formát ad vissza, pl. 'ezerkettőszázharmincháromadik'
+        return num2words(num, to='ordinal', lang='hu')
+    return pattern.sub(repl, text)
 
 months = {
     'jan.': 'január',
@@ -142,52 +172,67 @@ def day_to_text(day):
     return day_words.get(day, num2words(day, lang='hu') + 'ika')
 
 def replace_dates(text):
-    # Dátumok felismerése és átírása
+    # 0. Külön kezeli az "N-án" vagy "N-én" formátumot
+    pattern0 = re.compile(r'\b(\d{1,2})-(án|én)\b')
+    def repl0(m):
+        day = int(m.group(1))
+        suffix = m.group(2)       # 'án' vagy 'én'
+        ordinal = num2words(day, to='ordinal', lang='hu')
+        return ordinal + suffix
+    text = pattern0.sub(repl0, text)
+
+    # --- először mindegyik dátumformátum, mint eddig ---
     month_abbrs = '|'.join(re.escape(k) for k in months.keys())
 
-    # Év.Hónap.Nap formátum (2015.10.23.)
-    pattern1 = r'(\d{4})\.(\d{1,2})\.(\d{1,2})\.'
-    def repl1(match):
-        year = int(match.group(1))
-        month = int(match.group(2))
-        day = int(match.group(3))
+    # 1. Év.Hónap.Nap formátum (2015.10.23.)
+    pattern1 = re.compile(r'(\d{4})\.(\d{1,2})\.(\d{1,2})\.')
+    def repl1(m):
+        year, month, day = map(int, m.groups())
         year_text = num2words(year, lang='hu')
         month_text = months_numbers.get(month, '')
         day_text = day_to_text(day)
         return f'{year_text} {month_text} {day_text}'
-    text = re.sub(pattern1, repl1, text)
+    text = pattern1.sub(repl1, text)
 
-    # Év.HónapRöv.Nap formátum (2015.okt.23.)
-    pattern2 = r'(\d{4})\.(' + month_abbrs + r')(\d{1,2})\.'
-    def repl2(match):
-        year = int(match.group(1))
-        month_abbr = match.group(2)
-        day = int(match.group(3))
+    # 2. Év.HónapRöv.Nap formátum (2015.okt.23.)
+    pattern2 = re.compile(r'(\d{4})\.(' + month_abbrs + r')(\d{1,2})\.')
+    def repl2(m):
+        year = int(m.group(1))
+        month_abbr = m.group(2)
+        day = int(m.group(3))
         year_text = num2words(year, lang='hu')
         month_text = months.get(month_abbr.lower(), month_abbr)
         day_text = day_to_text(day)
         return f'{year_text} {month_text} {day_text}'
-    text = re.sub(pattern2, repl2, text)
+    text = pattern2.sub(repl2, text)
 
-    # HónapRöv.Nap formátum (okt.23.)
-    pattern3 = r'(' + month_abbrs + r')(\d{1,2})\.'
-    def repl3(match):
-        month_abbr = match.group(1)
-        day = int(match.group(2))
+    # 3. HónapRöv.Nap formátum (okt.23.)
+    pattern3 = re.compile(r'(' + month_abbrs + r')(\d{1,2})\.')
+    def repl3(m):
+        month_abbr = m.group(1)
+        day = int(m.group(2))
         month_text = months.get(month_abbr.lower(), month_abbr)
         day_text = day_to_text(day)
         return f'{month_text} {day_text}'
-    text = re.sub(pattern3, repl3, text)
+    text = pattern3.sub(repl3, text)
 
-    # HónapRöv. Nap-án formátum (okt. 23-án)
-    pattern4 = r'(' + month_abbrs + r')\s+(\d{1,2})-án'
-    def repl4(match):
-        month_abbr = match.group(1)
-        day = int(match.group(2))
+    # 4. HónapRöv. Nap-án formátum (okt. 23-án)
+    pattern4 = re.compile(r'(' + month_abbrs + r')\s+(\d{1,2})-án')
+    def repl4(m):
+        month_abbr = m.group(1)
+        day = int(m.group(2))
         month_text = months.get(month_abbr.lower(), month_abbr)
         day_text = day_to_text(day) + 'n'
         return f'{month_text} {day_text}'
-    text = re.sub(pattern4, repl4, text)
+    text = pattern4.sub(repl4, text)
+
+    # 5. Maradék rövid hónapnevek: dec. -> december stb.
+    #    (ezeket nem köti nap vagy év, csak önállóan szerepelnek)
+    pattern5 = re.compile(r'(?<!\w)(' + month_abbrs + r')(?!\w)')
+    def repl5(m):
+        abb = m.group(1).lower()
+        return months.get(abb, abb)
+    text = pattern5.sub(repl5, text)
 
     return text
 
@@ -238,11 +283,12 @@ def normalize(text):
     force_changes = load_force_changes('force_changes.csv')
     changes = load_changes('changes.csv')
 
+    text = replace_roman_numerals(text)
     text = apply_force_changes(text, force_changes)
     text = apply_changes(text, changes)
     text = replace_dates(text)
     text = replace_times(text)
-    text = replace_ordinals(text, ordinals)
+    text = replace_ordinals(text)
     text = replace_numbers(text)
     text = remove_unwanted_characters(text)
     text = remove_duplicate_spaces(text)
@@ -252,6 +298,7 @@ def normalize(text):
 
 if __name__ == "__main__":
     # Példa szöveg
-    sample_text = "Ez egy példa, KENY, szöveg 10% és 7:15 időponttal 2015.10.23. dátummal. Chartmen"
+    sample_text = ("Ez egy példa szöveg 2023.10.23-án, ami tartalmaz római számokat: VI, és arab számokat: 1234. "
+                   "Ezen kívül van benne időpont is: 12:30:45, és dátumok is: okt. 23-án.")
     normalized_text = normalize(sample_text)
     print(normalized_text)

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+Magyar szüvegnormalizáló az F5-TTS kiejtésének javításához.`