fix bug of jsut dataset, add pyopenjtalk to setup.py

hertz-pj · hertz-pj · commit 0d05c189802a · 2022-01-28T09:17:53.000+08:00
diff --git a/setup.py b/setup.py
@@ -44,6 +44,7 @@
         "click",
         "g2p_en",
         "dataclasses",
+        "pyopenjtalk",
     ],
     "setup": ["numpy", "pytest-runner",],
     "test": [
diff --git a/tensorflow_tts/configs/fastspeech.py b/tensorflow_tts/configs/fastspeech.py
@@ -21,6 +21,7 @@
 from tensorflow_tts.processor.kss import KSS_SYMBOLS as kss_symbols
 from tensorflow_tts.processor.baker import BAKER_SYMBOLS as bk_symbols
 from tensorflow_tts.processor.libritts import LIBRITTS_SYMBOLS as lbri_symbols
+from tensorflow_tts.processor.jsut import JSUT_SYMBOLS as jsut_symbols
 
 
 SelfAttentionParams = collections.namedtuple(
@@ -95,6 +96,8 @@ def __init__(
             self.vocab_size = len(bk_symbols)
         elif dataset == "libritts":
             self.vocab_size = len(lbri_symbols)
+        elif dataset == "jsut_symbols":
+            self.vocab_size = len(jsut_symbols)
         else:
             raise ValueError("No such dataset: {}".format(dataset))
         self.initializer_range = initializer_range
diff --git a/tensorflow_tts/configs/tacotron2.py b/tensorflow_tts/configs/tacotron2.py
@@ -16,12 +16,14 @@
 
 
 from tensorflow_tts.configs import BaseConfig
+from tensorflow_tts.processor.jsut import JSUT_SYMBOLS
 from tensorflow_tts.processor.ljspeech import LJSPEECH_SYMBOLS as lj_symbols
 from tensorflow_tts.processor.kss import KSS_SYMBOLS as kss_symbols
 from tensorflow_tts.processor.baker import BAKER_SYMBOLS as bk_symbols
 from tensorflow_tts.processor.libritts import LIBRITTS_SYMBOLS as lbri_symbols
 from tensorflow_tts.processor.ljspeechu import LJSPEECH_U_SYMBOLS as lju_symbols
 from tensorflow_tts.processor.synpaflex import SYNPAFLEX_SYMBOLS as synpaflex_symbols
+from tensorflow_tts.processor.jsut import JSUT_SYMBOLS as jsut_symbols
 
 
 class Tacotron2Config(BaseConfig):
@@ -72,6 +74,8 @@ def __init__(
             self.vocab_size = len(lju_symbols)
         elif dataset == "synpaflex":
             self.vocab_size = len(synpaflex_symbols)
+        elif dataset == "jsut":
+            self.vocab_size = len(jsut_symbols)
         else:
             raise ValueError("No such dataset: {}".format(dataset))
         self.embedding_hidden_size = embedding_hidden_size
diff --git a/tensorflow_tts/inference/auto_processor.py b/tensorflow_tts/inference/auto_processor.py
@@ -27,6 +27,7 @@
     ThorstenProcessor,
     LJSpeechUltimateProcessor,
     SynpaflexProcessor,
+    JSUTProcessor,
 )
 
 from tensorflow_tts.utils import CACHE_DIRECTORY, PROCESSOR_FILE_NAME, LIBRARY_NAME
@@ -42,6 +43,7 @@
         ("ThorstenProcessor", ThorstenProcessor),
         ("LJSpeechUltimateProcessor", LJSpeechUltimateProcessor),
         ("SynpaflexProcessor", SynpaflexProcessor),
+        ("JSUTProcessor", JSUTProcessor),
     ]
 )
 
diff --git a/tensorflow_tts/processor/jsut.py b/tensorflow_tts/processor/jsut.py
@@ -91,7 +91,6 @@ class JSUTProcessor(BaseProcessor):
     """JSUT processor."""
     cleaner_names: str = None
     speaker_name: str = "jsut"
-    target_rate: int = 24000
     train_f_name: str = "text_kana/basic5000.yaml"
 
     def create_items(self):
@@ -105,8 +104,6 @@ def create_items(self):
                 for k, v in data_json.items():
                     utt_id = k
                     phones = v['phone_level3']
-                    # phones = phones.replace("I", "i")
-                    # phones = phones.replace("U", "u")
                     phones = phones.split("-")
                     phones = [_sil] + phones + [_sil]
                     wav_path = os.path.join(self.data_dir, "wav", f"{utt_id}.wav")
@@ -129,9 +126,9 @@ def get_one_sample(self, item):
         audio, rate = sf.read(wav_path)
         audio = audio.astype(np.float32)
 
-        if rate != self.target_rate:
-            assert rate > self.target_rate
-            audio = librosa.resample(audio, rate, self.target_rate)
+        # if rate != self.target_rate:
+        #     assert rate > self.target_rate
+        #     audio = librosa.resample(audio, rate, self.target_rate)
 
         # convert text to ids
         text_ids = np.asarray(self.text_to_sequence(text), np.int32)
diff --git a/tensorflow_tts/processor/pretrained/jsut_mapper.json b/tensorflow_tts/processor/pretrained/jsut_mapper.json
@@ -0,0 +1,90 @@
+{
+    "symbol_to_id": {
+        "pad": 0,
+        "sil": 1,
+        "N": 2,
+        "a": 3,
+        "b": 4,
+        "by": 5,
+        "ch": 6,
+        "cl": 7,
+        "d": 8,
+        "dy": 9,
+        "e": 10,
+        "f": 11,
+        "g": 12,
+        "gy": 13,
+        "h": 14,
+        "hy": 15,
+        "i": 16,
+        "j": 17,
+        "k": 18,
+        "ky": 19,
+        "m": 20,
+        "my": 21,
+        "n": 22,
+        "ny": 23,
+        "o": 24,
+        "p": 25,
+        "pau": 26,
+        "py": 27,
+        "r": 28,
+        "ry": 29,
+        "s": 30,
+        "sh": 31,
+        "t": 32,
+        "ts": 33,
+        "u": 34,
+        "v": 35,
+        "w": 36,
+        "y": 37,
+        "z": 38,
+        "eos": 39
+    },
+    "id_to_symbol": {
+        "0": "pad",
+        "1": "sil",
+        "2": "N",
+        "3": "a",
+        "4": "b",
+        "5": "by",
+        "6": "ch",
+        "7": "cl",
+        "8": "d",
+        "9": "dy",
+        "10": "e",
+        "11": "f",
+        "12": "g",
+        "13": "gy",
+        "14": "h",
+        "15": "hy",
+        "16": "i",
+        "17": "j",
+        "18": "k",
+        "19": "ky",
+        "20": "m",
+        "21": "my",
+        "22": "n",
+        "23": "ny",
+        "24": "o",
+        "25": "p",
+        "26": "pau",
+        "27": "py",
+        "28": "r",
+        "29": "ry",
+        "30": "s",
+        "31": "sh",
+        "32": "t",
+        "33": "ts",
+        "34": "u",
+        "35": "v",
+        "36": "w",
+        "37": "y",
+        "38": "z",
+        "39": "eos"
+    },
+    "speakers_map": {
+        "jsut": 0
+    },
+    "processor_name": "JSUTProcessor"
+}

Original file line number	Diff line number	Diff line change
`@@ -27,6 +27,7 @@`
`27`	`27`	`ThorstenProcessor,`
`28`	`28`	`LJSpeechUltimateProcessor,`
`29`	`29`	`SynpaflexProcessor,`
	`30`	`+ JSUTProcessor,`
`30`	`31`	`)`
`31`	`32`
`32`	`33`	`from tensorflow_tts.utils import CACHE_DIRECTORY, PROCESSOR_FILE_NAME, LIBRARY_NAME`
`@@ -42,6 +43,7 @@`
`42`	`43`	`("ThorstenProcessor", ThorstenProcessor),`
`43`	`44`	`("LJSpeechUltimateProcessor", LJSpeechUltimateProcessor),`
`44`	`45`	`("SynpaflexProcessor", SynpaflexProcessor),`
	`46`	`+ ("JSUTProcessor", JSUTProcessor),`
`45`	`47`	`]`
`46`	`48`	`)`
`47`	`49`