🤗 Complete BakerProcessor and add private processor_name to base_processor.

dathudeptrai · dathudeptrai · commit 8a5f63aabc42 · 2020-08-18T14:17:08.000+07:00
diff --git a/.gitignore b/.gitignore
@@ -35,4 +35,5 @@ ljspeech
 LibriTTS/
 dataset/
 mfa/
-kss
+kss/
+baker/
diff --git a/tensorflow_tts/processor/baker.py b/tensorflow_tts/processor/baker.py
@@ -28,8 +28,8 @@
 from pypinyin.core import Pinyin
 from tensorflow_tts.processor import BaseProcessor
 
-_pad = ["_"]
-_eos = ["~"]
+_pad = ["pad"]
+_eos = ["eos"]
 _pause = ["sil", "#0", "#1", "#2", "#3"]
 
 _initials = [
@@ -546,6 +546,7 @@ class BakerProcessor(BaseProcessor):
     speaker_name: str = "baker"
 
     def create_items(self):
+        items = []
         if self.data_dir:
             with open(
                 os.path.join(self.data_dir, "ProsodyLabeling/000001-010000.txt"),
@@ -561,13 +562,12 @@ def create_items(self):
                     phonemes = self.get_phoneme_from_char_and_pinyin(chn_char, pinyin)
                     wav_path = os.path.join(self.data_dir, "Wave", "%s.wav" % utt_id)
                     items.append(
-                        [" ".join(phonemes), wav_path, self.speaker_name, utt_id]
+                        [" ".join(phonemes), wav_path, utt_id, self.speaker_name]
                     )
             self.items = items
         self.pinyin_parser = self.get_pinyin_parser()
 
-    @staticmethod
-    def get_phoneme_from_char_and_pinyin(chn_char, pinyin):
+    def get_phoneme_from_char_and_pinyin(self, chn_char, pinyin):
         # we do not need #4, use sil to replace it
         chn_char = chn_char.replace("#4", "")
         char_len = len(chn_char)
@@ -613,7 +613,7 @@ def get_phoneme_from_char_and_pinyin(chn_char, pinyin):
         return result
 
     def get_one_sample(self, item):
-        text, wav_file, speaker_name, utt_id = item
+        text, wav_file, utt_id, speaker_name = item
 
         # normalize audio signal to be [-1, 1], soundfile already norm.
         audio, rate = sf.read(wav_file)
diff --git a/tensorflow_tts/processor/base_processor.py b/tensorflow_tts/processor/base_processor.py
@@ -61,6 +61,9 @@ def __post_init__(self):
         self.create_symbols()
         if self.saved_mapper_path is not None:
             self._save_mapper(saved_path=self.saved_mapper_path)
+        
+        # processor name. usefull to use it for AutoProcessor
+        self._processor_name = type(self).__name__
 
     def __getattr__(self, name: str) -> Union[str, int]:
         if "_id" in name:  # map symbol to id
@@ -177,6 +180,7 @@ def _load_mapper(self, loaded_path: str = None):
         self.speakers_map = data["speakers_map"]
         self.symbol_to_id = data["symbol_to_id"]
         self.id_to_symbol = {int(k): v for k, v in data["id_to_symbol"].items()}
+        self._processor_name = data["processor_name"]
 
         # other keys
         all_data_keys = data.keys()
@@ -198,6 +202,7 @@ def _save_mapper(self, saved_path: str = None, extra_attrs_to_save: dict = None)
                 "symbol_to_id": self.symbol_to_id,
                 "id_to_symbol": self.id_to_symbol,
                 "speakers_map": self.speakers_map,
+                "processor_name": self._processor_name,
             }
             if extra_attrs_to_save:
                 full_mapper = {**full_mapper, **extra_attrs_to_save}