Merge pull request #367 from OscarVanL/speaker_ids_config

dathudeptrai · web-flow · commit d1789e301215 · 2020-11-13T20:21:24.000+07:00
Load Speaker IDs mapping from Processor Mapper
diff --git a/examples/fastspeech2_libritts/fastspeech2_dataset.py b/examples/fastspeech2_libritts/fastspeech2_dataset.py
@@ -59,6 +59,7 @@ def __init__(
         f0_load_fn=np.load,
         energy_load_fn=np.load,
         mel_length_threshold=0,
+        speakers_map=None
     ):
         """Initialize dataset.
 
@@ -77,6 +78,7 @@ def __init__(
             f0_load_fn (func): Function to load f0 file.
             energy_load_fn (func): Function to load energy file.
             mel_length_threshold (int): Threshold to remove short feature files.
+            speakers_map (dict): Speakers map generated in dataset preprocessing
 
         """
         # find all of charactor and mel files.
@@ -96,6 +98,8 @@ def __init__(
             == len(energy_files)
         ), f"Number of charactor, mel, duration, f0 and energy files are different"
 
+        assert speakers_map != None, f"No speakers map found. Did you set --dataset_mapping?"
+
         if ".npy" in charactor_query:
             suffix = charactor_query[1:]
             utt_ids = [os.path.basename(f).replace(suffix, "") for f in charactor_files]
@@ -113,18 +117,9 @@ def __init__(
         self.f0_load_fn = f0_load_fn
         self.energy_load_fn = energy_load_fn
         self.mel_length_threshold = mel_length_threshold
-
-        self.speakers_map = {}  # TODO
-        sp_id = 0
-        for i in self.utt_ids:
-            sp_name = i.split("_")[0]
-            if sp_name not in self.speakers_map:
-                self.speakers_map[sp_name] = sp_id
-                sp_id += 1
-        self.speakers = [
-            self.speakers_map[i.split("_")[0]] for i in self.utt_ids
-        ]  # TODO change but at the moment mfa folder name = speaker name
-
+        self.speakers_map = speakers_map
+        self.speakers = [self.speakers_map[i.split("_")[0]] for i in self.utt_ids]
+        print("Speaker: utt_id", list(zip(self.speakers, self.utt_ids)))
         self.f0_stat = np.load(f0_stat)
         self.energy_stat = np.load(energy_stat)
 
diff --git a/examples/fastspeech2_libritts/train_fastspeech2.py b/examples/fastspeech2_libritts/train_fastspeech2.py
@@ -30,6 +30,7 @@
 
 import numpy as np
 import yaml
+import json
 
 import tensorflow_tts
 from examples.fastspeech2_libritts.fastspeech2_dataset import \
@@ -274,6 +275,11 @@ def main():
         default="dump/stats.npy",
         type=str,
     )
+    parser.add_argument(
+        "--dataset_mapping",
+        default="dump/libritts_mapper.npy",
+        type=str,
+    )
     parser.add_argument(
         "--pretrained",
         default="",
@@ -349,6 +355,15 @@ def main():
     else:
         raise ValueError("Only npy are supported.")
 
+    # load speakers map from dataset map
+    with open(args.dataset_mapping) as f:
+        dataset_mapping = json.load(f)
+        speakers_map = dataset_mapping["speakers_map"]
+
+    # Check n_speakers matches number of speakers in speakers_map
+    n_speakers = config["fastspeech2_params"]["n_speakers"]
+    assert n_speakers == len(speakers_map), f"Number of speakers in dataset does not match n_speakers in config"
+
     # define train/valid dataset
     train_dataset = CharactorDurationF0EnergyMelDataset(
         root_dir=args.train_dir,
@@ -360,6 +375,7 @@ def main():
         f0_stat=args.f0_stat,
         energy_stat=args.energy_stat,
         mel_length_threshold=mel_length_threshold,
+        speakers_map=speakers_map
     ).create(
         is_shuffle=config["is_shuffle"],
         allow_cache=config["allow_cache"],
@@ -376,6 +392,7 @@ def main():
         f0_stat=args.f0_stat,
         energy_stat=args.energy_stat,
         mel_length_threshold=mel_length_threshold,
+        speakers_map=speakers_map
     ).create(
         is_shuffle=config["is_shuffle"],
         allow_cache=config["allow_cache"],