Merge branch 'master' into master

machineko · web-flow · commit 67e123ad7893 · 2020-08-10T17:07:56.000+02:00
diff --git a/examples/multiband_melgan/train_multiband_melgan.py b/examples/multiband_melgan/train_multiband_melgan.py
@@ -363,7 +363,7 @@ def main():
     if config["remove_short_samples"]:
         mel_length_threshold = config["batch_max_steps"] // config[
             "hop_size"
-        ] + 2 * config["multiband_melgan_generator"].get("aux_context_window", 0)
+        ] + 2 * config["multiband_melgan_generator_params"].get("aux_context_window", 0)
     else:
         mel_length_threshold = None
 
@@ -427,7 +427,7 @@ def main():
     with STRATEGY.scope():
         # define generator and discriminator
         generator = TFMelGANGenerator(
-            MultiBandMelGANGeneratorConfig(**config["multiband_melgan_generator"]),
+            MultiBandMelGANGeneratorConfig(**config["multiband_melgan_generator_params"]),
             name="multi_band_melgan_generator",
         )
 
@@ -437,7 +437,7 @@ def main():
         )
 
         pqmf = TFPQMF(
-            MultiBandMelGANGeneratorConfig(**config["multiband_melgan_generator"]), name="pqmf"
+            MultiBandMelGANGeneratorConfig(**config["multiband_melgan_generator_params"]), name="pqmf"
         )
 
         # dummy input to build model.
diff --git a/tensorflow_tts/models/tacotron2.py b/tensorflow_tts/models/tacotron2.py
@@ -210,6 +210,19 @@ def __init__(self, config, **kwargs):
             name="bilstm",
         )
 
+        if config.n_speakers > 1:
+            self.encoder_speaker_embeddings = tf.keras.layers.Embedding(
+                config.n_speakers,
+                config.embedding_hidden_size,
+                embeddings_initializer=get_initializer(config.initializer_range),
+                name="encoder_speaker_embeddings",
+            )
+            self.encoder_speaker_fc = tf.keras.layers.Dense(
+                units=config.encoder_lstm_units * 2, name="encoder_speaker_fc"
+            )
+
+        self.config = config
+
     def call(self, inputs, training=False):
         """Call logic."""
         input_ids, speaker_ids, input_mask = inputs
@@ -224,6 +237,18 @@ def call(self, inputs, training=False):
         # bi-lstm.
         outputs = self.bilstm(conv_outputs, mask=input_mask)
 
+        if self.config.n_speakers > 1:
+            encoder_speaker_embeddings = self.encoder_speaker_embeddings(speaker_ids)
+            encoder_speaker_features = tf.math.softplus(
+                self.encoder_speaker_fc(encoder_speaker_embeddings)
+            )
+            # extended encoderspeaker embeddings
+            extended_encoder_speaker_features = encoder_speaker_features[
+                :, tf.newaxis, :
+            ]
+            # sum to encoder outputs
+            outputs += extended_encoder_speaker_features
+
         return outputs