Fix how delayed pattern mask is applied (#147)

ylacombe · web-flow · commit 5d0aca9753ab · 2024-10-14T14:58:03.000+02:00
* fix delayed pattern mask

* Delete parler_tts/modeling_parler_tts.py~Updated upstream
diff --git a/parler_tts/modeling_parler_tts.py b/parler_tts/modeling_parler_tts.py
@@ -3387,7 +3387,7 @@ def generate(
                 )
 
         # build the delay pattern mask for offsetting each codebook prediction by 1 (this behaviour is specific to Parler-TTS)
-        input_ids, decoder_delay_pattern_mask = self.decoder.build_delay_pattern_mask(
+        delayed_input_ids, decoder_delay_pattern_mask = self.decoder.build_delay_pattern_mask(
             input_ids,
             bos_token_id=generation_config._bos_token_tensor,
             pad_token_id=generation_config._pad_token_tensor,
@@ -3398,7 +3398,7 @@ def generate(
 
         # input_ids are ready to be placed on the streamer (if used)
         if streamer is not None:
-            streamer.put(input_ids.cpu())
+            streamer.put(delayed_input_ids.cpu())
 
         # 7. determine generation mode
         is_greedy_gen_mode = (
@@ -3419,7 +3419,7 @@ def generate(
             encoder_input_ids=inputs_tensor,
             prefix_allowed_tokens_fn=None,
             logits_processor=logits_processor,
-            device=input_ids.device,
+            device=delayed_input_ids.device,
         )
 
         # 9. prepare stopping criteria
@@ -3436,7 +3436,7 @@ def generate(
 
             # 10. run greedy search
             outputs = self._sample(
-                input_ids,
+                delayed_input_ids,
                 logits_processor=logits_processor,
                 stopping_criteria=stopping_criteria,
                 generation_config=generation_config,
@@ -3447,19 +3447,19 @@ def generate(
 
         elif is_sample_gen_mode:
             # 10. prepare logits warper
-            logits_warper = self._get_logits_warper(generation_config, device=input_ids.device)
+            logits_warper = self._get_logits_warper(generation_config, device=delayed_input_ids.device)
 
             # expand input_ids with `num_return_sequences` additional sequences per batch
-            input_ids, model_kwargs = self._expand_inputs_for_generation(
-                input_ids=input_ids,
+            delayed_input_ids, model_kwargs = self._expand_inputs_for_generation(
+                input_ids=delayed_input_ids,
                 expand_size=generation_config.num_return_sequences,
                 is_encoder_decoder=self.config.is_encoder_decoder,
                 **model_kwargs,
             )
 
             # 11. run sample
             outputs = self._sample(
-                input_ids,
+                delayed_input_ids,
                 logits_processor=logits_processor,
                 logits_warper=logits_warper,
                 stopping_criteria=stopping_criteria,
@@ -3483,17 +3483,13 @@ def generate(
         # Apply the pattern mask to the final ids
         output_ids = self.decoder.apply_delay_pattern_mask(output_ids, model_kwargs["decoder_delay_pattern_mask"])
 
-        if "input_values" in model_kwargs:
-            # Handle input_values for voice steering
-            mask = output_ids
-        else:
-            # Revert the pattern delay mask by filtering the eos and bos token ids from the delay pattern mask
-            _, mask = self.decoder.build_delay_pattern_mask(
-                input_ids,
-                bos_token_id=generation_config.bos_token_id,
-                pad_token_id=generation_config.pad_token_id,
-                max_length=output_ids.shape[1],
-            )
+        # Revert the pattern delay mask by filtering the eos and bos token ids from the delay pattern mask
+        _, mask = self.decoder.build_delay_pattern_mask(
+            input_ids,
+            bos_token_id=generation_config.bos_token_id,
+            pad_token_id=generation_config.pad_token_id,
+            max_length=output_ids.shape[1],
+        )
 
         mask = (mask != generation_config.bos_token_id) & (mask != generation_config.pad_token_id)
         output_ids = output_ids[mask].reshape(batch_size, self.decoder.num_codebooks, -1)