Fix batch preprocessing bug in Moonshine generation (#2266)

harshaljanjani · web-flow · commit 7f1f01114a97 · 2025-05-24T17:43:46.000-07:00
* bug fix: To ragged in batched generation if available

* fix: Remove conditional

* feat: Add batched post-processing test coverage
diff --git a/keras_hub/src/models/moonshine/moonshine_audio_to_text_preprocessor.py b/keras_hub/src/models/moonshine/moonshine_audio_to_text_preprocessor.py
@@ -266,4 +266,7 @@ def generate_postprocess(self, x):
                 and 0 <= token < vocab_size
             ]
             processed_sequences.append(filtered_tokens)
+        processed_sequences = tf.ragged.constant(
+            processed_sequences, dtype=tf.int32
+        )
         return self.tokenizer.detokenize(processed_sequences)
diff --git a/keras_hub/src/models/moonshine/moonshine_audio_to_text_preprocessor_test.py b/keras_hub/src/models/moonshine/moonshine_audio_to_text_preprocessor_test.py
@@ -1,6 +1,7 @@
 import os
 
 import keras
+import numpy as np
 import pytest
 
 from keras_hub.src.models.moonshine.moonshine_audio_converter import (
@@ -26,9 +27,14 @@ def setUp(self):
             "tokenizer": self.tokenizer,
             "decoder_sequence_length": 8,
         }
+        # NOTE: Since keras.ops.convert_to_tensor() does not support
+        # dtype="string" for the JAX and PyTorch backends, the only way to pass
+        # inputs that aren't a mix of tensors and non-tensors is to use a
+        # library-specific function. Using np.random.normal here as a substitute
+        # to a librosa.load() call.
         self.input_data = (
             {
-                "audio": keras.random.normal((1, 16000, 1)),
+                "audio": np.random.normal(size=(1, 16000, 1)),
                 "text": ["the quick brown fox"],
             },
         )
@@ -76,6 +82,24 @@ def test_generate_postprocess(self):
         self.assertIsInstance(output, list)
         self.assertIsInstance(output[0], str)
 
+    def test_generate_postprocess_batched(self):
+        preprocessor = MoonshineAudioToTextPreprocessor(**self.init_kwargs)
+        batch_size = 3
+        sequence_length = 5
+        input_data = {
+            "decoder_token_ids": keras.ops.ones(
+                (batch_size, sequence_length), dtype="int32"
+            ),
+            "decoder_padding_mask": keras.ops.ones(
+                (batch_size, sequence_length)
+            ),
+        }
+        output = preprocessor.generate_postprocess(input_data)
+        self.assertIsInstance(output, list)
+        self.assertEqual(len(output), batch_size)
+        for item in output:
+            self.assertIsInstance(item, str)
+
     @pytest.mark.extra_large
     def test_all_presets(self):
         for preset in MoonshineAudioToTextPreprocessor.presets:

Original file line number	Diff line number	Diff line change
`@@ -266,4 +266,7 @@ def generate_postprocess(self, x):`
`266`	`266`	`and 0 <= token < vocab_size`
`267`	`267`	`]`
`268`	`268`	`processed_sequences.append(filtered_tokens)`
	`269`	`+ processed_sequences = tf.ragged.constant(`
	`270`	`+ processed_sequences, dtype=tf.int32`
	`271`	`+ )`
`269`	`272`	`return self.tokenizer.detokenize(processed_sequences)`