huggingface · MyButtermilk · Aug 20, 2025 · Aug 20, 2025 · Aug 20, 2025
diff --git a/normalizer/data_utils.py b/normalizer/data_utils.py
@@ -50,9 +50,18 @@ def load_data(args):
 
     return dataset
 
-def prepare_data(dataset):
+def prepare_data(dataset, decode_audio=True):
     # Re-sample to 16kHz and normalise transcriptions
-    dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
+    if decode_audio:
+        dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
+    else:
+        # Keep decode=False but ensure sampling_rate is set
+        current_audio_feature = dataset.features["audio"]
+        if hasattr(current_audio_feature, 'decode') and not current_audio_feature.decode:
+            # Already set up with decode=False, don't change it
+            pass
+        else:
+            dataset = dataset.cast_column("audio", Audio(sampling_rate=16000, decode=False))
     dataset = dataset.map(normalize)
     dataset = dataset.filter(is_target_text_in_range, input_columns=["norm_text"])
 

diff --git a/soniox/.env.example b/soniox/.env.example
@@ -0,0 +1,6 @@
+# Soniox API Configuration
+# Copy this file to .env and add your actual API key
+SONIOX_API_KEY=your-soniox-api-key-here
+
+# Optional: Hugging Face token for private datasets
+HF_TOKEN=your-huggingface-token-here
diff --git a/soniox/requirements.txt b/soniox/requirements.txt
@@ -0,0 +1,12 @@
+# Core dependencies for Soniox integration
+websockets
+requests
+datasets
+evaluate
+soundfile
+tqdm
+python-dotenv
+transformers
+
+# Note: Set your Soniox API key as an environment variable:
+# export SONIOX_API_KEY="your-api-key-here"