fix(audio): float32 wav saving

fumiama · fumiama · commit 75b6ab63f0df · 2024-11-28T03:09:17.000+09:00
diff --git a/infer/lib/audio.py b/infer/lib/audio.py
@@ -10,6 +10,7 @@
 import av
 from av.audio.resampler import AudioResampler
 from av.audio.frame import AudioFrame
+import scipy.io.wavfile as wavfile
 
 video_format_dict: Dict[str, str] = {
     "m4a": "mp4",
@@ -27,19 +28,22 @@ def float_to_int16(audio: np.ndarray) -> np.ndarray:
     am = 32767 * 32768 // am
     return np.multiply(audio, am).astype(np.int16)
 
-def float_np_array_to_wav_buf(wav: np.ndarray, sr: int) -> BytesIO:
+def float_np_array_to_wav_buf(wav: np.ndarray, sr: int, f32=False) -> BytesIO:
     buf = BytesIO()
-    with wave.open(buf, "wb") as wf:
-        wf.setnchannels(2 if len(wav.shape) > 1 else 1)  # Mono channel
-        wf.setsampwidth(2)  # Sample width in bytes
-        wf.setframerate(sr)  # Sample rate in Hz
-        wf.writeframes(float_to_int16(wav.T if len(wav.shape) > 1 else wav))
+    if f32:
+        wavfile.write(buf, sr, wav.astype(np.float32))
+    else:
+        with wave.open(buf, "wb") as wf:
+            wf.setnchannels(2 if len(wav.shape) > 1 else 1)
+            wf.setsampwidth(2)  # Sample width in bytes
+            wf.setframerate(sr)  # Sample rate in Hz
+            wf.writeframes(float_to_int16(wav.T if len(wav.shape) > 1 else wav))
     buf.seek(0, 0)
     return buf
 
-def save_audio(path: str, audio: np.ndarray, sr: int):
+def save_audio(path: str, audio: np.ndarray, sr: int, f32=False):
     with open(path, "wb") as f:
-        f.write(float_np_array_to_wav_buf(audio, sr).getbuffer())
+        f.write(float_np_array_to_wav_buf(audio, sr, f32).getbuffer())
 
 def wav2(i: BytesIO, o: BufferedWriter, format: str):
     inp = av.open(i, "r")
diff --git a/infer/modules/train/preprocess.py b/infer/modules/train/preprocess.py
@@ -62,16 +62,15 @@ def norm_write(self, tmp_audio, idx0, idx1):
         tmp_audio = (tmp_audio / tmp_max * (self.max * self.alpha)) + (
             1 - self.alpha
         ) * tmp_audio
-        save_audio("%s/%s_%s.wav" % (self.gt_wavs_dir, idx0, idx1), tmp_audio, self.sr)  
+        save_audio("%s/%s_%s.wav" % (self.gt_wavs_dir, idx0, idx1), tmp_audio, self.sr, f32=True)  
         with open("%s/%s_%s.wav" % (self.wavs16k_dir, idx0, idx1), "wb") as f:
             f.write(float_np_array_to_wav_buf(
                 load_audio(
-                    float_np_array_to_wav_buf(tmp_audio, self.sr),
+                    float_np_array_to_wav_buf(tmp_audio, self.sr, f32=True),
                     sr=16000,
                     format="wav",
-                    mono=False,
                 )
-            , 16000).getbuffer())
+            , 16000, True).getbuffer())
 
     def pipeline(self, path, idx0):
         try:
diff --git a/web.py b/web.py
@@ -141,8 +141,8 @@ def forward_dml(ctx, x, scale):
 index_root = os.getenv("index_root")
 outside_index_root = os.getenv("outside_index_root")
 
-names = []
-index_paths = []
+names = [""]
+index_paths = [""]
 
 def lookup_names(weight_root):
     global names
@@ -168,9 +168,9 @@ def lookup_indices(index_root):
 
 def change_choices():
     global index_paths, names
-    names = []
+    names = [""]
     lookup_names(weight_root)
-    index_paths = []
+    index_paths = [""]
     lookup_indices(index_root)
     lookup_indices(outside_index_root)
     return {"choices": sorted(names), "__type__": "update"}, {