Fix issue in audio conversion

The TensorFlow Datasets Authors · The TensorFlow Datasets Authors · commit 354315c6e535 · 2024-10-21T07:22:17.000-07:00
PiperOrigin-RevId: 688126350
diff --git a/tensorflow_datasets/core/utils/conversion_utils.py b/tensorflow_datasets/core/utils/conversion_utils.py
@@ -154,7 +154,11 @@ def to_tfds_value(value: Any, feature: feature_lib.FeatureConnector) -> Any:
     case feature_lib.Audio():
       if (array := value.get('array')) is not None:
         # Hugging Face uses floats, TFDS uses integers.
-        return [int(sample * feature.sample_rate) for sample in array]
+        # Here we convert the float in [-1, 1] range into signed int32
+        # range [-2**32, 2**32-1]. Nevertheless, the mantissa size of
+        # float32 is 23 bits, therefore the maximum bit depth possible is 23.
+        dtype = feature.dtype
+        return (array * np.iinfo(dtype).max).astype(dtype=dtype)
       elif (path := value.get('path')) and (path := epath.Path(path)).exists():
         return path
     case feature_lib.Image():
diff --git a/tensorflow_datasets/core/utils/huggingface_utils.py b/tensorflow_datasets/core/utils/huggingface_utils.py
@@ -113,7 +113,10 @@ def convert_hf_features(hf_features) -> feature_lib.FeatureConnector:
     case hf_datasets.Image():
       return feature_lib.Image(encoding_format=_IMAGE_ENCODING_FORMAT)
     case hf_datasets.Audio():
-      return feature_lib.Audio(sample_rate=hf_features.sampling_rate)
+      return feature_lib.Audio(
+          sample_rate=hf_features.sampling_rate,
+          dtype=np.int32,
+      )
 
   raise TypeError(f'Type {type(hf_features)} is not supported.')
 
diff --git a/tensorflow_datasets/core/utils/huggingface_utils_test.py b/tensorflow_datasets/core/utils/huggingface_utils_test.py
@@ -100,7 +100,7 @@ def test_convert_hf_features_raises_value_error():
         ),
         (
             hf_datasets.Audio(sampling_rate=48000),
-            feature_lib.Audio(sample_rate=48000),
+            feature_lib.Audio(sample_rate=48000, dtype=np.int32),
         ),
     ],
 )

Original file line number	Diff line number	Diff line change
`@@ -100,7 +100,7 @@ def test_convert_hf_features_raises_value_error():`
`100`	`100`	`),`
`101`	`101`	`(`
`102`	`102`	`hf_datasets.Audio(sampling_rate=48000),`
`103`		`- feature_lib.Audio(sample_rate=48000),`
	`103`	`+ feature_lib.Audio(sample_rate=48000, dtype=np.int32),`
`104`	`104`	`),`
`105`	`105`	`],`
`106`	`106`	`)`