use v3_default_codecs

brokkoli71 · brokkoli71 · commit 80dfc40059f4 · 2024-12-14T18:21:53.000+01:00
diff --git a/src/zarr/codecs/__init__.py b/src/zarr/codecs/__init__.py
@@ -1,10 +1,5 @@
 from __future__ import annotations
 
-from typing import TYPE_CHECKING, Any
-
-if TYPE_CHECKING:
-    import numpy as np
-
 from zarr.codecs.blosc import BloscCname, BloscCodec, BloscShuffle
 from zarr.codecs.bytes import BytesCodec, Endian
 from zarr.codecs.crc32c_ import Crc32cCodec
@@ -13,7 +8,6 @@
 from zarr.codecs.transpose import TransposeCodec
 from zarr.codecs.vlen_utf8 import VLenBytesCodec, VLenUTF8Codec
 from zarr.codecs.zstd import ZstdCodec
-from zarr.core.metadata.v3 import DataType
 
 __all__ = [
     "BloscCname",
@@ -30,15 +24,3 @@
     "VLenUTF8Codec",
     "ZstdCodec",
 ]
-
-
-def _get_default_array_bytes_codec(
-    np_dtype: np.dtype[Any],
-) -> BytesCodec | VLenUTF8Codec | VLenBytesCodec:
-    dtype = DataType.from_numpy(np_dtype)
-    if dtype == DataType.string:
-        return VLenUTF8Codec()
-    elif dtype == DataType.bytes:
-        return VLenBytesCodec()
-    else:
-        return BytesCodec()
diff --git a/src/zarr/core/array.py b/src/zarr/core/array.py
@@ -12,7 +12,6 @@
 
 from zarr._compat import _deprecate_positional_args
 from zarr.abc.store import Store, set_or_delete
-from zarr.codecs import _get_default_array_bytes_codec
 from zarr.codecs._v2 import V2Codec
 from zarr.core._info import ArrayInfo
 from zarr.core.attributes import Attributes
@@ -78,7 +77,7 @@
     T_ArrayMetadata,
 )
 from zarr.core.metadata.v2 import _default_filters_and_compressor
-from zarr.core.metadata.v3 import parse_node_type_array
+from zarr.core.metadata.v3 import DataType, parse_node_type_array
 from zarr.core.sync import sync
 from zarr.errors import MetadataValidationError
 from zarr.registry import get_pipeline_class
@@ -556,11 +555,7 @@ async def _create_v3(
             await ensure_no_existing_node(store_path, zarr_format=3)
 
         shape = parse_shapelike(shape)
-        codecs = (
-            list(codecs)
-            if codecs is not None
-            else [_get_default_array_bytes_codec(np.dtype(dtype))]
-        )
+        codecs = list(codecs) if codecs is not None else _get_default_codecs(np.dtype(dtype))
 
         if chunk_key_encoding is None:
             chunk_key_encoding = ("default", "/")
@@ -3318,3 +3313,18 @@ def _build_parents(
         )
 
     return parents
+
+
+def _get_default_codecs(
+    np_dtype: np.dtype[Any],
+) -> list[dict[str, JSON]]:
+    default_codecs = config.get("array.v3_default_codecs")
+    dtype = DataType.from_numpy(np_dtype)
+    if dtype == DataType.string:
+        dtype_key = "string"
+    elif dtype == DataType.bytes:
+        dtype_key = "bytes"
+    else:
+        dtype_key = "numeric"
+
+    return [{"name": codec_id, "configuration": {}} for codec_id in default_codecs[dtype_key]]
diff --git a/tests/test_config.py b/tests/test_config.py
@@ -11,8 +11,15 @@
 from zarr import Array, zeros
 from zarr.abc.codec import CodecInput, CodecOutput, CodecPipeline
 from zarr.abc.store import ByteSetter, Store
-from zarr.codecs import BloscCodec, BytesCodec, Crc32cCodec, ShardingCodec, TransposeCodec, GzipCodec, VLenBytesCodec, \
-    VLenUTF8Codec
+from zarr.codecs import (
+    BloscCodec,
+    BytesCodec,
+    Crc32cCodec,
+    GzipCodec,
+    ShardingCodec,
+    VLenBytesCodec,
+    VLenUTF8Codec,
+)
 from zarr.core.array_spec import ArraySpec
 from zarr.core.buffer import NDBuffer
 from zarr.core.codec_pipeline import BatchedCodecPipeline
@@ -216,39 +223,44 @@ def test_config_buffer_implementation() -> None:
         arr[:] = np.arange(100)
 
     register_buffer(TestBuffer)
-    config.set({"buffer": fully_qualified_name(TestBuffer)})
-    assert get_buffer_class() == TestBuffer
-
-    # no error using TestBuffer
-    data = np.arange(100)
-    arr[:] = np.arange(100)
-    assert np.array_equal(arr[:], data)
-
-    data2d = np.arange(1000).reshape(100, 10)
-    arr_sharding = zeros(
-        shape=(100, 10),
-        store=StoreExpectingTestBuffer(),
-        codecs=[ShardingCodec(chunk_shape=(10, 10))],
-    )
-    arr_sharding[:] = data2d
-    assert np.array_equal(arr_sharding[:], data2d)
+    with config.set({"buffer": fully_qualified_name(TestBuffer)}):
+        assert get_buffer_class() == TestBuffer
+
+        # no error using TestBuffer
+        data = np.arange(100)
+        arr[:] = np.arange(100)
+        assert np.array_equal(arr[:], data)
+
+        data2d = np.arange(1000).reshape(100, 10)
+        arr_sharding = zeros(
+            shape=(100, 10),
+            store=StoreExpectingTestBuffer(),
+            codecs=[ShardingCodec(chunk_shape=(10, 10))],
+        )
+        arr_sharding[:] = data2d
+        assert np.array_equal(arr_sharding[:], data2d)
+
+        arr_Crc32c = zeros(
+            shape=(100, 10),
+            store=StoreExpectingTestBuffer(),
+            codecs=[BytesCodec(), Crc32cCodec()],
+        )
+        arr_Crc32c[:] = data2d
+        assert np.array_equal(arr_Crc32c[:], data2d)
 
-    arr_Crc32c = zeros(
-        shape=(100, 10),
-        store=StoreExpectingTestBuffer(),
-        codecs=[BytesCodec(), Crc32cCodec()],
-    )
-    arr_Crc32c[:] = data2d
-    assert np.array_equal(arr_Crc32c[:], data2d)
 
 @pytest.mark.parametrize("dtype", ["int", "bytes", "str"])
-def test_default_codecs(dtype:str) -> None:
-    with config.set({"array.v3_default_codecs": {
-        "numeric": ["bytes", "gzip"], # test setting non-standard codecs
-        "string": ["vlen-utf8"],
-        "bytes": ["vlen-bytes"],
-    }}):
-        arr = zeros(shape=(100), store=StoreExpectingTestBuffer(), dtype=dtype)
+def test_default_codecs(dtype: str) -> None:
+    with config.set(
+        {
+            "array.v3_default_codecs": {
+                "numeric": ["bytes", "gzip"],  # test setting non-standard codecs
+                "string": ["vlen-utf8"],
+                "bytes": ["vlen-bytes"],
+            }
+        }
+    ):
+        arr = zeros(shape=(100), dtype=dtype)
         if dtype == "int":
             assert arr.metadata.codecs == [BytesCodec(), GzipCodec()]
         elif dtype == "bytes":