Simplify logic around Dimension init

jeromekelleher · jeromekelleher · commit 5d2bd3b54612 · 2025-05-15T11:53:09.000Z
Centralise logic around default chunk sizes
diff --git a/bio2zarr/plink.py b/bio2zarr/plink.py
@@ -73,19 +73,14 @@ def generate_schema(
         n = self.bed.iid_count
         m = self.bed.sid_count
         logging.info(f"Scanned plink with {n} samples and {m} variants")
-
-        # Define dimensions with sizes and chunk sizes
-        dimensions = {
-            "variants": vcz.VcfZarrDimension(
-                size=m, chunk_size=variants_chunk_size or vcz.DEFAULT_VARIANT_CHUNK_SIZE
-            ),
-            "samples": vcz.VcfZarrDimension(
-                size=n, chunk_size=samples_chunk_size or vcz.DEFAULT_SAMPLE_CHUNK_SIZE
-            ),
-            "ploidy": vcz.VcfZarrDimension(size=2),
-            "alleles": vcz.VcfZarrDimension(size=2),
-        }
-
+        dimensions = vcz.standard_dimensions(
+            variants_size=m,
+            variants_chunk_size=variants_chunk_size,
+            samples_size=n,
+            samples_chunk_size=samples_chunk_size,
+            ploidy_size=2,
+            alleles_size=2,
+        )
         schema_instance = vcz.VcfZarrSchema(
             format_version=vcz.ZARR_SCHEMA_FORMAT_VERSION,
             dimensions=dimensions,
diff --git a/bio2zarr/tskit.py b/bio2zarr/tskit.py
@@ -135,18 +135,14 @@ def generate_schema(
         logging.info(
             f"Maximum ploidy: {self.max_ploidy}, maximum alleles: {max_alleles}"
         )
-
-        dimensions = {
-            "variants": vcz.VcfZarrDimension(
-                size=m, chunk_size=variants_chunk_size or vcz.DEFAULT_VARIANT_CHUNK_SIZE
-            ),
-            "samples": vcz.VcfZarrDimension(
-                size=n, chunk_size=samples_chunk_size or vcz.DEFAULT_SAMPLE_CHUNK_SIZE
-            ),
-            "ploidy": vcz.VcfZarrDimension(size=self.max_ploidy),
-            "alleles": vcz.VcfZarrDimension(size=max_alleles),
-        }
-
+        dimensions = vcz.standard_dimensions(
+            variants_size=m,
+            variants_chunk_size=variants_chunk_size,
+            samples_size=n,
+            samples_chunk_size=samples_chunk_size,
+            ploidy_size=self.max_ploidy,
+            alleles_size=max_alleles,
+        )
         schema_instance = vcz.VcfZarrSchema(
             format_version=vcz.ZARR_SCHEMA_FORMAT_VERSION,
             dimensions=dimensions,
diff --git a/bio2zarr/vcf.py b/bio2zarr/vcf.py
@@ -858,8 +858,8 @@ def convert_local_allele_field_types(fields, schema_instance):
             " are relevant (local) for the current sample"
         ),
     )
-    schema_instance.dimensions["local_alleles"] = vcz.VcfZarrDimension(
-        size=schema_instance.dimensions["ploidy"].size
+    schema_instance.dimensions["local_alleles"] = vcz.VcfZarrDimension.unchunked(
+        schema_instance.dimensions["ploidy"].size
     )
 
     ad = fields_by_name.get("call_AD", None)
@@ -869,7 +869,9 @@ def convert_local_allele_field_types(fields, schema_instance):
         ad.source = None
         ad.dimensions = (*dimensions, "local_alleles_AD")
         ad.description += " (local-alleles)"
-        schema_instance.dimensions["local_alleles_AD"] = vcz.VcfZarrDimension(size=2)
+        schema_instance.dimensions["local_alleles_AD"] = vcz.VcfZarrDimension.unchunked(
+            2
+        )
 
     pl = fields_by_name.get("call_PL", None)
     if pl is not None:
@@ -879,7 +881,7 @@ def convert_local_allele_field_types(fields, schema_instance):
         pl.description += " (local-alleles)"
         pl.dimensions = (*dimensions, "local_" + pl.dimensions[-1].split("_")[-1])
         schema_instance.dimensions["local_" + pl.dimensions[-1].split("_")[-1]] = (
-            vcz.VcfZarrDimension(size=3)
+            vcz.VcfZarrDimension.unchunked(3)
         )
 
     return [*fields, la]
diff --git a/bio2zarr/vcz.py b/bio2zarr/vcz.py
@@ -102,28 +102,18 @@ def generate_schema(self, variants_chunk_size, samples_chunk_size, local_alleles
 @dataclasses.dataclass
 class VcfZarrDimension:
     size: int
-    chunk_size: int = None
-
-    def __post_init__(self):
-        if self.chunk_size is None:
-            self.chunk_size = self.size
+    chunk_size: int
 
     def asdict(self):
-        result = {"size": self.size}
-        if self.chunk_size != self.size:
-            result["chunk_size"] = self.chunk_size
-        return result
+        return dataclasses.asdict(self)
 
     @classmethod
     def fromdict(cls, d):
-        return cls(
-            size=d["size"],
-            chunk_size=d.get("chunk_size", d["size"]),
-        )
+        return cls(**d)
 
     @classmethod
     def unchunked(cls, size):
-        return cls(size, size)
+        return cls(size, max(size, 1))
 
 
 def standard_dimensions(
@@ -153,7 +143,8 @@ def standard_dimensions(
 
     if alleles_size is not None:
         dimensions["alleles"] = VcfZarrDimension.unchunked(alleles_size)
-        dimensions["alt_alleles"] = VcfZarrDimension.unchunked(alleles_size - 1)
+        if alleles_size > 1:
+            dimensions["alt_alleles"] = VcfZarrDimension.unchunked(alleles_size - 1)
 
     if filters_size is not None:
         dimensions["filters"] = VcfZarrDimension.unchunked(filters_size)
@@ -255,8 +246,8 @@ def from_field(
         elif max_number > 1 or vcf_field.full_name == "FORMAT/LAA":
             dimensions.append(f"{vcf_field.category}_{vcf_field.name}_dim")
         if dimensions[-1] not in schema.dimensions:
-            schema.dimensions[dimensions[-1]] = VcfZarrDimension(
-                size=vcf_field.max_number
+            schema.dimensions[dimensions[-1]] = VcfZarrDimension.unchunked(
+                vcf_field.max_number
             )
 
         return ZarrArraySpec(
@@ -329,7 +320,7 @@ def __init__(
         self,
         format_version: str,
         fields: list,
-        dimensions: dict = None,
+        dimensions: dict,
         defaults: dict = None,
     ):
         self.format_version = format_version
@@ -340,15 +331,6 @@ def __init__(
         if defaults.get("filters", None) is None:
             defaults["filters"] = []
         self.defaults = defaults
-        if dimensions is None:
-            dimensions = {
-                "variants": VcfZarrDimension(
-                    size=0, chunk_size=DEFAULT_VARIANT_CHUNK_SIZE
-                ),
-                "samples": VcfZarrDimension(
-                    size=0, chunk_size=DEFAULT_SAMPLE_CHUNK_SIZE
-                ),
-            }
         self.dimensions = dimensions
 
     def get_shape(self, dimensions):
@@ -394,7 +376,9 @@ def fromdict(d):
 
         ret = VcfZarrSchema(**d)
         ret.fields = [ZarrArraySpec(**sd) for sd in d["fields"]]
-        ret.dimensions = {k: VcfZarrDimension(**v) for k, v in d["dimensions"].items()}
+        ret.dimensions = {
+            k: VcfZarrDimension.fromdict(v) for k, v in d["dimensions"].items()
+        }
 
         return ret
 
diff --git a/tests/test_vcz.py b/tests/test_vcz.py
@@ -751,6 +751,7 @@ def test_custom_defaults(self, icf_path):
         schema = vcz.VcfZarrSchema(
             format_version=vcz.ZARR_SCHEMA_FORMAT_VERSION,
             fields=[],
+            dimensions={},
             defaults=custom_defaults,
         )
 
@@ -761,6 +762,7 @@ def test_partial_defaults(self, icf_path):
         schema1 = vcz.VcfZarrSchema(
             format_version=vcz.ZARR_SCHEMA_FORMAT_VERSION,
             fields=[],
+            dimensions={},
             defaults={"compressor": {"id": "blosc", "cname": "zlib", "clevel": 5}},
         )
         assert schema1.defaults["compressor"] == {
@@ -774,6 +776,7 @@ def test_partial_defaults(self, icf_path):
         schema2 = vcz.VcfZarrSchema(
             format_version=vcz.ZARR_SCHEMA_FORMAT_VERSION,
             fields=[],
+            dimensions={},
             defaults={"filters": [{"id": "delta"}]},
         )
         assert (
@@ -819,27 +822,21 @@ def test_dimension_initialization(self):
         assert dim1.size == 100
         assert dim1.chunk_size == 20
 
-        # Test with only size (chunk_size should default to size)
-        dim2 = vcz.VcfZarrDimension(size=50)
-        assert dim2.size == 50
-        assert dim2.chunk_size == 50
+    def test_unchunked(self):
+        dim = vcz.VcfZarrDimension.unchunked(50)
+        assert dim.size == 50
+        assert dim.chunk_size == 50
 
-    def test_asdict(self):
-        # When chunk_size equals size, it shouldn't be included in dict
-        dim1 = vcz.VcfZarrDimension(size=100, chunk_size=100)
-        assert dim1.asdict() == {"size": 100}
+    def test_unchunked_zero_size(self):
+        dim = vcz.VcfZarrDimension.unchunked(0)
+        assert dim.size == 0
+        assert dim.chunk_size == 1
 
-        # When chunk_size differs from size, it should be included in dict
-        dim2 = vcz.VcfZarrDimension(size=100, chunk_size=20)
-        assert dim2.asdict() == {"size": 100, "chunk_size": 20}
+    def test_asdict(self):
+        dim1 = vcz.VcfZarrDimension(size=100, chunk_size=101)
+        assert dim1.asdict() == {"size": 100, "chunk_size": 101}
 
     def test_fromdict(self):
-        # With only size
-        dim1 = vcz.VcfZarrDimension.fromdict({"size": 75})
-        assert dim1.size == 75
-        assert dim1.chunk_size == 75
-
-        # With both size and chunk_size
         dim2 = vcz.VcfZarrDimension.fromdict({"size": 75, "chunk_size": 25})
         assert dim2.size == 75
         assert dim2.chunk_size == 25
@@ -898,6 +895,98 @@ def test_max_number_exceeds_dimension_size(
             vcz.ZarrArraySpec.from_field(vcf_field, schema)
 
 
+class TestStandardDimensions:
+    @pytest.mark.parametrize(
+        ("size", "chunk_size", "expected_chunk_size"),
+        [
+            (0, None, 1),
+            (0, 100, 100),
+            (1, 1, 1),
+            (1, None, 1),
+            (1, 10, 10),
+            (1_001, None, 1_000),
+            (10**9, None, 1_000),
+            (999, None, 999),
+            (1, 100_000, 100_000),
+        ],
+    )
+    def test_variants(self, size, chunk_size, expected_chunk_size):
+        dims = vcz.standard_dimensions(
+            variants_size=size, variants_chunk_size=chunk_size, samples_size=0
+        )
+        assert dims["variants"] == vcz.VcfZarrDimension(size, expected_chunk_size)
+
+    @pytest.mark.parametrize(
+        ("size", "chunk_size", "expected_chunk_size"),
+        [
+            (0, None, 1),
+            (0, 100, 100),
+            (1, 1, 1),
+            (1, None, 1),
+            (1, 10, 10),
+            (10_001, None, 10_000),
+            (10**9, None, 10_000),
+            (9_999, None, 9_999),
+            (1, 100_000, 100_000),
+        ],
+    )
+    def test_samples(self, size, chunk_size, expected_chunk_size):
+        dims = vcz.standard_dimensions(
+            variants_size=0, samples_size=size, samples_chunk_size=chunk_size
+        )
+        assert dims["samples"] == vcz.VcfZarrDimension(size, expected_chunk_size)
+
+    @pytest.mark.parametrize(
+        ("kwargs", "expected"),
+        [
+            (
+                {"variants_size": 1, "samples_size": 1, "alleles_size": 2},
+                {
+                    "variants": {"size": 1, "chunk_size": 1},
+                    "samples": {"size": 1, "chunk_size": 1},
+                    "alleles": {"size": 2, "chunk_size": 2},
+                    "alt_alleles": {"size": 1, "chunk_size": 1},
+                },
+            ),
+            (
+                {"variants_size": 0, "samples_size": 1, "alleles_size": 1},
+                {
+                    "variants": {"size": 0, "chunk_size": 1},
+                    "samples": {"size": 1, "chunk_size": 1},
+                    "alleles": {"size": 1, "chunk_size": 1},
+                },
+            ),
+            (
+                {"variants_size": 0, "samples_size": 1, "alleles_size": 0},
+                {
+                    "variants": {"size": 0, "chunk_size": 1},
+                    "samples": {"size": 1, "chunk_size": 1},
+                    "alleles": {"size": 0, "chunk_size": 1},
+                },
+            ),
+            (
+                {"variants_size": 0, "samples_size": 1, "filters_size": 2},
+                {
+                    "variants": {"size": 0, "chunk_size": 1},
+                    "samples": {"size": 1, "chunk_size": 1},
+                    "filters": {"size": 2, "chunk_size": 2},
+                },
+            ),
+        ],
+    )
+    def test_examples(self, kwargs, expected):
+        dims = {k: v.asdict() for k, v in vcz.standard_dimensions(**kwargs).items()}
+        assert dims == expected
+
+    @pytest.mark.parametrize("field", ["ploidy", "genotypes"])
+    @pytest.mark.parametrize("size", [0, 1, 2])
+    def test_simple_fields(self, field, size):
+        dims = vcz.standard_dimensions(
+            samples_size=1, variants_size=1, **{f"{field}_size": size}
+        )
+        assert dims[field].asdict() == {"size": size, "chunk_size": max(1, size)}
+
+
 def test_create_index_errors(tmp_path):
     root = zarr.open(tmp_path)
     root["foobar"] = np.array([1, 2, 3])