sgkit-dev
diff --git a/‎bio2zarr/plink.py‎
Lines changed: 79 additions & 81 deletions b/‎bio2zarr/plink.py‎
Lines changed: 79 additions & 81 deletions
diff --git a/‎bio2zarr/vcf2zarr/__init__.py‎
Lines changed: 0 additions & 2 deletions b/‎bio2zarr/vcf2zarr/__init__.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎bio2zarr/vcf2zarr/icf.py‎
Lines changed: 155 additions & 0 deletions b/‎bio2zarr/vcf2zarr/icf.py‎
Lines changed: 155 additions & 0 deletions
@@ -49,83 +49,82 @@ def iter_genotypes(self, shape, start, stop):
             gt[values == 2] = [0, 0]  # Homozygous REF (0 in PLINK)
             yield gt, phased
 
-
-def generate_schema(
-    bed,
-    variants_chunk_size=None,
-    samples_chunk_size=None,
-):
-    n = bed.iid_count
-    m = bed.sid_count
-    logging.info(f"Scanned plink with {n} samples and {m} variants")
-
-    # FIXME
-    if samples_chunk_size is None:
-        samples_chunk_size = 1000
-    if variants_chunk_size is None:
-        variants_chunk_size = 10_000
-
-    logger.info(
-        f"Generating schema with chunks={variants_chunk_size, samples_chunk_size}"
-    )
-
-    array_specs = [
-        schema.ZarrArraySpec.new(
-            vcf_field="position",
-            name="variant_position",
-            dtype="i4",
-            shape=[m],
-            dimensions=["variants"],
-            chunks=[variants_chunk_size],
-            description=None,
-        ),
-        schema.ZarrArraySpec.new(
-            vcf_field=None,
-            name="variant_allele",
-            dtype="O",
-            shape=[m, 2],
-            dimensions=["variants", "alleles"],
-            chunks=[variants_chunk_size, 2],
-            description=None,
-        ),
-        schema.ZarrArraySpec.new(
-            vcf_field=None,
-            name="call_genotype_phased",
-            dtype="bool",
-            shape=[m, n],
-            dimensions=["variants", "samples"],
-            chunks=[variants_chunk_size, samples_chunk_size],
-            description=None,
-        ),
-        schema.ZarrArraySpec.new(
-            vcf_field=None,
-            name="call_genotype",
-            dtype="i1",
-            shape=[m, n, 2],
-            dimensions=["variants", "samples", "ploidy"],
-            chunks=[variants_chunk_size, samples_chunk_size, 2],
-            description=None,
-        ),
-        schema.ZarrArraySpec.new(
-            vcf_field=None,
-            name="call_genotype_mask",
-            dtype="bool",
-            shape=[m, n, 2],
-            dimensions=["variants", "samples", "ploidy"],
-            chunks=[variants_chunk_size, samples_chunk_size, 2],
-            description=None,
-        ),
-    ]
-
-    return schema.VcfZarrSchema(
-        format_version=schema.ZARR_SCHEMA_FORMAT_VERSION,
-        samples_chunk_size=samples_chunk_size,
-        variants_chunk_size=variants_chunk_size,
-        fields=array_specs,
-        samples=[schema.Sample(id=sample) for sample in bed.iid],
-        contigs=[],
-        filters=[],
-    )
+    def generate_schema(
+        self,
+        variants_chunk_size=None,
+        samples_chunk_size=None,
+    ):
+        n = self.bed.iid_count
+        m = self.bed.sid_count
+        logging.info(f"Scanned plink with {n} samples and {m} variants")
+
+        # FIXME
+        if samples_chunk_size is None:
+            samples_chunk_size = 1000
+        if variants_chunk_size is None:
+            variants_chunk_size = 10_000
+
+        logger.info(
+            f"Generating schema with chunks={variants_chunk_size, samples_chunk_size}"
+        )
+
+        array_specs = [
+            schema.ZarrArraySpec.new(
+                vcf_field="position",
+                name="variant_position",
+                dtype="i4",
+                shape=[m],
+                dimensions=["variants"],
+                chunks=[variants_chunk_size],
+                description=None,
+            ),
+            schema.ZarrArraySpec.new(
+                vcf_field=None,
+                name="variant_allele",
+                dtype="O",
+                shape=[m, 2],
+                dimensions=["variants", "alleles"],
+                chunks=[variants_chunk_size, 2],
+                description=None,
+            ),
+            schema.ZarrArraySpec.new(
+                vcf_field=None,
+                name="call_genotype_phased",
+                dtype="bool",
+                shape=[m, n],
+                dimensions=["variants", "samples"],
+                chunks=[variants_chunk_size, samples_chunk_size],
+                description=None,
+            ),
+            schema.ZarrArraySpec.new(
+                vcf_field=None,
+                name="call_genotype",
+                dtype="i1",
+                shape=[m, n, 2],
+                dimensions=["variants", "samples", "ploidy"],
+                chunks=[variants_chunk_size, samples_chunk_size, 2],
+                description=None,
+            ),
+            schema.ZarrArraySpec.new(
+                vcf_field=None,
+                name="call_genotype_mask",
+                dtype="bool",
+                shape=[m, n, 2],
+                dimensions=["variants", "samples", "ploidy"],
+                chunks=[variants_chunk_size, samples_chunk_size, 2],
+                description=None,
+            ),
+        ]
+
+        return schema.VcfZarrSchema(
+            format_version=schema.ZARR_SCHEMA_FORMAT_VERSION,
+            samples_chunk_size=samples_chunk_size,
+            variants_chunk_size=variants_chunk_size,
+            fields=array_specs,
+            samples=[schema.Sample(id=sample) for sample in self.bed.iid],
+            contigs=[],
+            filters=[],
+        )
 
 
 def convert(
@@ -137,9 +136,8 @@ def convert(
     worker_processes=1,
     show_progress=False,
 ):
-    bed = bed_reader.open_bed(bed_path, num_threads=1)
-    schema_instance = generate_schema(
-        bed,
+    plink_format = PlinkFormat(bed_path)
+    schema_instance = plink_format.generate_schema(
         variants_chunk_size=variants_chunk_size,
         samples_chunk_size=samples_chunk_size,
     )
@@ -148,7 +146,7 @@ def convert(
     # Rough heuristic to split work up enough to keep utilisation high
     target_num_partitions = max(1, worker_processes * 4)
     vzw.init(
-        PlinkFormat(bed_path),
+        plink_format,
         target_num_partitions=target_num_partitions,
         schema=schema_instance,
     )
 
@@ -11,7 +11,6 @@
     encode_finalise,
     encode_init,
     encode_partition,
-    generate_schema,
     inspect,
     mkschema,
 )
@@ -33,6 +32,5 @@
     "encode_partition",
     "inspect",
     "mkschema",
-    "generate_schema",
     "verify",
 ]
@@ -969,6 +969,161 @@ def iter_genotypes(self, shape, start, stop):
             sanitised_phased = sanitise_value_int_1d(shape[:-1], phased)
             yield sanitised_genotypes, sanitised_phased
 
+    def generate_schema(
+        self, variants_chunk_size=None, samples_chunk_size=None, local_alleles=None
+    ):
+        # Import schema here to avoid circular import
+        from bio2zarr import schema
+
+        m = self.num_records
+        n = self.num_samples
+        if samples_chunk_size is None:
+            samples_chunk_size = 10_000
+        if variants_chunk_size is None:
+            variants_chunk_size = 1000
+        if local_alleles is None:
+            local_alleles = False
+        logger.info(
+            f"Generating schema with chunks={variants_chunk_size, samples_chunk_size}"
+        )
+
+        def spec_from_field(field, array_name=None):
+            return schema.ZarrArraySpec.from_field(
+                field,
+                num_samples=n,
+                num_variants=m,
+                samples_chunk_size=samples_chunk_size,
+                variants_chunk_size=variants_chunk_size,
+                array_name=array_name,
+            )
+
+        def fixed_field_spec(
+            name,
+            dtype,
+            vcf_field=None,
+            shape=(m,),
+            dimensions=("variants",),
+            chunks=None,
+        ):
+            return schema.ZarrArraySpec.new(
+                vcf_field=vcf_field,
+                name=name,
+                dtype=dtype,
+                shape=shape,
+                description="",
+                dimensions=dimensions,
+                chunks=chunks or [variants_chunk_size],
+            )
+
+        alt_field = self.fields["ALT"]
+        max_alleles = alt_field.vcf_field.summary.max_number + 1
+
+        array_specs = [
+            fixed_field_spec(
+                name="variant_contig",
+                dtype=core.min_int_dtype(0, self.metadata.num_contigs),
+            ),
+            fixed_field_spec(
+                name="variant_filter",
+                dtype="bool",
+                shape=(m, self.metadata.num_filters),
+                dimensions=["variants", "filters"],
+                chunks=(variants_chunk_size, self.metadata.num_filters),
+            ),
+            fixed_field_spec(
+                name="variant_allele",
+                dtype="O",
+                shape=(m, max_alleles),
+                dimensions=["variants", "alleles"],
+                chunks=(variants_chunk_size, max_alleles),
+            ),
+            fixed_field_spec(
+                name="variant_id",
+                dtype="O",
+            ),
+            fixed_field_spec(
+                name="variant_id_mask",
+                dtype="bool",
+            ),
+        ]
+        name_map = {field.full_name: field for field in self.metadata.fields}
+
+        # Only three of the fixed fields have a direct one-to-one mapping.
+        array_specs.extend(
+            [
+                spec_from_field(name_map["QUAL"], array_name="variant_quality"),
+                spec_from_field(name_map["POS"], array_name="variant_position"),
+                spec_from_field(name_map["rlen"], array_name="variant_length"),
+            ]
+        )
+        array_specs.extend(
+            [spec_from_field(field) for field in self.metadata.info_fields]
+        )
+
+        gt_field = None
+        for field in self.metadata.format_fields:
+            if field.name == "GT":
+                gt_field = field
+                continue
+            array_specs.append(spec_from_field(field))
+
+        if gt_field is not None and n > 0:
+            ploidy = max(gt_field.summary.max_number - 1, 1)
+            shape = [m, n]
+            chunks = [variants_chunk_size, samples_chunk_size]
+            dimensions = ["variants", "samples"]
+            array_specs.append(
+                schema.ZarrArraySpec.new(
+                    vcf_field=None,
+                    name="call_genotype_phased",
+                    dtype="bool",
+                    shape=list(shape),
+                    chunks=list(chunks),
+                    dimensions=list(dimensions),
+                    description="",
+                )
+            )
+            shape += [ploidy]
+            chunks += [ploidy]
+            dimensions += ["ploidy"]
+            array_specs.append(
+                schema.ZarrArraySpec.new(
+                    vcf_field=None,
+                    name="call_genotype",
+                    dtype=gt_field.smallest_dtype(),
+                    shape=list(shape),
+                    chunks=list(chunks),
+                    dimensions=list(dimensions),
+                    description="",
+                )
+            )
+            array_specs.append(
+                schema.ZarrArraySpec.new(
+                    vcf_field=None,
+                    name="call_genotype_mask",
+                    dtype="bool",
+                    shape=list(shape),
+                    chunks=list(chunks),
+                    dimensions=list(dimensions),
+                    description="",
+                )
+            )
+
+        if local_alleles:
+            from bio2zarr.vcf2zarr.vcz import convert_local_allele_field_types
+
+            array_specs = convert_local_allele_field_types(array_specs)
+
+        return schema.VcfZarrSchema(
+            format_version=schema.ZARR_SCHEMA_FORMAT_VERSION,
+            samples_chunk_size=samples_chunk_size,
+            variants_chunk_size=variants_chunk_size,
+            fields=array_specs,
+            samples=self.metadata.samples,
+            contigs=self.metadata.contigs,
+            filters=self.metadata.filters,
+        )
+
 
 @dataclasses.dataclass
 class IcfPartitionMetadata(core.JsonDataclass):
Original file line number	Diff line number	Diff line change
`@@ -11,7 +11,6 @@`
`11`	`11`	`encode_finalise,`
`12`	`12`	`encode_init,`
`13`	`13`	`encode_partition,`
`14`		`- generate_schema,`
`15`	`14`	`inspect,`
`16`	`15`	`mkschema,`
`17`	`16`	`)`
`@@ -33,6 +32,5 @@`
`33`	`32`	`"encode_partition",`
`34`	`33`	`"inspect",`
`35`	`34`	`"mkschema",`
`36`		`- "generate_schema",`
`37`	`35`	`"verify",`
`38`	`36`	`]`