bug fix for no overlap and argument fix

Muhammed Hasan Celik · Muhammed Hasan Celik · commit 43d52bbe7fd8 · 2026-01-29T00:28:07.000Z
diff --git a/src/decima/data/dataset.py b/src/decima/data/dataset.py
@@ -868,6 +868,8 @@ def __len__(self):
     def validate_allele_seq(self, gene, variant):
         seq = self.result.gene_sequence(gene, genome=self.genome)
         pos = variant.rel_pos
+        if variant.strand == "-":
+            pos = pos - len(variant.ref) + 1
         ref_match = seq[pos : pos + len(variant.ref)] == variant.ref_tx
         alt_match = seq[pos : pos + len(variant.alt)] == variant.alt_tx
         return ref_match, alt_match
@@ -889,6 +891,9 @@ def __getitem__(self, idx):
         variant = self.variants.iloc[seq_idx]
         rel_pos = variant.rel_pos + self.max_seq_shift
 
+        if variant.strand == "-":
+            rel_pos = rel_pos - len(variant.ref) + 1
+
         # by default cache values are nan if matched with reference genome
         # then it will be replaced with the predicted expression from cache.
         pred_expr = {model_name: torch.full((self.result.shape[0],), torch.nan) for model_name in self.model_names}
diff --git a/src/decima/utils/dataframe.py b/src/decima/utils/dataframe.py
@@ -44,12 +44,14 @@ def __enter__(self):
         return self
 
     def __exit__(self, exc_type, exc_val, exc_tb):
+        # breakpoint()
         if self.writer is not None:
             if self.metadata is not None:
                 self.writer.add_key_value_metadata({str(k): str(v) for k, v in self.metadata.items()})
             self.writer.close()
         else:
             warnings.warn("NoDataFrameWrittenError: No dataframe was written to the parquet file.")
+            pd.DataFrame({}).to_parquet(self.output_path)
         self.first_chunk = True
 
     def write(self, chunk: pd.DataFrame) -> None:
diff --git a/src/decima/vep/attributions.py b/src/decima/vep/attributions.py
@@ -31,6 +31,7 @@
 from decima.utils.io import read_vcf_chunks, VariantAttributionWriter
 from decima.core.result import DecimaResult
 from decima.data.dataset import VariantDataset
+from decima.hub import load_decima_model
 from decima.interpret.attributer import DecimaAttributer
 from decima.model.metrics import WarningCounter
 from decima.vep.vep import _log_vep_warnings, _write_vep_warnings
@@ -158,16 +159,15 @@ def variant_effect_attribution(
             f"Unsupported input type: {type(variants)}. Must be pd.DataFrame or str (path to .tsv or .vcf)."
         )
 
-    result = DecimaResult.load(metadata_anndata)
-
+    model = load_decima_model(model, device=device)
+    result = DecimaResult.load(metadata_anndata or model.name)
     tasks, off_tasks = _get_on_off_tasks(result, tasks, off_tasks)
-    attributer = DecimaAttributer.load_decima_attributer(
-        model_name=model,
+    attributer = DecimaAttributer(
+        model=model,
         tasks=tasks,
         off_tasks=off_tasks,
         method=method,
         transform=transform,
-        device=device,
     )
 
     warning_counter = WarningCounter()
diff --git a/tests/test_vep.py b/tests/test_vep.py
@@ -82,6 +82,17 @@ def test_VariantDataset_overlap_genes(df_variant):
         })
         df = VariantDataset.overlap_genes(df_variant, df_genes)
 
+def test_VariantDataset_validate_allele_seq():
+    df_variant = pd.DataFrame({
+        "chrom": ["chr15"],
+        "pos": [44715509],
+        "ref": ["CC"],
+        "alt": ["TT"]
+    })
+    dataset = VariantDataset(df_variant)
+    ref_match, _ = dataset.validate_allele_seq("SPG11", dataset.variants.iloc[1])
+    assert ref_match
+
 def test_VariantDataset(df_variant):
 
     dataset = VariantDataset(df_variant, model_name="v1_rep0")