Add control methods (#48)

LouisK92 · web-flow · commit 6455731a09b7 · 2025-09-14T00:26:10.000+02:00
* Add negative control

* Add positive control

* Add multiple outputs for control method and rename negative control

* Adjust positive control for multiple outputs

* Delete PCA in control dummy spatial data to prevent assertion error in metrics

* Add control methods to benchmark workflow

* Add pars to positive control script
diff --git a/src/api/comp_control_method.yaml b/src/api/comp_control_method.yaml
@@ -0,0 +1,35 @@
+namespace: control_methods
+
+info:
+  type: control_method
+  type_info:
+    label: Control method
+    summary: A control method for the ist preprocessing task.
+    description: |
+      A control method for the imaging-based spatial transcriptomics preprocessing task.
+
+arguments:
+  - name: --input_scrnaseq_reference
+    required: true
+    direction: input
+    __merge__: file_scrnaseq_reference.yaml
+  - name: --output
+    required: true
+    direction: output
+    __merge__: file_spatial_corrected_counts.yaml
+  - name: --output_transcript_assignments
+    required: true
+    direction: output
+    __merge__: file_transcript_assignments.yaml
+  - name: --output_qc_col
+    required: true
+    direction: output
+    __merge__: file_spatial_qc_col.yaml
+
+test_resources:
+  - path: /resources_test/task_ist_preprocessing/mouse_brain_combined
+    dest: resources_test/task_ist_preprocessing/mouse_brain_combined
+  - type: python_script
+    path: /common/component_tests/run_and_check_output.py
+  - type: python_script
+    path: /common/component_tests/check_config.py
diff --git a/src/control_methods/identity/config.vsh.yaml b/src/control_methods/identity/config.vsh.yaml
@@ -0,0 +1,19 @@
+__merge__: /src/api/comp_control_method.yaml
+name: identity
+label: Identical copy of the scRNAseq reference
+summary: Identical copy of the scRNAseq reference
+description: The scRNAseq reference is taken as processed spatial data
+resources:
+  - type: python_script
+    path: script.py
+  - path: /src/control_methods/util.py
+engines:
+  - type: docker
+    image: openproblems/base_python:1
+    __merge__: 
+      - /src/base/setup_spatialdata_partial.yaml
+runners:
+  - type: executable
+  - type: nextflow
+    directives:
+      label: [midtime, midmem, lowcpu]
diff --git a/src/control_methods/identity/script.py b/src/control_methods/identity/script.py
@@ -0,0 +1,48 @@
+import sys
+import numpy as np
+import anndata as ad
+
+## VIASH START
+par = {
+    'input_scrnaseq_reference': 'resources_test/task_ist_preprocessing/mouse_brain_combined/scrnaseq_reference.h5ad',
+    'output': 'output.h5ad',
+    'output_transcript_assignments': 'output_transcript_assignments.zarr',
+    'output_qc_col': 'output_qc_col.h5ad',
+}
+meta = {
+    "resources_dir": "src/control_methods/"
+}
+## VIASH END
+
+# add helper scripts to path
+sys.path.append(meta["resources_dir"])
+from util import add_layers_obs_var_to_scrnaseq_ref, create_dummy_transcript_assignment_table
+
+print('Read input_scrnaseq_reference', flush=True)
+adata = ad.read_h5ad(par['input_scrnaseq_reference'])
+
+# Generate expected output of dummy processed spatial data
+print("Add required layers, obs and var columns for spatial data", flush=True)
+add_layers_obs_var_to_scrnaseq_ref(adata)
+
+print("Delete obsm, obsp and varm", flush=True)
+del adata.obsm
+del adata.varm
+del adata.obsp
+
+print("Create dummy transcript assignment table", flush=True)
+sdata_transcripts_only = create_dummy_transcript_assignment_table(adata)
+
+print("Create dummy qc column", flush=True)
+adata_qc = ad.AnnData(obs=adata.obs[[]])
+adata_qc.obs["passed_QC"] = True
+
+# Write outputs
+print("Write h5ad", flush=True)
+adata.write_h5ad(par['output'], compression='gzip')
+
+print("Write transcripts zarr", flush=True)
+sdata_transcripts_only.write(par['output_transcript_assignments'])
+
+print("Write qc column", flush=True)
+adata_qc.write_h5ad(par['output_qc_col'], compression='gzip')
diff --git a/src/control_methods/permute_celltype_annotations/config.vsh.yaml b/src/control_methods/permute_celltype_annotations/config.vsh.yaml
@@ -0,0 +1,23 @@
+__merge__: /src/api/comp_control_method.yaml
+name: permute_celltype_annotations
+label: Permute celltype annotations
+summary: Celltype annotations are randomly permuted
+description: The scRNAseq reference's celltype annotations are randomly permuted and taken as processed spatial data
+arguments:
+  - name: --seed
+    type: integer
+    default: 0
+resources:
+  - type: python_script
+    path: script.py
+  - path: /src/control_methods/util.py
+engines:
+  - type: docker
+    image: openproblems/base_python:1
+    __merge__: 
+      - /src/base/setup_spatialdata_partial.yaml
+runners:
+  - type: executable
+  - type: nextflow
+    directives:
+      label: [midtime, midmem, lowcpu]
diff --git a/src/control_methods/permute_celltype_annotations/script.py b/src/control_methods/permute_celltype_annotations/script.py
@@ -0,0 +1,56 @@
+import sys
+import numpy as np
+import anndata as ad
+
+## VIASH START
+par = {
+    'input_scrnaseq_reference': 'resources_test/task_ist_preprocessing/mouse_brain_combined/scrnaseq_reference.h5ad',
+    'output': 'output.h5ad',
+    'output_transcript_assignments': 'output_transcript_assignments.zarr',
+    'output_qc_col': 'output_qc_col.h5ad',
+    'seed': 0,
+}
+meta = {
+    "resources_dir": "src/control_methods/"
+}
+## VIASH END
+
+# add helper scripts to path
+sys.path.append(meta["resources_dir"])
+from util import add_layers_obs_var_to_scrnaseq_ref, create_dummy_transcript_assignment_table
+
+# Generate control adata
+np.random.seed(par['seed'])
+
+print('Read input_scrnaseq_reference', flush=True)
+adata = ad.read_h5ad(par['input_scrnaseq_reference'])
+
+print("Randomise ct annotations", flush=True)
+ct_annotations = np.random.permutation(adata.obs["cell_type"])
+adata.obs["cell_type"] = ct_annotations
+
+# Generate expected output of dummy processed spatial data
+print("Add required layers, obs and var columns for spatial data", flush=True)
+add_layers_obs_var_to_scrnaseq_ref(adata)
+
+print("Delete obsm, obsp and varm", flush=True)
+del adata.obsm
+del adata.varm
+del adata.obsp
+
+print("Create dummy transcript assignment table", flush=True)
+sdata_transcripts_only = create_dummy_transcript_assignment_table(adata)
+
+print("Create dummy qc column", flush=True)
+adata_qc = ad.AnnData(obs=adata.obs[[]])
+adata_qc.obs["passed_QC"] = True
+
+# Write outputs
+print("Write h5ad", flush=True)
+adata.write_h5ad(par['output'], compression='gzip')
+
+print("Write transcripts zarr", flush=True)
+sdata_transcripts_only.write(par['output_transcript_assignments'])
+
+print("Write qc column", flush=True)
+adata_qc.write_h5ad(par['output_qc_col'], compression='gzip')
diff --git a/src/control_methods/util.py b/src/control_methods/util.py
@@ -0,0 +1,77 @@
+import numpy as np
+import pandas as pd
+import anndata as ad
+import spatialdata as sd
+
+def create_dummy_transcript_assignment_table(adata: ad.AnnData) -> sd.SpatialData:
+    """ Create a dummy transcript assignment table from an AnnData object.
+
+    Arguments
+    ---------
+    adata: ad.AnnData
+        The AnnData object to create a dummy transcript assignment table from.
+
+    Returns
+    -------
+    sdata_transcripts_only: sd.SpatialData
+        The SpatialData object with the dummy transcript assignment table.
+    """
+
+    # Convert the sparse matrix to coo for access of row and col as arrays
+    coo = adata.layers["counts"].tocoo()
+
+    # Get cell and gene vectors
+    counts = np.astype(coo.data, np.int64)
+    cell_id_idx = np.repeat(coo.row, counts)
+    gene_id_idx = np.repeat(coo.col, counts)
+
+    obs_names = adata.obs_names.values
+    var_names = adata.var_names.values
+
+    cell_ids = obs_names[cell_id_idx]
+    genes = var_names[gene_id_idx]
+
+    # Create the dummy transcript assignment table
+    transcripts_df = pd.DataFrame({
+        "x": cell_id_idx,
+        "y": cell_id_idx,
+        "z": 0,
+        "feature_name": genes,
+        "cell_id": cell_ids,
+        "overlaps_nucleus": 0,
+        "qv": 0,
+        "transcript_id": [i for i in range(len(cell_ids))]
+    })
+
+    # Create the transcripts sdata
+    sdata_table = ad.AnnData(obs=adata.obs[[]], var=adata.var[[]])
+    sdata_table.obs["cell_id"] = adata.obs_names.values
+
+    sdata_transcripts_only = sd.SpatialData(
+        points={"transcripts": sd.models.PointsModel.parse(transcripts_df)},
+        tables={"table": sdata_table}
+    )
+    
+    return sdata_transcripts_only
+
+
+def add_layers_obs_var_to_scrnaseq_ref(adata: ad.AnnData) -> ad.AnnData:
+    """ Add layers, obs and var columns to an AnnData object to have the same structure as the processed spatial data.
+
+    Arguments
+    ---------
+    adata: ad.AnnData
+        The AnnData object to add layers, obs and var columns to.
+    """
+
+    adata.layers["normalized_uncorrected"] = adata.layers["normalized"]
+    adata.obs["cell_id"] = adata.obs.index
+    adata.obs["centroid_x"] = 0
+    adata.obs["centroid_y"] = 0
+    adata.obs["centroid_z"] = 0
+    adata.obs["n_counts"] = np.array(adata.layers["counts"].sum(axis=1))[:,0]
+    adata.obs["n_genes"] = np.array((adata.layers["counts"] > 0).sum(axis=1))[:,0]
+    adata.obs["volume"] = 1
+    adata.var["gene_name"] = adata.var.index
+    adata.var["n_counts"] = np.array(adata.layers["counts"].sum(axis=0))[0,:]
+    adata.var["n_cells"] = np.array((adata.layers["counts"] > 0).sum(axis=0))[0,:]
diff --git a/src/workflows/run_benchmark/config.vsh.yaml b/src/workflows/run_benchmark/config.vsh.yaml
@@ -53,6 +53,8 @@ resources:
 dependencies:
   - name: utils/extract_uns_metadata
     repository: openproblems
+  - name: control_methods/identity
+  - name: control_methods/permute_celltype_annotations
   - name: methods_segmentation/custom_segmentation
   - name: methods_transcript_assignment/basic_transcript_assignment
   - name: methods_count_aggregation/basic_count_aggregation
diff --git a/src/workflows/run_benchmark/main.nf b/src/workflows/run_benchmark/main.nf
@@ -35,6 +35,36 @@ workflow run_wf {
       }
     )
 
+  /****************************************
+   *        CONTROL METHODS               *
+   ****************************************/
+  control_methods = [
+    identity,
+    permute_celltype_annotations
+  ]
+  control_ch = init_ch
+    | runEach(
+      components: control_methods,
+      id: { id, state, comp ->
+        id + "/control_" + comp.name
+      },
+      fromState: [
+        input_scrnaseq_reference: "input_sc"
+      ],
+      toState: { id, out_dict, state, comp ->
+        state + [
+          steps: state.steps + [[
+            type: "control",
+            component_id: comp.name,
+            run_id: id
+          ]],
+          output_correction: out_dict.output,
+          output_qc_filter: out_dict.output_qc_col,
+          output_assignment: out_dict.output_transcript_assignments
+        ]
+      }
+    )
+
   /****************************************
    *       RUN SEGMENTATION METHODS       *
    ****************************************/
@@ -160,9 +190,9 @@ workflow run_wf {
     )
 
   
-  /****************************************
-   *          COUNT AGGREGATION           *
-   ****************************************/
+  /************************************
+   *          QC FILTERING            *
+   ************************************/
   qc_filter_methods = [
     basic_qc_filter
   ]
@@ -338,13 +368,20 @@ workflow run_wf {
       }
     )
 
+  /****************************************
+   *          COMBINE WITH CONTROL        *
+   ****************************************/
+
+  expr_corr_and_control_ch = expr_corr_ch.mix(control_ch)
+
+
   /****************************************
    *                METRICS               *
    ****************************************/
   metrics = [
     similarity
   ]
-  metric_ch = expr_corr_ch
+  metric_ch = expr_corr_and_control_ch
     | runEach(
       components: metrics,
       id: { id, state, comp ->