EliHei2
diff --git a/‎.gitignore‎
Lines changed: 4 additions & 2 deletions b/‎.gitignore‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎scripts/0_data_creation_5k_nucleus.py‎
Lines changed: 83 additions & 0 deletions b/‎scripts/0_data_creation_5k_nucleus.py‎
Lines changed: 83 additions & 0 deletions
diff --git a/‎scripts/1_train_5k.py‎
Lines changed: 73 additions & 0 deletions b/‎scripts/1_train_5k.py‎
Lines changed: 73 additions & 0 deletions
diff --git a/‎scripts/2_predict_5k.py‎
Lines changed: 69 additions & 0 deletions b/‎scripts/2_predict_5k.py‎
Lines changed: 69 additions & 0 deletions
diff --git a/‎scripts/create_data_merscope.py‎
Lines changed: 83 additions & 0 deletions b/‎scripts/create_data_merscope.py‎
Lines changed: 83 additions & 0 deletions
diff --git a/‎scripts/train_MNG_5k.sh‎
Lines changed: 13 additions & 0 deletions b/‎scripts/train_MNG_5k.sh‎
Lines changed: 13 additions & 0 deletions
@@ -178,5 +178,7 @@ dev*
 *_old*
 .dev
 
-scripts/*
-.scripts/*
+# scripts/*
+.scripts/*
+
+models/*
@@ -0,0 +1,83 @@
+from segger.data.parquet.sample import STSampleParquet
+from path import Path
+from segger.data.utils import calculate_gene_celltype_abundance_embedding
+import scanpy as sc
+import pandas as pd
+import math
+import numpy as np
+from segger.data.parquet._utils import get_polygons_from_xy
+
+"""
+This script preprocesses Xenium spatial transcriptomics data for SEGGER cell segmentation model.
+
+
+Parameters are set properly for a 5K panel.
+
+Key steps:
+1. Data Loading:
+   - Loads scRNA-seq reference data to create gene-celltype embeddings
+   - Imports Xenium transcripts and nucleus boundaries
+   
+2. Parameter Optimization:
+   - Calculates optimal neighborhood parameters based on tissue characteristics
+   - dist_tx: Sets transcript neighbor search radius to 1/4 of typical nucleus size
+   - k_tx: Determines number of transcripts to sample based on local density
+   
+3. Dataset Creation:
+   - Filters transcripts to those overlapping nuclei
+   - Creates graph connections between nearby transcripts
+   - Splits data into training/validation sets
+   - Saves in PyG format for SEGGER training
+
+Usage:
+- Input: Raw Xenium data (transcripts.parquet, nucleus_boundaries.parquet)
+- Output: Processed dataset with graph structure and embeddings
+"""
+
+
+
+XENIUM_DATA_DIR = Path(
+    "/dkfz/cluster/gpu/data/OE0606/elihei/segger_experiments/data_raw/xenium_seg_kit/human_CRC_real"
+)
+SEGGER_DATA_DIR = Path("data_tidy/pyg_datasets/human_CRC_seg_nuclei")
+SCRNASEQ_FILE = Path(
+    "data_tidy/Human_CRC/scRNAseq.h5ad"
+)
+CELLTYPE_COLUMN = "Level1" # change this to your column name
+scrnaseq = sc.read(SCRNASEQ_FILE)
+
+
+
+# subsample the scRNAseq if needed
+# sc.pp.subsample(scrnaseq, 0.1)
+# scrnaseq.var_names_make_unique()
+
+
+# Calculate gene-celltype embeddings from reference data
+gene_celltype_abundance_embedding = calculate_gene_celltype_abundance_embedding(
+    scrnaseq,
+    CELLTYPE_COLUMN
+)
+
+# Initialize spatial transcriptomics sample object
+sample = STSampleParquet(
+    base_dir=XENIUM_DATA_DIR,
+    n_workers=4,
+    sample_type="xenium",
+    weights=gene_celltype_abundance_embedding
+)
+
+
+sample.save(
+    data_dir=SEGGER_DATA_DIR,
+    k_bd=3,  # Number of boundary points to connect
+    dist_bd=10,  # Maximum distance for boundary connections
+    k_tx=5,  # Use calculated optimal transcript neighbors
+    dist_tx=5,  # Use calculated optimal search radius
+    tile_width=50,  # Tile size for processing
+    tile_height=50,
+    neg_sampling_ratio=10.,  # 5:1 negative:positive samples
+    frac=1.0,  # Use all data
+    val_prob=0.3,  # 30% validation set
+    test_prob=0,  # No test set
+)
@@ -0,0 +1,73 @@
+from segger.training.segger_data_module import SeggerDataModule
+# from segger.prediction.predict import predict, load_model
+from segger.models.segger_model import Segger
+from segger.training.train import LitSegger
+from torch_geometric.nn import to_hetero
+from lightning.pytorch.loggers import CSVLogger
+from lightning import Trainer
+from pathlib import Path
+from lightning.pytorch.plugins.environments import LightningEnvironment
+from matplotlib import pyplot as plt
+import seaborn as sns
+# import pandas as pd
+from segger.data.utils import calculate_gene_celltype_abundance_embedding
+# import scanpy as sc
+import os
+from lightning import LightningModule
+
+
+
+segger_data_dir = Path("data_tidy/pyg_datasets/human_CRC_seg_cells")
+models_dir = Path("./models/human_CRC_seg_cells")
+
+# Base directory to store Pytorch Lightning models
+# models_dir = Path('models')
+
+# Initialize the Lightning data module
+dm = SeggerDataModule(
+    data_dir=segger_data_dir,
+    batch_size=2,
+    num_workers=2,
+)
+
+dm.setup()
+
+# is_token_based = True
+# num_tx_tokens = 500
+
+# If you use custom gene embeddings, use the following two lines instead:
+is_token_based = False
+num_tx_tokens = (
+    dm.train[0].x_dict["tx"].shape[1]
+)  # Set the number of tokens to the number of genes
+
+
+model = Segger(
+    num_tx_tokens= num_tx_tokens,
+    init_emb=8,
+    hidden_channels=32,
+    out_channels=16,
+    heads=4,
+    num_mid_layers=3,
+)
+model = to_hetero(model, (["tx", "bd"], [("tx", "belongs", "bd"), ("tx", "neighbors", "tx")]), aggr="sum")
+
+batch = dm.train[0]
+model.forward(batch.x_dict, batch.edge_index_dict)
+# Wrap the model in LitSegger
+ls = LitSegger(model=model)
+
+
+# Initialize the Lightning trainer
+trainer = Trainer(
+    accelerator="gpu",
+    strategy="auto",
+    precision="16-mixed",
+    devices=4,  # set higher number if more gpus are available
+    max_epochs=150,
+    default_root_dir=models_dir,
+    logger=CSVLogger(models_dir),
+)
+
+
+trainer.fit(ls, datamodule=dm)
@@ -0,0 +1,69 @@
+from segger.training.segger_data_module import SeggerDataModule
+from segger.prediction.predict_parquet import segment, load_model
+from pathlib import Path
+from matplotlib import pyplot as plt
+import seaborn as sns
+import scanpy as sc
+import os
+import dask.dataframe as dd
+import pandas as pd
+from pathlib import Path
+os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"
+os.environ["CUPY_CACHE_DIR"] = "./.cupy"
+
+
+XENIUM_DATA_DIR = Path( #raw data dir
+    "/dkfz/cluster/gpu/data/OE0606/elihei/segger_experiments/data_raw/xenium_seg_kit/human_CRC_real"
+)
+transcripts_file = (
+   XENIUM_DATA_DIR / "transcripts.parquet"
+)
+
+SEGGER_DATA_DIR = Path("data_tidy/pyg_datasets/human_CRC_seg_nuclei") # preprocessed data dir
+
+
+seg_tag = "human_CRC_seg_nuclei"
+model_version = 0
+models_dir = Path("./models") / seg_tag #trained model dir
+
+
+output_dir = Path( #output dir
+    "/dkfz/cluster/gpu/data/OE0606/elihei/segger_experiments/data_tidy/benchmarks/human_CRC_seg_nuclei"
+)
+
+
+# Initialize the Lightning data module
+dm = SeggerDataModule(
+    data_dir=SEGGER_DATA_DIR,
+    batch_size=1,
+    num_workers=1,
+)
+
+dm.setup()
+
+
+# Load in latest checkpoint
+model_path = models_dir / "lightning_logs" / f"version_{model_version}"
+model = load_model(model_path / "checkpoints")
+
+receptive_field = {"k_bd": 4, "dist_bd": 15, "k_tx": 5, "dist_tx": 3}
+
+segment(
+    model,
+    dm,
+    save_dir=output_dir,
+    seg_tag=seg_tag,
+    transcript_file=transcripts_file,
+    receptive_field=receptive_field,
+    min_transcripts=5,
+    score_cut=0.5,
+    cell_id_col="segger_cell_id",
+    save_transcripts= True,
+    save_anndata= True,
+    save_cell_masks= False,  # Placeholder for future implementation
+    use_cc=False, # if one wants fragments (groups of similar transcripts not attached to any nuclei)
+    knn_method="kd_tree",
+    verbose=True,
+    gpu_ids=["0"],
+    # client=client
+)
@@ -0,0 +1,83 @@
+from segger.data.parquet.sample import STSampleParquet, STInMemoryDataset
+from path import Path
+from segger.data.utils import calculate_gene_celltype_abundance_embedding
+import scanpy as sc
+import pandas as pd
+import math
+import numpy as np
+from segger.data.parquet._utils import get_polygons_from_xy
+
+"""
+This script preprocesses MERSCOPE spatial transcriptomics data for SEGGER cell segmentation model.
+
+Key steps:
+1. Data Loading:
+   - Loads scRNA-seq reference data to create gene-celltype embeddings
+   - Imports MERSCOPE transcripts and nucleus boundaries
+   
+2. Parameter Optimization:
+   - Calculates optimal neighborhood parameters based on tissue characteristics
+   - dist_tx: Sets transcript neighbor search radius to 1/4 of typical nucleus size
+   - k_tx: Determines number of transcripts to sample based on local density
+   
+3. Dataset Creation:
+   - Filters transcripts to those overlapping nuclei
+   - Creates graph connections between nearby transcripts
+   - Splits data into training/validation sets
+   - Saves in PyG format for SEGGER training
+
+Usage:
+- Input: Raw MERSCOPE data (transcripts.parquet, nucleus_boundaries.parquet)
+- Output: Processed dataset with graph structure and embeddings
+"""
+
+# Define data paths
+# MERSCOPE_DATA_DIR = Path('/omics/odcf/analysis/OE0606_projects_temp/MERSCOPE_projects/20241209_MERSCOPE5k_CNSL_BrM/20241209_MERSCOPE5k_CNSL_BrM/output-XETG00078__0041719__Region_1__20241203__142052')
+# SEGGER_DATA_DIR = Path('data_tidy/pyg_datasets/CNSL_5k')
+# # SCRNASEQ_FILE = Path('/omics/groups/OE0606/internal/tangy/tasks/schier/data/atals_filtered.h5ad')
+# CELLTYPE_COLUMN = 'celltype_minor'
+
+
+MERSCOPE_DATA_DIR = Path('data_raw/merscope/processed/')
+SEGGER_DATA_DIR = Path('data_tidy/pyg_datasets/merscope_liver')
+# SCRNASEQ_FILE = Path('/omics/groups/OE0606/internal/mimmo/MERSCOPE/notebooks/data/scData/bh/bh_mng_scdata_20250306.h5ad')
+# CELLTYPE_COLUMN = 'annot_v1'
+
+# Calculate gene-celltype embeddings from reference data
+# gene_celltype_abundance_embedding = calculate_gene_celltype_abundance_embedding(
+#     sc.read(SCRNASEQ_FILE),
+#     CELLTYPE_COLUMN
+# )
+
+# Initialize spatial transcriptomics sample object
+sample = STSampleParquet(
+    base_dir=MERSCOPE_DATA_DIR,
+    n_workers=4,
+    sample_type="merscope",
+    buffer_ratio=1,
+    # weights=gene_celltype_abundance_embedding
+)
+
+# Load and filter data
+
+
+# Save processed dataset for SEGGER
+# Parameters:
+# - k_bd/dist_bd: Control nucleus boundary point connections
+# - k_tx/dist_tx: Control transcript neighborhood connections
+# - tile_width/height: Size of spatial tiles for processing
+# - neg_sampling_ratio: Ratio of negative to positive samples
+# - val_prob: Fraction of data for validation
+sample.save_debug(
+    data_dir=SEGGER_DATA_DIR,
+    k_bd=3,  # Number of boundary points to connect
+    dist_bd=15,  # Maximum distance for boundary connections
+    k_tx=5,  # Use calculated optimal transcript neighbors
+    dist_tx=20,  # Use calculated optimal search radius
+    tile_width=500,  # Tile size for processing
+    tile_height=500,
+    neg_sampling_ratio=5.0,  # 5:1 negative:positive samples
+    frac=1.0,  # Use all data
+    val_prob=0.3,  # 30% validation set
+    test_prob=0,  # No test set
+)
@@ -0,0 +1,13 @@
+
+DATA_ROOT="data_tidy/pyg_datasets/MNG_5k_sampled"
+
+for folder in "$DATA_ROOT"/*; do
+    if [ -d "$folder" ]; then
+        echo "Submitting job for $folder"
+        bsub -o train_yiheng_5k \
+             -gpu num=4:j_exclusive=yes:gmem=20.7G \
+             -R "rusage[mem=100GB]" \
+             -q gpu-debian \
+             python /dkfz/cluster/gpu/data/OE0606/elihei/segger_dev/scripts/train_model.py --data_dir "$folder"
+    fi
+done