[pre-commit.ci] auto fixes from pre-commit.com hooks

pre-commit-ci[bot] · pre-commit-ci[bot] · commit b76b4aa9c25f · 2025-02-04T00:28:35.000Z
for more information, see https://pre-commit.ci
diff --git a/scripts/create_data_fast_sample.py b/scripts/create_data_fast_sample.py
@@ -7,16 +7,13 @@
 import numpy as np
 from segger.data.parquet._utils import get_polygons_from_xy
 
-xenium_data_dir = Path('data_raw/breast_cancer/Xenium_FFPE_Human_Breast_Cancer_Rep1/outs/')
-segger_data_dir = Path('data_tidy/pyg_datasets/bc_rep1_emb_200_final')
+xenium_data_dir = Path("data_raw/breast_cancer/Xenium_FFPE_Human_Breast_Cancer_Rep1/outs/")
+segger_data_dir = Path("data_tidy/pyg_datasets/bc_rep1_emb_200_final")
 
 
-scrnaseq_file = Path('/omics/groups/OE0606/internal/tangy/tasks/schier/data/atals_filtered.h5ad')
-celltype_column = 'celltype_minor'
-gene_celltype_abundance_embedding = calculate_gene_celltype_abundance_embedding(
-    sc.read(scrnaseq_file),
-    celltype_column
-)
+scrnaseq_file = Path("/omics/groups/OE0606/internal/tangy/tasks/schier/data/atals_filtered.h5ad")
+celltype_column = "celltype_minor"
+gene_celltype_abundance_embedding = calculate_gene_celltype_abundance_embedding(sc.read(scrnaseq_file), celltype_column)
 
 sample = STSampleParquet(
     base_dir=xenium_data_dir,
@@ -43,30 +40,29 @@
 
 
 sample.save(
-      data_dir=segger_data_dir,
-      k_bd=3,
-      dist_bd=15,
-      k_tx=3,
-      dist_tx=5,
-      tile_width=200,
-      tile_height=200,
-      neg_sampling_ratio=5.0,
-      frac=1.0,
-      val_prob=0.3,
-      test_prob=0,
+    data_dir=segger_data_dir,
+    k_bd=3,
+    dist_bd=15,
+    k_tx=3,
+    dist_tx=5,
+    tile_width=200,
+    tile_height=200,
+    neg_sampling_ratio=5.0,
+    frac=1.0,
+    val_prob=0.3,
+    test_prob=0,
 )
 
 
-xenium_data_dir = Path('data_tidy/bc_5k')
-segger_data_dir = Path('data_tidy/pyg_datasets/bc_5k_emb_new')
-
+xenium_data_dir = Path("data_tidy/bc_5k")
+segger_data_dir = Path("data_tidy/pyg_datasets/bc_5k_emb_new")
 
 
 sample = STSampleParquet(
     base_dir=xenium_data_dir,
     n_workers=8,
-    sample_type='xenium',
-    weights=gene_celltype_abundance_embedding, # uncomment if gene-celltype embeddings are available
+    sample_type="xenium",
+    weights=gene_celltype_abundance_embedding,  # uncomment if gene-celltype embeddings are available
 )
 
 
@@ -88,16 +84,14 @@
 
 
 sample.save(
-      data_dir=segger_data_dir,
-      k_bd=3,
-      dist_bd=15.0,
-      k_tx=15,
-      dist_tx=3,
-      tile_size=50_000, 
-      neg_sampling_ratio=5.0,
-      frac=0.1,
-      val_prob=0.1,
-      test_prob=0.1,
+    data_dir=segger_data_dir,
+    k_bd=3,
+    dist_bd=15.0,
+    k_tx=15,
+    dist_tx=3,
+    tile_size=50_000,
+    neg_sampling_ratio=5.0,
+    frac=0.1,
+    val_prob=0.1,
+    test_prob=0.1,
 )
-
-
diff --git a/scripts/predict_model_sample.py b/scripts/predict_model_sample.py
@@ -22,8 +22,8 @@
 seg_tag = "bc_fast_data_emb_major"
 model_version = 1
 
-segger_data_dir = Path('data_tidy/pyg_datasets') / seg_tag
-models_dir = Path("./models") / seg_tag 
+segger_data_dir = Path("data_tidy/pyg_datasets") / seg_tag
+models_dir = Path("./models") / seg_tag
 benchmarks_dir = Path("/dkfz/cluster/gpu/data/OE0606/elihei/segger_experiments/data_tidy/benchmarks/xe_rep1_bc")
 transcripts_file = "data_raw/xenium/Xenium_FFPE_Human_Breast_Cancer_Rep1/transcripts.parquet"
 # Initialize the Lightning data module
diff --git a/scripts/train_model_sample.py b/scripts/train_model_sample.py
@@ -15,7 +15,7 @@
 import os
 
 
-segger_data_dir = segger_data_dir = Path('data_tidy/pyg_datasets/bc_rep1_emb_final_200')
+segger_data_dir = segger_data_dir = Path("data_tidy/pyg_datasets/bc_rep1_emb_final_200")
 models_dir = Path("./models/bc_rep1_emb_final_200")
 
 # Base directory to store Pytorch Lightning models
@@ -35,37 +35,34 @@
 
 # If you use custom gene embeddings, use the following two lines instead:
 is_token_based = False
-num_tx_tokens = dm.train[0].x_dict["tx"].shape[1] # Set the number of tokens to the number of genes
+num_tx_tokens = dm.train[0].x_dict["tx"].shape[1]  # Set the number of tokens to the number of genes
 
 
 num_bd_features = dm.train[0].x_dict["bd"].shape[1]
 
 # Initialize the Lightning model
 ls = LitSegger(
-    is_token_based = is_token_based,
-    num_node_features = {"tx": num_tx_tokens, "bd": num_bd_features},
-    init_emb=8,    
+    is_token_based=is_token_based,
+    num_node_features={"tx": num_tx_tokens, "bd": num_bd_features},
+    init_emb=8,
     hidden_channels=64,
     out_channels=16,
     heads=4,
     num_mid_layers=3,
-    aggr='sum',
-    learning_rate=1e-3
+    aggr="sum",
+    learning_rate=1e-3,
 )
 
 # Initialize the Lightning trainer
 trainer = Trainer(
-    accelerator='cuda',
-    strategy='auto',
-    precision='16-mixed',
-    devices=2, # set higher number if more gpus are available
+    accelerator="cuda",
+    strategy="auto",
+    precision="16-mixed",
+    devices=2,  # set higher number if more gpus are available
     max_epochs=400,
     default_root_dir=models_dir,
     logger=CSVLogger(models_dir),
 )
 
 
-trainer.fit(
-    model=ls,
-    datamodule=dm
-)
+trainer.fit(model=ls, datamodule=dm)
diff --git a/src/segger/data/utils.py b/src/segger/data/utils.py
@@ -43,7 +43,7 @@ def try_import(module_name):
 from datetime import timedelta
 
 
-def filter_transcripts( #ONLY FOR XENIUM
+def filter_transcripts(  # ONLY FOR XENIUM
     transcripts_df: pd.DataFrame,
     min_qv: float = 20.0,
 ) -> pd.DataFrame:
@@ -65,14 +65,14 @@ def filter_transcripts( #ONLY FOR XENIUM
         "DeprecatedCodeword_",
         "UnassignedCodeword_",
     )
-    
-    transcripts_df['feature_name'] = transcripts_df['feature_name'].apply(
+
+    transcripts_df["feature_name"] = transcripts_df["feature_name"].apply(
         lambda x: x.decode("utf-8") if isinstance(x, bytes) else x
     )
-    mask_quality = transcripts_df['qv'] >= min_qv
+    mask_quality = transcripts_df["qv"] >= min_qv
 
     # Apply the filter for unwanted codewords using Dask string functions
-    mask_codewords = ~transcripts_df['feature_name'].str.startswith(filter_codewords)
+    mask_codewords = ~transcripts_df["feature_name"].str.startswith(filter_codewords)
 
     # Combine the filters and return the filtered Dask DataFrame
     mask = mask_quality & mask_codewords
diff --git a/src/segger/prediction/predict_parquet.py b/src/segger/prediction/predict_parquet.py
@@ -13,13 +13,7 @@
 from pathlib import Path
 from torch_geometric.loader import DataLoader
 from torch_geometric.data import Batch
-from segger.data.utils import (
-    get_edge_index,
-    format_time,
-    create_anndata,
-    coo_to_dense_adj,
-    filter_transcripts
-)
+from segger.data.utils import get_edge_index, format_time, create_anndata, coo_to_dense_adj, filter_transcripts
 from segger.training.train import LitSegger
 from segger.training.segger_data_module import SeggerDataModule
 from segger.prediction.boundary import generate_boundaries
@@ -544,13 +538,12 @@ def segment(
     if verbose:
         print(f"Applying max score selection logic...")
     output_ddf_save_path = save_dir / "transcripts_df.parquet"
-    
-    
+
     seg_final_dd = pd.read_parquet(output_ddf_save_path)
-    
-    seg_final_filtered = seg_final_dd.sort_values(
-        "score", ascending=False
-    ).drop_duplicates(subset="transcript_id", keep="first")
+
+    seg_final_filtered = seg_final_dd.sort_values("score", ascending=False).drop_duplicates(
+        subset="transcript_id", keep="first"
+    )
 
     if verbose:
         elapsed_time = time() - step_start_time
@@ -570,7 +563,7 @@ def segment(
 
     # Outer merge to include all transcripts, even those without assigned cell ids
     transcripts_df_filtered = transcripts_df.merge(seg_final_filtered, on="transcript_id", how="outer")
-    
+
     if verbose:
         elapsed_time = time() - step_start_time
         print(f"Merged segmentation results with transcripts in {elapsed_time:.2f} seconds.")