Merge pull request #10 from break-through-cancer/fix_tests

dimalvovs · web-flow · commit 5a5d023d481f · 2025-04-14T13:53:21.000-04:00
Fix tests
diff --git a/.cirro/process-form.json b/.cirro/process-form.json
@@ -15,13 +15,6 @@
                 "type": "boolean",
                 "value": true
             },
-            "cluster_lvl": {
-                "default": true,
-                "description": "Clone clustering analysis with GLIPH2",
-                "title": "Cluster",
-                "type": "boolean",
-                "value": true
-            },
             "kmer_min_depth": {
                 "default": "3",
                 "description": "minimum depth of k-mer during clustering (GLIPH2)",
diff --git a/.cirro/process-input.json b/.cirro/process-input.json
@@ -1,7 +1,6 @@
 {
     "sample_lvl": "$.params.dataset.paramJson.sample_lvl",
     "compare_lvl": "$.params.dataset.paramJson.compare_lvl",
-    "cluster_lvl": "$.params.dataset.paramJson.cluster_lvl",
     "data_dir": "$.params.inputs[0].s3|/data/",
     "kmer_min_depth": "$.params.dataset.paramJson.kmer_min_depth",
     "local_min_OVE": "$.params.dataset.paramJson.local_min_OVE",
diff --git a/bin/calc_compare.py b/bin/calc_compare.py
@@ -28,16 +28,16 @@
 #                     metavar='meta_data',
 #                     type=str,
 #                     help='metadata CSV file initially passed to nextflow run command')
-parser.add_argument('-p', '--project_dir',
-                    metavar='project_dir',
+parser.add_argument('-d', '--data_dir',
+                    metavar='data_dir',
                     type=str,
-                    help='path to project directory')
+                    help='path to data directory')
 
 args = parser.parse_args() 
 
 ## Import project directory path
-project_dir = args.project_dir
-sys.path.append(project_dir + '/bin/')
+data_dir = args.data_dir
+
 from utils import jaccard_index, sorensen_index, morisita_horn_index #, jensen_shannon_distance
 
 ## Read in sample table CSV file
@@ -59,6 +59,8 @@
 dfs = {}
 for file in files:
     # load data
+    file = os.path.basename(file)
+    file = os.path.join(data_dir, file)
     df = pd.read_csv(file, sep='\t', header=0)
 
     # Rename columns
diff --git a/bin/calc_sample.py b/bin/calc_sample.py
@@ -13,6 +13,7 @@
 from scipy.stats import entropy
 import numpy as np
 import csv
+import os
 
 # initialize parser
 parser = argparse.ArgumentParser(description='Calculate clonality of a TCR repertoire')
@@ -26,10 +27,6 @@
                     metavar='count_table', 
                     type=argparse.FileType('r'), 
                     help='counts file in TSV format')
-# parser.add_argument('-d', '--data_dir',
-#                     metavar='data_dir',
-#                     type=str,
-#                     help='path to data directory')
 
 args = parser.parse_args() 
 
diff --git a/bin/prep_gliph2_tcr.py b/bin/prep_gliph2_tcr.py
@@ -29,13 +29,11 @@
 print("samplesheet: ", args.samplesheet)
 
 samplesheet = pd.read_csv(args.samplesheet, header=0)
-data_dir = args.data_dir + "/"
-tsv_files = glob.glob(os.path.join(data_dir, "*.tsv"))
-tsv_files = [os.path.abspath(file) for file in tsv_files]
 
 dfs = []
 for index, row in samplesheet.iterrows():
-    file_path = row['file']
+    file_path = os.path.basename(row['file'])
+    file_path = os.path.join(args.data_dir, file_path)
     print(f"Loading {file_path}")
     
     # Read the TSV file into a dataframe
diff --git a/bin/samplesheet.py b/bin/samplesheet.py
@@ -0,0 +1,32 @@
+#!/usr/bin/env python
+
+import argparse
+import os
+import pandas as pd
+
+# initialize parser
+parser = argparse.ArgumentParser()
+parser.add_argument('-s', '--samplesheet', 
+                    metavar='samplesheet', 
+                    type=str, 
+                    help='sample metadata passed in through samples CSV file')
+
+parser.add_argument('-d', '--data_dir',
+                    metavar='data_dir',
+                    type=str,
+                    help='path to data directory')
+
+args = parser.parse_args()
+
+#do any processing of the samplesheet here
+def samplesheet(samplesheet, data_dir):
+    ss = pd.read_csv(samplesheet, sep=',')
+    ss.to_csv('samplesheet_utf8.csv', index=False, encoding='utf-8-sig')
+    
+    stats = ss.describe()
+    stats.to_csv('samplesheet_stats.csv', index=False, encoding='utf-8-sig')
+    
+    print(ss.head())
+
+samplesheet(args.samplesheet, args.data_dir)
+    
diff --git a/modules/local/compare_calc.nf b/modules/local/compare_calc.nf
@@ -15,6 +15,6 @@ process COMPARE_CALC {
     """
     calc_compare.py \
         -s $sample_utf8 \
-        -p $projectDir 
+        -d $data_dir
     """
 }
diff --git a/modules/local/sample_calc.nf b/modules/local/sample_calc.nf
@@ -16,10 +16,7 @@ process SAMPLE_CALC {
     script:
     """
     echo '' > sample_stats.csv
-    
-    calc_sample.py \
-        -s '${sample_meta}' \
-        -c ${count_table}
+    calc_sample.py -s '${sample_meta}' -c ${count_table}
     """
 
     stub:
diff --git a/modules/local/samplesheet_check.nf b/modules/local/samplesheet_check.nf
@@ -8,15 +8,11 @@ process SAMPLESHEET_CHECK {
 
     output:
     path 'samplesheet_utf8.csv'    , emit: samplesheet_utf8
-    path 'samplesheet_stats.txt'
+    path 'samplesheet_stats.csv'
 
     script: 
     """
-    #!/bin/bash
-    
-    iconv -t utf-8 $samplesheet > samplesheet_utf8.csv
-
-    csvstat samplesheet_utf8.csv > samplesheet_stats.txt
+    samplesheet.py -s $samplesheet -d ${params.data_dir}
     """
 
     stub:
diff --git a/subworkflows/local/cluster.nf b/subworkflows/local/cluster.nf
diff --git a/subworkflows/local/compare.nf b/subworkflows/local/compare.nf
@@ -8,6 +8,9 @@
 include { COMPARE_CALC  } from '../../modules/local/compare_calc'
 include { COMPARE_PLOT  } from '../../modules/local/compare_plot'
 
+include { GLIPH2_TURBOGLIPH } from '../../modules/local/gliph2_turbogliph'
+include { GLIPH2_PLOT } from '../../modules/local/gliph2_plot'
+
 /*
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
     RUN MAIN SUBWORKFLOW
@@ -24,8 +27,7 @@ workflow COMPARE {
     data_dir
 
     main:
-    COMPARE_CALC( sample_utf8,
-                  data_dir )
+    COMPARE_CALC( sample_utf8, file(data_dir) )
 
     COMPARE_PLOT( sample_utf8,
                   COMPARE_CALC.out.jaccard_mat,
@@ -34,6 +36,11 @@ workflow COMPARE {
                   file(params.compare_stats_template),
                   project_name
                   )
+
+    GLIPH2_TURBOGLIPH(
+        sample_utf8,
+        file(params.data_dir)
+    )
     
     // emit:
     // compare_stats_html
diff --git a/subworkflows/local/input_check.nf b/subworkflows/local/input_check.nf
@@ -26,11 +26,11 @@ workflow INPUT_CHECK {
                     meta_map << value
                 }
             }
-            [meta_map, file(row.file)]}
+            [meta_map, file("${params.data_dir}/${row.file}")]}
         .set { sample_map }
-    
+
     emit:
-    sample_map
-    samplesheet_utf8
+    sample_map          //input to sample-level analysis
+    samplesheet_utf8    //input to comparison analysis
     // versions = SAMPLESHEET_CHECK.out.versions // channel: [ versions.yml ]
 }
diff --git a/subworkflows/local/sample.nf b/subworkflows/local/sample.nf
@@ -7,6 +7,7 @@
 
 include { SAMPLE_CALC } from '../../modules/local/sample_calc'
 include { SAMPLE_PLOT } from '../../modules/local/sample_plot'
+include { TCRDIST3_MATRIX } from '../../modules/local/tcrdist3_matrix'
 
 /*
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
@@ -45,6 +46,12 @@ workflow SAMPLE {
                      storeDir: "${params.output}/sample")
         .set { j_family_csv }
 
+
+    TCRDIST3_MATRIX(
+        sample_map,
+        file(params.db_path)
+    )
+
     /////// =================== PLOT SAMPLE ===================  ///////
 
     SAMPLE_PLOT (
diff --git a/test_data/minimal-example/minimal-example_patient_table.csv b/test_data/minimal-example/minimal-example_patient_table.csv
diff --git a/test_data/minimal-example/minimal-example_sample_table.csv b/test_data/minimal-example/minimal-example_sample_table.csv
diff --git a/test_data/minimal-example/samplesheet.csv b/test_data/minimal-example/samplesheet.csv
diff --git a/workflows/tcrtoolkit-bulk.nf b/workflows/tcrtoolkit-bulk.nf

Original file line number	Diff line number	Diff line change
`@@ -1,7 +1,6 @@`
`1`	`1`	`{`
`2`	`2`	`"sample_lvl": "$.params.dataset.paramJson.sample_lvl",`
`3`	`3`	`"compare_lvl": "$.params.dataset.paramJson.compare_lvl",`
`4`		`- "cluster_lvl": "$.params.dataset.paramJson.cluster_lvl",`
`5`	`4`	`"data_dir": "$.params.inputs[0].s3\|/data/",`
`6`	`5`	`"kmer_min_depth": "$.params.dataset.paramJson.kmer_min_depth",`
`7`	`6`	`"local_min_OVE": "$.params.dataset.paramJson.local_min_OVE",`
Original file line number	Diff line number	Diff line change
`@@ -15,6 +15,6 @@ process COMPARE_CALC {`
`15`	`15`	`"""`
`16`	`16`	`calc_compare.py \`
`17`	`17`	`-s $sample_utf8 \`
`18`		`- -p $projectDir`
	`18`	`+ -d $data_dir`
`19`	`19`	`"""`
`20`	`20`	`}`