add output and modified fusion

Ubuntu · Ubuntu · commit 5d310bd9a0d8 · 2021-07-20T15:24:05.000Z
diff --git a/modules/mutation/mutation_cohort.snakefile b/modules/mutation/mutation_cohort.snakefile
@@ -6,6 +6,7 @@ metadata = pd.read_csv(config["metasheet"], index_col=0, sep=',')
 metadata = pd.read_csv(config["metasheet"], index_col=0, sep=',')
 options = [config["Treatment"],config["Control"]]
 design = config["design"]
+#batch = config["batch"]
 
 def getsampleIDs(meta):
 	return meta[meta[design].isin(options)].index
@@ -57,13 +58,13 @@ rule preprocess_prada:
       "benchmarks/fusion/{design}_preprocess_prada.benchmark"
     conda: "../envs/stat_perl_r.yml"
     params:
-      outdir = "analysis/fusion/",
+      outdir = "analysis/fusion/{design}_",
       path = "set +eu;source activate %s" % config['stat_root'],
-      pheno = config["design"],
+      #pheno = config["design"],
       gtf = config['annotation_pyprada'],
       anno = 'analysis/fusion/pyprada_annotation.txt'
     shell:
-      "{params.path}; Rscript src/mutation/preprocess_prada.R --fusion {input}  --outdir {params.outdir} --phenotype {params.pheno}"
+      "{params.path}; Rscript src/mutation/preprocess_prada.R --fusion {input}  --outdir {params.outdir} "
       """ && cat {output.table} | sed 's/\\t/\\n/g' | sort | uniq > {output.uniquegene}   """
       """ && grep -f {output.uniquegene} {params.gtf} > {params.anno} """
 
diff --git a/modules/preprocess/preprocess_cohort.snakefile b/modules/preprocess/preprocess_cohort.snakefile
@@ -139,7 +139,7 @@ rule batch_removal:
         "analysis/salmon/tpm.genesymbol.csv"
     output:
         after = "analysis/batchremoval/{design}_{covariates}_tpm.genesymbol.batchremoved.csv",
-        before = "analysis/batchremoval/{design}_{covariates}_tpm.genesymbol.csv"
+        before = "analysis/batchremoval/{design}_{covariates}_tpm.genesymbol.csv",
     message:
         "Running batch removal using limma method"
     benchmark:
@@ -148,13 +148,16 @@ rule batch_removal:
         covariates = config["batch"],
         design = config["design"],
         path="set +eu;source activate %s" % config['stat_root'],
-        meta = config["metasheet"]
+        meta = config["metasheet"],
+        rename = "analysis/batchremoval/tpm.genesymbol.batchremoved.csv"
     log:
         "logs/batchremoval/{design}_{covariates}_batch_removal.log"
     conda: "../envs/stat_perl_r.yml"
     shell:
         "{params.path}; Rscript src/preprocess/batch_removal.R -e {input} -c {params.covariates} \
-        -d {params.design} -m {params.meta} -b {output.before} -a {output.after}"
+        -d {params.design} -m {params.meta} -b {output.before} -a {output.after} \
+        && cp {output.after} {params.rename}"
+
 
         
 rule pca_sample_clustering:
diff --git a/src/mutation/fusion_plot.R b/src/mutation/fusion_plot.R
@@ -13,7 +13,7 @@ suppressMessages(library(tidyverse))
 option_list = list(
   make_option(c("-i", "--input"), type="character", default=NULL,
                help="merged fusion prediction file", metavar="character"),
-  make_option(c("-pf", "--pradafusion"), type="character",default=NULL,
+  make_option(c("-f", "--pradafusion"), type="character",default=NULL,
               help="prada fusion prediction file", metavar="character"),
   make_option(c("-m", "--meta"), type="character", default=NULL, 
               help="metasheet file", metavar="character"),
diff --git a/src/mutation/preprocess_prada.R b/src/mutation/preprocess_prada.R
@@ -1,17 +1,17 @@
 #!/usr/bin/env Rscript
 
 #dependencies
-library(dplyr)
-library(ggrepel)
-library(optparse)
-library(ggplot2)
-library(tidyverse)
-library(data.table)
+suppressMessages(library(dplyr))
+suppressMessages(library(ggrepel))
+suppressMessages(library(optparse))
+suppressMessages(library(ggplot2))
+suppressMessages(library(tidyverse))
+suppressMessages(library(data.table))
 
 option_list = list(
   make_option(c("-f", "--fusion"), type="character", default=NULL, 
               help="merged fusion prediction file", metavar="character"),
-  make_option(c("-out", "--outdir"), type="character", default=NULL, 
+  make_option(c("-o", "--outdir"), type="character", default=NULL, 
               help="output directory", metavar="character")
   
 ); 
diff --git a/static/environment/AWS/prada_env.yml b/static/environment/AWS/prada_env.yml
@@ -5,5 +5,7 @@ channels:
   - defaults
 dependencies:
   - python=2.7.13=1
+  - biopython
+
 
 
diff --git a/static/environment/AWS/stat_perl_r.yml b/static/environment/AWS/stat_perl_r.yml
@@ -13,6 +13,7 @@ dependencies:
 - r-reshape2
 - bioconductor-sva
 - r-optparse
+- r-ggnewscale
 - r-ggfortify
 - r-e1071
 - r-vegan
diff --git a/static/environment/GCP/prada_env.yml b/static/environment/GCP/prada_env.yml
@@ -5,5 +5,6 @@ channels:
   - defaults
 dependencies:
   - python=2.7.13=1
+  - biopython
 
 
diff --git a/static/fusion/prada_config.txt b/static/fusion/prada_config.txt
@@ -1,3 +1,3 @@
 --REF--
-tx_seq_file = ./ref_files/annotations/v22/gencode.v22.ts.fa
+tx_seq_file = ./ref_files/salmon_index/gencode.v22.ts.fa
 feature_file = analysis/fusion/pyprada_annotation.txt