Merge pull request #91 from pinellolab/v2.1.9

ManuelTgn · web-flow · commit dfeba33f8c26 · 2025-12-23T17:10:09.000+01:00
v2.1.9
diff --git a/PostProcess/adjust_cols.py b/PostProcess/adjust_cols.py
@@ -37,7 +37,7 @@
 
 # read file to adjust in chunks
 chunksize_ = 100000
-chunks = pd.read_csv(inFile, sep="\t", chunksize=chunksize_)
+chunks = pd.read_csv(inFile, sep="\t", chunksize=chunksize_, low_memory=False)
 
 # write header the first time a chuck is processed
 header = True
diff --git a/PostProcess/submit_job_automated_new_multiple_vcfs.sh b/PostProcess/submit_job_automated_new_multiple_vcfs.sh
@@ -354,21 +354,11 @@ while read vcf_f; do
 			pid_search_ref=$!
 			pids+=("$pid_search_ref")  # add reference search pid
 			names+=("Reference")  # add pid identifier
-			if [ -s $logerror ]; then
-				printf "ERROR: off-targets search on reference genome failed\n" >&2
-				rm -f $output_folder/*.targets.txt $output_folder/*profile*  # delete results folder
-				exit 1
-			fi
 		else  # consider dna/rna bulges (not combined)
 			crispritz.py search "$current_working_directory/Genomes/${ref_name}/" "$pam_file" "$guide_file" "${ref_name}_${pam_name}_${guide_name}_${mm}_${bDNA}_${bRNA}" -mm $mm -r -th $ceiling_result &
 			pid_search_ref=$!
 			pids+=("$pid_search_ref")  # add reference search pid
 			names+=("Reference")  # add pid identifier
-			if [ -s $logerror ]; then
-				printf "ERROR: off-targets search (no bulges) on reference genome failed\n" >&2
-				rm -f $output_folder/*.targets.txt $output_folder/*profile*   # delete results folder
-				exit 1
-			fi
 		fi
 		echo -e 'Search Reference completed'
 	else
@@ -384,22 +374,11 @@ while read vcf_f; do
 				pid_search_var=$!
 				pids+=("$pid_search_var")  # add variants search pid
 				names+=("Variant")  # add pid identifier
-				if [ -s $logerror ]; then
-					printf "ERROR: off-targets search on alternative genome failed on variants in %s\n" "$vcf_name" >&2
-					rm -r $output_folder/*.targets.txt $output_folder/*profile*   # delete results folder
-					exit 1
-				fi
-				echo -e 'Search Variant\tEnd\t'$(date) >>$log
 			else  # consider bulges
 				crispritz.py search "$current_working_directory/Genomes/${ref_name}+${vcf_name}/" "$pam_file" "$guide_file" "${ref_name}+${vcf_name}_${pam_name}_${guide_name}_${mm}_${bDNA}_${bRNA}" -mm $mm -r -th $ceiling_result &
 				pid_search_var=$!
 				pids+=("$pid_search_var")  # add variants search pid
 				names+=("Variant")  # add pid identifier
-				if [ -s $logerror ]; then
-					printf "ERROR: off-targets search (no bulges) on alternative genome failed on variants in %s\n" "$vcf_name" >&2
-					rm -r $output_folder/*.targets.txt $output_folder/*profile*   # delete results folder
-					exit 1
-				fi
 			fi
 		else
 			echo -e "Search for variant already done"
@@ -411,17 +390,13 @@ while read vcf_f; do
 			cd $starting_dir
 			# TODO: REMOVE POOL SCRIPT FROM PROCESSING
 			./pool_search_indels.py "$ref_folder" "$vcf_folder" "$vcf_name" "$guide_file" "$pam_file" $bMax $mm $bDNA $bRNA "$output_folder" $true_pam "$current_working_directory/" "$ncpus"
-			if [ -s $logerror ]; then
-				printf "ERROR: off-targets search on indels failed on variants in %s\n" "$vcf_name" >&2
-				rm -r $output_folder/*.targets.txt $output_folder/*profile*  # delete results folder
-				exit 1
-			fi
 			awk '($3 !~ "n") {print $0}' "$output_folder/indels_${ref_name}+${vcf_name}_${pam_name}_${guide_name}_${mm}_${bDNA}_${bRNA}.targets.txt" >"$output_folder/indels_${ref_name}+${vcf_name}_${pam_name}_${guide_name}_${mm}_${bDNA}_${bRNA}.targets.txt.tmp"
 			mv "$output_folder/indels_${ref_name}+${vcf_name}_${pam_name}_${guide_name}_${mm}_${bDNA}_${bRNA}.targets.txt.tmp" "$output_folder/indels_${ref_name}+${vcf_name}_${pam_name}_${guide_name}_${mm}_${bDNA}_${bRNA}.targets.txt"
-			echo -e "Search INDELs completed"
 		else
 			echo -e "Search INDELs already done"
 		fi
+		echo -e "Search INDELs completed"
+
 	fi
 	
 	# wait for jobs completion
@@ -430,16 +405,21 @@ while read vcf_f; do
 		name="${names[$i]}"
 
 		if wait "$pid"; then
-			echo -e "Search $name \End\t"$(date) >>$log  # off-targets search on reference/variant genome
+			if [ -s $logerror ]; then
+				echo "ERROR: off-targets search ${name} failed\n" >&2
+				rm -f $output_folder/*.targets.txt $output_folder/*profile*  # delete results folder
+				exit 1
+			fi
+			echo -e "Off-targets search $name\tEnd\t"$(date) >>$log  # off-targets search on reference/variant genome
 		else			
-			echo "ERROR: search $name failed" >&2
+			echo "ERROR: Off-targets search $name failed" >&2
 			exit 1
 		fi
 	done
 	echo -e 'Off-targets search\tEnd\t'$(date) >>$log
 	# move all targets into targets directory
 	if [ -d "${output_folder}/crispritz_targets" ]; then
-		mv $output_folder/*.targets.txt $output_folder/crispritz_targets
+		mv $output_folder/*.targets.txt $output_folder/crispritz_targets &>/dev/null
 	fi
 	# move profiles into profile folder
 	if ! [ -d "$output_folder/crispritz_prof" ]; then
diff --git a/PostProcess/utils.py b/PostProcess/utils.py
@@ -101,8 +101,8 @@
     "hgdp_wgs.20190516.full.chrY.vcf.gz": "54b3aba28600c8d0d8a695c8dcfdc4cd",
 }
 MD5ANNOTATION = {
-    "dhs+encode+gencode.hg38.bed.tar.gz": "4f5eb631af903d4091bb2f57558c7b46",
-    "gencode.protein_coding.bed.tar.gz": "04297ade436db70784733a5b13d42723",
+    "dhs+encode+gencode.hg38.bed.tar.gz": "d3325e347c731b7c24c579a91b447b1b",
+    "gencode.protein_coding.bed.tar.gz": "c6747bf2610ff144daafc8b02cef251d",
 }
 MD5SAMPLES = {
     "samplesIDs.1000G.txt": "720af666c9a938de74a2808033aa4509",
diff --git a/crisprme.py b/crisprme.py
@@ -10,7 +10,7 @@
 import re
 
 
-version = "2.1.8"  #  CRISPRme version; TODO: update when required
+version = "2.1.9"  #  CRISPRme version; TODO: update when required
 __version__ = version
 
 script_path = os.path.dirname(os.path.abspath(__file__))

Original file line number	Diff line number	Diff line change
`@@ -101,8 +101,8 @@`
`101`	`101`	`"hgdp_wgs.20190516.full.chrY.vcf.gz": "54b3aba28600c8d0d8a695c8dcfdc4cd",`
`102`	`102`	`}`
`103`	`103`	`MD5ANNOTATION = {`
`104`		`- "dhs+encode+gencode.hg38.bed.tar.gz": "4f5eb631af903d4091bb2f57558c7b46",`
`105`		`- "gencode.protein_coding.bed.tar.gz": "04297ade436db70784733a5b13d42723",`
	`104`	`+ "dhs+encode+gencode.hg38.bed.tar.gz": "d3325e347c731b7c24c579a91b447b1b",`
	`105`	`+ "gencode.protein_coding.bed.tar.gz": "c6747bf2610ff144daafc8b02cef251d",`
`106`	`106`	`}`
`107`	`107`	`MD5SAMPLES = {`
`108`	`108`	`"samplesIDs.1000G.txt": "720af666c9a938de74a2808033aa4509",`