mapped read pairs added

qizhijie · qizhijie · commit 02c64948d9a1 · 2020-05-22T17:08:46.000-07:00
diff --git a/bin/PROPERseqTools b/bin/PROPERseqTools
@@ -9,18 +9,18 @@ helpFunction()
    echo -e "\t-o String, Path to output directory, required"
    echo -e "\t-i String, Path to bwa index of target transcriptome, required"
    echo -e "\t-g String, Path to transcript,gene and gene type dictionary file in csv format, required" 
+   echo -e "\t-j String, Job ID to be prepended to the output files and directories, optional, default=PROPERseq"
    echo -e "\t-t Int, Number of working threads, optional, default=2"
    echo -e "\t-r Char (T or F), remove intermediate files or not, optional, default=T"
    echo -e "\t-p Float, false discovery rate used to identify protein-protein interactions, optional, default=0.05"
    echo -e "\t-d Float, odds ratio cutoff used to identify protein-protein interactions, optional, default=1"
    echo -e "\t-c Float, read count cutoff coefficient used to identify protein-protein interactions, optional, default=4"   
    echo -e "\t-h Print usage message" 
    echo 
-   echo
    exit 1 # Exit script after printing help
 }
 
-while getopts "a:b:t:o:i:h:r:p:d:c:g:" opt
+while getopts "a:b:t:o:i:h:r:p:d:c:g:j:" opt
 do
    case "$opt" in
       a ) read1="$OPTARG" ;;
@@ -33,6 +33,7 @@ do
       d ) oddsCutoff="$OPTARG" ;;
       c ) rcCutoff="$OPTARG" ;;
       g ) geneDic="$OPTARG" ;;
+      j ) jobId="$OPTARG" ;;
       h ) helpFunction ;;
       ? ) helpFunction ;; # Print helpFunction in case parameter is non-existent
    esac
@@ -90,82 +91,107 @@ then
 fi
 wait
 
+if [ ! -z "$jobId" ]
+then
+    jobId=${jobId}_
+else
+    jobId=PROPERseq_
+fi
+wait
+
+
 mkdir $outputDir
-mkdir $outputDir/processedFastq
-mkdir $outputDir/intermediateFiles
-mkdir $outputDir/chimericReadPairs
-mkdir $outputDir/alignment/
+mkdir $outputDir/${jobId}processedFastq
+mkdir $outputDir/${jobId}intermediateFiles
+mkdir $outputDir/${jobId}alignment/
 wait
 
-python getCurrentDateTime_pub.py $outputDir 2>$outputDir/errorLog.txt
+python getCurrentDateTime_pub.py $outputDir $jobId
 wait
 
-cutadapt -j $numT -a TGACCAAGACGCCAAAAACATAAAGAAAGGCCCGGCGCCATTGGTCA -a TGACCAATGGCGCCGGGCCTTTCTTTATGTTTTTGGCGTCTTGGTCA -g TTCACTGGAGGGGGGCTCACGAGTAAGGAGGATCCAACATG -g CATGTTGGATCCTCCTTACTCGTGAGCCCCCCTCCAGTGAA -O 23 $read1 > $outputDir/intermediateFiles/R1.cutadapt.fastq 2> $outputDir/intermediateFiles/R1.linkers.txt &
 
-cutadapt -j $numT -a TGACCAAGACGCCAAAAACATAAAGAAAGGCCCGGCGCCATTGGTCA -a TGACCAATGGCGCCGGGCCTTTCTTTATGTTTTTGGCGTCTTGGTCA -g TTCACTGGAGGGGGGCTCACGAGTAAGGAGGATCCAACATG -g CATGTTGGATCCTCCTTACTCGTGAGCCCCCCTCCAGTGAA -O 23 $read2 > $outputDir/intermediateFiles/R2.cutadapt.fastq 2> $outputDir/intermediateFiles/R2.linkers.txt &
+cat $outputDir/${jobId}intermediateFiles/runStart.txt > $outputDir/${jobId}proteinProteinInteractions.csv
+cat $outputDir/${jobId}intermediateFiles/runStart.txt > $outputDir/${jobId}errorLog.txt
+cat $outputDir/${jobId}intermediateFiles/runStart.txt > $outputDir/${jobId}chimericReadPairs.csv
+cat $outputDir/${jobId}intermediateFiles/runStart.txt > $outputDir/${jobId}summary.csv 
 wait
 
 
-python processFastq_pub.py $outputDir/intermediateFiles/R1.cutadapt.lengthFiltered.fastq $outputDir/intermediateFiles/R1.cutadapt.fastq $outputDir yes 2>> $outputDir/errorLog.txt &
-python processFastq_pub.py $outputDir/intermediateFiles/R2.cutadapt.lengthFiltered.fastq $outputDir/intermediateFiles/R2.cutadapt.fastq $outputDir no 2>> $outputDir/errorLog.txt &
+cutadapt -j $numT -a TGACCAAGACGCCAAAAACATAAAGAAAGGCCCGGCGCCATTGGTCA -a TGACCAATGGCGCCGGGCCTTTCTTTATGTTTTTGGCGTCTTGGTCA -g TTCACTGGAGGGGGGCTCACGAGTAAGGAGGATCCAACATG -g CATGTTGGATCCTCCTTACTCGTGAGCCCCCCTCCAGTGAA -O 23 $read1 > $outputDir/${jobId}intermediateFiles/R1.cutadapt.fastq 2> $outputDir/${jobId}intermediateFiles/R1.linkers.txt &
+
+cutadapt -j $numT -a TGACCAAGACGCCAAAAACATAAAGAAAGGCCCGGCGCCATTGGTCA -a TGACCAATGGCGCCGGGCCTTTCTTTATGTTTTTGGCGTCTTGGTCA -g TTCACTGGAGGGGGGCTCACGAGTAAGGAGGATCCAACATG -g CATGTTGGATCCTCCTTACTCGTGAGCCCCCCTCCAGTGAA -O 23 $read2 > $outputDir/${jobId}intermediateFiles/R2.cutadapt.fastq 2> $outputDir/${jobId}intermediateFiles/R2.linkers.txt &
 wait
 
-fastp -w $numT -i $outputDir/intermediateFiles/R1.cutadapt.lengthFiltered.fastq -I $outputDir/intermediateFiles/R2.cutadapt.lengthFiltered.fastq -o $outputDir/processedFastq/R1.cutadapt.fastp.fastq -O $outputDir/processedFastq/R2.cutadapt.fastp.fastq -h $outputDir/intermediateFiles/fastp.html -j $outputDir/intermediateFiles/fastp.json 2>> $outputDir/errorLog.txt
+
+python processFastq_pub.py $outputDir/${jobId}intermediateFiles/R1.cutadapt.lengthFiltered.fastq $outputDir/${jobId}intermediateFiles/R1.cutadapt.fastq $outputDir yes ${jobId} 2>> $outputDir/${jobId}errorLog.txt &
+python processFastq_pub.py $outputDir/${jobId}intermediateFiles/R2.cutadapt.lengthFiltered.fastq $outputDir/${jobId}intermediateFiles/R2.cutadapt.fastq $outputDir no ${jobId} 2>> $outputDir/${jobId}errorLog.txt &
 wait
 
-python writeNumReadPairs_pub.py $outputDir 2>> $outputDir/errorLog.txt
+fastp -w $numT -i $outputDir/${jobId}intermediateFiles/R1.cutadapt.lengthFiltered.fastq -I $outputDir/${jobId}intermediateFiles/R2.cutadapt.lengthFiltered.fastq -o $outputDir/${jobId}processedFastq/R1.cutadapt.fastp.fastq -O $outputDir/${jobId}processedFastq/R2.cutadapt.fastp.fastq -h $outputDir/${jobId}intermediateFiles/fastp.html -j $outputDir/${jobId}intermediateFiles/fastp.json 2>> $outputDir/${jobId}errorLog.txt
 wait
 
-mkdir $outputDir/alignment/read1_tx
-mkdir $outputDir/alignment/read2_tx
+python writeNumReadPairs_pub.py $outputDir $jobId 2>> $outputDir/${jobId}errorLog.txt
 wait
 
-source=$outputDir/processedFastq
-target=$outputDir/alignment/
+mkdir $outputDir/${jobId}alignment/read1_tx
+mkdir $outputDir/${jobId}alignment/read2_tx
 wait
 
+source=$outputDir/${jobId}processedFastq
+target=$outputDir/${jobId}alignment
+wait
 
-bwa mem -a -t $numT $bwaIndex $source/R1.cutadapt.fastp.fastq > $target/read1_tx/alignment.sam 2>> $outputDir/errorLog.txt &
-bwa mem -a -t $numT $bwaIndex $source/R2.cutadapt.fastp.fastq > $target/read2_tx/alignment.sam 2>> $outputDir/errorLog.txt &
+half=$((numT/2))
+bwa mem -a -t $half $bwaIndex $source/R1.cutadapt.fastp.fastq > $target/read1_tx/alignment.sam 2>> $outputDir/${jobId}errorLog.txt &
+bwa mem -a -t $half $bwaIndex $source/R2.cutadapt.fastp.fastq > $target/read2_tx/alignment.sam 2>> $outputDir/${jobId}errorLog.txt &
 wait
 
-samtools view -H $target/read1_tx/alignment.sam > $target/read1_tx/header.sam 2>> $outputDir/errorLog.txt &
-samtools view -H $target/read2_tx/alignment.sam > $target/read2_tx/header.sam 2>> $outputDir/errorLog.txt &
+samtools view -H $target/read1_tx/alignment.sam > $target/read1_tx/header.sam 2>> $outputDir/${jobId}errorLog.txt &
+samtools view -H $target/read2_tx/alignment.sam > $target/read2_tx/header.sam 2>> $outputDir/${jobId}errorLog.txt &
 wait
 
-samtools view -F 4 $target/read1_tx/alignment.sam | cat $target/read1_tx/header.sam - | samtools view -b - > $target/read1_tx/mapped.bam 2>> $outputDir/errorLog.txt &
-samtools view -F 4 $target/read2_tx/alignment.sam | cat $target/read2_tx/header.sam - | samtools view -b - > $target/read2_tx/mapped.bam 2>> $outputDir/errorLog.txt &
+samtools view -F 4 $target/read1_tx/alignment.sam | cat $target/read1_tx/header.sam - | samtools view -b - > $target/read1_tx/mapped.bam 2>> $outputDir/${jobId}errorLog.txt &
+samtools view -F 4 $target/read2_tx/alignment.sam | cat $target/read2_tx/header.sam - | samtools view -b - > $target/read2_tx/mapped.bam 2>> $outputDir/${jobId}errorLog.txt &
 wait
 
-half=$((numT/2))
-samtools sort -n -@ $half -o $target/read1_tx/mapped.sorted.bam $target/read1_tx/mapped.bam 2>> $outputDir/errorLog.txt &
-samtools sort -n -@ $half -o $target/read2_tx/mapped.sorted.bam $target/read2_tx/mapped.bam 2>> $outputDir/errorLog.txt &
+
+samtools sort -n -@ $half -o $target/read1_tx/mapped.sorted.bam $target/read1_tx/mapped.bam 2>> $outputDir/${jobId}errorLog.txt &
+samtools sort -n -@ $half -o $target/read2_tx/mapped.sorted.bam $target/read2_tx/mapped.bam 2>> $outputDir/${jobId}errorLog.txt &
 wait
 
-bedtools bamtobed -cigar -i $target/read1_tx/mapped.sorted.bam > $target/read1_tx/mapped.sorted.bed 2>> $outputDir/errorLog.txt &
-bedtools bamtobed -cigar -i $target/read2_tx/mapped.sorted.bam > $target/read2_tx/mapped.sorted.bed 2>> $outputDir/errorLog.txt &
+bedtools bamtobed -cigar -i $target/read1_tx/mapped.sorted.bam > $target/read1_tx/mapped.sorted.bed 2>> $outputDir/${jobId}errorLog.txt &
+bedtools bamtobed -cigar -i $target/read2_tx/mapped.sorted.bam > $target/read2_tx/mapped.sorted.bed 2>> $outputDir/${jobId}errorLog.txt &
 wait
 
-python runBedFileSplit_pub.py $target 2>> $outputDir/errorLog.txt 
+python runBedFileSplit_pub.py $target 2>> $outputDir/${jobId}errorLog.txt 
 wait
 
 for file in $target/read1_tx/mapped.sorted.bed_chunk*
 do
 i=${file#*chunk}
-python chimericIdentification_pub.py $outputDir ${i} $geneDic $outputDir/intermediateFiles/chimStats_${i}.txt 2>> $outputDir/errorLog.txt 
+python writeMappedReadPairs_pub.py $outputDir ${i} $geneDic $outputDir/${jobId}intermediateFiles/mappedStats_${i}.txt ${jobId} 2>> $outputDir/${jobId}errorLog.txt 
 done
 wait
 
-python runDeduplication_pub.py $outputDir 2>> $outputDir/errorLog.txt
+cat $outputDir/${jobId}intermediateFiles/mappedReadPairs_all_bwa.header $outputDir/${jobId}intermediateFiles/mappedReadPairs_all_bwa.csv_* > $target/mappedReadPairs.csv
+wait
+
+python runDeduplication_pub.py $outputDir $jobId 2>> $outputDir/${jobId}errorLog.txt
+wait
 
 rm $target/read1_tx/mapped.sorted.bed_chunk*
 rm $target/read2_tx/mapped.sorted.bed_chunk*
 wait
 
-python callPPIs_pub.py $outputDir $pCutoff $oddsCutoff $rcCutoff 2>> $outputDir/errorLog.txt
-
-
-
+python callPPIs_pub.py $outputDir $pCutoff $oddsCutoff $rcCutoff $jobId 2>> $outputDir/${jobId}errorLog.txt
+wait
 
 
+if [ $removeFlag == 'T' ]
+then
+    rm -r $outputDir/${jobId}intermediateFiles
+fi
+wait
 
+gzip $outputDir/${jobId}processedFastq/R2.cutadapt.fastp.fastq &
+gzip $outputDir/${jobId}processedFastq/R1.cutadapt.fastp.fastq &
diff --git a/bin/callPPIs_pub.py b/bin/callPPIs_pub.py
@@ -1,11 +1,12 @@
 from collections import defaultdict
+import scipy
 import glob
 import scipy.stats as stats
 from rpy2.robjects.packages import importr
 from rpy2.robjects.vectors import FloatVector
 import sys
 
-targetFile=open('%s/proteinProteinInteractions.csv'%(sys.argv[1]),'w')
+targetFile=open('%s/%sproteinProteinInteractions.csv'%(sys.argv[1],sys.argv[5]),'a')
 
 def getIntCount(filePath):
     dicIntCount_positive=defaultdict(int)
@@ -28,10 +29,6 @@ def getIntCount(filePath):
     sorted_x_positive = sorted(dicIntCount_positive.items(), key=lambda kv: kv[1],reverse=True)
     return dicIntCount_positive,dicProteinCount_positive,sorted_x_positive
 
-dicIntCount_positive_8b,dicProteinCount_positive_8b,sorted_x_positive_8b=getIntCount(
-    '%s/chimericReadPairs.csv'%(sys.argv[1]))
-
-
 def identifyPPIs_chimericAdj(sorted_x_positive1_9,dicIntCount_positive1_9,dicProteinCount_positive1_9,coEff,pCutOff,oddsCutoff):
     factor=sum([x[1] for x in sorted_x_positive1_9])/len(sorted_x_positive1_9)
     chimTotal=sum([x[1] for x in sorted_x_positive1_9])
@@ -84,27 +81,32 @@ def identifyPPIs_chimericAdj(sorted_x_positive1_9,dicIntCount_positive1_9,dicPro
             rcList1.append(rcc)
             chiSig.append(chichi)
     print (len(set(list1)))
-    return list1,rcList1,orSig_1,chiSig,pvalueSig
+    return list1,rcList1,orSig_1,chiSig,pvalueSig_1
+
+
+dicIntCount_positive_8b,dicProteinCount_positive_8b,sorted_x_positive_8b=getIntCount(
+    '%s/%schimericReadPairs.csv'%(sys.argv[1],sys.argv[5]))
 
 
 list_PPI,rcList_PPI,orList_PPI,chiList_PPI,pvalueList_PPI=identifyPPIs_chimericAdj(
     sorted_x_positive_8b,dicIntCount_positive_8b,dicProteinCount_positive_8b,float(sys.argv[4]),float(sys.argv[2]),float(sys.argv[3]))
 
 #write into the file
 targetFile.write('Protein1,Protein2,ReadCount,FDR,oddsRatio,chiSquareStat\n')
-for ha in list_super:
+for i in range(len(list_PPI)):
+    ha=list_PPI[i]
     [gene1,gene2]=ha.split(';')
     oddsRatio=str(orList_PPI[i])
     chichi=str(chiList_PPI[i])
     pp=str(pvalueList_PPI[i])
-    rc=str(dicProteinCount_positive_8b[ha])
+    rc=str(dicIntCount_positive_8b[ha])
     infoList=','.join([gene1,gene2,rc,pp,oddsRatio,chichi])
     targetFile.write(infoList)
     targetFile.write('\n')
     
 targetFile.close()
 
 
-targetFile==open('%s/summary.csv'%(sys.argv[1]),'a')
+targetFile=open('%s/%ssummary.csv'%(sys.argv[1],sys.argv[5]),'a')
 targetFile.write('#protein-protein_interactions,%d\n'%(len(list_PPI)))
 targetFile.close()
diff --git a/bin/getCurrentDateTime_pub.py b/bin/getCurrentDateTime_pub.py
@@ -3,6 +3,6 @@
 
 # get current date
 datetime_object = datetime.now()
-targetFile=open('%s/intermediateFiles/runStart.txt'%(sys.argv[1]),'w')
-targetFile.write('#Run starts at %s. Job ID:\n'%(str(datetime_object)))
+targetFile=open('%s/%sintermediateFiles/runStart.txt'%(sys.argv[1],sys.argv[2]),'w')
+targetFile.write('#Run starts at %s. Job ID:%s\n'%(str(datetime_object),sys.argv[2][:-1]))
 targetFile.close()
diff --git a/bin/processFastq_pub.py b/bin/processFastq_pub.py
@@ -25,6 +25,6 @@
 targetFile.close()
 total=total/4
 if sys.argv[4]=='yes':
-    targetFile=open('%s/summary.csv'%(sys.argv[3]),'w')
+    targetFile=open('%s/%ssummary.csv'%(sys.argv[3],sys.argv[5]),'a')
     targetFile.write('#input_read_pairs,%d\n'%(total))
     targetFile.close()
diff --git a/bin/runDeduplication_pub.py b/bin/runDeduplication_pub.py
@@ -2,11 +2,11 @@
 from collections import defaultdict
 import sys
 chimNum=0
-targetFile=open('%s/chimericReadPairs.csv'%(sys.argv[1]),'w')
+targetFile=open('%s/%schimericReadPairs.csv'%(sys.argv[1],sys.argv[2]),'w')
 targetFile.write('readId,R1Tx,R1start,R1end,R1Gene,R1Cigar,R2Tx,R2start,R2end,R2Gene,R2Cigar\n')
 dicMapInfo_count=defaultdict(int)
 for i in [1]:
-    fileList=glob.glob('%s/intermediateFiles/chimericReadPairs_all_bwa.csv_*'%(sys.argv[1]))
+    fileList=glob.glob('%s/%sintermediateFiles/chimericReadPairs_all_bwa.csv_*'%(sys.argv[1],sys.argv[2]))
     for file in fileList:
         with open(file,'r') as f:
             next(f)
@@ -28,14 +28,14 @@
 
 
 mapSum=0
-fileList=glob.glob('%s/intermediateFiles/chimStats_*.txt'%(sys.argv[1]))
+fileList=glob.glob('%s/%sintermediateFiles/mappedStats_*.txt'%(sys.argv[1],sys.argv[2]))
 for file in fileList:
     with open(file,'r') as f:
         for line in f:
             splitLine=line.strip().split(',')
             mapSum+=int(splitLine[0])
 
-targetFile=open('%s/summary.csv'%(sys.argv[1]),'a')
+targetFile=open('%s/%ssummary.csv'%(sys.argv[1],sys.argv[2]),'a')
 targetFile.write('#protein-coding_gene_mapped_read_pairs,%d\n'%(mapSum))
 targetFile.write('#chimeric_read_pairs,%d\n'%(chimNum))
 targetFile.close()
diff --git a/bin/writeMappedReadPairs_pub.py b/bin/writeMappedReadPairs_pub.py
@@ -1,7 +1,11 @@
+import glob
 from collections import defaultdict
 import sys
 from cigar import Cigar
 
+targetFile=open('%s/%sintermediateFiles/mappedReadPairs_all_bwa.header'%(sys.argv[1],sys.argv[5]),'w')
+targetFile.write('ReadId,Read1Gene,Read2Gene,R1transcript,R1Start,R1End,Read1Cigar,Read1GeneType,Read1LesserGenes,R2transcript,R2Start,R2End,Read2Cigar,Read2GeneType,Read2LesserGenes\n')
+targetFile.close()
 
 #read in refseq dic
 dicIdGeneName={}
@@ -11,9 +15,7 @@
         splitLine=line.strip().split(',')
         dicIdGeneName[splitLine[0]]=splitLine[1]
         dicIdGeneType[splitLine[0]]=splitLine[2]
-        
-        
-    
+
 #read in read1 and read2 file
 dicReadIdGene1=defaultdict(list)
 dicReadIdGene2=defaultdict(list)
@@ -24,7 +26,7 @@
 
 #Count protein-coding mapped read pairs
 dicRead1_count=defaultdict(int)
-with open('%s/alignment/read1_tx/mapped.sorted.bed_chunk%s'%(sys.argv[1],sys.argv[2]),'r') as f:
+with open('%s/%salignment/read1_tx/mapped.sorted.bed_chunk%s'%(sys.argv[1],sys.argv[5],sys.argv[2]),'r') as f:
     for line in f:
         splitLine=line.strip().split('\t')
         readId=splitLine[3]
@@ -37,7 +39,7 @@
             dicIdtoCigar1[readId].append(cigar1)
             
 idList=[]
-with open('%s/alignment/read2_tx/mapped.sorted.bed_chunk%s'%(sys.argv[1],sys.argv[2]),'r') as f:
+with open('%s/%salignment/read2_tx/mapped.sorted.bed_chunk%s'%(sys.argv[1],sys.argv[5],sys.argv[2]),'r') as f:
     for line in f:
         splitLine=line.strip().split('\t')
         readId=splitLine[3]
@@ -49,19 +51,24 @@
             dicReadIdPos2[splitLine[3]].append(splitLine[:3])
             dicIdtoCigar2[readId].append(cigar2)
 
-idList=list(set(idList))            
-#identify chimeric reads
-targetFile=open('%s/intermediateFiles/chimericReadPairs_all_bwa.csv_%s'%(sys.argv[1],sys.argv[2]),'w')
-targetFile.write('readId,R1Tx,R1start,R1end,R1Gene,R1Cigar,R2Tx,R2start,R2end,R2Gene,R2Cigar\n')
-count=0
+idList=list(set(idList))
+
+targetFile1=open('%s/%sintermediateFiles/mappedReadPairs_all_bwa.csv_%s'%(sys.argv[1],sys.argv[5],sys.argv[2]),'a')
+targetFile2=open('%s/%sintermediateFiles/chimericReadPairs_all_bwa.csv_%s'%(sys.argv[1],sys.argv[5],sys.argv[2]),'a')
+targetFile2.write('readId,R1Tx,R1start,R1end,R1Gene,R1Cigar,R2Tx,R2start,R2end,R2Gene,R2Cigar\n')
 for readId in idList:
-    geneList1=dicReadIdGene1[readId]
-    geneList2=dicReadIdGene2[readId]
-    #no common genes
+    geneList1=';'.join(list(dicReadIdGene1[readId]))
+    geneList2=';'.join(list(dicReadIdGene2[readId]))
+    cigar1,cigar2=Cigar(dicIdtoCigar1[readId][0]),Cigar(dicIdtoCigar2[readId][0])  
+    [txId1,start1,end1]=dicReadIdPos1[readId][0]
+    [txId2,start2,end2]=dicReadIdPos2[readId][0]
+    gene1,gene2=dicIdGeneName[txId1],dicIdGeneName[txId2]
+    type1,type2=dicIdGeneType[txId1],dicIdGeneType[txId2]
+    targetFile1.write('%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s\n'
+                     %(readId,gene1,gene2,txId1,start1,end1,str(cigar1),type1,geneList1,txId2,start2,end2,str(cigar2),type2,geneList2))
+
     if len(set(geneList1)&set(geneList2))==0:
-        [txId1,start1,end1]=dicReadIdPos1[readId][0]
-        [txId2,start2,end2]=dicReadIdPos2[readId][0]
-        if dicIdGeneType[txId1]=='mRNA' and dicIdGeneType[txId2]=='mRNA':
+        if type1=='mRNA' and type2=='mRNA':
             #check cigar string
             cigar1,cigar2=Cigar(dicIdtoCigar1[readId][0]),Cigar(dicIdtoCigar2[readId][0])
             cigar1List=list(cigar1.items())
@@ -83,15 +90,14 @@
             if flag1 and flag2:
                 gene1,gene2=dicIdGeneName[txId1],dicIdGeneName[txId2]
                 #write file
-                targetFile.write('%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s\n'
+                targetFile2.write('%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s\n'
                                  %(readId,txId1,start1,end1,gene1,str(cigar1),txId2,start2,end2,gene2,str(cigar2)))
-                count+=1
-
-targetFile.close()
 
-targetFile=open(sys.argv[4],'w')
-targetFile.write('%d,%d'%(len(idList),count))
-targetFile.close()
-            
+    
+targetFile1.close()
+targetFile2.close()
 
 
+targetFile=open(sys.argv[4],'w')
+targetFile.write('%d'%(len(idList)))
+targetFile.close()