BigDataBiology
diff --git a/‎General_Scripts/03_Quality_control/RNAcode/04_filter_RNAcode.py‎
Lines changed: 66 additions & 8 deletions b/‎General_Scripts/03_Quality_control/RNAcode/04_filter_RNAcode.py‎
Lines changed: 66 additions & 8 deletions
diff --git a/‎General_Scripts/03_Quality_control/Readme.md‎
Lines changed: 8 additions & 7 deletions b/‎General_Scripts/03_Quality_control/Readme.md‎
Lines changed: 8 additions & 7 deletions
diff --git a/‎General_Scripts/03_Quality_control/merge_quality_control/01_merge.py‎
Lines changed: 24 additions & 10 deletions b/‎General_Scripts/03_Quality_control/merge_quality_control/01_merge.py‎
Lines changed: 24 additions & 10 deletions
diff --git a/‎General_Scripts/03_Quality_control/merge_quality_control/03_merge_all.py‎
Lines changed: 64 additions & 0 deletions b/‎General_Scripts/03_Quality_control/merge_quality_control/03_merge_all.py‎
Lines changed: 64 additions & 0 deletions
diff --git a/‎General_Scripts/03_Quality_control/metaproteomics/02_merge.py‎
Lines changed: 19 additions & 1 deletion b/‎General_Scripts/03_Quality_control/metaproteomics/02_merge.py‎
Lines changed: 19 additions & 1 deletion
diff --git a/‎General_Scripts/03_Quality_control/metaproteomics/03_assign_all_level.py‎
Lines changed: 46 additions & 2 deletions b/‎General_Scripts/03_Quality_control/metaproteomics/03_assign_all_level.py‎
Lines changed: 46 additions & 2 deletions
@@ -7,16 +7,14 @@ def filter(file_dir,outfile):
     import os
     out = open(outfile, "wt")
     for n in range(1,288):
-        print("first"+str(n)+"\n")
-        first_dir = file_dir+"/first"+str(n)
+        first_dir = f'{file_dir}/first{n}'
         for m in range(1,301):
-            print("second"+str(m)+"\n")
-            second_dir = first_dir+"/second"+str(m)
+            second_dir = f'{first_dir}/second{m}'
             if os.listdir(second_dir):
                 for infile in os.listdir(second_dir):
-                    file_path = second_dir+"/"+infile
-                    with open (file_path) as f1:
-                        for line in f1 :
+                    file_path = f'{second_dir}/{infile}'
+                    with open(file_path) as f:
+                        for line in f:
                             linelist = line.strip().split("\t")
                             if float(linelist[-1]) < 0.05:
                                 filesplit = infile.split(".")
@@ -50,6 +48,56 @@ def true_false_100AA_90AA(infile1,infile2,outfile1,outfile2,outfile3):
     out2.close()
     out3.close()
 
+def file_name(file_dir,outfile):
+    import os
+
+    out = open(outfile, "w")
+    for n in range(1,288):
+        first_dir = f'{file_dir}/first{n}'
+        for m in range(1,301):
+            second_dir = f'{first_dir}/second{m}'
+            for infile in os.listdir(second_dir):
+                file_path = f'{second_dir}/{infile}'
+                name = infile.replace('.fna.aln.tsv','')
+                with open(file_path) as f:
+                    linelist = f.readline().strip().split('\t')
+                    if len(linelist) >1:
+                        out.write(f'{name}\t{linelist[10]}\n')
+    out.close()
+
+def full_90(infile,outfile):
+    metaT = {}
+    with open(infile,'rt') as f:
+        for line in f:
+            cluster,number = line.strip().split('\t')
+            metaT[cluster] = number
+
+    with open(outfile,'wt') as out:
+        for i in range(287926875):
+            nf = f'{i:09}'
+            name = f'GMSC10.90AA.{nf[:3]}_{nf[3:6]}_{nf[6:9]}'
+            if name in metaT.keys():
+                out.write(f'{name}\t{metaT[name]}\n')
+            else:
+                out.write(f'{name}\tNA\n')
+
+def full_100(infile1,infile2,outfile):
+    import gzip
+
+    rnacode = {}
+    with open(infile1,'rt') as f:
+        for line in f:
+            cluster,number = line.strip().split('\t')
+            rnacode[cluster] = number
+
+    with open(outfile,'wt') as out:
+        with gzip.open(infile2,'rt') as f:
+            for line in f:
+                member,cluster = line.strip().split('\t')
+                if cluster in rnacode.keys():
+                    out.write(f'{member}\t{rnacode[cluster]}\n')
+                else:
+                    out.write(f'{member}\tNA\n')
 
 INPUT_DIR = "./rnacode"
 INPUT_FILE_1 = "GMSC.cluster_filter.tsv"
@@ -59,4 +107,14 @@ def true_false_100AA_90AA(infile1,infile2,outfile1,outfile2,outfile3):
 OUTPUT_FILE_4 = "rnacode_false_90AA.tsv"
 
 filter(INPUT_DIR,OUTPUT_FILE_1)
-true_false_100AA_90AA(OUTPUT_FILE_1,INPUT_FILE_1,OUTPUT_FILE_2,OUTPUT_FILE_3,OUTPUT_FILE_4)
+true_false_100AA_90AA(OUTPUT_FILE_1,INPUT_FILE_1,OUTPUT_FILE_2,OUTPUT_FILE_3,OUTPUT_FILE_4)
+
+OUTPUT_FILE_5 = "90AA_RNAcode_p.tsv"
+file_name(INPUT_DIR,OUTPUT_FILE_5)
+
+OUTPUT_FILE_6 = '90AA_RNAcode.tsv'
+full_90(OUTPUT_FILE_5,OUTPUT_FILE_6)
+
+INPUT_FILE_3 = 'GMSC.cluster.tsv.gz'
+OUTPUT_FILE_7 = '100AA_RNAcode.tsv'
+full_100(INPUT_FILE_2,INPUT_FILE_3,OUTPUT_FILE_7)
@@ -19,34 +19,35 @@
 | 01_filter8_addfna_split.py | Select clusters(>= 8 members) | GMSC.cluster.tsv.gz metag_ProG_smorfs.fna.xz | ./split/*.fna | 
 | 02_run_MSA.sh | Multiple sequences alignment of each .fna file | ./split/*.fna | *.aln | 
 | 03_run_RNAcode.sh | Run RNAcode | *.aln | *.tsv | 
-| 04_filter_RNAcode.py | Filter RNAcode result | *.tsv GMSC.cluster_filter.tsv| rnacode_true_90AA.tsv rnacode_true_100AA.tsv rnacode_false_100AA.tsv rnacode_false_90AA.tsv | 
+| 04_filter_RNAcode.py | Filter RNAcode result | *.tsv GMSC.cluster_filter.tsv GMSC.cluster.tsv.gz | rnacode_true_90AA.tsv rnacode_true_100AA.tsv rnacode_false_100AA.tsv rnacode_false_90AA.tsv 90AA_RNAcode.tsv 100AA_RNAcode.tsv | 
 
 ### metatranscriptomics
 
 | **Code** | **Description** | **Input** | **Output** |
 | :---: | :---: | :---: | :---: |
 | 01_run_bwa_ngless.sh | Map metatranscriptome reads to smORFs | 90AA_GMSC.fna *.fastq.gz | *.tsv | 
-| 02_merge_filter.py | Merge and filter mapping results | *.tsv GMSC.cluster.tsv.gz | metaT_result.tsv metaT_90AA.tsv metaT_100AA.tsv | 
+| 02_merge_filter.py | Merge and filter mapping results | *.tsv GMSC.cluster.tsv.gz | metaT_result.tsv metaT_90AA.tsv metaT_100AA.tsv 90AA_metaT.tsv 100AA_metaT.tsv| 
 
 ### riboseq
 
 | **Code** | **Description** | **Input** | **Output** |
 | :---: | :---: | :---: | :---: |
 | 01_run_bwa_ngless.sh | Map riboseq reads to smORFs | 90AA_GMSC.fna *.fastq.gz | *.tsv | 
-| 02_merge_filter.py | Merge and filter mapping results | *.tsv GMSC.cluster.tsv.gz | riboseq_result.tsv riboseq_90AA.tsv riboseq_100AA.tsv | 
+| 02_merge_filter.py | Merge and filter mapping results | *.tsv GMSC.cluster.tsv.gz | riboseq_result.tsv riboseq_90AA.tsv riboseq_100AA.tsv 90AA_RiboSeq.tsv 100AA_RiboSeq.tsv | 
 
 ### metaproteomics
 
 | **Code** | **Description** | **Input** | **Output** |
 | :---: | :---: | :---: | :---: |
 | 00_split_100AA.py 01_map.py | For each metaproteomes peptides from each project in PRIDE,find their exact match against 100AA smORFs | 100AA_GMSC.faa.xz *.fasta | *.tsv | 
-| 02_merge.py | Calculate and filter peptide coverage rate of each smORF | *.tsv | coverage_analysis.tsv | 
-| 03_assign_all_level.py | Assign results to 90AA smORFs | coverage_analysis.tsv GMSC.cluster.tsv.gz | metaP_90AA.tsv.gz | 
+| 02_merge.py | Calculate and filter peptide coverage rate of each smORF | *.tsv | coverage_analysis.tsv 100AA_metaP.tsv | 
+| 03_assign_all_level.py | Assign results to 90AA smORFs | coverage_analysis.tsv GMSC.cluster.tsv.gz | metaP_90AA.tsv.gz 100AA_metaP_all.tsv 90AA_metaP.tsv | 
 
 
 ### merge_quality_control
 
 | **Code** | **Description** | **Input** | **Output** |
 | :---: | :---: | :---: | :---: |
-| 01_merge.py | Merge all the quality control results | 100AA_rename.tsv.xz rnacode_true_100AA.tsv.xz rnacode_false_100AA.tsv.xz antifam_result.tsv coverage_analysis.tsv.gz riboseq_100AA.tsv.gz 100AA_coordinate.tsv.gz metaT_100AA.tsv.gz | allquality_100AA.tsv.gz allpass_100AA.txt | 
-| 02_statistic.py | Merge all the quality control results | 100AA_rename.tsv.xz rnacode_true_100AA.tsv.xz rnacode_false_100AA.tsv.xz antifam_result.tsv coverage_analysis.tsv.gz riboseq_100AA.tsv.gz 100AA_coordinate.tsv.gz metaT_100AA.tsv.gz | allquality_100AA.tsv.gz allpass_100AA.txt | 
+| 01_merge.py | Merge all the quality control results | GMSC.cluster.tsv.gz rnacode_true_100AA.tsv.xz rnacode_false_100AA.tsv.xz antifam_result.tsv coverage_analysis.tsv.gz riboseq_100AA.tsv.gz 100AA_coordinate.tsv.gz metaT_100AA.tsv.gz rnacode_true_90AA.tsv.xz rnacode_false_90AA.tsv.xz antifam_90AA.tsv metaP_90AA.tsv.gz riboseq_90AA.tsv.gz 90AA_coordinate.tsv.gz metaT_90AA.tsv.gz | GMSC10.100AA.quality.tsv.xz GMSC10.90AA.quality.tsv.xz allpass_100AA.txt allpass_90AA.txt | 
+| 02_statistic.py | Merge all the quality control results | GMSC.cluster.tsv.gz rnacode_true_100AA.tsv.xz rnacode_false_100AA.tsv.xz antifam_result.tsv coverage_analysis.tsv.gz riboseq_100AA.tsv.gz 100AA_coordinate.tsv.gz metaT_100AA.tsv.gz | allquality_100AA.tsv.gz allpass_100AA.txt | 
+| 03_merge_all.py | Merge all the values of quality control results | GMSC10.100AA.quality.tsv.xz 100AA_RNAcode.tsv 100AA_metaT.tsv 100AA_RiboSeq.tsv 100AA_metaP_all.tsv GMSC10.90AA.quality.tsv.xz 90AA_RNAcode.tsv 90AA_metaT.tsv 90AA_RiboSeq.tsv 90AA_metaP.tsv | GMSC10.100AA.quality.tsv.xz GMSC10.90AA.quality.tsv.xz allpass_100AA.txt allpass_90AA.txt GMSC10.100AA.quality_test.tsv GMSC10.90AA.quality_test.tsv | 
@@ -3,18 +3,29 @@
 If it pass all the computational checking(Antifam,RNAcode,coordinate),
 and has at least 1 experimental evidence(Metaproteomes,metatranstomes,riboseq),then it will be high quality.
 '''
+def store_100(infile):
+    import lzma
+    smorf_100 = {}
+    with lzma.open(infile,"rt") as f1:
+        for line in f1:
+            member,cluster = line.strip().split("\t")
+            smorf_100[member] = ["NA","T","F","F","NA","F"]
+    return smorf_100
+
+def store_90(infile):
+    import lzma
+    smorf_90 = {}
+    with lzma.open(infile,"rt") as f1:
+        for line in f1:
+            member,cluster = line.strip().split("\t")
+            smorf_90[cluster] = ["NA","T","F","F","NA","F"]
+    return smorf_90
 
-def merge(infile1,infile2,infile3,infile4,infile5,infile6,infile7,infile8,outfile):
+def merge(smorf,infile2,infile3,infile4,infile5,infile6,infile7,infile8,outfile):
     import lzma
     import gzip
 
     out = lzma.open(outfile, "wt")
-    smorf = {}
-
-    with lzma.open (infile1,"rt") as f1:
-        for line in f1:
-            linelist = line.strip().split("\t")
-            smorf[linelist[0]] = ["NA","T","F","F","NA","F"]
 
     with lzma.open(infile2,"rt") as f2:
         for line in f2:
@@ -78,19 +89,22 @@ def allpass(infile,outfile):
 OUTPUT_FILE_1 = "GMSC10.100AA.quality.tsv.xz"
 OUTPUT_FILE_2 = "allpass_100AA.txt"
 
-merge(INPUT_FILE_1,INPUT_FILE_2,INPUT_FILE_3,INPUT_FILE_4,INPUT_FILE_5,INPUT_FILE_6,INPUT_FILE_7,INPUT_FILE_8,OUTPUT_FILE_1)
+smorf_100 = store_100(INPUT_FILE_1)
+merge(smorf_100,INPUT_FILE_2,INPUT_FILE_3,INPUT_FILE_4,INPUT_FILE_5,INPUT_FILE_6,INPUT_FILE_7,INPUT_FILE_8,OUTPUT_FILE_1)
 allpass(OUTPUT_FILE_1,OUTPUT_FILE_2)
 
+#90AA
 INPUT_FILE_1 = "GMSC.cluster.tsv.gz"
 INPUT_FILE_2 = "rnacode_true_90AA.tsv"
 INPUT_FILE_3 = "rnacode_false_90AA.tsv"
-INPUT_FILE_4 = "antifam_90AA.tsv.gz"
+INPUT_FILE_4 = "antifam_90AA.tsv"
 INPUT_FILE_5 = "metaP_90AA.tsv.gz"
 INPUT_FILE_6 = "riboseq_90AA.tsv"
 INPUT_FILE_7 = "90AA_coordinate.tsv.gz"
 INPUT_FILE_8 = "metaT_90AA.tsv"
 OUTPUT_FILE_1 = "GMSC10.90AA.quality.tsv.xz"
 OUTPUT_FILE_2 = "allpass_90AA.txt"
 
-merge(INPUT_FILE_1,INPUT_FILE_2,INPUT_FILE_3,INPUT_FILE_4,INPUT_FILE_5,INPUT_FILE_6,INPUT_FILE_7,INPUT_FILE_8,OUTPUT_FILE_1)
+smorf_90 = store_90(INPUT_FILE_1)
+merge(smorf_90,INPUT_FILE_2,INPUT_FILE_3,INPUT_FILE_4,INPUT_FILE_5,INPUT_FILE_6,INPUT_FILE_7,INPUT_FILE_8,OUTPUT_FILE_1)
 allpass(OUTPUT_FILE_1,OUTPUT_FILE_2)
@@ -0,0 +1,64 @@
+def merge(number,n,infile1,infile2,infile3,infile4,infile5,outfile):
+    import lzma
+    
+    antifam = {}
+    terminal = {}
+    rnacode = {}
+    metat = {}
+    riboseq = {}
+    metap = {}
+
+    with lzma.open(infile1,'rt') as f:
+        for line in f:
+            if line.startswith('#'):
+                continue
+            else:
+                linelist = line.strip().split('\t')
+                antifam[linelist[0]] = linelist[2]
+                terminal[linelist[0]] = linelist[5]
+
+    with open(infile2,'rt') as f:
+        for line in f:
+            cluster,number = line.strip().split('\t')
+            rnacode[cluster] = number
+    
+    with open(infile3,'rt') as f:
+        for line in f:
+            cluster,number = line.strip().split('\t')
+            metat[cluster] = number
+
+    with open(infile4,'rt') as f:
+        for line in f:
+            cluster,number = line.strip().split('\t')
+            riboseq[cluster] = number
+
+    with open(infile5,'rt') as f:
+        for line in f:
+            cluster,number = line.strip().split('\t')
+            metap[cluster] = number
+
+    with open(outfile,'wt') as out:
+        out.write(f'AntiFam\tTerminal checking\tRNAcode\tmetaTranscriptome\tRiboseq\tmetaProteome\n')
+        for i in range(number):
+            nf = f'{i:09}'
+            name = f'GMSC10.{n}AA.{nf[:3]}_{nf[3:6]}_{nf[6:9]}'
+            out.write(f'{antifam[name]}\t{terminal[name]}\t{rnacode[name]}\t{metat[name]}\t{riboseq[name]}\t{metap[name]}\n')
+
+NUMBER_100 = 964970496
+NUMBER_90 = 287926875
+
+infile1 = 'GMSC10.100AA.quality.tsv.xz'
+infile2 = '100AA_RNAcode.tsv'
+infile3 = '100AA_metaT.tsv'
+infile4 = '100AA_RiboSeq.tsv'
+infile5 = '100AA_metaP_all.tsv'
+outfile = 'GMSC10.100AA.quality_test.tsv'
+merge(NUMBER_100,100,infile1,infile2,infile3,infile4,infile5,outfile)
+
+infile1 = 'GMSC10.90AA.quality.tsv.xz'
+infile2 = '90AA_RNAcode.tsv'
+infile3 = '90AA_metaT.tsv'
+infile4 = '90AA_RiboSeq.tsv'
+infile5 = '90AA_metaP.tsv'
+outfile = 'GMSC10.90AA.quality_test.tsv'
+merge(NUMBER_90,90,infile1,infile2,infile3,infile4,infile5,outfile)
@@ -74,11 +74,29 @@ def processfile_cov(infile):
         df = pd.DataFrame(out,columns=['Access','Coverage','QualityString'])
         return df.sort_values('Access')
 
+import re
+
+def processfile_cov_all(infile):
+    with open(infile, 'rt') as db:
+        out = []
+        for row in db:
+            smorf, seq, substr_lst = row.strip().split('\t')
+            for s in ['[',']',"'",' ']:
+                substr_lst = substr_lst.replace(s, '')
+            substr_lst = substr_lst.split(',')
+            if (smorf != 'query') and (seq != 'Sequence'):
+                cov, qualstr, _ = covcalc(seq, substr_lst)
+                out.append([smorf, cov])
+        df = pd.DataFrame(out,columns=['Access','Coverage'])
+        return df.sort_values('Access')
+
 if __name__ == '__main__':
     folder = "./map_result"
     ofile = "merged_output.tsv"
     mergeall(folder,ofile)
     # properly calculating the coverage per peptide
     df = processfile_cov(ofile)
     # saving final results
-    df.to_csv('coverage_analysis.tsv',sep='\t', header=True, index=None)
+    df.to_csv('coverage_analysis.tsv',sep='\t', header=True, index=None)
+    df = processfile_cov_all(ofile)
+    df.to_csv('100AA_metaP.tsv',sep='\t', header=True, index=None)
@@ -4,7 +4,6 @@
 '''
 
 def assign(infile1,infile2,outfile1,outfile2):
-    import lzma
     import gzip
 
     out1 = gzip.open(outfile1, "wt", compresslevel=1)
@@ -39,9 +38,54 @@ def assign(infile1,infile2,outfile1,outfile2):
                 out2.write(f'{linelist[0]}\n')
     out2.close()
 
+def full_100(infile1,outfile):
+    metaP = {}
+    with open(infile1,'rt') as f:
+        for line in f:
+            cluster,number = line.strip().split('\t')
+            metaP[cluster] = number
+
+    with open(outfile,'wt') as out:
+        for i in range(964970496):
+            nf = f'{i:09}'
+            name = f'GMSC10.100AA.{nf[:3]}_{nf[3:6]}_{nf[6:9]}'
+            if name in metaP.keys():
+                out.write(f'{name}\t{metaP[name]}\n')
+            else:
+                out.write(f'{name}\t0\n')
+
+def full_90(infile1,infile2,outfile):
+    import gzip
+
+    metaP = {}
+    with open(infile1,'rt') as f:
+        for line in f:
+            member,number = line.strip().split('\t')
+            metaP[member] = float(number)
+
+    cluster_dict = {}
+    with gzip.open(infile2,'rt') as f:
+        for line in f:
+            member,cluster = line.strip().split('\t')
+            if cluster not in cluster_dict.keys():
+                cluster_dict[cluster] = [metaP[member]]
+            else:
+                if metaP[member] != 0:
+                    cluster_dict[cluster].append(metaP[member])
+    with open(outfile,'wt') as out:
+        for key,value in sorted(cluster_dict.items()):
+            p = max(value)
+            out.write(f'{key}\t{p}\n')
+
 INPUT_FILE_1 = "coverage_analysis.tsv.gz"
 INPUT_FILE_2 = "GMSC.cluster.tsv.gz"
 OUTPUT_FILE_1 = "90AA_F_T_rate.tsv.gz"
 OUTPUT_FILE_2 = "metaP_90AA.tsv.gz"
+assign(INPUT_FILE_1,INPUT_FILE_2,OUTPUT_FILE_1,OUTPUT_FILE_2)
+
+INPUT_FILE_3 = '100AA_metaP.tsv'
+OUTPUT_FILE_3 = '100AA_metaP_all.tsv'
+full_100(INPUT_FILE_3,OUTPUT_FILE_3)
 
-assign(INPUT_FILE_1,INPUT_FILE_2,OUTPUT_FILE_1,OUTPUT_FILE_2)
+OUTPUT_FILE_4 = '90AA_metaP.tsv'
+full_90(OUTPUT_FILE_3,INPUT_FILE_2,OUTPUT_FILE_4)