ENH add --quiet for alignment tools

cocodyq · cocodyq · commit d9ba509a9bd6 · 2022-11-05T16:27:00.000+08:00
diff --git a/gmsc_mapper/main.py b/gmsc_mapper/main.py
@@ -34,6 +34,7 @@ def parse_args(args):
                                help='Alignment tool (Diamond / MMseqs2)',
                                dest='mode',
                                default = None)
+    cmd_create_db.add_argument('--quiet','--quiet',action='store_true', help='Disable alignment console output')
 
     parser.add_argument('-i', '--input',
                         required=False,
@@ -102,6 +103,8 @@ def parse_args(args):
     parser.add_argument('--notaxonomy', '--notaxonomy',action='store_true', help='Use this if no need to annotate taxonomy')
 
     parser.add_argument('--noquality', '--noquality',action='store_true', help='Use this if no need to annotate quality')
+    
+    parser.add_argument('--quiet','--quiet',action='store_true', help='Disable alignment console output')
 
     parser.add_argument('--db', '--db',
                         required=False,
@@ -193,24 +196,36 @@ def expect_file(f):
     if not args.noquality and args.quality:
         expect_file(args.quality)
 
-def create_db(arguments):
-    if not os.path.exists(arguments.output):
-        os.makedirs(arguments.output)
-    out_db = path.join(arguments.output,"targetdb")
-
-    if arguments.mode == "diamond":
+def create_db(args):
+    if not os.path.exists(args.output):
+        os.makedirs(args.output)
+    out_db = path.join(args.output,"targetdb")
+
+    if args.quiet:
+        diamond_cmd = ['diamond','makedb',
+                        '--in',args.target_faa,
+                        '-d',out_db,
+                        '--quiet']
+        mmseqs_cmd = ['mmseqs','createdb',
+                        args.target_faa,
+                        out_db,
+                        '-v','0']    
+    else:                    
+        diamond_cmd = ['diamond','makedb',
+                    '--in',args.target_faa,
+                    '-d',out_db]
+        mmseqs_cmd = ['mmseqs','createdb',
+                    args.target_faa,
+                    out_db]
+    
+    if args.mode == "diamond":
         print('Start creating Diamond database...')
-        subprocess.check_call([
-            'diamond','makedb',
-            '--in',arguments.target_faa,
-            '-d',out_db]) 
+        subprocess.check_call(diamond_cmd) 
         print('\nDiamond database has been created successfully.\n')
-    if arguments.mode == "mmseqs":
+
+    if args.mode == "mmseqs":
         print('Start creating MMseqs database...')
-        subprocess.check_call([
-            'mmseqs','createdb',
-            arguments.target_faa,
-            out_db]) 
+        subprocess.check_call(mmseqs_cmd) 
         print('\nMMseqs database has been created successfully.\n')
 
 def flatten(items, ignore_types=(str, bytes)):
@@ -278,18 +293,33 @@ def mapdb_diamond(args,queryfile):
     resultfile = path.join(args.output,"alignment.out.smorfs.tsv")
     outfmt = '6,qseqid,sseqid,full_qseq,full_sseq,qlen,slen,length,qstart,qend,sstart,send,bitscore,pident,evalue,qcovhsp,scovhsp'
     
-    subprocess.check_call([x for x in flatten([
-        'diamond','blastp',
-        '-q',queryfile,
-        '-d',args.database,
-        '-o',resultfile,
-        args.sensitivity,
-        '-e',str(args.evalue),
-        '--id',str(float(args.identity)*100),
-        '--query-cover',str(float(args.coverage)*100),
-        '--subject-cover',str(float(args.coverage)*100),
-        '-p',str(args.threads),
-        '--outfmt',outfmt.split(',')])])  
+    if args.quiet:
+        diamond_cmd = ['diamond','blastp',
+                        '-q',queryfile,
+                        '-d',args.database,
+                        '-o',resultfile,
+                        args.sensitivity,
+                        '-e',str(args.evalue),
+                        '--id',str(float(args.identity)*100),
+                        '--query-cover',str(float(args.coverage)*100),
+                        '--subject-cover',str(float(args.coverage)*100),
+                        '-p',str(args.threads),
+                        '--outfmt',outfmt.split(','),
+                        '--quiet']
+    else:
+        diamond_cmd = ['diamond','blastp',
+                        '-q',queryfile,
+                        '-d',args.database,
+                        '-o',resultfile,
+                        args.sensitivity,
+                        '-e',str(args.evalue),
+                        '--id',str(float(args.identity)*100),
+                        '--query-cover',str(float(args.coverage)*100),
+                        '--subject-cover',str(float(args.coverage)*100),
+                        '-p',str(args.threads),
+                        '--outfmt',outfmt.split(',')]
+
+    subprocess.check_call([x for x in flatten(diamond_cmd)])  
 
     print('\nsmORF mapping has done.\n')
     return resultfile
@@ -302,29 +332,51 @@ def mapdb_mmseqs(args,queryfile,tmpdir):
     tmp = path.join(tmpdir,"tmp","")
     resultfile = path.join(args.output,"alignment.out.smorfs.tsv")
     outfmt = 'query,target,qseq,tseq,qlen,tlen,alnlen,qstart,qend,tstart,tend,bits,pident,evalue,qcov,tcov'
-
-    subprocess.check_call([
-        'mmseqs','createdb',queryfile,querydb]) 
-
-    subprocess.check_call([
-        'mmseqs','search',
-        querydb,
-        args.database,
-        resultdb,
-        tmp,
-        '-s',str(args.sensitivity),
-        '-e',str(args.evalue),
-        '--min-seq-id',str(args.identity),
-        '-c',str(args.coverage),
-        '--threads',str(args.threads)])  
-
-    subprocess.check_call([
-        'mmseqs','convertalis',
-        querydb,
-        args.database,
-        resultdb,
-        resultfile,
-        '--format-output',outfmt])		
+    
+    if args.quiet:
+        mmseqs_cmd_db = ['mmseqs','createdb',queryfile,querydb,'-v','0']
+        mmseqs_cmd_search = ['mmseqs','search',
+                            querydb,
+                            args.database,
+                            resultdb,
+                            tmp,
+                            '-s',str(args.sensitivity),
+                            '-e',str(args.evalue),
+                            '--min-seq-id',str(args.identity),
+                            '-c',str(args.coverage),
+                            '--threads',str(args.threads),
+                            '-v','0']
+        mmseqs_cmd_out = ['mmseqs','convertalis',
+                        querydb,
+                        args.database,
+                        resultdb,
+                        resultfile,
+                        '--format-output',outfmt,
+                        '-v','0']
+    else:
+        mmseqs_cmd_db = ['mmseqs','createdb',queryfile,querydb]
+        mmseqs_cmd_search = ['mmseqs','search',
+                            querydb,
+                            args.database,
+                            resultdb,
+                            tmp,
+                            '-s',str(args.sensitivity),
+                            '-e',str(args.evalue),
+                            '--min-seq-id',str(args.identity),
+                            '-c',str(args.coverage),
+                            '--threads',str(args.threads)]
+        mmseqs_cmd_out = ['mmseqs','convertalis',
+                        querydb,
+                        args.database,
+                        resultdb,
+                        resultfile,
+                        '--format-output',outfmt]
+
+    subprocess.check_call(mmseqs_cmd_db) 
+
+    subprocess.check_call(mmseqs_cmd_search)  
+
+    subprocess.check_call(mmseqs_cmd_out)		
 
     print('\nsmORF mapping has done.\n')
     return resultfile
diff --git a/tests.sh b/tests.sh
@@ -4,17 +4,17 @@ echo "# GMSC-Mapper
 AUTHORS: Yiqian Duan, Celio Dias Santos Junior, Luis Pedro Coelho"
 
 echo "Creating mocking databases"
-gmsc-mapper createdb -i examples/target.faa -o examples/ -m diamond
-gmsc-mapper createdb -i examples/target.faa -o examples/ -m mmseqs
+gmsc-mapper createdb -i examples/target.faa -o examples/ -m diamond --quiet
+gmsc-mapper createdb -i examples/target.faa -o examples/ -m mmseqs --quiet
 
 echo "Testing basic usage"
-gmsc-mapper -i ./examples/example.fa -o ./examples_output/ --db ./examples/targetdb.dmnd --habitat ./examples/ref_habitat.txt --quality ./examples/ref_quality.txt --taxonomy ./examples/ref_taxonomy.txt
+gmsc-mapper -i ./examples/example.fa -o ./examples_output/ --db ./examples/targetdb.dmnd --habitat ./examples/ref_habitat.txt --quality ./examples/ref_quality.txt --taxonomy ./examples/ref_taxonomy.txt --quiet
 python tests/diamond_contig.py
-gmsc-mapper --aa-genes examples/example.faa -o examples_output/ --db examples/targetdb.dmnd --habitat examples/ref_habitat.txt --quality examples/ref_quality.txt --taxonomy examples/ref_taxonomy.txt
+gmsc-mapper --aa-genes examples/example.faa -o examples_output/ --db examples/targetdb.dmnd --habitat examples/ref_habitat.txt --quality examples/ref_quality.txt --taxonomy examples/ref_taxonomy.txt --quiet
 python tests/diamond_protein.py
-gmsc-mapper --nt-genes examples/example.fna -o examples_output/ --db examples/targetdb.dmnd --habitat examples/ref_habitat.txt --quality examples/ref_quality.txt --taxonomy examples/ref_taxonomy.txt
+gmsc-mapper --nt-genes examples/example.fna -o examples_output/ --db examples/targetdb.dmnd --habitat examples/ref_habitat.txt --quality examples/ref_quality.txt --taxonomy examples/ref_taxonomy.txt --quiet
 python tests/diamond_gene.py
 
 echo "Testing tool flag - MMSeqs"
-gmsc-mapper -i examples/example.fa -o examples_output/ --db examples/targetdb --habitat examples/ref_habitat.txt --quality examples/ref_quality.txt --taxonomy examples/ref_taxonomy.txt --tool mmseqs
+gmsc-mapper -i examples/example.fa -o examples_output/ --db examples/targetdb --habitat examples/ref_habitat.txt --quality examples/ref_quality.txt --taxonomy examples/ref_taxonomy.txt --tool mmseqs --quiet
 python tests/mmseqs_contig.py
diff --git a/tests/diamond_contig.py b/tests/diamond_contig.py
@@ -3,34 +3,34 @@ def diamond_contig_test():
 
     alignment_flag = filecmp.cmp("./tests/diamond_contig/alignment.out.smorfs.tsv", "./examples_output/alignment.out.smorfs.tsv")
     if not alignment_flag:
-        print('Contig input of Diamond mode alignment results have something wrong.')
+        print('\nContig input of Diamond mode alignment results have something wrong.\n')
 
     predict_flag = filecmp.cmp("./tests/diamond_contig/predicted.filterd.smorf.faa", "./examples_output/predicted.filterd.smorf.faa")
     if not predict_flag:
-        print('Contig input of Diamond mode predicted fasta results have something wrong.')
+        print('\nContig input of Diamond mode predicted fasta results have something wrong.\n')
 
     fasta_flag = filecmp.cmp("./tests/diamond_contig/mapped.smorfs.faa", "./examples_output/mapped.smorfs.faa")
     if not fasta_flag:
-        print('Contig input of Diamond mode mapped fasta results have something wrong.')
+        print('\nContig input of Diamond mode mapped fasta results have something wrong.\n')
 
     habitat_flag = filecmp.cmp("./tests/diamond_contig/habitat.out.smorfs.tsv", "./examples_output/habitat.out.smorfs.tsv")
     if not habitat_flag:
-        print('Contig input of Diamond mode habitat results have something wrong.')
+        print('\nContig input of Diamond mode habitat results have something wrong.\n')
 
     taxonomy_flag = filecmp.cmp("./tests/diamond_contig/taxonomy.out.smorfs.tsv", "./examples_output/taxonomy.out.smorfs.tsv")
     if not taxonomy_flag:
-        print('Contig input of Diamond mode taxonomy results have something wrong.')
+        print('\nContig input of Diamond mode taxonomy results have something wrong.\n')
 
     quality_flag = filecmp.cmp("./tests/diamond_contig/quality.out.smorfs.tsv", "./examples_output/quality.out.smorfs.tsv")
     if not quality_flag:
-        print('Contig input of Diamond mode quality results have something wrong.')
+        print('\nContig input of Diamond mode quality results have something wrong.\n')
 
     summary_flag = filecmp.cmp("./tests/diamond_contig/summary.txt", "./examples_output/summary.txt")
     if not summary_flag:
-        print('Contig input of Diamond mode summary results have something wrong.')
+        print('\nContig input of Diamond mode summary results have something wrong.\n')
 
     if alignment_flag and predict_flag and fasta_flag and habitat_flag and taxonomy_flag and quality_flag and summary_flag:
-        print('Contig input of Diamond mode checking has passed')
+        print('\nContig input of Diamond mode checking has passed.\n')
 
     return(alignment_flag,predict_flag,fasta_flag,habitat_flag,taxonomy_flag,quality_flag,summary_flag)
 
diff --git a/tests/diamond_gene.py b/tests/diamond_gene.py
@@ -3,30 +3,30 @@ def diamond_gene_test():
 
     alignment_flag = filecmp.cmp("./tests/diamond_gene/alignment.out.smorfs.tsv", "./examples_output/alignment.out.smorfs.tsv")
     if not alignment_flag:
-        print('Gene input of Diamond mode alignment results have something wrong.')
+        print('\nGene input of Diamond mode alignment results have something wrong.\n')
 
     fasta_flag = filecmp.cmp("./tests/diamond_gene/mapped.smorfs.faa", "./examples_output/mapped.smorfs.faa")
     if not fasta_flag:
-        print('Gene input of Diamond mode mapped fasta results have something wrong.')
+        print('\nGene input of Diamond mode mapped fasta results have something wrong.\n')
 
     habitat_flag = filecmp.cmp("./tests/diamond_gene/habitat.out.smorfs.tsv", "./examples_output/habitat.out.smorfs.tsv")
     if not habitat_flag:
-        print('Gene input of Diamond mode habitat results have something wrong.')
+        print('\nGene input of Diamond mode habitat results have something wrong.\n')
 
     taxonomy_flag = filecmp.cmp("./tests/diamond_gene/taxonomy.out.smorfs.tsv", "./examples_output/taxonomy.out.smorfs.tsv")
     if not taxonomy_flag:
-        print('Gene input of Diamond mode taxonomy results have something wrong.')
+        print('\nGene input of Diamond mode taxonomy results have something wrong.\n')
 
     quality_flag = filecmp.cmp("./tests/diamond_gene/quality.out.smorfs.tsv", "./examples_output/quality.out.smorfs.tsv")
     if not quality_flag:
-        print('Gene input of Diamond mode quality results have something wrong.')
+        print('\nGene input of Diamond mode quality results have something wrong.\n')
 
     summary_flag = filecmp.cmp("./tests/diamond_gene/summary.txt", "./examples_output/summary.txt")
     if not summary_flag:
-        print('Gene input of Diamond mode summary results have something wrong.')
+        print('\nGene input of Diamond mode summary results have something wrong.\n')
 
     if alignment_flag and fasta_flag and habitat_flag and taxonomy_flag and quality_flag and summary_flag:
-        print('Gene input of Diamond mode checking has passed')
+        print('\nGene input of Diamond mode checking has passed.\n')
 
     return(alignment_flag,fasta_flag,habitat_flag,taxonomy_flag,quality_flag,summary_flag)
 
diff --git a/tests/diamond_protein.py b/tests/diamond_protein.py
@@ -3,30 +3,30 @@ def diamond_protein_test():
 
     alignment_flag = filecmp.cmp("./tests/diamond_protein/alignment.out.smorfs.tsv", "./examples_output/alignment.out.smorfs.tsv")
     if not alignment_flag:
-        print('Protein input of Diamond mode alignment results have something wrong.')
+        print('\nProtein input of Diamond mode alignment results have something wrong.\n')
 
     fasta_flag = filecmp.cmp("./tests/diamond_protein/mapped.smorfs.faa", "./examples_output/mapped.smorfs.faa")
     if not fasta_flag:
-        print('Protein input of Diamond mode mapped fasta results have something wrong.')
+        print('\nProtein input of Diamond mode mapped fasta results have something wrong.\n')
 
     habitat_flag = filecmp.cmp("./tests/diamond_protein/habitat.out.smorfs.tsv", "./examples_output/habitat.out.smorfs.tsv")
     if not habitat_flag:
-        print('Protein input of Diamond mode habitat results have something wrong.')
+        print('\nProtein input of Diamond mode habitat results have something wrong.\n')
 
     taxonomy_flag = filecmp.cmp("./tests/diamond_protein/taxonomy.out.smorfs.tsv", "./examples_output/taxonomy.out.smorfs.tsv")
     if not taxonomy_flag:
-        print('Protein input of Diamond mode taxonomy results have something wrong.')
+        print('\nProtein input of Diamond mode taxonomy results have something wrong.\n')
 
     quality_flag = filecmp.cmp("./tests/diamond_protein/quality.out.smorfs.tsv", "./examples_output/quality.out.smorfs.tsv")
     if not quality_flag:
-        print('Protein input of Diamond mode quality results have something wrong.')
+        print('\nProtein input of Diamond mode quality results have something wrong.\n')
 
     summary_flag = filecmp.cmp("./tests/diamond_protein/summary.txt", "./examples_output/summary.txt")
     if not summary_flag:
-        print('Protein input of Diamond mode summary results have something wrong.')
+        print('\nProtein input of Diamond mode summary results have something wrong.\n')
 
     if alignment_flag and fasta_flag and habitat_flag and taxonomy_flag and quality_flag and summary_flag:
-        print('Protein input of Diamond mode checking has passed')
+        print('\nProtein input of Diamond mode checking has passed.\n')
 
     return(alignment_flag,fasta_flag,habitat_flag,taxonomy_flag,quality_flag,summary_flag)
 
diff --git a/tests/mmseqs_contig.py b/tests/mmseqs_contig.py
@@ -3,30 +3,30 @@ def mmseqs_contig_test():
 
     predict_flag = filecmp.cmp("./tests/mmseqs_contig/predicted.filterd.smorf.faa", "./examples_output/predicted.filterd.smorf.faa")
     if not predict_flag:
-        print('Contig input of MMseqs2 mode predicted fasta results have something wrong.')
+        print('\nContig input of MMseqs2 mode predicted fasta results have something wrong.\n')
 
     fasta_flag = filecmp.cmp("./tests/mmseqs_contig/mapped.smorfs.faa", "./examples_output/mapped.smorfs.faa")
     if not fasta_flag:
-        print('Contig input of MMseqs2 mode mapped fasta results have something wrong.')
+        print('\nContig input of MMseqs2 mode mapped fasta results have something wrong.\n')
 
     habitat_flag = filecmp.cmp("./tests/mmseqs_contig/habitat.out.smorfs.tsv", "./examples_output/habitat.out.smorfs.tsv")
     if not habitat_flag:
-        print('Contig input of MMseqs2 mode habitat results have something wrong.')
+        print('\nContig input of MMseqs2 mode habitat results have something wrong.\n')
 
     taxonomy_flag = filecmp.cmp("./tests/mmseqs_contig/taxonomy.out.smorfs.tsv", "./examples_output/taxonomy.out.smorfs.tsv")
     if not taxonomy_flag:
-        print('Contig input of MMseqs2 mode taxonomy results have something wrong.')
+        print('\nContig input of MMseqs2 mode taxonomy results have something wrong.\n')
 
     quality_flag = filecmp.cmp("./tests/mmseqs_contig/quality.out.smorfs.tsv", "./examples_output/quality.out.smorfs.tsv")
     if not quality_flag:
-        print('Contig input of MMseqs2 mode quality results have something wrong.')
+        print('\nContig input of MMseqs2 mode quality results have something wrong.\n')
 
     summary_flag = filecmp.cmp("./tests/mmseqs_contig/summary.txt", "./examples_output/summary.txt")
     if not summary_flag:
-        print('Contig input of MMseqs2 mode summary results have something wrong.')
+        print('\nContig input of MMseqs2 mode summary results have something wrong.\n')
 
     if predict_flag and fasta_flag and habitat_flag and taxonomy_flag and quality_flag and summary_flag:
-        print('Contig input of MMseqs2 mode checking has passed')
+        print('\nContig input of MMseqs2 mode checking has passed.\n')
 
     return(predict_flag,fasta_flag,habitat_flag,taxonomy_flag,quality_flag,summary_flag)