-
Notifications
You must be signed in to change notification settings - Fork 26
Virus Bioinformatics
Recentemente saiu um artigo muito interessante sobre as aplicações e pipelines de virus na bioinformática, e ele pode ser acessado AQUI.
Ele mostra muito como a Bioinformática direcionou as descobertas virais. E ainda replica em alguns campos, como a metagenômica.
A virosfera pode conter a maior diversidade conhecida pela humanidade. Estima-se que existam 1.031 vírus na Terra e, por bilhões de anos, sua proliferação e mutação em curso contribuíram para uma diversidade genômica incomparável em todo o mundo. As taxas de mutação viral variam de 10^-8 a 10^-6 substituições por nucleotídeo por infecção celular para vírus de DNA e de 10^–6 a 10^–4 substituições por nucleotídeo por infecção celular para vírus de RNA. A única maneira de analisar com eficiência essa biodiversidade é aplicando ferramentas computacionais poderosas para (1) identificar sequências virais e seus elementos funcionais codificados, (2) prever, anotar e comparar suas funções e (3) estruturar os dados para passar da medição para a compreensão. Até recentemente, nossa compreensão total dos vírus baseava-se em algumas centenas de vírus que eram isolados e podiam ser estudados em detalhes. Com os recentes desenvolvimentos em bioinformática, milhares de novos vírus podem ser facilmente descobertos em todos os biomas naturais e associados ao hospedeiro (como a Metagenômica viral). Incluir esses vírus que ocorrem naturalmente em análises comparativas abre possibilidades para previsões computacionais de novo, incluindo sobre a estrutura e função dos genes virais.
Neste artigo ele elabora discussões bem legais sobre:
-
- Technology and Bioinformatics Drive Discoveries
-
- Tools for Diagnostics
-
- Genome Sequencing
-
- RNA Secondary Structures in Viruses
-
- Viral Metagenomics
-
- Evolution and Phylogenetics
-
- Virus-Host Interactions
-
- Machine Learning as an Opportunity
-
- Host Transcriptomics
Logo em breve farei postagens sobre Host Transcriptomics e como montar uma rede de interação vírus-hospedeiro.
Mas eu gostaria de destacar a seção Tools for Diagnostics e discutir um pouco sobre as ferramentas apresentadas. Bora lá.
Vamos dar ênfase nas ferramentas apresentadas na seção do artigo em questão 'Virus Bioinformatics'.
| Processing | Tools | Description |
|---|---|---|
| Quality check | FastQC, PRINSEQ, mulitQC | Checks read sequencing quality |
| Poretools, nanoOK | Quality checks for nanopore long reads | |
| Raw reads pre-processing | Cutadapt, Trimmomatic, BBduk | Quality trimming, artefacts removal on short reads |
| Nanocorrect, PoreSeq | Non-hybrid error correction for nanopore long reads | |
| Nanocorr, NaS | Hybrid error correction for nanopore long reads |
Nesta seção as ferramentas estão todas cobertas, e já realizamos posts aqui sobre várias delas, como Trimommatic, MultiQC e FastQC.
| Processing | Tools | Description |
|---|---|---|
| Single genomes | VICUNA | Produces population consensus genome assembly |
| IVA | Assembler designed for RNA viruses | |
| SPAdes | Generic genome assembler | |
| Canu, Miniasm | Non-hybrid assemblers for nanopore long reads | |
| Unicycler | Hybrid assembly pipeline for nanopore long reads with the use of short reads | |
| Metagenomes | MEGAHIT, metaSPAdes, Ray-meta, IBDA-UD | Assemblers optimized for metagenomics data |
| crAss | Cross-assembly analysis of multiple metagenomes |
Também já falamos sobre as diferenças nas montagens de read curto e longo, além de várias ferramentas sobre montagem por aqui. Você pode acessar o pipeline de montagem do Canu e do Spades. A parte de metagenomas, eu gosto do IDBA-UD e metaSPAdes.
| Processing | Tools | Description |
|---|---|---|
| Read mapping | BWA, Bowtie, BBmap | Align short read sequences to a reference |
| STAR | Splice-aware aligner for RNA-seq data | |
| GraphMap, LAST | Align long read sequences to a reference |
Já falamos sobre mapeamento de reads AQUI e incluimos exemplos do BBWA e BOWTIE2, que deveria ter sido citado. Além dele, o Hisat2 também é uma boa escolha, e pode ser acessado AQUI.
| Processing | Tools | Description |
|---|---|---|
| ORF Finder | Searches for open reading frames in the provided sequence | |
| Prodigal | A protein-coding gene prediction software tool | |
| VIGOR | Annotation program for small viral genomes |
Faltou citar o Transdecoder, que também já falamos e pode ser acessado AQUI. Além disso, para estratégias de montagens de novo ou de reconstrução de transcriptomas, o pipeline de identificação de genes codantes e não codantes podem ser utilizados, como o RNASamba, e pode ser acessado AQUI.
| Processing | Tools | Description |
|---|---|---|
| BLAST | A suite of tools to find regions of similarity between DNA and protein sequences | |
| HHpred | Sensitive protein homology detection, function, and structure prediction | |
| HMMER | Homology based search |
| Processing | Tools | Description |
|---|---|---|
| MAFFT, ClustalW | Multiple sequence alignment for DNA and protein sequences | |
| MUSCLE | Multiple sequence alignment for protein sequences |
As ideias do MAFFT podem ser acessadas no nosso post AQUI.
| Processing | Tools | Description |
|---|---|---|
| CAT, Kraken, Centrifuge, Kaiju | Assign taxonomic labels to reads or assembled contigs |
Venha saber mais sobre o Kaiju AQUI.
| Processing | Tools | Description |
|---|---|---|
| RaxML, PhyML | Inference of large phylogenetic trees | |
| BEAST | A software package for phylogenetic analysis with an emphasis on time-scaled trees |
Ainda não falamos sobre modelos de filogenia, mas logo vem.
| Processing | Tools | Description |
|---|---|---|
| GRAViTy | Classification of eukaryotic viruses | |
| vConTACT | Classification of double stranded DNA viruses of bacteria and archaea | |
| VICTOR | Genome based phylogeny and classification of prokaryotic viruses | |
| DEmARC | Classification of viruses based on genetic divergence |
| Processing | Tools | Description |
|---|---|---|
| mfold/UNAFold | RNA secondary structure prediction | |
| ViennaRNA package | Suite of tools to perform RNA structures prediction and comparison | |
| LocARNA | Structure-guided multiple sequence alignment of RNA sequences |
| Processing | Tools | Description |
|---|---|---|
| DESeq2, Sleuth | Statistical analysis of RNA-seq data |
Já realizei a postagem de vários assuntos relacionados a Transcriptomica, tais como GSEA, download do SRA, DESeq2, PCA com dados de RNA-Seq, Análise com genoma de referência, Quantificação de dados de RNA-Seq,Sleuth e Anotação em montagens de novo de transcriptomas.
| Processing | Tools | Description |
|---|---|---|
| ViralZone | Link specific knowledge for each virus family with viral protein and genomic sequences | |
| Virus Variation Resource | A community portal for viral sequence data | |
| Virus Pathogen Database and Analysis Resource (ViPR) | An integrated repository of data and analysis tools for multiple virus families |
Todos estes bancos são legais, e já realizei pesquisas com dados de Covid-19