Aprimorando montagens metagenômicas através do particionamento de dados de sequenciamento pelo conteúdo GC
Particionamento de dados, Ferramentas de bioinformática, Pré-processamento de dados metagenômicos
A montagem de dados metagenômicos sequenciados por plataformas NGS acarreta em grandes desafios computacionais, especialmente devido ao grande volume de dados, erros de sequenciamento e variações de tamanho, complexidade, diversidade e abundância dos organismos presentes em um determinado metagenoma. Para superar esses problemas, este trabalho propõe o desenvolvimento de uma ferramenta de bioinformática de código aberto chamada GCSplit, que divide as sequências metagenômicas em subconjuntos usando uma métrica pouco dispendiosa computacionalmente: o conteúdo GC. Experimentos realizados em dados reais mostram que o pré-processamento de leituras curtas com o GCSplit antes da montagem reduz o consumo de memória e gera resultados de maior qualidade, como aumento no tamanho do maior contig e na métrica N50, enquanto tanto o valor L50 quanto o número total de contigs produzidos na montagem foram reduzidos. O GCSplit está disponível através do endereço https://github.com/mirand863/gcsplit.