"Avaliação do viés GC em plataformas de sequenciamento de nova geração".
Viés GC, Pearson, Quadrático, Correlação
O surgimento das plataformas de sequenciamento de nova geração(NGS) proporcionou o aumento do volume de dados produzidos, tornando possível a obtenção de genomas completos. Apesar das vantagens alcançadas com estas plataformas, são observadas regiões de elevada ou baixa cobertura relacionadas diretamente ao conteúdo GC. Este viés GC pode afetar análises genômicas e dificulta a montagem de genomas através da abordagem de novo, além de afetar as análises baseadas em referência. Além do que, as maneiras de avaliar o viés GC deve ser adequada para dados com diferentes perfis de relação/associação entre GC e cobertura, tais como linear e quadrático.
Desta forma, este trabalho propõe o uso do Coeficiente de Correlação de Pearson (r) para analisar a correlação entre conteúdo GC e Cobertura, permitindo identificar a intensidade da correlação linear e detectar associações não-lineares, além de identificar a relação entre viés GC e as plataformas de sequenciamento. Os sinais positivos e negativos de r também permitem inferir relações diretamente proporcionais e inversamente proporcionais respectivamente. Utilizou-se dados da espécie Corynebacterium pseudotuberculosis, conhecido por serem genomas clonais obtidas através de diferentes tecnologias de sequenciamento para identificar se há relação do viés GC com as plataformas utilizadas.