ABORDAGEM COMPUTACIONAL PARA PREVENIR GAPS EM MONTAGEM DE GENOMAS OCASIONADOS POR VIÉS GC
Correlação. Viés GC. Mediana. Cobertura.
O surgimento de plataformas de sequenciamento de nova geração (NGS) aumentou a quantidade de dados gerados tornando possível a obtenção de genomas completos. Apesar das vantagens e do alto rendimento produzido por estas plataformas, algumas regiões apresenta baixa cobertura, o que pode estar relacionada ao conteúdo de GC. Este viés de conteúdo GC pode afetar as análises genômicas e transcriptômicas baseadas em abordagem de novo ou por referência. Além disso, as formas de avaliar o viés GC devem ser ajustadas a dados com diferentes perfis de correlação entre GC e cobertura, tais como linear e quadráticos. Após a utilização de outras métricas de correlação para mensurar o viés, com base na associação entre o conteúdo GC e cobertura, e compará-las com a declividade da reta de regressão (grau de viés GC), observou-se que medir o grau de declividade e medir a associação entre o conteúdo de GC e a cobertura normalizada por métricas de correlação não tem a mesma equivalência. Assim, propomos uma nova métrica chamada "Mediana - IQR" (diferença entre mediana e intervalo interquartil - IQR) que é capaz de medir diferentes tendências do viés GC e assim tentar prevenir seus efeitos como o surgimento de gaps no processo montagem de novo de genomas.