ANÁLISE DE CO-EXPRESSÃO DIFERENCIAL: UM ESTUDO DE BENCHMARKING COMPUTACIONAL
Co-expressão diferencial, benchmarking, rede, ferramenta, abordagens
As análises de dados biológicos em nível sistemático permitem novas formas de observar as
relações entre elementos biológicos, modelando-os em redes. Dentre as interações biológicas
estudadas em nível sistêmico, destacam-se as interações de expressão simultânea, como a
análise de co-expressão diferencial (CD). Embora a estratégia forneça insights valiosos para
uma melhor compreensão de mecanismos biológicos, a análise de CD é subutilizada devido à
falta de uma ferramenta padrão ouro e à baixa quantidade de estudos comparativos entre suas
abordagens computacionais. Portanto, o presente trabalho visa implementar um benchmarking
computacional de ferramentas CD para auxiliar na escolha e identificações de aplicações
recomendadas dessas abordagens. As ferramentas identificadas foram filtradas de acordo com
sua disponibilidade, linguagem de programação e finalidade principal de desenvolvimento.
Nossa primeira análise catalogou e comparou nove ferramentas CD: iDINGO, DGCA, discor-
dant, csdR, dcanr, diffcoexp e DCoNA, com base em seus tempos de execução e métricas de
centralidade e agrupamento em cinco conjuntos de dados de expressão simulados. Além disso,
matrizes de expressão pré-processados de amostras de controles saudáveis e de pacientes com
doença de Alzheimer (código de acesso GEO: GSE125583) foram utilizados para realizar
análises de similaridade entre dados da literatura e as redes CD investigadas. Uma análise
final submeteu os dados de expressão pré-processados a 150 ciclos de análises CD. Cada ciclo
amostrou 250 genes e 30 amostras de cada grupo, que foram reatribuídos com uma proporção
de 50-50. Interações gene-gene identificadas foram consideradas falso-positivas e métricas de
rede foram extraídas para cada ferramenta. As análises foram realizadas em um nó com duas
CPUs AMD EPYC 7713 de 2,0 GHz (128 núcleos cada), 512 GB de RAM DDR4 RDIMM,
SSD local de 240 GB e Rocky Linux 8.5 (Green Obsidian) OS. Nossos resultados mostraram
que o diffcoexp apresentou uma abordagem robusta, porém rápida e de alta precisão para
a maioria das aplicações de análises CD. Apesar das redes do iDINGO apresentarem uma
maior semelhança com redes sem escala, a alta complexidade e tempo de execução de sua
metodologia tornam a ferramenta viável apenas para pequenos conjuntos de dados.