DESENVOLVIMENTO DE UM WORKFLOW AUTOMATIZADO PARA ANÁLISE DE EXPRESSÃO DIFERENCIAL DE CIRCRNAS EM DADOS DE RNA-SEQ
Sequenciamento; NGS; Workflow; circRNA; Expressão diferencial; RNA-seq
Os workflows científicos têm se tornado ferramentas essenciais na pesquisa genômica moderna, especialmente à medida que o volume de dados gerados pelas tecnologias de sequenciamento de nova geração (NGS) continua a crescer exponencialmente. Esses workflows permitem a automação e sistematização de análises complexas, garantindo reprodutibilidade, escalabilidade e portabilidade entre diferentes ambientes de computação. Ao integrar diferentes ferramentas e metodologias em um fluxo de trabalho coeso, os workflows não apenas simplificam o processo analítico, mas também minimizam erros e reduzem o tempo de processamento, aspectos cruciais para a bioinformática. Dentro desse contexto, os circRNAs, um tipo específico de RNA não codificante, têm ganhado destaque por suas características únicas, como estabilidade, resistência à degradação e expressão específica em tecidos e estágios de desenvolvimento. Esses RNAs têm mostrado influenciar significativamente diversas patologias, incluindo cânceres, tornando-os alvos promissores na busca por novos biomarcadores para diagnóstico e prognóstico. A análise de expressão diferencial de circRNAs é particularmente importante, pois permite identificar variações na expressão dessas moléculas entre diferentes condições biológicas, como entre tecidos saudáveis e tumorais. Essa análise oferece insights valiosos sobre o papel dos circRNAs na regulação gênica e na progressão de doenças, contribuindo para o desenvolvimento de novas abordagens terapêuticas. Neste projeto, foi desenvolvido um workflow específico para a análise de expressão diferencial de circRNAs em dados de RNA-seq, utilizando a Workflow Description Language (WDL) em conjunto com o sistema de gerenciamento de workflows Cromwell. A implementação desse workflow não apenas facilitou a realização de análises de forma mais rápida e precisa, mas também contribuiu significativamente para o avanço no entendimento dos circRNAs e suas potenciais aplicações clínicas. A validação do workflow foi realizada com dados públicos de sequenciamento de RNA-seq do projeto GSE168449, relacionado ao câncer papilífero da tireoide (PTC). Foram analisados três pares de amostras de tecidos de PTC e tecidos paracarcinoma, resultando na identificação de oito circRNAs diferencialmente expressos. Destes, dois foram regulados positivamente e seis foram regulados negativamente, incluindo os circRNAs hsa-SEMA3D_0025, hsa-SEMA3D_0003, hsa-IPCEF1_0008, hsa-MPPED2_0002, hsa-CDC14B_0003, hsa-SLC35F4_0024, hsa-PCSK2_0007 e hsa-HCG4P5_00067. Esses resultados corroboram os circRNAs identificados no estudo original e revelam novos circRNAs que não foram relatados anteriormente, demonstrando a eficácia do workflow em identificar potenciais biomarcadores em dados de RNA-seq e validando sua aplicação em estudos futuros.