Identificação de candidatos a genes de referência utilizando Redes Geradoras Adversárias
Redes Adversas Generativas, RNA-seq, Aprendizagem profunda, genes de referência
Os genes de referência (GR) são genes constitutivos necessários para a manutenção das funções celulares básicas. Diferentes tecnologias de alto desempenho são usadas para identificar esses tipos de genes, incluindo o seqüenciamento de RNA (RNA-seq), o qual permite medir os níveis de expressão gênica em um tecido específico ou em uma célula isolada. Nesta proposta de qualificação de mestrado, é apresentada uma nova abordagem baseada em Redes Geradoras Adversárias (GAN) e em Máquinas de Vetores de Suporte (SVM) para a identificação in-silico de candidatos a genes de referência. O método proposto é dividido em duas etapas principais. Primeiro, a rede GAN é usada para aumentar um pequeno número de genes de referência encontrados no conjunto de dados públicos de RNA-seq da Escherichia coli. Segundo, um classificador de uma classe baseado em SVM e em detecção de novidades é avaliado usando alguns genes de referência reais e sintéticos gerados pela arquitetura GAN na primeira etapa. Os resultados parciais mostram que o aumento do conjunto de dados empregando a arquitetura GAN proposta melhora a pontuação do classificador em 16.67%, fazendo com que o método proposto tenha uma pontuação recall de 83.33% nos dados de teste. Assim, a principal contribuição da metodologia proposta foi encontrar 753 genes candidatos de um total de 4170, o que permite reduzir a quantidade de genes a serem testados em laboratório em até 80%.