Abordagem computacional para a identificação de candidatos a genes housekeeping por meio de técnicas de aprendizado de máquina em dados de RNA-seq de Corynebacterium pseudotuberculosis
Housekeeping, RNA-seq, Clustering, Aprendizado de máquina, NGS, distancia Euclidiana, Corynebacterium pseudotuberculosis
Os genes Housekeeping (HKG) ou genes de referência são necessários para a manutenção das funções celulares basais, as quais são essenciais para a sobrevivências das células. Assim, espera-se que sejam expressos em todas as células de um organismo, independentemente do tipo de tecido, estado ou condição a que está submetida a célula. Para o estudo deste tipo de genes são usadas diversificadas abordagens, uma das mais utilizadas no Sequenciadores de Nova Geração (NGS) é a RNA Sequence (RNA-seq), uma técnica de alto rendimento, a qual permite medir o perfil de expressão genica de um tecido ou célula isolada o organismo alvo. As análises são feitas por meio do sequenciamento do DNA complementar (cDNA) para descobrir os mecanismos de transcrição que estão presentes no tecido ou célula-alvo. Os HKG são usados como referências ou controle interno nas reações e experimento de a Quantitative real-time chain reaction PCR (RT-qPCR)
Os métodos de aprendizado de máquinas (AM) são aplicados em diferentes áreas dentro da genética e genômica, permitindo a interpretação de grandes conjuntos de dados, como aqueles relacionados à expressão gênica. Uma das técnicas mais usadas são os algoritmos de agrupamento, técnica que permite definir grupos de genes com perfis de expressão similares, o que possibilita o estudo quanto à função e à interação dos genes. A corynebacterium pseudotuberculosis, um patógeno intracelular facultativo, foi utilizado como organismo de referência. Tal organismo infecta principalmente ovelhas, cabras, equinos, entre outros ocasionando a doença linfadenite caseosa. Para o estudo, foram utilizados os conjuntos de dados de expressão de RNA-seq das linhagens 258 e 1002 desta bactéria.
Neste trabalho, é apresentada uma nova metodologia para a identificação de genes Housekeeping in-silico através de técnicas de aprendizado de máquina e dados de expressão genica de RNA-seq. Para a aplicação desta nova abordagem, foram utilizadas técnicas não supervisionadas de clustering e métricas estatísticas de avaliação e distância para o processamento e análises dos dados genômicos. Como resultado, foram encontrados 16 genes candidatos a housekeeping no patógeno pesquisado, que apresentam fortes indícios de estabilidade e expressão constante, que indica que podem ser de ser possíveis genes housekeeping.