Aplicação de aprendizado de máquina para predição de genes em dados metagenômicos
aprendizado de máquinas, classificação, predição de genes
Encontrar genes codificadores de proteínas em sequências genômicas eucarióticas com
métodos in-silico permanece um desafio importante na genômica computacional, apesar de
muitos anos de trabalho intensivo de pesquisa (STANKE et al., 2006). A identificação de genes
codificadores pode ser realizada por meio de duas abordagens, primeiro, "métodos extrínsecos"ou
predição por homologia, e, segundo, "métodos intrínsecos"ou predição por ab initio (MATHÉ et
al., 2002). A predição por homologia busca a similaridade das sequências com genes existentes,
por outro lado, a predição por ab initio procura genes por meio das características da sequência
analisada. A contribuição deste trabalho é a avaliação da composição de um conjunto de treino e a construção de um modelo que identifique genes codificadores de proteínas utilizando aprendizado de máquina, desta forma, a abordagem adotada permitirá que genes anotados e não anotados possam ser encontrados. Outra contribuição importante é um estudo aprofundado das características de sequências genômicas que possam permitir uma identificação mais consistente de genes codificantes. A partir dessas contribuições, será possível desenvolver uma ferramenta de predição de genes que funciona de forma eficaz.