Uma abordagem de aprendizado por reforço para o problema da montagem de novo de fragmentos de DNA
Aprendizado por Reforço, Montagem de Genomas, Inteligência Artificial
A montagem de genomas é uma das tarefas mais relevantes e computacionalmente complexas dos projetos genômicos. A qualidade do genoma obtido é altamente relevante porque quanto mais confiável o genoma alcançado mais acuradas são as compreensões possíveis dos comportamentos e características dos seres vivos analisados - o que, por sua vez, gera diversos impactos positivos na sociedade, incluindo a melhoria de diagnósticos, prevenção e tratamento de doenças. Apesar de existirem diversos montadores disponíveis, não existe um único montador que seja adequado para a montagem de genomas de quaisquer organismos e, adicionalmente, os resultados produzidos pelos montadores ainda podem apresentar erros e estão sujeitos a melhorias. O uso de aprendizado por reforço tem se mostrado muito promissor para resolução de atividades complexas sem requerer supervisão humana durante o treinamento dos agentes inteligentes. No entanto, as aplicações de aprendizado por reforço estão predominantemente focadas em problemas de entretenimento - como é o caso dos jogos. Assim, um dos grandes desafios atuais da ciência da computação é a aplicação de aprendizado por reforço em problemas do mundo real. Com base nisso, esse trabalho tem como objetivo lançar luz sobre a aplicação do aprendizado por reforço para resolução do problema da montagem de fragmentos de DNA, um problema do mundo real para o qual ainda inexistem soluções robustas baseadas em aprendizado por reforço para sua resolução. Por meio da expansão da única abordagem disponível na literatura, foram cuidadosamente explorados os aspectos do treinamento do agente inteligente, realizado pelo algoritmo Q-learning, para avaliação de sua adequação para ser aplicado em cenários cujas características são mais similares às realidades enfrentadas por projetos genômicos reais. As melhorias propostas neste trabalho incluem a mudança do sistema de recompensas anteriormente proposto, a inclusão de estratégias de otimização de exploração do espaço de estados baseadas em podas dinâmicas de ações e na colaboração mútua entre aprendizado por reforço e computação evolucionária. Foram produzidos e disponibilizados livremente 23 ambientes de aprendizado por reforço, que foram utilizados para a experimentação. Os resultados obtidos sugerem uma melhoria consistente de desempenho com as estratégias propostas, contudo, eles também demonstraram suas limitações ao cenário real, especialmente considerando as altas dimensionalidades dos espaços de estados e ações.