METODOLOGIA UTILIZANDO MINERAÇÃO DE TEXTO PARA ROTULAÇÃO DE GRANDES VOLUMES DE DADOS BIOMÉDICOS BASEADO EM APRENDIZADO NÃO SUPERVISIONADO
Mineração de Texto, Aprendizado de Máquina, Resistência Antimicrobiana.
O aumento do volume da literatura relacionada às ciências biológicas e da saúde é um desafio para pesquisadores e biocuradores, até mesmo consultas em bases de dados especializadas em literatura biomédica, como PubMed (resumos/citações científicas e médicas) e PubMed Central (artigos de periódicos em texto completo) apresentam um grande volume de itens recuperados que tende a dificultar a localização das informações relevantes sobre entidades biológicas. A seleção dos documentos, também conhecida como triagem, é a primeira e uma das mais importantes etapas do processo de biocuradoria, portanto, desenvolver métodos de extração automatizada de informações para apoiar a construção de bancos de dados lógicos e descobrir novos conhecimentos de coleções de periódicos online é, não só um desafio, mas uma necessidade, e a adoção de técnicas de mineração de texto são alternativas viáveis, pois podem agilizar e otimizar a triagem dos documentos, bem como, auxiliar em diferentes etapas do fluxo de trabalho padrão de biocuradoria. Neste cenário, esta proposta de tese apresenta uma metodologia que adota uma abordagem de mineração de texto baseada em aprendizado não supervisionado, para classificar a relevância de artigos científicos em contextos biomédicos específicos e gerar conjuntos de treinamento precisos o suficiente para maximizar a eficiência de classificadores supervisionados. Como forma de mostrar a efetividade da proposta, o contexto de genes de resistência a antimicrobianos é empregado como estudo de caso.