Otimização de Hiperparâmetros de Agentes que Empregam Motivação Intrínseca em Busca da Eficiência Amostral
aprendizado por reforço, motivação intrinseca, otimização
O Aprendizado por Reforço é uma área do Aprendizado de Máquina, que vem se destacando nos últimos anos e que possui alguns desafios a serem batidos(Sutton e Barto, 2018). Essa área, diferentemente do aprendizado de máquina convencional, não aprende através de um conjunto de informações, e sim através de interação com um ambiente. A eficiência amostral de um agente de aprendizado por reforço é um desafio, como fazer com que um agente aprenda dentro de um ambiente com o mínimo de interação possível. Surgem então estratégias para melhorar a eficiência amostral de agentes, principalmente em ambientes chamados de esparsos, com o mínimo de estímulo para o aprendizado. A estratégia denominada de Motivação Intrínseca, gera através do próprio agente, pequenos estímulos à exploração do ambiente ao seu redor, assim aumentando a sua eficácia e seu aprendizado. Hiperparâmetros são extremamente importantes em algoritmos de aprendizado por reforço(Zahavy et. al., 2020), e a busca por estes hiperparâmetros, muitas vezes acabam sendo um trabalho árduo e manual. Neste trabalho exploramos a motivação intrínseca e os hiperparâmetros que a mesma adiciona ao agente padrão de aprendizado por reforço, assim como sua interação com o hiperparâmetro chamado de taxa de aprendizado.