Teste de classificadores e benchmarks de aprendizado de máquina pela Teoria de Reposta ao Item
Aprendizado de Máquina, Benchmark, Teoria de Resposta ao Item, Classificação, Rating.
Os experimentos cobertos pelo Aprendizado de Máquina devem considerar dois aspectos importantes para avaliar o desempenho de um modelo: conjuntos de dados e algoritmos. São necessários benchmarks robustos para avaliar os melhores classificadores. Para isso, pode-se adotar benchmarks padrão-ouro disponíveis em repositórios públicos. No entanto, é comum não considerar a complexidade do conjunto de dados ao se avaliar um algoritmo. Este trabalho propõe uma metodologia de avaliação baseada na combinação da Teoria de Resposta ao Item (TRI) e Glicko-2, um mecanismo de sistema de rating geralmente adotado para medir a força dos jogadores (e.g., Xadrez). Para cada conjunto de dados em um benchmark, a TRI é usada para estimar a habilidade dos classificadores, no qual bons classificadores são capazes de acertar as instâncias de teste mais difíceis. Então são realizados disputas para cada par de classificadores para que o Glicko-2 atualize as informações de desempenho, como valor de rating, desvio de rating e volatilidade para cada classificador. Foi realizado um estudo de caso que adotou o benchmark OpenML-CC18 como a coleção de conjuntos de dados e vários algoritmos de classificação para avaliação. Como resultado foi visto que nem todos os conjuntos de dados foram considerados realmente úteis para avaliar algoritmos, os quais apenas 10% foram considerados realmente difíceis. Além disso, verificou-se a existência de um subconjunto contendo apenas 50% do tamanho original de OpenML-CC18, mas que é igualmente bom para uma avaliação de algoritmos. Em relação aos algoritmos, a metodologia proposta identificou o Random Forest como o algoritmo com a melhor habilidade inata.