Decodificando benchmarks de aprendizado de máquina
aprendizado de máquinas, benchmarks, classificação
Apesar da disponibilidade de benchmarks de aprendizado de máquina (ML) de referência (por exemplo, UCI, OpenML), não há estratégia de avaliação padrão capaz de apontar qual é o melhor conjuntos de dados para servir como padrão ouro para testar diferentes algoritmos de ML. Em estudos recentes, a Teoria de Resposta ao Item (TRI) surgiu como uma nova abordagem para elucidar o que deveria ser um bom referencial de ML. Este trabalho aplicou TRI para explorar o conhecido benchmark OpenML-CC18 para identificar o quão adequado é na avaliação de classificadores. Vários classificadores, desde os clássicos aos de ensembles, foram avaliados usando modelos TRI, que podiam estimar simultaneamente a dificuldade do conjunto de dados e a capacidade dos classificadores. O sistema de classificação Glicko-2 foi aplicado no topo do TRI para resumir a habilidade e aptidão inatas dos classificadores. Observou-se que nem todos os conjuntos de dados do OpenML-CC18 são realmente úteis para avaliar classificadores. A maioria dos conjuntos de dados avaliados neste trabalho (84%) contém instâncias fáceis em geral (por exemplo, cerca de 10% apenas possuem instâncias difíceis). Além disso, 80% das instâncias deste benchmark são muito discriminativas, o que pode ser de grande utilidade para a comparação de algoritmos de ML, mas não é útil para avaliar as habilidades dos classificadores. Este trabalho apresenta uma nova metodologia de avaliação de benchmarks de ML baseado em TRI, bem como a ferramenta decodIRT, desenvolvida para orientar a estimativa de IRT sobre benchmarks de ML.