Análise de eficácia de técnicas de criação de dados sintéticos em conjuntos de dados não balanceados através da lente da Teoria de Resposta ao Item (TRI)
aprendizado de máquinas, classificação, teoria de resposta ao item, desbalanceamento de dados
No Machine Learning (ML), um dos desafios básicos da área ocorre quando um dataset possui muito mais exemplos de uma determinada classe que outra. Tal condição dificulta a generalização de todas as classes pelos modelos de ML. Uma possível mitigação é o uso de técnicas de oversampling que geram dados sintéticos. Porém, há uma miríade de técnicas e ainda é um desafio entender qual e quando utilizar uma técnica específica. Este trabalho realiza um estudo sobre a efetividade dessas técnicas no balanceamento de dados e para isso se baseia em estudos recentes que exploram o uso da Teoria de Resposta ao Item (TRI) como uma ferramenta para ajudar a lidar melhor com dados desbalanceados. Os conceitos da TRI são utilizados para avaliar a qualidade das instâncias artificiais geradas em oversampling e como os parâmetros de itens exploram os novos conjuntos de instâncias geradas e o impacto na performance dos seus respectivos modelos. Resultados preliminares apontam resultados em que situações de alto desbalanceamento o impacto pode ser prejudicial devido a geração de instâncias mal formadas, desafio compartilhado pelos métodos avaliados nesse estudo. Em situações com desbalanceamento médio, o método SVMSMOTE teve o melhor desempenho para gerar bons dados sintéticos, além de ter diminuído, em mais de 2x, o valor do parâmetro de item relacionado a dificuldade das instâncias geradas. Existe uma relação clara entre os parâmentros de itens e a qualidade das instâncias geradas artificialmente.