Estudo sobre a teoria de medição e generalização de modelos de aprendizado de máquinas
aprendizado de máquinas, teoria de resposta ao item, MLOps, subespecificação de modelos,
O aprendizado de máquina está sendo cada vez mais utilizado e evoluiu de forma considerável no decorrer dos últimos anos, permitindo-o alcançar o estado da arte na solução de várias tarefas. Entretanto, com seu uso se intensificando, lacunas relacionadas aos procedimentos de medição e de aprendizagem dos modelos se tornaram mais evidentes. Existem vários procedimentos para avaliar modelos, como acurácia, F1 score e outros. Todavia, esses procedimentos não estão vinculados aos vieses indutivos específicos codificados, e essa característica impossibilita avaliar se um modelo foi capaz de aprender por meio de elementos que fazem sentido no contexto em que está inserido. Portanto, isso pode causar algo semelhante a um overfitting de treinamento de modelo, uma vez que o modelo obtém bons resultados em um ambiente específico e resultados ruins quando o modelo precisa generalizar. Pesquisadores acrescentam que a causa raiz disso é a subespecificação. No contexto de aprendizagem de máquina um pipeline é subspecificado se houver muitas maneiras distintas para o modelo alcançar um mesmo desempenho. Ou seja, um modelo pode obter bons resultados de acordo com os procedimentos de avaliação, porém esse modelo pode não ter aprendido de forma correta o que foi lhe passado, com isso esse modelo provavelmente falhará ao tentar generalizar. Dado esse contexto, criamos uma metodologia baseada na Teoria de Resposta ao Item que permite identificar se um contexto de aprendizado de máquina está sofrendo de subespecificação. Para isso utilizamos 126 partições de dados a partir de 21 conjuntos de dados, o que proporcionou que a metodologia gerasse um modelo (não subespecificado) com acurácia de 0.927 e f1-score de 0.932 para a identificação de contextos subespecificados.