Estudo sobre a Teoria de Medição e Generalização de Modelos de Aprendizado de Máquina
aprendizado de máquinas, teoria de resposta ao item, MLOps, subespecificação de modelos,
O aprendizado de máquina está sendo cada vez mais utilizado e evoluiu consideravelmente nos últimos anos, permitindo que ela alcance o estado da arte na resolução de várias tarefas. No entanto, com o seu uso intensificando-se, tornaram-se mais evidentes lacunas relacionadas às avaliações e procedimentos de aprendizagem dos modelos. Existem várias técnicas distintas que são utilizadas para avaliar modelos, como precisão, Pontuação F1 e outras. No entanto, esses procedimentos não estão ligados à avaliação da própria aprendizagem, mas apenas ao número de respostas corretas apresentadas pelo modelo. Essa característica torna impossível avaliar se um modelo foi capaz de aprender por meio de elementos que façam sentido no contexto em que está inserido. Portanto, o modelo pode obter bons resultados na fase de treinamento, mas resultados ruins quando precisa ser generalizado. Quando existem muitos modelos diferentes que alcançam desempenho semelhante, escolher o modelo que apresentou o maior número de acertos no treinamento não significa escolher o melhor modelo. Por isso, foi desenvolvida uma metodologia fundamentada na Teoria de Resposta ao Item para criar um modelo de Aprendizado de Máquina capaz de identificar se um determinado ambiente de treinamento não é confiável, fornecendo uma validação adicional e única para o contexto de aprendizado de máquina. Foram empregadas 126 partições de dados originadas de 21 conjuntos distintos para conceber um modelo capaz de identificar contextos não confiáveis com uma precisão de 0,935 e uma pontuação F1 de 0,930.