MODELO PARA TOMADA DE DECISÃO NO PROCESSO DE IMPUTAÇÃO DE DADOS FALTANTES
dados faltantes, imputação dados, modelo de decisão, outlier, visualização de informação
Dados geralmente contêm valores ausentes e as razões são diversas. Valores ausentes ocorrem quando as medições falham, quando os resultados da análise são perdidos ou quando as medições são incompreensíveis. Logo, os registros de dados estão incompletos, o que pode causar análises de dados ineficientes e decisões imprecisas. A forma que analistas lidam com dados incompletos pode ser um trabalho difícil, sendo a diferença entre estudos enviesados e não-enviesados. Técnicas de imputação são umas das principais maneiras de tratar dados faltantes. No entanto, vários fatores devem ser considerados na hora de se decidir o método mais indicado para uma base específica. Desse modo, este trabalho desenvolveu um modelo de decisão cujo objetivo é auxiliar no processo de imputação de dados, guiando o analista através de quatro etapas. Elas permitem (a) determinar, através de técnicas de visualização, os mecanismos geradores de dados faltantes, (b) realizar o tratamento de outliers, (c) executar simulações em amostras completas da base para definir, por meio de métricas de avaliação, qual a técnica de imputação mais eficiente para um conjunto de dados, e (d) realizar a imputação com a técnica selecionada como melhor opção. A metodologia proposta foi avaliada simulando a ocorrência de dados faltantes e seus mecanismos em cinco bases de dados reais através de cinco técnicas (Média, Hot-Deck, KNN Imputation, IRMI, MICE) de imputação considerando as métricas RMSE, MAE, MPE, Acurácia Categórica e Tempo de Execução. Seguindo o modelo de decisão proposto, os resultados mostraram a influência negativa dos outliers na imputação e a escolha da melhor técnica para cada cenário. Com isso, conclui-se que o modelo de tomada de decisão desenvolvido consegue orientar o analista nas etapas do processo de imputação de dados faltantes.