Uma Técnica de Visualização e Derivação de Dados para Auxiliar no Diagnóstico de Mecanismos de Dados Faltantes
Visual-Interactive Idiom, Missing Data Mechanisms, Visual Analysis
Valores faltantes são um problema generalizado e presente na maioria dos processos de coleta de dados. Há vários métodos para lidar com esse problema, e a escolha de um depende do diagnóstico do mecanismo de dados faltantes — a maneira como dados faltantes se correlacionam com as variáveis observadas. Uma forma de diagnosticar o mecanismo é comparando pares de variáveis usando visualizações de dados. No entanto, as visualizações comumente usadas para essa tarefa usam codificações visuais que não foram projetadas especificamente para isso, fazendo com que os usuários busquem ativamente pistas nos dados para auxiliar o raciocínio, ao invés de mostrar explicitamente essas dicas. Assim, esta dissertação propõe um idioma visual-interativo que auxilia proativamente no diagnóstico de mecanismos de dados perdidos por meio da quantificação e exibição de pistas de análise. O idioma inclui escolhas de design para codificações visuais e interações para auxiliar o diagnóstico, e um algoritmo de derivação de dados que quantifica duas métricas (pistas) para auxiliar o raciocínio: plausibilidade de distribuição (a probabilidade de que a distribuição de dados faltantes se correlaciona com os valores observados) e plausibilidade de co-ocorrência (a probabilidade de que os dados faltantes nas variáveis sejam causados pelo mesmo processo ou por processos relacionados). Esta dissertação mostra a técnica proposta e apresenta um teste de usabilidade realizado para avaliá-la em comparação com a matriz de nulidade, a visualização mais comum usada para a tarefa de diagnóstico de dados faltantes.