Arquitetura para Geração de Modelos de Dados Sintéticos através de Cadeia de Blocos Geradores
Arquitetura, Dados Sintéticos, Gerador de Dados, Visualização da Informação e Metáforas Visuais.
Geradores de dados são ferramentas que produzem conjuntos de dados sintéticos, e seu uso é motivado principalmente devido o acesso restrito a dados reais, seja por privacidade, inexistência ou quantidade insuficiente de dados. Os dados sintéticos podem ser úteis na tomada de decisões, no treinamento de modelos inteligentes ou no teste de técnicas de visualização de dados, entre outros cenários de uso. A literatura aponta que embora vários tipos de geradores de dados sintéticos estejam disponíveis, a maioria deles é aplicada para contextos específicos, ou seja, cada gerador apresentará lacunas de funcionalidade para alguns cenários de uso. Esta tese propõe apresentar uma arquitetura de um gerador de modelos de dados sintéticos que agrega diversos recursos para a geração de dados tabulares genéricos, a partir de uma cadeia de blocos geradores, onde cada bloco implementa um recurso. Além disso, funcionalidades de gráfico de dados também estão disponíveis para auxiliar os usuários na análise dos dados gerados. Outra contribuição é a concepção de uma interface alternativa com metáforas visuais e interativas com novas funcionalidades de visualização de informações. Esta nova interface pretende ser mais intuitiva ao usuário, permitindo facilitar entendimento e acompanhar as alterações nos dados após cada adição e configuração de um novo gerador através de gráficos de dados. A arquitetura também suporta o processo de replicação de dados, e a ideia principal é oferecer um conjunto de gráficos de dados e índices de similaridade para ajudar os usuários a gerar conjuntos de dados sintéticos. A arquitetura proposta apresenta as seguintes características: escalabilidade (é possível adicionar novos geradores), flexibilidade (é possível adicionar novas características aos dados) e reusabilidade (é possível reutilizar os componentes do gerador em outras aplicações, como a interface proposta). Por fim, é proposta uma avaliação com base em cenários de análise de tarefas dos usuários para criação de dados sintéticos comparando as aplicações geradoras Blocks, identificando melhorias e contribuições do trabalho.