Sistema de Coordenadas Poligonais: uma abordagem geométrica para visualização de dados em altas dimensões
Redução de dimensionalidade, Incorporação, Visualização, Aprendizado de Máquina, Big Data.
A Redução de Dimensionalidade (Dimensionality Reduction – DR) é bastante útil na aquisição de informações relevantes a partir de dados de alta dimensão, com enfoque na obtenção de entendimento e insights úteis à análise exploratória e ciência de dados. Ela atraiu grande atenção da indústria e academia, sendo empregada em várias áreas do conhecimento humano manifesto em campos da computação, como o aprendizado de incorporação (do inglês, embedding learning), aprendizado de máquina, mineração de dados e reconhecimento de padrões estatísticos. Nesse contexto, este trabalho apresenta uma abordagem geométrica para DR chamada de Sistema de Coordenadas Poligonais (Polygonal Coordinate System – PCS), capaz de representar de modo eficiente dados multidimensionais num plano 2D, preservando, desse modo, a estrutura global inerente a eles. Para este propósito, pela realização de operações matemáticas de translação e rotação, os dados são representados através de um polígono regular ou interface entre a alta dimensionalidade e os dados bidimensionais. O PCS pode manipular adequadamente grandes quantidades de dados no contexto de Big Data, adotando um DR geométrico de complexidade de tempo linear e incremental. Além disso, uma nova versão do algoritmo Incorporação Estocástica de Vizinhos t-Distribuída (t-Distributed Stochastic Neighbor Embedding – t-SNE), que é o estado-da-arte em DR, é fornecida. Essa versão emprega uma estratégia determinística com base no PCS, por isso chamada de Incorporação Determinística de Vizinhos t-Distribuída (t-Distributed Deterministic Neighbor Embedding – t-DNE). Diversos conjuntos de dados sintéticos e reais foram utilizados como arquétipos de problemas bem conhecidos no mundo real em nosso benchmark, perfazendo um modo apropriado de avaliar tanto o PCS quanto o t-DNE. Em relação a eles, quatro algoritmos de DR são também avaliados: dois lineares, Análise de Componentes Principais (Principal Component Analysis – PCA) e Fatoração de Matrizes Não-Negativas (Nonnegative Matrix Factorization – NMF); dois não lineares, t-SNE e Mapeamento de Sammon (Sammon’s Mapping – SM). Nossa abordagem tende a superar técnicas anteriores sob diversos aspectos explorados neste trabalho, nomeadamente: complexidade assintótica de tempo e espaço, preservação da estrutura global inerente aos dados, número de hiperparâmetros e aplicabilidade a dados não observados no treinamento. Comparações estatísticas sobre os tempos de execução desses algoritmos, usando o teste de significância de Friedman, destacam a eficiência do PCS na tarefa de incorporar dados.