Uma técnica online de incorporação piramidal para visualização de big data em altas dimensões
Redução de dimensionalidade, visualização de dados, Big Data
A tarefa de visualizar dados de grande dimensão é desafiadora em um contexto de aprendizado de máquina, onde conhecer o conjunto de dados é essencial para encontrar a técnica certa para criar modelos de classificação, clustering, previsão e outros. É de suma importância entender que esses conjuntos e inspeções visuais podem auxiliar nessa busca. Para enfrentar o problema de visualização de dados altamente dimensionais, podemos utilizar técnicas de DR (Dimensionality Reduction), produzindo representações de baixa dimensão (2D ou 3D) para obter conhecimento do comportamento desses dados. Muitas técnicas são capazes de produzir dados de baixa dimensão, mas são computacionalmente caras, atingindo a complexidade O(n^3). Isso, aliado à necessidade de carregar todos os dados na memória principal, inviabiliza o uso dessas técnicas para Big Data. Neste trabalho, apresentaremos o PES (Pyramidal Embedding System), uma técnica de DR incremental que permite o uso em Big Data, livre de hiperparâmetros, com complexidade linear no tempo O(n), capaz de realizar embedding tanto em 2D quanto em 3D.