Notícias

Banca de DEFESA: CAIO MARCOS FLEXA RODRIGUES

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE: CAIO MARCOS FLEXA RODRIGUES
DATA: 03/04/2020
HORA: 14:00
LOCAL: ICEN-UFPA
TÍTULO:

Sistema de Coordenadas Poligonais: uma abordagem geométrica para visualização de dados em altas dimensões


PALAVRAS-CHAVES:

Redução de dimensionalidade, Incorporação, Visualização, Aprendizado de Máquina, Big Data.


PÁGINAS: 121
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
ESPECIALIDADE: Sistemas de Informação
RESUMO:

A Redução de Dimensionalidade (Dimensionality Reduction - DR) é bastante útil na aquisição de informações relevantes a partir de dados de alta dimensão, com enfoque na obtenção de entendimento e insights úteis à análise exploratória e ciência de dados. Ela atraiu grande atenção da indústria e academia, sendo empregada em várias áreas do conhecimento humano manifesto em campos da computação, como o aprendizado de incorporação (do inglês, embedding learning), aprendizado de máquina, mineração de dados e reconhecimento de padrões estatísticos. Nesse contexto, este trabalho apresenta uma abordagem geométrica para DR chamada de Sistema de Coordenadas Poligonais (Polygonal Coordinate System - PCS), capaz de representar de modo eficiente dados multidimensionais num plano 2D, preservando, desse modo, a estrutura global inerente a eles. Para este propósito, pela realização de operações matemáticas de rotação e translação, os dados são representados através de um polígono regular ou interface entre a alta dimensionalidade e os dados bidimensionais. O PCS pode manipular adequadamente grandes quantidades de dados no contexto de Big Data, adotando um DR geométrico de complexidade de tempo linear e incremental. Além disso, uma nova versão do algoritmo Incorporação Estocástica de Vizinhos t-Distribuída (t-Distributed Stochastic Neighbor Embedding - t-SNE), que é o estado-da-arte em DR, é fornecida. Essa versão emprega uma estratégia determinística com base no PCS, por isso chamada de Incorporação Determinística de Vizinhos t-Distribuída (t-Distributed Deterministic Neighbor Embedding - t-DNE). Diversos conjuntos de dados sintéticos e reais foram utilizados como arquétipos de problemas bem conhecidos no mundo real em nosso benchmark, perfazendo um modo apropriado de avaliar tanto o PCS quanto o t-DNE. Em relação a eles, quatro algoritmos de DR são também avaliados: dois lineares, Análise de Componentes Principais (Principal Component Analysis - PCA) e Fatoração de Matrizes Não-Negativas (Nonnegative Matrix Factorization - NMF); dois não lineares, t-SNE e Mapeamento de Sammon (Sammon's Mapping - SM). Nossa abordagem tende a superar técnicas anteriores sob diversos aspectos explorados neste trabalho, nomeadamente: complexidade assintótica de tempo e espaço, preservação da estrutura global inerente aos dados, número de hiperparâmetros e aplicabilidade a dados não observados no treinamento. Comparações estatísticas sobre os tempos de execução desses algoritmos, usando o teste de significância de Friedman, destacam a eficiência do PCS na tarefa de incorporar dados.


MEMBROS DA BANCA:
Presidente - 1809092 - CLAUDOMIRO DE SOUZA DE SALES JUNIOR
Interno - 2323064 - FILIPE DE OLIVEIRA SARAIVA
Interno - 381.226.502-87 - RONNIE CLEY DE OLIVEIRA ALVES - UFRGS
Externo ao Programa - 2324982 - REGIANE SILVA KAWASAKI FRANCES
Externo ao Programa - 3132807 - REGINALDO CORDEIRO DOS SANTOS FILHO
Notícia cadastrada em: 10/03/2020 14:11
SIGAA | Centro de Tecnologia da Informação e Comunicação (CTIC) - (91)3201-7793 | Copyright © 2006-2024 - UFPA - jatoba.ufpa.br.jatoba1