Portal de Programas de Pós-Graduação (UFPA)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PPGCC Programa POS-GRADUACAO EM CIENCIA DA COMPUTACAO UNIVERSIDADE FEDERAL DO PARA Telefone/Ramal: Não informado

Site alternativo:

http://www.ppgcc.propesp.ufpa.br

Notícias

Banca de QUALIFICAÇÃO: FABRICIO EVANGELISTA CORREA

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE: FABRICIO EVANGELISTA CORREA
DATA: 06/10/2023
HORA: 09:00
LOCAL: Teams
TÍTULO:

Análise de eficácia de técnicas de criação de dados sintéticos em conjuntos de dados não balanceados através da lente da Teoria de Resposta ao Item (TRI)

PALAVRAS-CHAVES:

aprendizado de máquinas, classificação, teoria de resposta ao item, desbalanceamento de dados

PÁGINAS: 100
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Metodologia e Técnicas da Computação
ESPECIALIDADE: Sistemas de Informação
RESUMO:

No Machine Learning (ML), um dos desafios básicos da área ocorre quando um dataset possui muito mais exemplos de uma determinada classe que outra. Tal condição dificulta a generalização de todas as classes pelos modelos de ML. Uma possível mitigação é o uso de técnicas de oversampling que geram dados sintéticos. Porém, há uma miríade de técnicas e ainda é um desafio entender qual e quando utilizar uma técnica específica. Este trabalho realiza um estudo sobre a efetividade dessas técnicas no balanceamento de dados e para isso se baseia em estudos recentes que exploram o uso da Teoria de Resposta ao Item (TRI) como uma ferramenta para ajudar a lidar melhor com dados desbalanceados. Os conceitos da TRI são utilizados para avaliar a qualidade das instâncias artificiais geradas em oversampling e como os parâmetros de itens exploram os novos conjuntos de instâncias geradas e o impacto na performance dos seus respectivos modelos. Resultados preliminares apontam resultados em que situações de alto desbalanceamento o impacto pode ser prejudicial devido a geração de instâncias mal formadas, desafio compartilhado pelos métodos avaliados nesse estudo. Em situações com desbalanceamento médio, o método SVMSMOTE teve o melhor desempenho para gerar bons dados sintéticos, além de ter diminuído, em mais de 2x, o valor do parâmetro de item relacionado a dificuldade das instâncias geradas. Existe uma relação clara entre os parâmentros de itens e a qualidade das instâncias geradas artificialmente.

MEMBROS DA BANCA:
Presidente - 381.226.502-87 - RONNIE CLEY DE OLIVEIRA ALVES - ITV
Interno - 2323064 - FILIPE DE OLIVEIRA SARAIVA
Interno - 2378314 - JEFFERSON MAGALHAES DE MORAIS

Notícia cadastrada em: 25/09/2023 14:14