Aplicação de índices de qualidade de cluster no processo de geração automática de algoritmos de agrupamento
Índice de Qualidade de agrupamentos, algoritmos de agrupamento, programação automática, mineração de dados.
O AutoClustering é uma ferramenta computacional para a geração automática de algoritmos de agrupamento, que combina e avalia as principais partes dos algoritmos para gerar soluções mais apropriadas para um determinado conjunto de dados no que se refere a tarefas de agrupamento. O AutoClustering usa a técnica evolutiva conhecida como Algoritmos de Estimativa de Distribuição (Estimation of Distribution Algorithms-EDA) para criar os algoritmos de agrupamento (considerados como indivíduos pelo EDA) e o método Clest adaptado para calcular de forma objetiva o fitness usando um classificador (Ex.: árvore de decisão) e determinando a qualidade dos algoritmos de agrupamento. Este trabalho propõe melhorar a eficiência do processo de avaliação do AutoClustering, adicionando uma métrica que une três índices de qualidade de clusters. Os três índices de qualidade são cluster Dunn Index, Silhouette Index e Davies-Bouldin Index, que avaliam a situação Intra e Inter clusters, com algoritmos baseados na distância e independentes da geração dos grupos. Na avaliação da abordagem proposta foram realizados testes comparativos com o modelo original proposto na ferramenta Autoclustering. Para isso foram utilizadas quatro bases de domínio público e pertencentes ao repositório de dados públicos da UCI, tendo neste experimento 10 rodadas com cada rodada tendo 500 gerações a serem executadas. Para demonstrar os resultados do modelo implementado com o do Autoclustering, foram utilizadas técnicas de visualização da informação tais como Aluvial e Treemap. Os resultados obtidos indicam que o modelo proposto tem o fitness mais elevado e maior diversidade de indivíduos gerados (algoritmos de agrupamento) quando comparados com o modelo original.