Um novo índice de validade de cluster baseado no espalhamento equidistante mútuo para clusterização crisp
índice de validade de cluster, Espalhamento equidistante mútuo, Número de clusters, Clusterização crisp, Aprendizagem não supervisionada
A clusterização de dados tem sido amplamente utilizada na descoberta do conhecimento para revelar estruturas de dados úteis ao analista. Como uma das tarefas mais importantes do reconhecimento de padrões, a clusterização particiona um conjunto de dados em grupos cujos elementos do mesmo cluster são semelhantes e elementos de clusters diferentes são dissimilares. Algoritmos de clusterização em geral supõem que o número de clusters K é conhecido, embora não haja conhecimento prévio sobre o conjunto de dados. Consequentemente, o significado dos grupos definidos precisa ser validado. Índices de validade de cluster são comumente usados para realizar a validação de resultados da clusterização. No entanto, a maioria deles é considerada dependente do número de objetos de dados e, geralmente, tende a ignorar grupos pequenos e de baixa densidade. Além disso, soluções de cluster subótimas são frequentemente selecionadas quando os clusters estão em um certo grau de sobreposição ou baixa separação. Assim sendo, propomos um novo índice de validade interna não paramétrico baseado no espalhamento equidistante mútuo dentro do cluster para clusterização crisp. Sete diferentes índices de validade foram analisados em comparação com o índice proposto, a fim de detectar o número de clusters em conjuntos de dados. Experimentos em dados sintéticos e do mundo real mostram a eficácia e confiabilidade de nossa abordagem para validar o hiperparâmetro K.