Um novo índice de validade de cluster baseado no espalhamento equidistante mútuo para clusterização crisp
índice de validade de cluster, Espalhamento equidistante mútuo, Número de clusters, Clusterização crisp, Aprendizagem não supervisionada
A análise de cluster é uma das tarefas mais importantes do reconhecimento de padrões, bem conceituada como um método para a clusterização de um conjunto de dados em grupos de objetos cujas propriedades são intrinsecamente similares, sendo largamente empregada para a descoberta do conhecimento a fim de revelar estruturas de dados que possam ser extremamente úteis ao analista. Em algoritmos de clusterização, usualmente é assumido que o número de clusters é conhecido ou dado e, uma vez que a clusterização é um procedimento de aprendizagem não supervisionada (isto é, que não existe conhecimento a priori da distribuição de dados no conjunto de subjacência), a significância dos clusters definidos precisa ser validada em conjunto de dados. Neste trabalho, propomos um novo índice de validade interna não paramétrico baseado no espalhamento equidistante mútuo entre dados intra-clusters, a partir da saída de qualquer algoritmo (por exemplo, K-means ou Hierárquico) no contexto da clusterização crisp, chamado: critério de espalhamento equidistante mútuo (Mutual Equidistant-scattering Criterion – MEC). A maioria dos índices de validade encontrados na literatura são considerados dependentes do número de exemplos em clusters e, com frequência, tendem a ignorar grupos pequenos e de baixa densidade, assim como selecionam soluções subótimas de agrupamento quando os clusters se encontram em determinado grau de sobreposição ou baixa separação. Analisamos diferentes índices de validade para o ajuste fino do número de clusters: CH, DB, SC, BIC, GS, LM e WB. Experimentos em ambos os dados, sintéticos e do mundo real, demonstraram a eficácia e confiabilidade de nossa abordagem para a avaliação e seleção de algoritmos de clusterização e seus parâmetros apropriados. Além disso, um estudo de caso do Monitoramento de Integridade Estrutural (Structural Health Monitoring – SHM) foi realizado pela utilização de algumas bases de dados bem conhecidas da área, com a finalidade mesma de, por fim, corroborar a viabilidade de uso do índice proposto para determinar o número de clusters em casos concretos do mundo real.