Contenido
PalancaCalidad en el número de clusters
Un tema relacionado con la validación de conglomerados es decidir si el número de conglomerados obtenido es el correcto (Calidad sobre el número de conglomerados). Este punto es particularmente importante para los algoritmos que necesitan este valor como parámetro. El procedimiento habitual consiste en comparar las características de grupos de diferentes tamaños. Por lo general, en esta comparación se utilizan índices de criterios internos. Un gráfico de estos índices para diferentes números de conglomerados puede mostrar el número más probable de conglomerados.
Para ello se pueden utilizar algunos de los índices de validez interna: índice de Calinsky Harabasz, Silueta. Utilizando la matriz de dispersión intraclase (S_W), se pueden definir otros criterios (índice de Hartigan e índice de Krzanowski Lai):
Estimemos el número de conglomerados comparando un conglomerado con la distribución esperada de los datos dada la hipótesis nula (sin conglomerados). Calculemos diferentes agrupaciones de datos aumentando el número de conglomerados y compárelos con los conglomerados de datos (B) generados con una distribución uniforme.
La matriz de distancia entre clases S_W se calcula para ambos y se compara. El número correcto de conglomerados es aquel en el que aparece la mayor diferencia entre el S_W de los datos y los datos uniformes (primer término de la siguiente ecuación):
El número probable de clústeres es el número más pequeño que satisface:
donde s_k se define como (sd_k es la desviación estándar del primer término de Gap):