Calidad en el número de clusters

Calidad en el número de clusters

Un tema relacionado con la validación de conglomerados es decidir si el número de conglomerados obtenido es el correcto (Calidad sobre el número de conglomerados). Este punto es particularmente importante para los algoritmos que necesitan este valor como parámetro. El procedimiento habitual consiste en comparar las características de grupos de diferentes tamaños. Por lo general, en esta comparación se utilizan índices de criterios internos. Un gráfico de estos índices para diferentes números de conglomerados puede mostrar el número más probable de conglomerados.

Algunos de los índices de validez interna se pueden utilizar para este propósito: índice de Calinsky Harabasz, índice de silueta. Utilizando la matriz de dispersión intraclase (S_W), se pueden definir otros criterios (índice de Hartigan e índice de Krzanowski Lai):

Calidad en el número de clusters

Estimemos el número de conglomerados comparando un conglomerado con la distribución esperada de los datos dada la hipótesis nula (sin conglomerados). Calculemos diferentes agrupaciones de datos aumentando el número de conglomerados y compárelos con los conglomerados de datos (B) generados con una distribución uniforme.

La matriz de distancia entre clases S_W se calcula para ambos y se compara. El número correcto de conglomerados es aquel en el que aparece la mayor diferencia entre el S_W de los datos y los datos uniformes (primer término de la siguiente ecuación):

Calidad en el número de clusters

El número probable de clústeres es el número más pequeño que satisface:

Calidad en el número de clusters

donde s_k se define como (sd_k es la desviación estándar del primer término de Gap):

Calidad en el número de clusters
Compartir, repartir
es_ESES
A los bloggers de %d les gusta esto: