Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette

Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette

Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette funcionan bien en una amplia gama de situaciones.

Índice de Calinski-Harabasz

Rendimiento basado en HSE media intra e inter-cluster (Tr):

Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette

donde B_k es la matriz de dispersión entre conglomerados y W_k es la matriz de dispersión intraconglomerado definida por:

Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette

con N el número de puntos en nuestros datos, C_q el conjunto de puntos del grupo q, c_q el centro del grupo q, c el centro de E, n_q el número de puntos del grupo q.

Índice de Davies-Bouldin

Este índice trata a cada conglomerado individualmente y busca medir qué tan similar es al conglomerado más cercano a él. El índice DB se formula de la siguiente manera:

Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette

I (c_i) representa el promedio de las distancias entre los objetos que pertenecen al grupo C_i y su centro. Y I (c_i, c_j) representa la distancia entre los centros de los dos grupos C_i y C_j.

Para cada grupo i de la partición, buscamos el grupo j que maximiza el índice que se describe a continuación:

Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette

Por tanto, la mejor partición es la que minimiza la media del valor calculado para cada conglomerado. En otras palabras, la mejor partición es la que minimiza la similitud entre los clústeres.

Índice de Dunn

Otra medida de validación interna del clúster que se puede calcular de la siguiente manera es el índice de Dunn:

  1. Para cada grupo, calcule la distancia entre cada uno de los objetos del grupo y los objetos de los otros grupos
  2. Utilice el mínimo de esta distancia por par como separación entre grupos (separación mínima)
  3. Para cada grupo, calcule la distancia entre los objetos del mismo grupo.
  4. Utilice la distancia máxima intra-clúster (es decir, el diámetro máximo) como compacidad intra-clúster
  5. Calcule el índice de Dunn (D) de la siguiente manera:
Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette

Silueta

Valida el rendimiento basado en distancias intra e inter-clúster:

Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette

con a (i) la disimilitud promedio con los otros datos del conglomerado yb (i) la disimilitud más débil con cualquier conglomerado no miembro para cada x_i y centro del conglomerado y:

Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette

El coeficiente de silueta varía entre -1 (peor clasificación) y 1 (mejor clasificación). A menudo se calcula el promedio general de Silhouette.

Calinski-Harabasz, Davies-Bouldin, Dunn y Silhouette
Compartir, repartir