Calinski-Harabasz, Davies-Bouldin, Dunn et Silhouette

Calinski-Harabasz, Davies-Bouldin, Dunn et Silhouette fonctionnent bien dans un large éventail de situations.

Indice de Calinski-Harabasz

Performance basée sur le SSE moyen intra et inter-cluster (Tr):

où B_k est la matrice de dispersion entre les clusters et W_k est la matrice de dispersion intra-cluster définie par:

avec N le nombre de points dans nos données, C_q l’ensemble des points du cluster q, c_q le centre du cluster q, c le centre de E, n_q le nombre de points du cluster q.

Indice de Davies-Bouldin

Cet indice traite chaque cluster individuellement et cherche à mesurer à quel point elle est similaire au cluster qui lui est le plus proche. L’indice DB est formulé de la façon suivante :

I(c_i) représente la moyenne des distances entre les objets appartenant au cluster C_i et son centre. Et I(c_i,c_j) représente la distance entre les centres des deux clusters C_i et C_j.

Pour chaque cluster i de la partition, on cherche le cluster j qui maximise l’indice décrit comme suit :

La meilleure partition est donc celle qui minimise la moyenne de la valeur calculée pour chaque cluster. En d’autres termes, la meilleure partition est celle qui minimise la similarité entre les clusters.

Indice de Dunn

L’indice de Dunn est une autre mesure de validation de cluster interne qui peut être calculée comme suit :

  1. Pour chaque cluster, calculez la distance entre chacun des objets du cluster et les objets des autres clusters
  2. Utilisez le minimum de cette distance par paire comme séparation inter-cluster (min.separation)
  3. Pour chaque cluster, calculez la distance entre les objets du même cluster.
  4. Utilisez la distance maximale intra-cluster (c’est-à-dire le diamètre maximum) comme compacité intra-cluster
  5. Calculez l’indice de Dunn (D) comme suit :

Silhouette

Valide les performances en fonction des distances intra et inter-cluster:

avec a(i) la dissimilarité moyenne avec les autres données du cluster et b(i) la dissimilarité la plus faible avec tout cluster non membre pour chaque x_i et centre du cluster y:

Le coefficient de silhouette varie entre -1 (pire classement) et 1 (meilleur classement). La moyenne globale de Silhouette est souvent calculée.