Critères de qualité externes

Les mesures externes peuvent être utiles pour examiner si la structure des clusters correspond à une classification prédéfinie des instances.

Mesure fondée sur l’information mutuelle

Le critère d’information mutuel peut être utilisé comme une mesure externe pour le clustering. La mesure pour m instances regroupées en utilisant C = {C_1,. . . , C_g} et faisant référence à l’attribut cible y dont le domaine est dom (y) = {c_1,. . . , c_k} est défini comme suit :

où m_l,h indique le nombre d’instances qui se trouvent dans le cluster C_l et également dans la classe c_h. m.,h indique le nombre total d’instances dans la classe c_h. De même, m_l,. indique le nombre d’instances du cluster C_l.

MI est combiné avec l’entropie dans le NMI :

MI est combiné avec l’entropie dans l’AMI :

Mesure de rappel de précision

La mesure de rappel de précision issue de la recherche d’informations peut être utilisée comme une mesure externe pour évaluer les clusters. Le cluster est considéré comme le résultat d’une requête pour une classe spécifique. La précision est la fraction des instances correctement récupérées, tandis que le rappel est la fraction des instances correctement récupérées de toutes les instances correspondantes. Une mesure F combinée peut être utile pour évaluer une structure de clustering.

Rand index

L’indice Rand est un critère simple utilisé pour comparer une structure d’agrégation induite (C1) avec une structure d’agrégation donnée (C2). Soit a le nombre de paires d’instances affectées au même cluster dans C1 et dans le même cluster dans C2; soit b le nombre de paires d’instances qui se trouvent dans le même cluster C1, mais pas dans le même cluster C2; soit c le nombre de paires d’instances qui se trouvent dans le même cluster C2, mais pas dans le même cluster C1; et d le nombre de paires d’instances attribuées à différents clusters que C1 et C2. Les quantités a et d peuvent être interprétées comme des accords, et b et c comme des désaccords. L’indice Rand est défini comme:

L’index Rand est compris entre 0 et 1. Lorsque les deux partitions s’accordent parfaitement, l’indice Rand est 1.

Un problème avec l’indice Rand est que sa valeur attendue de deux regroupements aléatoires ne prend pas une valeur constante (telle que zéro). Hubert et Arabie en 1985 suggèrent un indice Rand ajusté qui surmonte cet inconvénient.