Critères de qualité externes

Critères de qualité externes

Les critères de qualité externes (mesure fondée sur l’information mutuelle,  mesure de rappel de précision, RAND index) peuvent être utiles pour examiner si la structure des clusters correspond à une classification prédéfinie des instances. Les critères de qualité externes sont explicités ci-dessous.

Mesure fondée sur l’information mutuelle

Le critère d’information mutuel peut être utilisé comme une mesure externe pour le clustering. La mesure pour m instances regroupées en utilisant C = {C_1,. . . , C_g} et faisant référence à l’attribut cible y dont le domaine est dom (y) = {c_1,. . . , c_k} est défini comme suit :

critères de qualité externes (mesure fondée sur l'information mutuelle,  mesure de rappel de précision, RAND index)

où m_l,h indique le nombre d’instances qui se trouvent dans le cluster C_l et également dans la classe c_h. m.,h indique le nombre total d’instances dans la classe c_h. De même, m_l,. indique le nombre d’instances du cluster C_l.

MI est combiné avec l’entropie dans le NMI :

critères de qualité externes (mesure fondée sur l'information mutuelle,  mesure de rappel de précision, RAND index)

MI est combiné avec l’entropie dans l’AMI :

critères de qualité externes (mesure fondée sur l'information mutuelle,  mesure de rappel de précision, RAND index)

Mesure de rappel de précision

La mesure de rappel de précision issue de la recherche d’informations peut être utilisée comme une mesure externe pour évaluer les clusters. Le cluster est considéré comme le résultat d’une requête pour une classe spécifique. La précision est la fraction des instances correctement récupérées, tandis que le rappel est la fraction des instances correctement récupérées de toutes les instances correspondantes. Une mesure F combinée peut être utile pour évaluer une structure de clustering.

Rand index

L’indice Rand est un critère simple utilisé pour comparer une structure d’agrégation induite (C1) avec une structure d’agrégation donnée (C2). Soit a le nombre de paires d’instances affectées au même cluster dans C1 et dans le même cluster dans C2; soit b le nombre de paires d’instances qui se trouvent dans le même cluster C1, mais pas dans le même cluster C2; soit c le nombre de paires d’instances qui se trouvent dans le même cluster C2, mais pas dans le même cluster C1; et d le nombre de paires d’instances attribuées à différents clusters que C1 et C2.

Les quantités a et d peuvent être interprétées comme des accords, et b et c comme des désaccords. L’indice Rand est défini comme:

critères de qualité externes (mesure fondée sur l'information mutuelle,  mesure de rappel de précision, RAND index)

L’index Rand est compris entre 0 et 1. Lorsque les deux partitions s’accordent parfaitement, l’indice Rand est 1.

Un problème avec l’indice Rand est que sa valeur attendue de deux regroupements aléatoires ne prend pas une valeur constante (telle que zéro). Hubert et Arabie en 1985 suggèrent un indice Rand ajusté qui surmonte cet inconvénient.

Partager
fr_FRFR
%d blogueurs aiment cette page :