Entropie, pureté et V-mesure
Étant donné que le cluster complet (tous les objets d’une même classe sont affectés à un seul cluster) et le cluster homogène (chaque cluster ne contient que des objets d’une même classe) sont rarement atteints, nous visons à atteindre un équilibre satisfaisant entre ces deux approches. Par conséquent, nous appliquons généralement cinq critères de regroupement bien connus afin d’évaluer les performances de la partition, qui sont la pureté, l’entropie H, la mesure V, l’indice RAND et la mesure F. Cette page expose les trois premiers. Les autres sont exposés dans une autre page.
La mesure d’entropie est utilisée pour montrer comment les clusters de phrases sont partitionnées au sein de chaque cluster, et elle est connue comme la moyenne des valeurs pondérées dans chaque entropie de cluster sur tous les clusters C = {c_1, …, c_n} :

La pureté d’un cluster est la fraction de la taille du cluster que représente la plus grande classe de phrases affectée à ce cluster, à savoir :

La pureté globale est la somme pondérée des puretés des clusters individuelles donnée par :

Bien que la pureté et l’entropie soient utiles pour comparer des partitionnement avec le même nombre de clusters, elles ne sont pas fiables lors de la comparaison de partitionnement avec différents nombres de clusters. En effet, l’entropie et la pureté fonctionnent sur la façon dont les ensembles de phrases sont partitionnés au sein de chaque cluster, et cela conduira à un cas d’homogénéité. Les scores les plus élevés de pureté et les scores d’entropie les plus faibles sont généralement obtenus lorsque le nombre total de clusters est trop grand, où cette étape conduira à être la plus faible dans la complétude. La mesure suivante considère à la fois les approches d’exhaustivité et d’homogénéité.
La mesure V est connue sous le nom de moyenne harmonique d’homogénéité et de complétude; c’est-à-dire, V = homogénéité * complétude/ (homogénéité + complétude), où homogénéité et exhaustivité sont définies comme homogénéité = 1-H (C | L) / H (C) et complétude = 1-H (L | C) / H (L) où:
