Critères de qualité internes

Les métriques de qualité internes mesurent généralement la compacité des clusters à l’aide d’une mesure de similitude. Il mesure généralement l’homogénéité intra-cluster, la séparabilité inter-cluster ou une combinaison de ces deux. Il n’utilise pas d’informations externes à côté des données elles-mêmes.

Critère de Condorcet

Une autre approche appropriée consiste à appliquer la solution de Condorcet au problème de classement. Dans ce cas, le critère est calculé comme suit:

où s (x_j, x_k) et d (x_j, x_k) mesurent la similitude et la distance des vecteurs x_j et x_k.

Le critère C

Le critère C est une extension du critère de Condorcet et est défini comme (où γ est une valeur seuil):

Métrique d’utilité de la catégorie

L’utilitaire de catégorie est défini comme l’augmentation du nombre attendu de valeurs d’entités pouvant être correctement prédites compte tenu d’un certain regroupement. Cette métrique est utile pour les problèmes qui contiennent un nombre relativement petit de caractéristiques nominales ayant chacune une petite cardinalité.

Mesures de coupe

Dans certains cas, il est utile de représenter le problème de clustering comme un problème de coupe minimal. Dans de tels cas, la qualité est mesurée comme le rapport des poids restants aux poids coupés totaux. S’il n’y a pas de restriction sur la taille des clusters, il est facile de trouver la valeur optimale. Ainsi, la mesure min-cut est révisée pour pénaliser les structures déséquilibrées.