Critères de qualité internes

Critères de qualité internes

Les critères de qualité internes (critère de Condorcet, critère C, métrique d’utilité de la catégorie, mesures de coupe) mesurent généralement la compacité des clusters à l’aide d’une mesure de similitude. Il mesure généralement l’homogénéité intra-cluster, la séparabilité inter-cluster ou une combinaison de ces deux. Il n’utilise pas d’informations externes à côté des données elles-mêmes. Voici quatre critères de qualité internes.

Critère de Condorcet

Une autre approche appropriée consiste à appliquer la solution de Condorcet au problème de classement. Dans ce cas, le critère est calculé comme suit:

critères de qualité internes critère de condorcet

où s (x_j, x_k) et d (x_j, x_k) mesurent la similitude et la distance des vecteurs x_j et x_k.

Le critère C

Le critère C est une extension du critère de Condorcet et est défini comme (où γ est une valeur seuil):

critères de qualité internes critère C

Métrique d’utilité de la catégorie

L’utilitaire de catégorie est défini comme l’augmentation du nombre attendu de valeurs d’entités pouvant être correctement prédites compte tenu d’un certain regroupement. Cette métrique est utile pour les problèmes qui contiennent un nombre relativement petit de caractéristiques nominales ayant chacune une petite cardinalité.

Mesures de coupe

Dans certains cas, il est utile de représenter le problème de clustering comme un problème de coupe minimal. Dans de tels cas, la qualité est mesurée comme le rapport des poids restants aux poids coupés totaux. S’il n’y a pas de restriction sur la taille des clusters, il est facile de trouver la valeur optimale. Ainsi, la mesure min-cut est révisée pour pénaliser les structures déséquilibrées.

Partager