Somme de l’erreur quadratique

Somme de l’erreur quadratique

Les métriques de qualité internes mesurent généralement la compacité des clusters à l’aide d’une mesure de similitude (comme la Somme de l’erreur quadratique). Il mesure généralement l’homogénéité intra-cluster, la séparabilité inter-cluster ou une combinaison de ces deux. Il n’utilise pas d’informations externes à côté des données elles-mêmes.

Somme de l’erreur quadratique est la mesure de critère la plus simple et la plus largement utilisée pour le clustering. Il est calculé comme:

Somme de l'erreur quadratique

où C_k est l’ensemble des instances du cluster k; μ_k est la moyenne vectorielle du cluster k. Les composantes de μ_k sont calculées comme:

Somme de l'erreur quadratique

où N_k = | C_k | est le nombre d’instances appartenant au cluster k.

Les méthodes de partitionnement qui minimisent le critère SSE sont souvent appelées partitions de variance minimale, car par simple manipulation algébrique, le critère SSE peut s’écrire:

Somme de l'erreur quadratique

La fonction de critère SSE convient aux cas où les clusters forment des nuages compacts bien séparés les uns des autres.

Des critères minimaux supplémentaires pour SSE peuvent être produits en remplaçant la valeur de S_k par des expressions telles que:

Somme de l'erreur quadratique
Partager