Somme de l’erreur quadratique

Les métriques de qualité internes mesurent généralement la compacité des clusters à l’aide d’une mesure de similitude. Il mesure généralement l’homogénéité intra-cluster, la séparabilité inter-cluster ou une combinaison de ces deux. Il n’utilise pas d’informations externes à côté des données elles-mêmes.

SSE est la mesure de critère la plus simple et la plus largement utilisée pour le clustering. Il est calculé comme:

où C_k est l’ensemble des instances du cluster k; μ_k est la moyenne vectorielle du cluster k. Les composantes de μ_k sont calculées comme:

où N_k = | C_k | est le nombre d’instances appartenant au cluster k.

Les méthodes de partitionnement qui minimisent le critère SSE sont souvent appelées partitions de variance minimale, car par simple manipulation algébrique, le critère SSE peut s’écrire:

La fonction de critère SSE convient aux cas où les clusters forment des nuages compacts bien séparés les uns des autres.

Des critères minimaux supplémentaires pour SSE peuvent être produits en remplaçant la valeur de S_k par des expressions telles que: