Critères de dispersion

Les métriques de qualité internes mesurent généralement la compacité des clusters à l’aide d’une mesure de similitude. Il mesure généralement l’homogénéité intra-cluster, la séparabilité inter-cluster ou une combinaison de ces deux. Il n’utilise pas d’informations externes à côté des données elles-mêmes.

Les critères de diffusion scalaire sont dérivés des matrices de diffusion, reflétant la diffusion intra-cluster, la diffusion inter-cluster et leur sommation – la matrice de diffusion totale. Pour le k-ème cluster, la matrice de diffusion peut être calculée comme suit :

La matrice de dispersion intra-cluster est calculée comme la somme de la dernière définition sur tous les clusters W :

La matrice de diffusion entre clusters peut être calculée comme suit :

où μ est le vecteur moyen total et est défini comme :

La matrice de diffusion totale doit être calculée comme suit :

Trois critères scalaires peuvent être dérivés de S_W, S_B et S_T.

La trace

La trace est la somme des éléments diagonaux d’une matrice. Minimiser la trace de S_W est similaire à minimiser SSE et est donc couramment utilisé. Ce critère, représentant la dispersion intra-cluster, est calculé comme suit :

Un autre critère, qui peut être maximisé, est le critère entre les clusters :

Le déterminant

Le déterminant d’une matrice de diffusion mesure approximativement le carré du volume de diffusion. Puisque S_B sera singulier si le nombre de clusters est inférieur ou égal à la dimensionnalité, ou si m-c est inférieur à la dimensionnalité, son déterminant n’est pas un critère approprié. Si nous supposons que S_W n’est pas singulier, la fonction du critère de déterminant est :

L’invariance

Les valeurs propres λ_1, λ_2,. . . , λ_d de S_W * S_B sont les invariants linéaires de base des matrices de diffusion. Les bonnes partitions sont celles pour lesquelles les valeurs propres non nulles sont grandes. En conséquence, plusieurs critères peuvent être dérivés, y compris les valeurs propres. Trois de ces critères sont :