Critères de dispersion

Critères de dispersion

Les métriques de qualité internes mesurent généralement la compacité des clusters à l’aide d’une mesure de similitude (comme les Critères de dispersion : la trace, le déterminant, l’invariance). Il mesure généralement l’homogénéité intra-cluster, la séparabilité inter-cluster ou une combinaison de ces deux. Il n’utilise pas d’informations externes à côté des données elles-mêmes.

Les critères de diffusion scalaire sont dérivés des matrices de diffusion, reflétant la diffusion intra-cluster, la diffusion inter-cluster et leur sommation – la matrice de diffusion totale. Pour le k-ème cluster, la matrice de diffusion peut être calculée comme suit :

Critères de dispersion

La matrice de dispersion intra-cluster est calculée comme la somme de la dernière définition sur tous les clusters W :

Critères de dispersion

La matrice de diffusion entre clusters peut être calculée comme suit :

Critères de dispersion

où μ est le vecteur moyen total et est défini comme :

Critères de dispersion

La matrice de diffusion totale doit être calculée comme suit :

Critères de dispersion

Trois critères scalaires peuvent être dérivés de S_W, S_B et S_T.

La trace

La trace est la somme des éléments diagonaux d’une matrice. Minimiser la trace de S_W est similaire à minimiser SSE et est donc couramment utilisé. Ce critère, représentant la dispersion intra-cluster, est calculé comme suit :

Critères de dispersion trace

Un autre critère, qui peut être maximisé, est le critère entre les clusters :

Critères de dispersion trace

Le déterminant

Le déterminant d’une matrice de diffusion mesure approximativement le carré du volume de diffusion. Puisque S_B sera singulier si le nombre de clusters est inférieur ou égal à la dimensionnalité, ou si m-c est inférieur à la dimensionnalité, son déterminant n’est pas un critère approprié. Si nous supposons que S_W n’est pas singulier, la fonction du critère de déterminant est :

Critères de dispersion déterminant

L’invariance

Les valeurs propres λ_1, λ_2,. . . , λ_d de S_W * S_B sont les invariants linéaires de base des matrices de diffusion. Les bonnes partitions sont celles pour lesquelles les valeurs propres non nulles sont grandes. En conséquence, plusieurs critères peuvent être dérivés, y compris les valeurs propres. Trois de ces critères sont :

Critères de dispersion invariance
Partager