Criterios de dispersión

Criterios de dispersión

Las métricas de calidad interna suelen medir la compacidad de los clústeres mediante una medida de similitud (como los criterios de dispersión: traza, determinante, invariancia). Por lo general, mide la homogeneidad dentro de los conglomerados, la separabilidad entre los conglomerados o una combinación de estos dos. No utiliza información externa junto con los datos en sí.

Los criterios de difusión escalar se derivan de las matrices de difusión, que reflejan la difusión intra-grupo, la difusión entre grupos y su suma - la matriz de difusión total. Para el k-ésimo grupo, la matriz de difusión se puede calcular de la siguiente manera:

Criterios de dispersión

La matriz de dispersión intra-conglomerados se calcula como la suma de la última definición sobre todos los conglomerados W:

Criterios de dispersión

La matriz de difusión entre conglomerados se puede calcular de la siguiente manera:

Criterios de dispersión

donde μ es el vector medio total y se define como:

Criterios de dispersión

La matriz de difusión total debe calcularse de la siguiente manera:

Criterios de dispersión

Se pueden derivar tres criterios escalares de S_W, S_B y S_T.

La huella

La traza es la suma de los elementos diagonales de una matriz. Minimizar el rastro de S_W es similar a minimizar HSE y por lo tanto es de uso común. Este criterio, que representa la dispersión intra-cluster, se calcula de la siguiente manera:

Criterios de dispersión de trazas

Otro criterio, que se puede maximizar, es el criterio entre clusters:

Criterios de dispersión de trazas

El determinante

El determinante de una matriz de dispersión mide aproximadamente el cuadrado del volumen de dispersión. Dado que S_B será singular si el número de grupos es menor o igual que la dimensionalidad, o si mc es menor que la dimensionalidad, su determinante no es un criterio apropiado. Si asumimos que S_W no es singular, la función del criterio determinante es:

Criterios de dispersión decisivos

Invariancia

Los valores propios λ_1, λ_2,. . . , λ_d de S_W * S_B son las invariantes lineales básicas de las matrices de difusión. Las particiones buenas son aquellas para las que los valores propios distintos de cero son grandes. Como resultado, se pueden derivar varios criterios, incluidos los valores propios. Tres de estos criterios son:

Criterios de invariancia de dispersión
Compartir, repartir