Suma del error cuadrático

Suma del error cuadrático

Las métricas de calidad interna suelen medir la compacidad de los clústeres mediante una medida de similitud (como la suma del error al cuadrado). Por lo general, mide la homogeneidad dentro de los conglomerados, la separabilidad entre los conglomerados o una combinación de estos dos. No utiliza información externa junto con los datos en sí.

La suma del error al cuadrado es la medida de criterio más simple y más utilizada para la agrupación. Se calcula como:

Suma del error al cuadrado

donde C_k es el conjunto de instancias del clúster k; μ_k es la media vectorial del grupo k. Los componentes de μ_k se calculan como:

Suma del error al cuadrado

donde N_k = | C_k | es el número de instancias que pertenecen al clúster k.

Los métodos de fraccionamiento que minimizan el criterio SSE a menudo se denominan particiones de varianza mínima, porque mediante una simple manipulación algebraica el criterio SSE se puede escribir:

Suma del error al cuadrado

La función de criterio SSE es adecuada para los casos en los que los clústeres forman nubes compactas bien separadas entre sí.

Se pueden generar criterios mínimos adicionales para SSE reemplazando el valor de S_k con expresiones como:

Suma del error al cuadrado
Compartir, repartir