Medidas de distancia para atributos de tipo mixto

Medidas de distancia para atributos de tipo mixto

Muchos métodos de fraccionamiento use medidas de distancia para determinar la similitud o diferencia entre cualquier par de objetos (como medidas de distancia para atributos de tipo mixto). Es común denotar la distancia entre dos instancias x_i y x_j como: d(x_i, x_j). Una medida de distancia válida debe ser simétrica y obtiene su valor mínimo (normalmente cero) en el caso de vectores idénticos. La medida de distancia se denomina medida de distancia métrica si también satisface las siguientes propiedades:

Medidas de distancia para atributos de tipo mixto

En los casos en que las instancias se caractericen por atributos de tipo mixto, se puede calcular la distancia combinando diferentes métodos. Por ejemplo, al calcular la distancia entre las instancias i y j utilizando una métrica como la distancia euclidiana, se puede calcular la diferencia entre la atributos nominales y binario como 0 o 1 ("coincidencia" o "desajuste", respectivamente), y la diferencia entre el atributos numéricos como la diferencia entre sus valores normalizados. El cuadrado de cada una de estas diferencias se sumará a la distancia total. Tal cálculo se utiliza en muchos algoritmos de agrupamiento.

La disimilitud d (x_i, x_j) entre dos instancias, que contienen p atributos de tipos mixtos, se define como:

Medidas de distancia para atributos de tipo mixto

donde el indicador δ = 0 si falta uno de los valores. La contribución del atributo n a la distancia entre los dos objetos d ^ (n) se calcula según su tipo.

Si el atributo es binario o categórico:

Medidas de distancia para atributos de tipo mixto

Si el atributo tiene un valor continuo (donde h pasa por todos los objetos que no faltan para el atributo n):

Medidas de distancia para atributos de tipo mixto

Si el atributo es ordinal, primero se calculan los valores normalizados del atributo, luego z_i, n se trata como un valor continuo.