Contenido
PalancaMedidas de distancia para atributos de tipo mixto
Muchos métodos de fraccionamiento use medidas de distancia para determinar la similitud o diferencia entre cualquier par de objetos (como medidas de distancia para atributos de tipo mixto). Es común denotar la distancia entre dos instancias x_i y x_j como: d(x_i, x_j). Una medida de distancia válida debe ser simétrica y obtiene su valor mínimo (normalmente cero) en el caso de vectores idénticos. La medida de distancia se denomina medida de distancia métrica si también satisface las siguientes propiedades:
En los casos en que las instancias se caractericen por atributos de tipo mixto, se puede calcular la distancia combinando diferentes métodos. Por ejemplo, al calcular la distancia entre las instancias i y j utilizando una métrica como la distancia euclidiana, se puede calcular la diferencia entre la atributos nominales y binario como 0 o 1 ("coincidencia" o "desajuste", respectivamente), y la diferencia entre el atributos numéricos como la diferencia entre sus valores normalizados. El cuadrado de cada una de estas diferencias se sumará a la distancia total. Tal cálculo se utiliza en muchos algoritmos de agrupamiento.
La disimilitud d (x_i, x_j) entre dos instancias, que contienen p atributos de tipos mixtos, se define como:
donde el indicador δ = 0 si falta uno de los valores. La contribución del atributo n a la distancia entre los dos objetos d ^ (n) se calcula según su tipo.
Si el atributo es binario o categórico:
Si el atributo tiene un valor continuo (donde h pasa por todos los objetos que no faltan para el atributo n):
Si el atributo es ordinal, primero se calculan los valores normalizados del atributo, luego z_i, n se trata como un valor continuo.