Medidas de distancia para atributos de tipo mixto

Medidas de distancia para atributos de tipo mixto

Muchos métodos de partición utilizan medidas de distancia para determinar la similitud o disimilitud entre cualquier par de objetos (como Medidas de distancia para atributos de tipo mixto). Es común designar la distancia entre dos instancias x_i y x_j como: d (x_i, x_j). Una medición de distancia válida debe ser simétrica y obtener su valor mínimo (generalmente cero) en el caso de vectores idénticos. La medida de distancia se denomina medida de distancia métrica si también satisface las siguientes propiedades:

Medidas de distancia para atributos de tipo mixto

En los casos en que las instancias se caracterizan por atributos de tipo mixto, la distancia se puede calcular combinando diferentes métodos. Por ejemplo, al calcular la distancia entre las instancias i y j usando una métrica como la distancia euclidiana, podemos calcular la diferencia entre atributos nominales y binarios como 0 o 1 ("coincidencia" o "discordancia", respectivamente), y la diferencia entre atributos numéricos como la diferencia entre sus valores normalizados. El cuadrado de cada una de estas diferencias se sumará a la distancia total. Este cálculo se utiliza en muchos algoritmos de agrupamiento.

La disimilitud d (x_i, x_j) entre dos instancias, que contienen p atributos de tipos mixtos, se define como:

Medidas de distancia para atributos de tipo mixto

donde el indicador δ = 0 si falta uno de los valores. La contribución del atributo n a la distancia entre los dos objetos d ^ (n) se calcula según su tipo.

Si el atributo es binario o categórico:

Medidas de distancia para atributos de tipo mixto

Si el atributo tiene un valor continuo (donde h pasa por todos los objetos que no faltan para el atributo n):

Medidas de distancia para atributos de tipo mixto

Si el atributo es ordinal, primero se calculan los valores normalizados del atributo, luego z_i, n se trata como un valor continuo.

Compartir, repartir
es_ESES
A los bloggers de %d les gusta esto: