Minkowski para atributos numéricos

Minkowski para atributos numéricos

Muchos métodos de partición utilizan medidas de distancia para determinar la similitud o disimilitud entre cualquier par de objetos (como Minkowski para atributos numéricos). Es común designar la distancia entre dos instancias x_i y x_j como: d (x_i, x_j). Una medición de distancia válida debe ser simétrica y obtener su valor mínimo (generalmente cero) en el caso de vectores idénticos. La medida de distancia se denomina medida de distancia métrica si también satisface las siguientes propiedades:

Minkowski para atributos numéricos

Dadas dos instancias de dimensión p, x_i = (x_i1, x_i2,…, X_ip) y x_j = (x_j1, x_2,…, X_jp), la distancia entre las dos instancias de datos se puede calcular usando la métrica de Minkowski:

Minkowski para atributos numéricos

La distancia euclidiana comúnmente utilizada entre dos objetos se alcanza cuando g = 2. Dado g = 1, se obtiene la suma de las distancias paraxiales absolutas (métrica de Manhattan), y con g = ∞ obtenemos la mayor de las distancias paraxiales (métrica de Chebychev).

La unidad de medida utilizada puede afectar el análisis de agrupamiento. Para evitar depender de la elección de unidades de medida, los datos deben normalizarse. La estandarización de medidas intenta dar a todas las variables el mismo peso. Sin embargo, si a cada variable se le asigna un peso de acuerdo con su importancia, la distancia ponderada se puede calcular de la siguiente manera:

Minkowski para atributos numéricos

 

Compartir, repartir
es_ESES
A los bloggers de %d les gusta esto: