Contenido
PalancaMinkowski para atributos numéricos
Muchos métodos de fraccionamiento use medidas de distancia para determinar la similitud o diferencia entre cualquier par de objetos (como Minkowski para atributos numéricos). Es común denotar la distancia entre dos instancias x_i y x_j como: d(x_i, x_j). Una medida de distancia válida debe ser simétrica y obtiene su valor mínimo (normalmente cero) en el caso de vectores idénticos. La medida de distancia se denomina medida de distancia métrica si también satisface las siguientes propiedades:
Dadas dos instancias de dimensión p, x_i = (x_i1, x_i2,…, X_ip) y x_j = (x_j1, x_2,…, X_jp), la distancia entre las dos instancias de datos se puede calcular usando la métrica de Minkowski:
La distancia euclidiana comúnmente utilizada entre dos objetos se alcanza cuando g = 2. Dado g = 1, se obtiene la suma de las distancias paraxiales absolutas (métrica de Manhattan), y con g = ∞ obtenemos la mayor de las distancias paraxiales (métrica de Chebychev).
La unidad de medida utilizada puede afectar el análisis de agrupamiento. Para evitar depender de la elección de unidades de medida, los datos deben normalizarse. La estandarización de medidas intenta dar a todas las variables el mismo peso. Sin embargo, si a cada variable se le asigna un peso de acuerdo con su importancia, la distancia ponderada se puede calcular de la siguiente manera: