Minkowski pour les attributs numériques

De nombreuses méthodes de partitionnement utilisent des mesures de distance pour déterminer la similitude ou la dissemblance entre n’importe quelle paire d’objets. Il est courant de désigner la distance entre deux instances x_i et x_j comme: d (x_i, x_j). Une mesure de distance valide doit être symétrique et obtient sa valeur minimale (généralement zéro) dans le cas de vecteurs identiques. La mesure de distance est appelée mesure de distance métrique si elle satisfait également aux propriétés suivantes :

Étant donné deux instances de dimension p, x_i = (x_i1, x_i2,…, X_ip) et x_j = (x_j1, x_2,…, X_jp), la distance entre les deux instances de données peut être calculée à l’aide de la métrique de Minkowski :

La distance euclidienne couramment utilisée entre deux objets est atteinte lorsque g = 2. Étant donné g = 1, la somme des distances paraxiales absolues (métrique de Manhattan) est obtenue, et avec g = ∞ on obtient la plus grande des distances paraxiales (métrique de Chebychev) .

L’unité de mesure utilisée peut affecter l’analyse de clustering. Pour éviter de dépendre du choix des unités de mesure, les données doivent être normalisées. La standardisation des mesures tente de donner à toutes les variables un poids égal. Cependant, si chaque variable est affectée d’un poids en fonction de son importance, la distance pondérée peut être calculée comme suit: