Mesures de distance pour les attributs de type mixte

De nombreuses méthodes de partitionnement utilisent des mesures de distance pour déterminer la similitude ou la dissemblance entre n’importe quelle paire d’objets. Il est courant de désigner la distance entre deux instances x_i et x_j comme: d (x_i, x_j). Une mesure de distance valide doit être symétrique et obtient sa valeur minimale (généralement zéro) dans le cas de vecteurs identiques. La mesure de distance est appelée mesure de distance métrique si elle satisfait également aux propriétés suivantes :

Dans les cas où les instances sont caractérisées par des attributs de type mixte, on peut calculer la distance en combinant différentes méthodes. Par exemple, lors du calcul de la distance entre les instances i et j en utilisant une métrique telle que la distance euclidienne, on peut calculer la différence entre les attributs nominaux et binaires comme des 0 ou 1 («match» ou «mismatch», respectivement), et la différence entre les attributs numériques comme la différence entre leurs valeurs normalisées. Le carré de chacune de ces différences sera ajouté à la distance totale. Un tel calcul est utilisé dans de nombreux algorithmes de clustering.

La dissimilarité d(x_i, x_j) entre deux instances, contenant p attributs de types mixtes, est définie comme:

où l’indicateur δ = 0 si l’une des valeurs est manquante. La contribution de l’attribut n à la distance entre les deux objets d^(n) est calculée selon son type:

Si l’attribut est binaire ou catégorique:

Si l’attribut a une valeur continue (où h parcourt tous les objets non manquants pour l’attribut n):

Si l’attribut est ordinale, les valeurs normalisées de l’attribut sont d’abord calculées, puis z_i, n est traité comme une valeur continue.