Contenido
PalancaFunción de similitud
Un concepto alternativo al de distancia es la función de semejanza (medida coseno, correlación de Pearson, medida de Jaccard extendida, medida del coeficiente Dice) s(x_i, x_j) que compara los dos vectores x_i y x_j. Esta función debe ser simétrica (es decir, s(x_i, x_j) = s(x_j, x_i)) y tener un valor grande cuando x_i y x_j son de alguna manera "similares" y son el valor más grande para vectores idénticos.
Una función de similitud donde el rango objetivo es [0,1] se denomina función de similitud dicotómica. De hecho, los métodos de cálculo de "distancias" en el caso de atributos binarios y nominal pueden verse como funciones de similitud en lugar de distancias.
Medida de coseno
Cuando el ángulo entre los dos vectores es una medida significativa de su similitud, el producto interior normalizado puede ser una medida apropiada de similitud:
Medida de correlación de Pearson
La correlación de Pearson normalizada se define como (con x̄ el valor característico medio de x en todas las dimensiones):
Medida Jaccard extendida
La medida ampliada de Jaccard fue introducida por Strehl y Ghosh en 2000 y se define como:
Medición del coeficiente de dados
La medida del coeficiente de Dice es similar a la medida extendida de Jaccard y se define de la siguiente manera: