Función de similitud

Función de similitud

Un concepto alternativo al de distancia es la función de semejanza (medida coseno, correlación de Pearson, medida de Jaccard extendida, medida del coeficiente Dice) s(x_i, x_j) que compara los dos vectores x_i y x_j. Esta función debe ser simétrica (es decir, s(x_i, x_j) = s(x_j, x_i)) y tener un valor grande cuando x_i y x_j son de alguna manera "similares" y son el valor más grande para vectores idénticos.

Una función de similitud donde el rango objetivo es [0,1] se denomina función de similitud dicotómica. De hecho, los métodos de cálculo de "distancias" en el caso de atributos binarios y nominal pueden verse como funciones de similitud en lugar de distancias.

Medida de coseno

Cuando el ángulo entre los dos vectores es una medida significativa de su similitud, el producto interior normalizado puede ser una medida apropiada de similitud:

Función de similitud, medición de coseno

Medida de correlación de Pearson

La correlación de Pearson normalizada se define como (con x̄ el valor característico medio de x en todas las dimensiones):

Función de similitud de la medida de correlación de Pearson

Medida Jaccard extendida

La medida ampliada de Jaccard fue introducida por Strehl y Ghosh en 2000 y se define como:

Función extendida de similitud de medida de Jaccard

Medición del coeficiente de dados

La medida del coeficiente de Dice es similar a la medida extendida de Jaccard y se define de la siguiente manera:

Medición de la función de similitud del coeficiente de DIce