Medidas de distancia para atributos binarios

Medidas de distancia para atributos binarios

Muchos métodos de fraccionamiento use medidas de distancia para determinar la similitud o diferencia entre cualquier par de objetos (como atributos binarios). Es común denotar la distancia entre dos instancias x_i y x_j como: d(x_i, x_j). Una medida de distancia válida debe ser simétrica y obtiene su valor mínimo (normalmente cero) en el caso de vectores idénticos. La medida de distancia se denomina medida de distancia métrica si también satisface las siguientes propiedades:

Medidas de distancia para atributos binarios

En el caso de atributos binarios, la distancia entre objetos se puede calcular en base a una tabla de contingencia. Un atributo binario es simétrico si sus dos estados tienen el mismo valor. En este caso, el uso del coeficiente de coincidencia simple puede evaluar la diferencia entre dos objetos:

Medidas de distancia para atributos binarios

donde q es el número de atributos igual a 1 para los dos objetos; t es el número de atributos igual a 0 para los dos objetos; ysyr son el número de atributos que no son iguales para los dos objetos.

Un atributo binario es asimétrico, si sus estados no son igualmente importantes (el resultado positivo generalmente se considera más importante). En este caso, el denominador ignora las coincidencias negativas sin importancia (t). Esto se llama el coeficiente de jaccard :

Medidas de distancia para atributos binarios