Medidas de distancia para atributos binarios

Medidas de distancia para atributos binarios

Muchos métodos de partición utilizan medidas de distancia para determinar la similitud o disimilitud entre cualquier par de objetos (como atributos binarios). Es común designar la distancia entre dos instancias x_i y x_j como: d (x_i, x_j). Una medición de distancia válida debe ser simétrica y obtener su valor mínimo (generalmente cero) en el caso de vectores idénticos. La medida de distancia se denomina medida de distancia métrica si también satisface las siguientes propiedades:

Medidas de distancia para atributos binarios

En el caso de atributos binarios, la distancia entre objetos se puede calcular en base a una tabla de contingencia. Un atributo binario es simétrico si sus dos estados tienen el mismo valor. En este caso, el uso del coeficiente de coincidencia simple puede evaluar la diferencia entre dos objetos:

Medidas de distancia para atributos binarios

donde q es el número de atributos igual a 1 para los dos objetos; t es el número de atributos igual a 0 para los dos objetos; ysyr son el número de atributos que no son iguales para los dos objetos.

Un atributo binario es asimétrico, si sus estados no son igualmente importantes (el resultado positivo generalmente se considera más importante). En este caso, el denominador ignora las coincidencias negativas sin importancia (t). Esto se llama coeficiente de Jaccard:

Medidas de distancia para atributos binarios
Compartir, repartir
es_ESES
A los bloggers de %d les gusta esto: