Criterios de calidad externos

Criterios de calidad externos

Los criterios de calidad externos (métrica basada en información mutua, métrica de recuperación de precisión, índice RAND) pueden ser útiles para examinar si la estructura del clúster coincide con una clasificación predefinida de instancias. Los criterios de calidad externos se explican a continuación.

Medida basada en información mutua

El criterio de información mutua se puede utilizar como una medida externa para la agrupación. La medida para m instancias agrupadas usando C = {C_1,. . . , C_g} y se refiere al atributo objetivo y cuyo dominio es dom (y) = {c_1,. . . , c_k} se define de la siguiente manera:

Criterios de calidad externos (medición basada en información mutua, medición de recuperación de precisión, índice RAND)

donde m_l, h indica el número de instancias que están en el clúster C_l y también en la clase c_h. m., h indica el número total de instancias en la clase c_h. Asimismo, m_l,. indica el número de instancias del clúster C_l.

MI se combina con entropía en el NMI:

Criterios de calidad externos (medición basada en información mutua, medición de recuperación de precisión, índice RAND)

MI se combina con entropía en AMI:

Criterios de calidad externos (medición basada en información mutua, medición de recuperación de precisión, índice RAND)

Medición de recuperación de precisión

La métrica de recuperación de precisión de la investigación de información se puede utilizar como una métrica externa para evaluar los clústeres. El clúster se considera el resultado de una consulta para una clase específica. La precisión es la fracción de instancias obtenidas correctamente, mientras que la recuperación es la fracción de instancias obtenidas correctamente de todas las instancias coincidentes. Una medida F combinada puede resultar útil para evaluar una estructura de agrupamiento.

Índice Rand

El índice Rand es un criterio simple que se utiliza para comparar una estructura de agregación inducida (C1) con una estructura de agregación dada (C2). Sea a el número de pares de instancias asignados al mismo grupo en C1 y en el mismo grupo en C2; sea b el número de pares de instancias que están en el mismo grupo C1, pero no en el mismo grupo C2; sea c el número de pares de instancias que están en el mismo grupo C2, pero no en el mismo grupo C1; yd el número de pares de instancias asignados a diferentes clústeres que C1 y C2.

Las cantidades ayd se pueden interpretar como acuerdos y byc como desacuerdos. El índice Rand se define como:

Criterios de calidad externos (medición basada en información mutua, medición de recuperación de precisión, índice RAND)

El índice Rand está entre 0 y 1. Cuando las dos particiones coinciden perfectamente, el índice Rand es 1.

Un problema con el índice Rand es que su valor esperado de dos agrupaciones aleatorias no toma un valor constante (como cero). Hubert y Arabia en 1985 sugieren un índice Rand ajustado que supera este inconveniente.

Compartir, repartir
es_ESES
A los bloggers de %d les gusta esto: