Criterios de calidad internos

Criterios de calidad internos

Los criterios de calidad internos (criterio de Condorcet, criterio C, métrica de utilidad de categoría, medidas de corte) generalmente miden la compacidad de los conglomerados utilizando una medida de similitud. Por lo general, mide la homogeneidad dentro de los conglomerados, la separabilidad entre los conglomerados o una combinación de estos dos. No utiliza información externa junto con los datos en sí. Aquí hay cuatro criterios de calidad internos.

Criterio de Condorcet

Otro enfoque adecuado es aplicar la solución de Condorcet al problema de clasificación. En este caso, el criterio se calcula de la siguiente manera:

criterios de calidad internos criterio de condorcet

donde s (x_j, x_k) y d (x_j, x_k) miden la similitud y la distancia de los vectores x_j y x_k.

Criterio C

El criterio C es una extensión del criterio de Condorcet y se define como (donde γ es un valor umbral):

criterio de calidad interno criterio C

Métrica de utilidad de categoría

La utilidad de categoría se define como el aumento del número esperado de valores de entidad que pueden predecirse correctamente dada una determinada agrupación. Esta métrica es útil para problemas que contienen un número relativamente pequeño de características nominales, cada una de las cuales tiene una cardinalidad pequeña.

Medidas de corte

En algunos casos, es útil representar el problema de agrupamiento como un problema de corte mínimo. En tales casos, la calidad se mide como la relación entre los pesos restantes y los pesos cortados totales. Si no hay restricción en el tamaño de los conglomerados, es fácil encontrar el valor óptimo. Así, se revisa la medida min-cut para penalizar las estructuras desequilibradas.

Compartir, repartir