Entropía, pureza y medida V
Dado que el grupo completo (todos los objetos de la misma clase se asignan a un solo grupo) y el grupo homogéneo (cada grupo solo contiene objetos de la misma clase) rara vez se alcanzan, nuestro objetivo es lograr un equilibrio satisfactorio entre estos dos enfoques. Por lo tanto, generalmente aplicamos cinco criterios de agrupación bien conocidos para evaluar el rendimiento de la partición, que son pureza, entropía H, medida V, índice RAND y medida F. primero. Los demás están expuestos en otra página.
La medida de entropía se usa para mostrar cómo se dividen los grupos de oraciones dentro de cada grupo, y se conoce como el promedio de los valores ponderados en cada entropía de grupo sobre todos los grupos C = {c_1,…, c_n}:

La pureza de un grupo es la fracción del tamaño del grupo que representa la clase más grande de oraciones asignadas a este grupo, a saber:

La pureza general es la suma ponderada de las purezas de los grupos individuales dada por:

Aunque la pureza y la entropía son útiles para comparar fraccionamiento con el mismo número de grupos, no son fiables cuando se comparan particiones con diferentes números de clústeres. De hecho, la entropía y la pureza funcionan sobre cómo se dividen los conjuntos de oraciones dentro de cada grupo, y esto conducirá a un caso de homogeneidad. Los puntajes de pureza más altos y los puntajes de entropía más bajos generalmente se obtienen cuando el número total de grupos es demasiado grande, donde este paso conducirá a ser el más bajo en integridad. La siguiente medida considera tanto los enfoques de completitud como los de consistencia.
La medida V se conoce como la media armónica de homogeneidad e integridad; es decir, V = homogeneidad * completitud / (homogeneidad + completitud), donde homogeneidad y completitud se definen como homogeneidad = 1-H (C | L) / H (C) y completitud = 1-H (L | C) / H ( L) donde:
