Энтропия, чистота и V-мера
Поскольку полный кластер (все объекты одного класса относятся к одному кластеру) и однородный кластер (каждый кластер содержит только объекты одного класса) редко достигаются, мы стремимся достичь удовлетворительного равновесия между этими двумя подходами. Поэтому мы обычно применяем пять хорошо известных критериев кластеризации для оценки производительности раздела, а именно: чистоту, H-энтропию, V-метрику, индекс RAND и F-метрику.На этой странице представлены первые три. Остальные выставлены на другой странице.
Мера энтропии используется, чтобы показать, как кластеры предложений разделены внутри каждого кластера, и она известна как среднее взвешенных значений энтропии каждого кластера по всем кластерам C = {c_1, …, c_n}:

Чистота кластера — это доля размера кластера, представленная наибольшим классом предложений, отнесенных к этому кластеру, а именно:

Общая чистота представляет собой взвешенную сумму чистоты отдельных кластеров, определяемую как:

Хотя чистота и энтропия полезны для сравнения разделение с тем же количество кластеров, они ненадежны при сравнении секционирования с разным количеством кластеров. Действительно, энтропия и чистота влияют на то, как наборы предложений разделены внутри каждого кластера, и это приводит к случаю однородности. Самые высокие оценки чистоты и самые низкие оценки энтропии обычно получаются, когда общее количество кластеров слишком велико, где этот шаг приведет к наименьшей полноте. Следующая мера учитывает подходы как к полноте, так и к согласованности.
Мера V известна как среднее гармоническое однородности и полноты; то есть V = однородность * полнота / (однородность + полнота), где однородность и полнота определяются как однородность = 1-H(C|L)/H(C) и полнота = 1-H(L|C)/H (Л), где:
