Качество по количеству кластеров

Качество по количеству кластеров

Тема, связанная с проверкой кластеров, заключается в том, чтобы решить, является ли количество полученных кластеров правильным (Качество по количеству кластеров). Этот момент особенно важен для алгоритмов, которым это значение необходимо в качестве параметра. Обычной процедурой является сравнение характеристик кластеров разного размера. Как правило, в этом сравнении используются индексы внутренних критериев. График этих индексов для разного количества кластеров может показать наиболее вероятное количество кластеров.

Для этой цели можно использовать некоторые внутренние индексы валидности: индекс Калинского-Харабаша, Силуэт. Используя матрицу рассеивание внутриклассовые (S_W), могут быть определены другие критерии (индекс Хартигана и индекс Кршановского Лая):

Качество по количеству кластеров

Давайте оценим количество кластеров, сравнив кластер с ожидаемым распределением данных при нулевой гипотезе (отсутствие кластеров). Давайте посчитаем различные кластеры данных, увеличивая количество кластеров, и сравним их с кластерами данных (B), сгенерированными с равномерным распределением.

Матрица межклассового расстояния S_W рассчитывается для обоих и сравнивается. Правильное количество кластеров — это место, где появляется наибольшее несоответствие между S_W данных и однородными данными (первый член следующего уравнения):

Качество по количеству кластеров

Вероятное количество кластеров — это наименьшее число, которое удовлетворяет:

Качество по количеству кластеров

где s_k определяется как (sd_k — стандартное отклонение первого термина Gap):

Качество по количеству кластеров
Делиться
ru_RURU