Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт

Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт

Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт хорошо работают в самых разных ситуациях.

Индекс Калинского-Харабаша

Производительность на основе НИУ ВШЭ средние внутри- и межкластерные (Tr):

Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт

где B_k — матрица рассеивание между кластерами, а W_k — матрица рассеяния внутри кластера, определяемая:

Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт

где N — количество точек в наших данных, C_q — набор точек в кластере q, c_q — центр кластера q, c — центр E, n_q — количество точек в кластере q.

Индекс Дэвиса-Булдина

Этот индекс рассматривает каждый кластер отдельно и пытается измерить, насколько он похож на ближайший к нему кластер. Индекс БД формулируется следующим образом:

Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт

I(c_i) представляет собой среднее расстояние между объектами, принадлежащими кластеру C_i, и его центром. И I(c_i,c_j) представляет собой расстояние между центрами двух кластеров C_i и C_j.

Для каждого кластера i раздела мы ищем кластер j, который максимизирует индекс, описанный следующим образом:

Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт

Таким образом, лучшим разделом является тот, который минимизирует среднее значение, рассчитанное для каждого кластера. Другими словами, лучший раздел — тот, который сводит к минимуму сходство между кластерами.

Индекс Данна

Индекс Данна — это еще одна внутренняя метрика проверки кластера, которую можно рассчитать следующим образом:

  1. Для каждого кластера рассчитайте расстояние между каждым из объектов в кластере и объектами в других кластерах.
  2. Используйте минимум этого расстояния на пару в качестве межкластерного разделения (min.separation)
  3. Для каждого кластера рассчитайте расстояние между объектами в одном кластере.
  4. Используйте максимальное расстояние внутри кластера (т. е. максимальный диаметр) в качестве компактности внутри кластера.
  5. Рассчитайте индекс Данна (D) следующим образом:
Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт

Силуэт

Проверяет производительность на основе внутрикластерных и межкластерных расстояний:

Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт

где a (i) среднее отличие от других данных кластера и b (i) наименьшее отличие от любого кластера, не являющегося членом, для каждого x_i и центра кластера y:

Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт

Коэффициент силуэта варьируется от -1 (худший рейтинг) до 1 (лучший рейтинг). Часто рассчитывается общее среднее значение Силуэта.

Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт
Делиться
ru_RURU