Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт
Калински-Харабаш, Дэвис-Булдин, Данн и Силуэт хорошо работают в самых разных ситуациях.
Индекс Калинского-Харабаша
Производительность на основе НИУ ВШЭ средние внутри- и межкластерные (Tr):

где B_k — матрица рассеивание между кластерами, а W_k — матрица рассеяния внутри кластера, определяемая:

где N — количество точек в наших данных, C_q — набор точек в кластере q, c_q — центр кластера q, c — центр E, n_q — количество точек в кластере q.
Индекс Дэвиса-Булдина
Этот индекс рассматривает каждый кластер отдельно и пытается измерить, насколько он похож на ближайший к нему кластер. Индекс БД формулируется следующим образом:

I(c_i) представляет собой среднее расстояние между объектами, принадлежащими кластеру C_i, и его центром. И I(c_i,c_j) представляет собой расстояние между центрами двух кластеров C_i и C_j.
Для каждого кластера i раздела мы ищем кластер j, который максимизирует индекс, описанный следующим образом:

Таким образом, лучшим разделом является тот, который минимизирует среднее значение, рассчитанное для каждого кластера. Другими словами, лучший раздел — тот, который сводит к минимуму сходство между кластерами.
Индекс Данна
Индекс Данна — это еще одна внутренняя метрика проверки кластера, которую можно рассчитать следующим образом:
- Для каждого кластера рассчитайте расстояние между каждым из объектов в кластере и объектами в других кластерах.
- Используйте минимум этого расстояния на пару в качестве межкластерного разделения (min.separation)
- Для каждого кластера рассчитайте расстояние между объектами в одном кластере.
- Используйте максимальное расстояние внутри кластера (т. е. максимальный диаметр) в качестве компактности внутри кластера.
- Рассчитайте индекс Данна (D) следующим образом:

Силуэт
Проверяет производительность на основе внутрикластерных и межкластерных расстояний:

где a (i) среднее отличие от других данных кластера и b (i) наименьшее отличие от любого кластера, не являющегося членом, для каждого x_i и центра кластера y:

Коэффициент силуэта варьируется от -1 (худший рейтинг) до 1 (лучший рейтинг). Часто рассчитывается общее среднее значение Силуэта.
