Критерии рассеивания

Критерии рассеивания

Метрики внутреннего качества обычно измеряют компактность кластеров, используя меру подобия (например, критерии дисперсии: трассировка, детерминант, инвариантность). Обычно он измеряет внутрикластерную однородность, межкластерную разделимость или их комбинацию. Он не использует внешнюю информацию наряду с самими данными.

Скалярные критерии диффузии выводятся из матриц диффузии, отражающих внутрикластерную диффузию, межкластерную диффузию и их сумму – общую матрицу диффузии. Для k-го кластера матрицу диффузии можно рассчитать следующим образом:

Критерии рассеивания

Матрица внутрикластерного рассеяния рассчитывается как сумма последнего определения по всем кластерам W:

Критерии рассеивания

Матрицу диффузии между кластерами можно рассчитать следующим образом:

Критерии рассеивания

где μ — общий средний вектор, определяемый как:

Критерии рассеивания

Полная матрица рассеяния должна рассчитываться следующим образом:

Критерии рассеивания

Три скалярных критерия могут быть получены из S_W, S_B и S_T.

След

След представляет собой сумму диагональных элементов матрицы. Минимизация следа S_W аналогична минимизации НИУ ВШЭ и поэтому широко используется. Этот критерий, представляющий собой внутрикластерную дисперсию, рассчитывается следующим образом:

Критерии дисперсии следов

Другим критерием, который можно максимизировать, является критерий между кластерами:

Критерии дисперсии следов

Определяющий

Определитель матрицы рассеяния приблизительно измеряет квадрат объема рассеяния. Поскольку S_B будет сингулярным, если количество кластеров меньше или равно размерности, или если mc меньше размерности, ее определитель не является подходящим критерием. Если мы предположим, что S_W не является сингулярным, функция определяющего критерия будет:

Решающие критерии разгона

Инвариантность

Собственные значения λ_1, λ_2,. . . , λ_d из S_W * S_B являются основными линейными инвариантами диффузионных матриц. Хорошие разбиения — это те, у которых ненулевые собственные значения велики. Соответственно, можно вывести несколько критериев, включая собственные значения. Три таких критерия:

Критерии дисперсии инвариантности
Делиться
ru_RURU
%d такие блоггеры, как: