Внешние критерии качества

Внешние критерии качества

Внешние критерии качества (мера, основанная на взаимной информации, мера точности припоминания, индекс RAND) могут быть полезны для проверки того, соответствует ли структура кластеров предопределенной классификации экземпляров. Критерии внешнего качества поясняются ниже.

Измерение на основе взаимной информации

Критерий взаимной информации может использоваться как внешняя мера кластеризация. Метрика для m экземпляров, сгруппированных с помощью C = {C_1,. . . , C_g} и ссылаясь на целевой атрибут y, домен которого dom(y)={c_1,. . . , c_k} определяется следующим образом:

внешние критерии качества (измерение на основе взаимной информации, точное измерение отзыва, индекс RAND)

где m_l,h указывает количество экземпляров, которые находятся в кластере C_l, а также в классе c_h. m.,h указывает общее количество экземпляров в классе c_h. Аналогично, m_l,. указывает количество экземпляров кластера C_l.

МИ сочетается с энтропией в НМИ:

внешние критерии качества (измерение на основе взаимной информации, точное измерение отзыва, индекс RAND)

ИМ сочетается с энтропией в ОМИ:

внешние критерии качества (измерение на основе взаимной информации, точное измерение отзыва, индекс RAND)

Точное измерение отзыва

Мера точности отзыва из информационного поиска может использоваться в качестве внешней меры для оценки кластеров. Кластер рассматривается как результат запроса для определенного класса. Точность — это доля правильно извлеченных экземпляров, а полнота — это доля правильно извлеченных экземпляров всех совпадающих экземпляров. Комбинированная F-мера может быть полезна для оценки структуры кластеризации.

Индекс ранда

Индекс Рэнда представляет собой простой критерий, используемый для сравнения индуцированной структуры агрегации (C1) с заданной структурой агрегации (C2). Пусть a будет количеством пар экземпляров, назначенных одному и тому же кластеру в C1 и одному и тому же кластеру в C2; пусть b — количество пар экземпляров, находящихся в одном кластере C1, но не в одном кластере C2; пусть c — количество пар экземпляров, находящихся в одном кластере C2, но не в одном кластере C1; d — количество пар экземпляров, назначенных кластерам, отличным от C1 и C2.

Величины a и d можно интерпретировать как согласие, а b и c как несогласие. Индекс Рэнда определяется как:

внешние критерии качества (измерение на основе взаимной информации, точное измерение отзыва, индекс RAND)

Индекс Rand находится в диапазоне от 0 до 1. Когда два раздела полностью совпадают, индекс Rand равен 1.

Проблема с индексом Рэнда заключается в том, что его ожидаемое значение двух случайных группировок не принимает постоянного значения (например, нуля). Хьюберт и Аравия в 1985 году предложили скорректированный индекс Рэнда, который устраняет этот недостаток.

Делиться
ru_RURU