Меры расстояния для атрибутов смешанного типа

Меры расстояния для атрибутов смешанного типа

Многие методы разделение используйте меры расстояния, чтобы определить сходство или различие между любой парой объектов (например, меры расстояния для атрибутов смешанного типа). Обычно расстояние между двумя экземплярами x_i и x_j обозначается как: d(x_i, x_j). Действительная мера расстояния должна быть симметричной и получать минимальное значение (обычно нулевое) в случае идентичных векторов. Мера расстояния называется метрической мерой расстояния, если она также удовлетворяет следующим свойствам:

Меры расстояния для атрибутов смешанного типа

В случаях, когда экземпляры характеризуются признаками смешанного типа, можно вычислить расстояние, комбинируя разные методы. Например, при вычислении расстояния между экземплярами i и j с использованием такой метрики, как евклидово расстояние, можно вычислить разницу между номинальные атрибуты и двоичные как 0 или 1 («совпадение» или «несоответствие» соответственно), а разница между числовые атрибуты как разность между их нормированными значениями. Квадрат каждой из этих разностей будет добавлен к общему расстоянию. Такой расчет используется во многих алгоритмах кластеризации.

Различие d(x_i, x_j) между двумя экземплярами, содержащими атрибуты p смешанных типов, определяется как:

Меры расстояния для атрибутов смешанного типа

где показатель δ = 0, если отсутствует одно из значений. Вклад атрибута n в расстояние между двумя объектами d^(n) рассчитывается в соответствии с его типом.

Если атрибут двоичный или категориальный:

Меры расстояния для атрибутов смешанного типа

Если атрибут имеет непрерывное значение (где h перебирает все неотсутствующие объекты для атрибута n):

Меры расстояния для атрибутов смешанного типа

Если атрибут является порядковым, сначала вычисляются нормализованные значения атрибута, затем z_i,n обрабатывается как непрерывное значение.

Делиться
ru_RURU