Минковский для числовых атрибутов

Минковский для числовых атрибутов

Многие методы разделение используйте меры расстояния, чтобы определить сходство или несходство между любой парой объектов (как Минковский для числовых атрибутов). Обычно расстояние между двумя экземплярами x_i и x_j обозначается как: d(x_i, x_j). Действительная мера расстояния должна быть симметричной и получать минимальное значение (обычно нулевое) в случае идентичных векторов. Мера расстояния называется метрической мерой расстояния, если она также удовлетворяет следующим свойствам:

Минковский для числовых атрибутов

Учитывая два p-мерных экземпляра, x_i = (x_i1, x_i2,…, X_ip) и x_j = (x_j1, x_2,…, X_jp), расстояние между двумя экземплярами данных можно рассчитать с использованием метрики Минковского:

Минковский для числовых атрибутов

Обычно используемое евклидово расстояние между двумя объектами достигается, когда g = 2. При g = 1 получается сумма абсолютных параксиальных расстояний (манхэттенская метрика), а при g = ∞ наибольшее из параксиальных расстояний (манхэттенская метрика) равно получено С. Чебышева).

Используемая единица измерения может повлиять на кластерный анализ. Чтобы избежать зависимости от выбора единиц измерения, данные должны быть нормализованы. Стандартизация измерений пытается придать всем переменным одинаковый вес. Однако если каждой переменной присвоить вес в соответствии с ее важностью, взвешенное расстояние можно рассчитать следующим образом:

Минковский для числовых атрибутов

 

Делиться
ru_RURU