Разделение данных

Содержимое спойлера

Разделение данных

Процесс разделения данных относится к шагам, которые представляют собой последовательность, необходимую для полного анализа. Последствия решений, принятых в каждой из этих областей:

  1. Объекты, которые необходимо сгруппировать, должны быть выбраны. Элементы следует выбирать так, чтобы они представляли структуру кластеров в совокупности.
  2. Выбираются переменные, которые будут использоваться в кластерном анализе. Опять же, переменные должны содержать достаточно информации, чтобы можно было группировать объекты.
  3. Пользователь должен решить, следует ли нормализовать данные. Если необходимо выполнить нормализацию, пользователь должен выбрать одну процедуру из нескольких различных подходов.
  4. Должна быть выбрана мера сходства или несходства. Эти измерения отражают степень близости или разделения между объектами.
  5. Необходимо выбрать метод кластеризации. Представление пользователя о том, что представляет собой кластер, важно, потому что были разработаны различные методы для поиска различных типов кластерных структур.
  6. в количество кластеров должны быть определены.
  7. Последним шагом в процессе кластеризации является интерпретация, тестирование и повторение кластерного анализа. Интерпретация кластеров в прикладном контексте требует знаний и опыта пользователя в конкретной дисциплине. Тесты включают проблему определения того, имеет ли место значительная кластеризация или произвольное разделение случайного шума. Наконец, репликация определяет, может ли результирующая структура кластера быть реплицирована в других экземплярах.

Хотя для конкретного приложения могут потребоваться вариации этого семиэтапного процесса, эта последовательность представляет собой критические этапы кластерного анализа.

Разделение и классификация данных — две фундаментальные задачи интеллектуального анализа данных. Классификация в основном используется как метод обучения с учителем, разделения данных для обучения без учителя (некоторые модели разделения делают и то, и другое). Цель разделения данных — описательная, цель классификации — предсказательная. Поскольку цель разделения данных состоит в том, чтобы открыть новый набор категорий, новые группы интересны сами по себе, и их оценка является внутренней. Однако в задачах классификации важная часть оценки является внешней, поскольку группы должны отражать набор эталонных классов.

разделение данных

Делиться
ru_RURU