Partición de datos/agrupación en clústeres 101

Partición de datos

El proceso de partición de datos se refiere a los pasos que representan la secuencia requerida para un análisis completo. Implicaciones de las decisiones tomadas en cada una de estas áreas:

  1. Deben seleccionarse las entidades a agrupar. Los elementos deben elegirse para que sean representativos de la estructura de los conglomerados de la población.
  2. Se seleccionan las variables a utilizar en el análisis de conglomerados. Nuevamente, las variables deben contener suficiente información para permitir la agrupación de objetos.
  3. El usuario debe decidir si normalizar o no los datos. Si se va a realizar la normalización, el usuario debe seleccionar un procedimiento de varios enfoques diferentes.
  4. Debe seleccionarse una medida de similitud o disimilitud. Estas medidas reflejan el grado de proximidad o separación entre objetos.
  5. Se debe seleccionar un método de agrupación. El concepto del usuario de lo que constituye un conglomerado es importante porque se han ideado diferentes métodos para encontrar diferentes tipos de estructuras de conglomerados.
  6. los número de grupos debe ser determinado.
  7. El paso final en el proceso de agrupación es interpretar, probar y replicar el análisis de agrupación. La interpretación de los clústeres con el contexto aplicado requiere el conocimiento y la experiencia de la disciplina particular del usuario. Las pruebas implican el problema de determinar si existe un agrupamiento significativo o una partición arbitraria del ruido aleatorio. Finalmente, la replicación determina si la estructura de clúster resultante se puede replicar en otras instancias.

Aunque se pueden necesitar variaciones en este proceso de siete pasos para adaptarse a una aplicación en particular, esta secuencia representa los pasos críticos en un análisis de conglomerados.

La partición y clasificación de datos son dos tareas fundamentales en la minería de datos. La clasificación se utiliza principalmente como un método de aprendizaje supervisado, partición de datos para el aprendizaje no supervisado (algunos modelos de partición hacen ambas cosas). El objetivo de la partición de datos es descriptivo, el de la clasificación es predictivo. Dado que el propósito de la partición de datos es descubrir un nuevo conjunto de categorías, los nuevos grupos son interesantes en sí mismos y su evaluación es intrínseca. En las tareas de clasificación, sin embargo, una parte importante de la evaluación es extrínseca, ya que los grupos deben reflejar un conjunto de clases de referencia.

Aquí hay una comparación de 4V de los algoritmos más utilizados:

Las fortalezas y debilidades de cada categoría:

Así como las métricas de comparación más habituales:

ES
FR
FR
EN
ES
Salir de la versión móvil