Partición de datos/agrupación en clústeres 101

Partición de datos

El proceso de partición de datos se refiere a los pasos que representan la secuencia requerida para un análisis completo. Implicaciones de las decisiones tomadas en cada una de estas áreas:

  1. Deben seleccionarse las entidades a agrupar. Los elementos deben elegirse para que sean representativos de la estructura de los conglomerados de la población.
  2. Se seleccionan las variables que se utilizarán en el análisis de conglomerados. Nuevamente, las variables deben contener suficiente información para permitir la agrupación de objetos.
  3. El usuario debe decidir si normalizar o no los datos. Si se va a realizar la normalización, el usuario debe seleccionar un procedimiento entre varios enfoques diferentes.
  4. Debe seleccionarse una medida de similitud o disimilitud. Estas medidas reflejan el grado de proximidad o separación entre objetos.
  5. Se debe seleccionar un método de agrupamiento. El concepto del usuario de lo que constituye un clúster es importante porque se han ideado diferentes métodos para encontrar diferentes tipos de estructuras de clúster.
  6. los número de grupos debe ser determinado.
  7. El paso final en el proceso de agrupación es interpretar, probar y replicar el análisis de agrupación. La interpretación de grupos con el contexto aplicado requiere el conocimiento y la experiencia del usuario en la disciplina en particular. Las pruebas implican el problema de determinar si hay un agrupamiento significativo o una partición arbitraria del ruido aleatorio. Finalmente, la replicación determina si la estructura de clúster resultante se puede replicar en otros ejemplos.

Aunque pueden ser necesarias variaciones en este proceso de siete fases para adaptarse a una aplicación particular, esta secuencia representa los pasos críticos en un análisis de conglomerados.

El particionamiento y la clasificación de datos son dos tareas fundamentales en la minería de datos. La clasificación se utiliza principalmente como un método de aprendizaje supervisado, la partición de datos para el aprendizaje no supervisado (algunos modelos de partición hacen ambas cosas). El propósito de la partición de datos es descriptivo, el de clasificación es predictivo. Dado que el propósito de la partición de datos es descubrir un nuevo conjunto de categorías, los nuevos grupos son interesantes en sí mismos y su evaluación es intrínseca. En las tareas de clasificación, sin embargo, una parte importante de la evaluación es extrínseca, ya que los grupos deben reflejar un conjunto de clases de referencia.

particionamiento de datos

Aquí hay una comparación de 4V de los algoritmos más utilizados:

agrupamiento

Las fortalezas y debilidades de cada categoría:

agrupamiento

Así como las métricas de comparación más habituales:

agrupamiento