Partitionnement de données / Clustering 101

Partitionnement de données

Le processus de partitionnement de données fait référence aux étapes qui représentent la séquence nécessaire à une analyse complète. Implications des décisions prises dans chacun de ces domaines :

  1. Les entités à regrouper doivent être sélectionnées. Les éléments doivent être choisis pour être représentatifs de la structure des clusters dans la population.
  2. Les variables à utiliser dans l’analyse des clusters sont sélectionnées. Encore une fois, les variables doivent contenir suffisamment d’informations pour permettre le regroupement des objets.
  3. L’utilisateur doit décider de normaliser ou non les données. Si la normalisation doit être effectuée, l’utilisateur doit sélectionner une procédure parmi plusieurs approches différentes.
  4. Une mesure de similitude ou de dissimilarité doit être sélectionnée. Ces mesures reflètent le degré de proximité ou de séparation entre les objets.
  5. Une méthode de clustering doit être sélectionnée. Le concept de l’utilisateur de ce qui constitue un cluster est important car différentes méthodes ont été conçues pour trouver différents types de structures de cluster.
  6. Le nombre de clusters doit être déterminé.
  7. La dernière étape du processus de clustering consiste à interpréter, tester et répliquer l’analyse des clusters. L’interprétation des clusters avec le contexte appliqué nécessite la connaissance et l’expertise de la discipline particulière de l’utilisateur. Les tests impliquent le problème de déterminer s’il existe un regroupement significatif ou une partition arbitraire du bruit aléatoires. Enfin, la réplication détermine si la structure de cluster résultante peut être répliquée dans d’autres exemples.

Bien que des variations sur ce processus en sept phases puissent être nécessaires pour s’adapter à une application particulière, cette séquence représente les étapes critiques d’une analyse de cluster.

Le partitionnement de données et la classification sont deux tâches fondamentales dans l’exploration de données. La classification est principalement utilisée comme méthode d’apprentissage supervisé, le partitionnement de données pour l’apprentissage non supervisé (certains modèles de partitionnement font les deux). L’objectif du partitionnement de données est descriptif, celui de la classification est prédictif. Le but du partitionnement de données étant de découvrir un nouvel ensemble de catégories, les nouveaux groupes sont intéressants en eux-mêmes et leur évaluation est intrinsèque. Dans les tâches de classification, cependant, une partie importante de l’évaluation est extrinsèque, car les groupes doivent refléter un ensemble de classes de référence.

partitionnement de données

Voici une comparaison 4V des algorithmes les plus fréquemment utilisés :

clustering

Les points forts et faiblesses de chaque catégorie :

clustering

Ainsi que les métriques de comparaisons les plus communes :

clustering