Statistique de Hopkins

Avant de regrouper un ensemble de données, nous pouvons tester s’il existe réellement des clusters. Nous devons tester l’hypothèse de l’existence de modèles dans les données par rapport à un ensemble de données uniformément distribué (distribution homogène).

La statistique de Hopkins est calculée comme suit :

  1. Échantillonner n points (p_i) de l’ensemble de données (D) uniformément et calculer la distance à leur plus proche voisin (d (p_i))
  2. Générer n points (q_i) uniformément répartis dans l’espace du jeu de données et calculer leur distance aux voisins les plus proches en D (d (q_i))
  3. Calculez le quotient H :

Si les données sont uniformément réparties, la valeur de H sera d’environ 0,5.