Estadística de Hopkins

Estadística de Hopkins

Antes de agrupar un conjunto de datos, podemos probar si realmente hay clústeres. Necesitamos probar la hipótesis de la existencia de patrones en los datos contra un conjunto de datos distribuidos uniformemente (distribución homogénea).

La estadística de Hopkins se calcula de la siguiente manera:

  1. Muestre n puntos (p_i) del conjunto de datos (D) de manera uniforme y calcule la distancia a su vecino más cercano (d (p_i))
  2. Genere n puntos (q_i) distribuidos uniformemente en el espacio del conjunto de datos y calcule su distancia a los vecinos más cercanos en D (d (q_i))
  3. Calcula el cociente H:
Estadística de Hopkins

Si los datos se distribuyen uniformemente, el valor de H será aproximadamente 0,5.

Estadística de Hopkins