Esta página describe las mejores prácticas para el análisis exploratorio de datos: qué hacer con un conjunto de datos para comprender su contenido.
Contenido
PalancaConsejos y mejores prácticas para el análisis exploratorio de datos (EDA)
El análisis exploratorio de datos se refiere al proceso crítico de realizar investigaciones iniciales de datos para descubrir patrones, detectar anomalías, probar hipótesis y verificar hipótesis utilizando estadísticas de resumen y gráficos de representaciones.
Es una buena práctica comprender los datos primero y tratar de obtener la mayor cantidad de información posible. EDA se trata de dar sentido a los datos disponibles, antes de ensuciarlos con ellos.
Tomaré una variante blanca de ejemplo del conjunto de datos Wine Quality que está disponible en UCI Machine Learning Repository e intentaré obtener la mayor cantidad de información del conjunto de datos usando EDA.
Para comenzar, importé las bibliotecas necesarias (para este ejemplo, pandas, numpy, matplotlib y seaborn) y cargué el conjunto de datos.
Descubrí el número total de filas y columnas en el conjunto de datos usando '.shape'.
El conjunto de datos incluye 4898 observaciones y 12 características. Una de las cuales es una variable dependiente y las otras 11 son variables independientes: características físico-químicas.
También es una buena práctica conocer las columnas y sus tipos de datos correspondientes, así como determinar si contienen o no valores nulos.
Los datos solo tienen valores flotantes y enteros. Ninguna columna variable tiene valores nulos o faltantes.
Descripción de los valores cuantitativos
La función describe() en pandas es muy útil para obtener varias estadísticas de resumen. Esta función devuelve el recuento, la media, la desviación estándar, los valores mínimo y máximo y los cuantiles de los datos.
Aquí, como puede ver, el valor medio es inferior al valor de la mediana de cada columna, que está representado por 50 % (percentil 50) en la columna de índice. En particular, existe una gran diferencia entre el 75º %tile y los valores máximos de los predictores de "azúcar residual", "dióxido de azufre libre", "dióxido de azufre total". Por lo tanto, las observaciones 1 y 2 sugieren que existen valores atípicos extremos en nuestro conjunto de datos.
Python tiene una biblioteca de visualización, Seaborn, que se basa en matplotlib. Proporciona gráficos estadísticos muy atractivos para realizar análisis univariados y multivariados.
Selección de columnas
Para utilizar los datos para el modelado, es necesario eliminar las variables correlacionadas para mejorar su modelo. Uno puede encontrar correlaciones usando la función pandas '.corr()' y visualizar la matriz de correlación usando un mapa de calor en seaborn.
Aquí podemos deducir que 'densidad' tiene una fuerte correlación positiva con 'azúcar residual' mientras que tiene una fuerte correlación negativa con 'alcohol'. El "dióxido de azufre libre" y el "ácido cítrico" casi no tienen correlación con la "calidad".
Dado que la correlación es cero, podemos deducir que no existe una relación lineal entre estos dos predictores. Sin embargo, es seguro eliminar estas funciones en caso de que aplique el modelo de regresión lineal al conjunto de datos.
Un diagrama de caja (o diagrama de caja) muestra la distribución de datos cuantitativos de una manera que facilita las comparaciones entre variables. El cuadro muestra los cuartiles del conjunto de datos mientras que los bigotes se expanden para mostrar el resto de la distribución.
En el diagrama de caja más simple, el rectángulo central se extiende desde el primer cuartil hasta el tercer cuartil (el rango intercuartílico o IQR). Un segmento dentro del rectángulo muestra la mediana, y los "bigotes" arriba y abajo del cuadro muestran las ubicaciones del mínimo y el máximo.
Los valores atípicos son 3 × IQR o más por encima del tercer cuartil o 3 × IQR o más por debajo del primer cuartil. En nuestro conjunto de datos, a excepción de "alcohol", todas las demás columnas de características muestran valores atípicos.
Ahora, para verificar la linealidad de las variables, se recomienda trazar un gráfico de distribución y encontrar la asimetría de las características. La estimación de densidad kernel (kde) es una herramienta muy útil para trazar la forma de una distribución.
La columna "pH" parece estar distribuida normalmente. Todas las variables independientes restantes tienen sesgo hacia la derecha/sesgo positivo.
Datos cualitativos
Para la exploración de datos cualitativos, los invito a volver al glosario del curso de análisis descriptivo y elegir los Ejercicios correspondientes.