Bonnes pratiques de l'analyse exploratoire des données

Cette page décrit les bonnes pratiques de l’analyse exploratoire des données : que faire avec un jeu de données afin d’en comprendre le contenu.

Contenus

Conseils et bonnes pratiques de l'analyse exploratoire des données (EDA)

L’analyse exploratoire des données fait référence au processus critique consistant à effectuer des enquêtes initiales sur les données afin de découvrir des modèles, de repérer des anomalies, de tester des hypothèses et de vérifier des hypothèses à l’aide de statistiques récapitulatives et de représentations graphiques.

C’est une bonne pratique de comprendre d’abord les données et d’essayer d’en tirer le maximum d’informations. L’EDA consiste à donner un sens aux données en main, avant de les salir avec.

Je vais prendre un exemple de variante blanche de l’ensemble de données Wine Quality qui est disponible sur UCI Machine Learning Repository et essayer de saisir autant d’informations à partir de l’ensemble de données à l’aide d’EDA.

Pour commencer, j’ai importé les bibliothèques nécessaires (pour cet exemple pandas, numpy, matplotlib et seaborn) et chargé l’ensemble de données.

J’ai découvert le nombre total de lignes et de colonnes dans l’ensemble de données à l’aide de « .shape ».

L’ensemble de données comprend 4898 observations et 12 caractéristiques. Dont une est une variable dépendante et les 11 autres sont des variables indépendantes – caractéristiques physico-chimiques.

Il est également recommandé de connaître les colonnes et leurs types de données correspondants, ainsi que de déterminer s’ils contiennent ou non des valeurs nulles.

Les données n’ont que des valeurs flottantes et entières. Aucune colonne de variable n’a de valeurs nulles/manquantes.

Description des valeurs quantitatives

La fonction describe() dans pandas est très pratique pour obtenir diverses statistiques récapitulatives. Cette fonction renvoie le nombre, la moyenne, l’écart type, les valeurs minimales et maximales et les quantiles des données.

Ici, comme vous pouvez le constater, la valeur moyenne est inférieure à la valeur médiane de chaque colonne qui est représentée par 50 % (50e centile) dans la colonne d’index. Il y a notamment une grande différence entre les valeurs 75e %tile et max des prédicteurs « sucre résiduel », « dioxyde de soufre libre », « dioxyde de soufre total ». Ainsi, les observations 1 et 2 suggèrent qu’il existe des valeurs extrêmes-Outliers dans notre ensemble de données.

Python a une bibliothèque de visualisation, Seaborn, qui s’appuie sur matplotlib. Il fournit des graphiques statistiques très attrayants afin d’effectuer des analyses univariées et multivariées.

Sélection des colonnes

Pour utiliser les données pour la modélisation, il est nécessaire de supprimer les variables corrélées pour améliorer votre modèle. On peut trouver des corrélations à l’aide de la fonction « .corr() » de pandas et visualiser la matrice de corrélation à l’aide d’une carte thermique dans seaborn.

Ici, nous pouvons déduire que la « densité » a une forte corrélation positive avec le « sucre résiduel » alors qu’elle a une forte corrélation négative avec « l’alcool ». « anhydride sulfureux libre » et « acide citrique » n’ont presque aucune corrélation avec la « qualité ».

Étant donné que la corrélation est nulle, nous pouvons en déduire qu’il n’y a pas de relation linéaire entre ces deux prédicteurs. Cependant, il est prudent de supprimer ces fonctionnalités au cas où vous appliquez le modèle de régression linéaire à l’ensemble de données.

Une boîte à moustaches (ou boîte à moustaches) montre la distribution des données quantitatives d’une manière qui facilite les comparaisons entre les variables. La boîte montre les quartiles de l’ensemble de données tandis que les moustaches s’étendent pour montrer le reste de la distribution.

Dans la boîte à moustaches la plus simple, le rectangle central s’étend du premier quartile au troisième quartile (l’intervalle interquartile ou IQR). Un segment à l’intérieur du rectangle montre la médiane et les « moustaches » au-dessus et au-dessous de la boîte montrent les emplacements du minimum et du maximum.

Les valeurs aberrantes sont soit 3 × IQR ou plus au-dessus du troisième quartile, soit 3 × IQR ou plus en dessous du premier quartile. Dans notre ensemble de données, à l’exception de « l’alcool », toutes les autres colonnes de caractéristiques affichent des valeurs aberrantes.

Maintenant, pour vérifier la linéarité des variables, il est recommandé de tracer un graphique de distribution et de rechercher l’asymétrie des caractéristiques. L’estimation de la densité du noyau (kde) est un outil très utile pour tracer la forme d’une distribution.

La colonne « pH » semble être distribuée normalement. Toutes les variables indépendantes restantes sont asymétriques à droite / positivement asymétriques.

Données qualitative

Pour l’exploration des données qualitatives, je vous invite à revenir au glossaire du cours d’analyse descriptive et de choisir les Exercices correspondants.