- Analyse en composantes principales
- Analyse factorielle des correspondances
- Analyse des correspondances multiples
- Analyse canonique
- Positionnement multidimensionnel
- Analyse Factorielle Multiple Hiérarchique
- Analyse Procustéenne Généralisée
- Analyse Factorielle Multiple Duale
- Analyse Factorielle de Données Mixtes
- Iconographie des corrélations
- ACI
- t-SNE
Indice de ressemblance :
- Indice de Jaccard
- Indice de Dice
- Indice de concordance
- Indice de Tanimoto
Algorithmes :
Gestion des données / preprocessing :
- Comment gérer les données manquantes
- Normaliser / Standardiser / Redimensionner vos Données
- De la normalisation des données à la régression
EDA :
- Nettoyages et compréhension des données
- Sélection des colonnes
- Tutoriel sur la réduction de dimensions
- Tutoriel sur le t-SNE
Arbre de décision :
Pipeline :
Contenus
ToggleAnalyse des données
L’analyse des données est un processus d’inspection, de nettoyage, de transformation et de modélisation des données dans le but de découvrir des informations utiles, d’éclairer les conclusions et de soutenir la prise de décision. L’analyse des données a de multiples facettes et approches, englobant diverses techniques sous une variété de noms, et est utilisée dans différents domaines des affaires, des sciences et des sciences sociales. Dans le monde des affaires d’aujourd’hui, l’analyse des données joue un rôle dans la prise de décisions plus scientifiques et aide les entreprises à fonctionner plus efficacement.
Dans les applications statistiques, l’analyse des données peut être divisée en statistiques descriptives, analyse exploratoire des données et analyse des données confirmatoires. Il se concentre sur la découverte de nouvelles fonctionnalités dans les données tandis que le dernier se concentre sur la confirmation ou la falsification des hypothèses existantes. L’analyse prédictive se concentre sur l’application de modèles statistiques pour la prévision ou la classification prédictive, tandis que l’analyse de texte applique des techniques statistiques, linguistiques et structurelles pour extraire et classer des informations à partir de sources textuelles, une espèce de données non structurées. Tout ce qui précède sont des variétés d’analyse de données.
L’intégration des données est un précurseur de l’analyse des données, et l’analyse des données est étroitement liée à la visualisation et à la diffusion des données.
L’analyse consiste à diviser un tout en ses composants distincts pour un examen individuel. L’analyse des données est un processus permettant d’obtenir des données brutes, puis de les convertir en informations utiles à la prise de décision par les utilisateurs. Les données sont collectées et analysées pour répondre à des questions, tester des hypothèses ou réfuter des théories.
Le statisticien John Tukey a défini l’analyse des données en 1961 comme :
« Procédures d’analyse des données, techniques d’interprétation des résultats de ces procédures, manières de planifier la collecte des données pour en rendre l’analyse plus aisée, plus précise ou plus exacte, et tous les mécanismes et résultats de la statistique (mathématique) qui s’appliquent à l’analyse des données . »
Plusieurs phases peuvent être distinguées. Les phases sont itératives, en ce sens que les commentaires des phases ultérieures peuvent entraîner un travail supplémentaire dans les phases précédentes.