Лучшие практики исследовательского анализа данных

На этой странице описаны передовые методы исследовательского анализа данных: что делать с набором данных, чтобы понять его содержимое.

лучшие практики исследовательского анализа данных

Исследовательский анализ данных относится к критическому процессу выполнения первоначальных исследований данных для обнаружения закономерностей, выявления аномалий, проверки гипотез и проверки гипотез с использованием сводной статистики и графических представлений.

Рекомендуется сначала понять данные и попытаться извлечь из них как можно больше информации. EDA заключается в том, чтобы осмыслить имеющиеся данные, прежде чем загрязнять их ими.

Я возьму в качестве примера белый вариант набора данных Wine Quality, который доступен в репозитории машинного обучения UCI, и попытаюсь получить как можно больше информации из набора данных с помощью EDA.

Для начала я импортировал необходимые библиотеки (например, pandas, numpy, matplotlib и seaborn) и загрузил набор данных.

Лучшие практики исследовательского анализа данных

Я узнал общее количество строк и столбцов в наборе данных, используя «.shape».

Набор данных включает 4898 наблюдений и 12 признаков. Одна из которых является зависимой переменной, а остальные 11 являются независимыми переменными – физико-химическими характеристиками.

Также рекомендуется знать столбцы и соответствующие им типы данных, а также определять, содержат ли они нулевые значения.

Лучшие практики исследовательского анализа данных

Данные имеют только значения с плавающей запятой и целые числа. Ни один из столбцов переменных не имеет нулевых/отсутствующих значений.

Описание количественных значений

Функция description() в pandas очень удобна для получения различной сводной статистики. Эта функция возвращает количество, среднее значение, стандартное отклонение, минимальное и максимальное значения и квантили данных.

Лучшие практики исследовательского анализа данных

Здесь, как вы можете видеть, среднее значение ниже среднего значения каждого столбца, которое представлено 50 % (50-й процентиль) в столбце индекса. В частности, имеется большая разница между 75-м %tile и max значениями предикторов «остаточный сахар», «свободный диоксид серы», «общий диоксид серы». Таким образом, наблюдения 1 и 2 предполагают, что в нашем наборе данных есть экстремальные выбросы.

В Python есть библиотека визуализации Seaborn, основанная на matplotlib. Он предоставляет очень привлекательные статистические графики для выполнения одномерного и многомерного анализа.

Выбор столбцов

Чтобы использовать данные для моделирования, необходимо удалить коррелированные переменные, чтобы улучшить вашу модель. Можно найти корреляции, используя функцию pandas '.corr()', и визуализировать матрицу корреляция используя тепловую карту в Seaborn.

Лучшие практики исследовательского анализа данных

Отсюда мы можем сделать вывод, что «плотность» имеет сильную положительную корреляцию с «остаточным сахаром», в то время как она имеет сильную отрицательную корреляцию с «алкоголем». "свободный диоксид серы" и "лимонная кислота" почти не имеют корреляции с "качеством".

Поскольку корреляция равна нулю, мы можем сделать вывод, что между этими двумя предикторами нет линейной зависимости. Однако безопасно удалить эти функции, если вы применяете модель регрессия линейно по отношению к набору данных.

Блочная диаграмма (или блочная диаграмма) показывает распределение количественных данных таким образом, чтобы облегчить сравнение между переменными. В рамке показаны квартили набора данных, а усы расширяются, чтобы показать остальную часть распределения.

На простейшей блочной диаграмме центральный прямоугольник простирается от первого квартиля до третьего квартиля (межквартильный диапазон или IQR). Сегмент внутри прямоугольника показывает медиану, а «усы» над и под прямоугольником показывают местоположения минимума и максимума.

Лучшие практики исследовательского анализа данных

Выбросы либо на 3 × IQR или более выше третьего квартиля, либо на 3 × IQR или более ниже первого квартиля. В нашем наборе данных, кроме «алкоголя», все остальные столбцы признаков показывают выбросы.

Теперь для проверки линейности переменных рекомендуется построить график распределения и найти асимметрию признаков. Оценка плотности ядра (kde) — очень полезный инструмент для построения формы распределения.

Лучшие практики исследовательского анализа данных

Столбец «рН» распределен нормально. Все оставшиеся независимые переменные смещены вправо/влево.

Качественные данные

Для изучения качественных данных я предлагаю вам вернуться к глоссарию курса описательного анализа и выбрать соответствующие упражнения.

Делиться
ru_RURU