Корреляция и регрессии

Содержимое спойлера

Корреляция и регрессии

В статистике корреляция или зависимость — это любая статистическая связь, причинно-следственная или нет, между двумя случайными величинами или двумерными данными. Хотя в самом широком смысле «корреляция» может обозначать любой тип ассоциации, в статистике она обычно относится к степени, в которой пара переменных связана линейно. Знакомые примеры зависимых явлений включают корреляцию между размерами родителей и их потомков, а также корреляцию между ценой товара и количеством, которое потребители готовы купить, как это представлено на так называемой кривой спроса.

Корреляции полезны, поскольку они могут указывать на прогностическую взаимосвязь, которую можно использовать на практике. Например, электроэнергетическая компания может производить меньше электроэнергии в теплую погоду в зависимости от соотношения между спросом на электроэнергию и погодными условиями. В этом примере существует причинно-следственная связь, поскольку экстремальные погодные условия заставляют людей использовать больше электроэнергии для обогрева или охлаждения. Однако, как правило, наличия корреляции недостаточно для вывода о наличии причинно-следственной связи (т. е. корреляция не подразумевает причинно-следственную связь).

В статистическом моделировании регрессионный анализ представляет собой набор статистических процессов для оценки отношений между зависимой переменной (часто называемой переменной «результат» или «ответ») и одной или несколькими независимыми переменными (часто называемыми «предикторами»). , «объясняющие переменные» или «характеристики»). Наиболее распространенной формой регрессионного анализа является линейная регрессия, при которой находят линию (или более сложную линейную комбинацию), которая лучше всего соответствует данным в соответствии с определенным математическим критерием. 

Например, обычный метод наименьших квадратов вычисляет единственную линию (или гиперплоскость), которая минимизирует сумму квадратов разностей между истинными данными и этой линией (или гиперплоскостью). По причинам математика (см. линейную регрессию), это позволяет исследователю оценить условное ожидание (или среднее значение генеральной совокупности) зависимой переменной, когда независимые переменные принимают заданный набор значений. В менее распространенных формах регрессии используются несколько иные процедуры для оценки альтернативных параметров местоположения (например, квантильная регрессия или анализ необходимых условий) или оценки условного ожидания для большего набора нелинейных моделей (например, непараметрическая регрессия).

Регрессионный анализ в основном используется для двух концептуально различных целей.

Во-первых, регрессионный анализ широко используется для прогнозирования и прогнозирования, где его применение значительно пересекается с областью машинного обучения.

Во-вторых, в некоторых ситуациях регрессионный анализ можно использовать для вывода о причинно-следственных связях между независимыми и зависимыми переменными. Важно отметить, что регрессии сами по себе выявляют только отношения между зависимой переменной и набором независимых переменных в фиксированном наборе данных. Чтобы использовать регрессии для прогнозирования или для вывода о причинно-следственных связях, соответственно, исследователь должен тщательно обосновать, почему существующие взаимосвязи обладают предсказательной силой для нового контекста или почему взаимосвязь между двумя переменными имеет причинно-следственную интерпретацию. Последнее особенно важно, когда исследователи надеются оценить причинно-следственные связи, используя данные наблюдений.

корреляция и регрессии

Делиться
ru_RURU