Значение РЕГРЕССИЯ (МАТЕМАТИЧ.) в Большой советской энциклопедии, БСЭ

Что такое РЕГРЕССИЯ (МАТЕМАТИЧ.)

в теории вероятностей и математической статистике, зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. В отличие от чисто функциональной зависимости у f ( х ), когда каждому значению независимой переменной х соответствует одно определённое значение величины у , при регрессионной связи одному и тому же значению х могут соответствовать в зависимости от случая различные значения величины у. Если при каждом значении х xi наблюдается ni , значений yi 1, ..., величины у , то зависимость средних арифметических от xi и является Р. в статистическом понимании этого термина. Примером такого рода зависимости служит, в частности, зависимость средних диаметров сосен от их высот; см. табл. в ст. Корреляция .

Изучение Р. в теории вероятностей основано на том, что случайные величины Х и Y , имеющие совместное распределение вероятностей, связаны вероятностной зависимостью: при каждом фиксированном значении Х х величина Y является случайной величиной с определённым (зависящим от значения х ) условным распределением вероятностей. Р. величины Y по величине Х определяется условным математическим ожиданием Y , вычисленным при условии, что Х х :

Е( Y ê х ) u ( х ).

Уравнение у u ( х ), в котором х играет роль 'независимой' переменной, называется уравнением регрессии, а соответствующий график - линией регрессии величины Y по X. Точность, с которой уравнение Р. Y по Х отражает изменение Y в среднем при изменении х, измеряется условной дисперсией величины Y , вычисленной для каждого значения Х х :

D( Y ê х )s2( x ).

Если s2( х )0 при всех значениях х ,то можно с достоверностью утверждать, что Y и Х связаны строгой функциональной зависимостью Y u ( X ) . Если s2( х )0 при всех значениях х и u ( х )не зависит от х , то говорят, что Р. Y по Х отсутствует. Аналогичным образом определяется Р. Х по Y и в частности, уравнение Р. х u( у ),Е( Х i Y у ). Функции у u ( х ) и х u( у ), вообще говоря, не являются взаимно обратными.

Линии Р. обладают следующим замечательным свойством: среди всех действительных функций f ( х ) минимум математического ожидания Е[ Y - f ( X )]2 достигается для функции f ( x ) u ( х ), т. е. Р. Y по Х даёт наилучшее, в указанном смысле, представление величины Y по величине X . Это свойство используется для прогноза Y по X : если значение Y непосредственно не наблюдается и эксперимент позволяет регистрировать лишь компоненту Х вектора ( X , Y ), то в качестве прогнозируемого значения Y используют величину u ( X ).

Наиболее простым является случай, когда Р. Y по Х линейна:

Е( Y i x ) b0 + b1 x.

Коэффициенты b0 и b1, называются коэффициентами регрессии, определяются равенствами

,

где m Х и m Y - математические ожидания Х и Y , и - дисперсии Х и Y , а r - коэффициент корреляции между Х и Y . Уравнение Р. при этом выражается формулой

В случае, когда совместное распределение Х и Y нормально, обе линии Р. у u ( х )и х u( у ) являются прямыми.

Если Р. Y по Х отлична от линейной, то последнее уравнение есть линейная аппроксимация истинного уравнения Р.: математическое ожидание Е[ Y - b 0 - b 1 X ]2достигает минимума b 0 и b 1 при b 0b0 и b 1b1. Особенно часто встречается случай уравнения Р., выражающегося линейной комбинацией тех или иных заданных функций:

у u ( Х ) b0j0( x ) + b1j1( x ) + ... + bmjm( x ).

Наиболее важное значение имеет параболическая (полиномиальная) Р., при которой j0( x ) 1 , j1( x ) x , ..., jm( x ) x m .

Понятие Р. применимо не только к случайным величинам, но и к случайным векторам. В частности, если Y - случайная величина, а Х ( X1, ..., Xk ) - случайный вектор, имеющие совместное распределение вероятностей, то Р. Y по X определяется уравнением

y u ( x 1, ..., x k),

где u ( x 1, ..., x k) E { Y i X x 1, ... , X k x k}.

Если

u ( x 1, ..., x k) b0 + b1 x 1 + ... + bk x k,

то Р. называется линейной. Эта форма уравнения Р. включает в себя многие типы Р. с одной независимой переменной, в частности полиномиальная Р. Y по Х порядка k сводится к линейной Р. Y по X 1, ..., X k, если положить X k X k .

Простым примером Р. Y по Х является зависимость между Y и X , которая выражается соотношением: Y u ( X ) + d, где u ( x ) Е( Y I X х ), а случайные величины Х и d независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи у u ( х ) между неслучайными величинами у и х.

На практике обычно коэффициенты Р. в уравнении у u ( х ) неизвестны и их оценивают по экспериментальным данным (см. Регрессионный анализ ).

Первоначально термин 'Р.' был употреблен английским статистиком Ф. Гальтоном (1886) в теории наследственности в следующем специальном смысле: 'возвратом к среднему состоянию' (regression to mediocrity) было названо явление, состоящее в том, что дети тех родителей, рост которых превышает среднее значение на а единиц, имеют в среднем рост, превышающий среднее значение меньше чем на а единиц.

Лит.: Крамер Г., Математические методы статистики, пер. с англ., М., 1948; Кендалл М. Дж., Стьюарт А., Статистические выводы и связи, пер. с англ., М., 1973.

А. В. Прохоров.

Большая советская энциклопедия, БСЭ.