раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным (см.
Регрессия). Цель Р. а. состоит в определении общего вида уравнения регрессии, построении оценок неизвестных параметров, входящих в уравнение регрессии, и проверке статистических гипотез о регрессии. При изучении связи между двумя величинами по результатам наблюдений (
x1,
y1), ..., (
xn,
yn) в соответствии с теорией регрессии предполагается, что одна из них
Y имеет некоторое распределение вероятностей при фиксированном значении
х другой, так что
Е(Y | х) = g(x, β) и D(Y | х) = σ2h2(x),
где β обозначает совокупность неизвестных параметров, определяющих функцию g(х), a h(x) есть известная функция х (в частности, тождественно равная 1). Выбор модели регрессии определяется предположениями о форме зависимости g(х, β) от х и β. Наиболее естественной с точки зрения единого метода оценки неизвестных параметров β является модель регрессии, линейная относительно β:
g(x, β) = β0g0(x) + ... + βkgk(x).
Относительно значений переменной х возможны различные предположения в зависимости от характера наблюдений и целей анализа. Для установления связи между величинами в эксперименте используется модель, основанная на упрощённых, но правдоподобных допущениях: величина х является контролируемой величиной, значения которой заранее задаются при планировании эксперимента, а наблюдаемые значения у представимы в виде
yi = g(xi, β) + εi, i = 1, ..., k,
где величины ε
i характеризуют ошибки, независимые при различных измерениях и одинаково распределённые с нулевым средним и постоянной дисперсией σ
2. Случай неконтролируемой переменной
х отличается тем, что результаты наблюдений (
xi,
yi), ..., (
xn,
yn) представляют собой выборку из некоторой двумерной совокупности. И в том, и в другом случае Р. а. производится одним и тем же способом, однако интерпретация результатов существенно различается (если обе исследуемые величины случайны, то связь между ними изучается методами корреляционного анализа (См.
Корреляционный анализ)).
Предварительное представление о форме графика зависимости g(x) от х можно получить по расположению на диаграмме рассеяния (называемой также корреляционным полем, если обе переменные случайные) точек (xi, y̅(xi)), где y̅(xi) - средние арифметические тех значений у, которые соответствуют фиксированному значению xi. Например, если расположение этих точек близко к прямолинейному, то допустимо использовать в качестве приближения линейную регрессию. Стандартный метод оценки линии регрессии основан на использовании полиномиальной модели (m ≥ 1)
y(x, β) = β0 + β1x + ... + βmxm
(этот выбор отчасти объясняется тем, что всякую непрерывную на некотором отрезке функцию можно приблизить полиномом с любой наперёд заданной степенью точности). Оценка неизвестных коэффициентов регрессии β
0, ..., β
m и неизвестной дисперсии σ
2 осуществляется
Наименьших квадратов методом
. Оценки
параметров β
0, ..., β
m, полученные этим методом, называются выборочными коэффициентами регрессии, а уравнение
определяет т. н. эмпирическую линию регрессии. Этот метод в предположении нормальной распределённости результатов наблюдений приводит к оценкам для β
0, ..., β
m и σ
2, совпадающим с оценками наибольшего правдоподобия (см.
Максимального правдоподобия метод). Оценки, полученные этим методом, оказываются в некотором смысле наилучшими и в случае отклонения от нормальности. Так, если проверяется гипотеза о линейной регрессии, то
,
,
где
и
- средние арифметические значений
xi и
yi, и оценка
будет несмещенной для
g(
х)
, а её дисперсия будет меньше, чем дисперсия любой другой линейной оценки. При допущении, что величины
yi нормально распределены, наиболее эффективно осуществляется проверка точности построенной эмпирической регрессионной зависимости и проверка гипотез о параметрах регрессионной модели. В этом случае построение доверительных интервалов для истинных коэффициентов регрессии β
0, ..., β
m и проверка гипотезы об отсутствии регрессионной связи β
i = 0,
i = 1, ...,
m) производится с помощью Стьюдента распределения (См.
Стьюдента распределение)
.
В более общей ситуации результаты наблюдений y1, ..., yn рассматриваются как независимые случайные величины с одинаковыми дисперсиями и математическими ожиданиями
Eyi, = β1 x1i + ... + βkxki, i = 1, ..., n,
где значения xji, j = 1, ..., k предполагаются известными. Эта форма линейной модели регрессии является общей в том смысле, что к ней сводятся модели более высоких порядков по переменным x1, ..., xk. Кроме того, некоторые нелинейные относительно параметров βi; модели подходящим преобразованием также сводятся к указанной линейной форме.
Р. а. является одним из наиболее распространённых методов обработки результатов наблюдений при изучении зависимостей в физике, биологии, экономике, технике и др. областях. На модели Р. а. основаны такие разделы математической статистики, как
Дисперсионный анализ и
Планирование эксперимента; модели Р. а. широко используются в статистическом анализе многомерном (См.
Статистический анализ многомерный)
.
Лит.: Юл Дж. Э., Кендэл М. Дж., Теория статистики, пер. с англ., 14 изд., М., 1960; Смирнов Н. В., Дунин-Барковский И. В., Курс теории вероятностей и математической статистики для технических приложений, 3 изд., М., 1969; Айвазян С. А., Статистическое исследование зависимостей, М., 1968; Рао С. Р., Линейные статистические методы и их применения, пер. с англ., М., 1968. См. также лит. при ст.
Регрессия.
А. В. Прохоров.