Регрессионный анализ данных пример. Методы регрессионного анализа

Регрессионный анализ

Регрессио́нный (линейный ) анализ - статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные - критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Ложная корреляция ), а не причинно-следственные отношения.

Цели регрессионного анализа

  1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
  2. Предсказание значения зависимой переменной с помощью независимой(-ых)
  3. Определение вклада отдельных независимых переменных в вариацию зависимой

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть , - случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений определено условное математическое ожидание

(уравнение регрессии в общем виде),

то функция называется регрессией величины Y по величинам , а её график - линией регрессии по , или уравнением регрессии .

Зависимость от проявляется в изменении средних значений Y при изменении . Хотя при каждом фиксированном наборе значений величина остаётся случайной величиной с определённым рассеянием.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении , используется средняя величина дисперсии Y при разных наборах значений (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов , когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

(M - объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки :

Условие минимума функции невязки:

Полученная система является системой линейных уравнений с неизвестными

Если представить свободные члены левой части уравнений матрицей

а коэффициенты при неизвестных в правой части матрицей

то получаем матричное уравнение: , которое легко решается методом Гаусса . Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) − наилучшие линейные несмещенные оценки.

Интерпретация параметров регрессии

Параметры являются частными коэффициентами корреляции; интерпретируется как доля дисперсии Y, объяснённая , при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида , , свидетельствующее о наличии взаимодействий между признаками , и т. д (см. Мультиколлинеарность).

См. также

Ссылки

  • www.kgafk.ru - Лекция на тему «Регрессионный анализ»
  • www.basegroup.ru - методы отбора переменных в регрессионные модели

Литература

  • Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. - 3-е изд. - М .: «Диалектика», 2007. - С. 912. - ISBN 0-471-17082-8
  • Устойчивые методы оценивания статистических моделей: Монография. - К. : ПП «Санспарель», 2005. - С. 504. - ISBN 966-96574-0-7 , УДК: 519.237.5:515.126.2, ББК 22.172+22.152
  • Радченко Станислав Григорьевич, Методология регрессионного анализа: Монография. - К. : "Корнийчук", 2011. - С. 376. - ISBN 978-966-7599-72-0

Wikimedia Foundation . 2010 .

В статистическом моделировании регрессионный анализ представляет собой исследования, применяемые с целью оценки взаимосвязи между переменными. Этот математический метод включает в себя множество других методов для моделирования и анализа нескольких переменных, когда основное внимание уделяется взаимосвязи между зависимой переменной и одной или несколькими независимыми. Говоря более конкретно, регрессионный анализ помогает понять, как меняется типичное значение зависимой переменной, если одна из независимых переменных изменяется, в то время как другие независимые переменные остаются фиксированными.

Во всех случаях целевая оценка является функцией независимых переменных и называется функцией регрессии. В регрессионном анализе также представляет интерес характеристика изменения зависимой переменной как функции регрессии, которая может быть описана с помощью распределения вероятностей.

Задачи регрессионного анализа

Данный статистический метод исследования широко используется для прогнозирования, где его использование имеет существенное преимущество, но иногда это может приводить к иллюзии или ложным отношениям, поэтому рекомендуется аккуратно его использовать в указанном вопросе, поскольку, например, корреляция не означает причинно-следственной связи.

Разработано большое число методов для проведения регрессионного анализа, такие как линейная и обычная регрессии по методу наименьших квадратов, которые являются параметрическими. Их суть в том, что функция регрессии определяется в терминах конечного числа неизвестных параметров, которые оцениваются из данных. Непараметрическая регрессия позволяет ее функции лежать в определенном наборе функций, которые могут быть бесконечномерными.

Как статистический метод исследования, регрессионный анализ на практике зависит от формы процесса генерации данных и от того, как он относится к регрессионному подходу. Так как истинная форма процесса данных, генерирующих, как правило, неизвестное число, регрессионный анализ данных часто зависит в некоторой степени от предположений об этом процессе. Эти предположения иногда проверяемы, если имеется достаточное количество доступных данных. Регрессионные модели часто бывают полезны даже тогда, когда предположения умеренно нарушены, хотя они не могут работать с максимальной эффективностью.

В более узком смысле регрессия может относиться конкретно к оценке непрерывных переменных отклика, в отличие от дискретных переменных отклика, используемых в классификации. Случай непрерывной выходной переменной также называют метрической регрессией, чтобы отличить его от связанных с этим проблем.

История

Самая ранняя форма регрессии - это всем известный метод наименьших квадратов. Он был опубликован Лежандром в 1805 году и Гауссом в 1809. Лежандр и Гаусс применили метод к задаче определения из астрономических наблюдений орбиты тел вокруг Солнца (в основном кометы, но позже и вновь открытые малые планеты). Гаусс опубликовал дальнейшее развитие теории наименьших квадратов в 1821 году, включая вариант теоремы Гаусса-Маркова.

Термин «регресс» придумал Фрэнсис Гальтон в XIX веке, чтобы описать биологическое явление. Суть была в том, что рост потомков от роста предков, как правило, регрессирует вниз к нормальному среднему. Для Гальтона регрессия имела только этот биологический смысл, но позже его работа была продолжена Удни Йолей и Карлом Пирсоном и выведена к более общему статистическому контексту. В работе Йоля и Пирсона совместное распределение переменных отклика и пояснительных считается гауссовым. Это предположение было отвергнуто Фишером в работах 1922 и 1925 годов. Фишер предположил, что условное распределение переменной отклика является гауссовым, но совместное распределение не должны быть таковым. В связи с этим предположение Фишера ближе к формулировке Гаусса 1821 года. До 1970 года иногда уходило до 24 часов, чтобы получить результат регрессионного анализа.

Методы регрессионного анализа продолжают оставаться областью активных исследований. В последние десятилетия новые методы были разработаны для надежной регрессии; регрессии с участием коррелирующих откликов; методы регрессии, вмещающие различные типы недостающих данных; непараметрической регрессии; байесовские методов регрессии; регрессии, в которых переменные прогнозирующих измеряются с ошибкой; регрессии с большей частью предикторов, чем наблюдений, а также причинно-следственных умозаключений с регрессией.

Регрессионные модели

Модели регрессионного анализа включают следующие переменные:

  • Неизвестные параметры, обозначенные как бета, которые могут представлять собой скаляр или вектор.
  • Независимые переменные, X.
  • Зависимые переменные, Y.

В различных областях науки, где осуществляется применение регрессионного анализа, используются различные термины вместо зависимых и независимых переменных, но во всех случаях регрессионная модель относит Y к функции X и β.

Приближение обычно оформляется в виде E (Y | X) = F (X, β). Для проведения регрессионного анализа должен быть определен вид функции f. Реже она основана на знаниях о взаимосвязи между Y и X, которые не полагаются на данные. Если такое знание недоступно, то выбрана гибкая или удобная форма F.

Зависимая переменная Y

Предположим теперь, что вектор неизвестных параметров β имеет длину k. Для выполнения регрессионного анализа пользователь должен предоставить информацию о зависимой переменной Y:

  • Если наблюдаются точки N данных вида (Y, X), где N < k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Если наблюдаются ровно N = K, а функция F является линейной, то уравнение Y = F (X, β) можно решить точно, а не приблизительно. Это сводится к решению набора N-уравнений с N-неизвестными (элементы β), который имеет единственное решение до тех пор, пока X линейно независим. Если F является нелинейным, решение может не существовать, или может существовать много решений.
  • Наиболее распространенной является ситуация, где наблюдается N > точки к данным. В этом случае имеется достаточно информации в данных, чтобы оценить уникальное значение для β, которое наилучшим образом соответствует данным, и модель регрессии, когда применение к данным можно рассматривать как переопределенную систему в β.

В последнем случае регрессионный анализ предоставляет инструменты для:

  • Поиска решения для неизвестных параметров β, которые будут, например, минимизировать расстояние между измеренным и предсказанным значением Y.
  • При определенных статистических предположениях, регрессионный анализ использует избыток информации для предоставления статистической информации о неизвестных параметрах β и предсказанные значения зависимой переменной Y.

Необходимое количество независимых измерений

Рассмотрим модель регрессии, которая имеет три неизвестных параметра: β 0 , β 1 и β 2 . Предположим, что экспериментатор выполняет 10 измерений в одном и том же значении независимой переменной вектора X. В этом случае регрессионный анализ не дает уникальный набор значений. Лучшее, что можно сделать, оценить среднее значение и стандартное отклонение зависимой переменной Y. Аналогичным образом измеряя два различных значениях X, можно получить достаточно данных для регрессии с двумя неизвестными, но не для трех и более неизвестных.

Если измерения экспериментатора проводились при трех различных значениях независимой переменной вектора X, то регрессионный анализ обеспечит уникальный набор оценок для трех неизвестных параметров в β.

В случае общей линейной регрессии приведенное выше утверждение эквивалентно требованию, что матрица X Т X обратима.

Статистические допущения

Когда число измерений N больше, чем число неизвестных параметров k и погрешности измерений ε i , то, как правило, распространяется затем избыток информации, содержащейся в измерениях, и используется для статистических прогнозов относительно неизвестных параметров. Этот избыток информации называется степенью свободы регрессии.

Основополагающие допущения

Классические предположения для регрессионного анализа включают в себя:

  • Выборка является представителем прогнозирования логического вывода.
  • Ошибка является случайной величиной со средним значением нуля, который является условным на объясняющих переменных.
  • Независимые переменные измеряются без ошибок.
  • В качестве независимых переменных (предикторов) они линейно независимы, то есть не представляется возможным выразить любой предсказатель в виде линейной комбинации остальных.
  • Ошибки являются некоррелированными, то есть ковариационная матрица ошибок диагоналей и каждый ненулевой элемент являются дисперсией ошибки.
  • Дисперсия ошибки постоянна по наблюдениям (гомоскедастичности). Если нет, то можно использовать метод взвешенных наименьших квадратов или другие методы.

Эти достаточные условия для оценки наименьших квадратов обладают требуемыми свойствами, в частности эти предположения означают, что оценки параметров будут объективными, последовательными и эффективными, в особенности при их учете в классе линейных оценок. Важно отметить, что фактические данные редко удовлетворяют условиям. То есть метод используется, даже если предположения не верны. Вариация из предположений иногда может быть использована в качестве меры, показывающей, насколько эта модель является полезной. Многие из этих допущений могут быть смягчены в более продвинутых методах. Отчеты статистического анализа, как правило, включают в себя анализ тестов по данным выборки и методологии для полезности модели.

Кроме того, переменные в некоторых случаях ссылаются на значения, измеренные в точечных местах. Там могут быть пространственные тенденции и пространственные автокорреляции в переменных, нарушающие статистические предположения. Географическая взвешенная регрессия - единственный метод, который имеет дело с такими данными.

В линейной регрессии особенностью является то, что зависимая переменная, которой является Y i , представляет собой линейную комбинацию параметров. Например, в простой линейной регрессии для моделирования n-точек используется одна независимая переменная, x i , и два параметра, β 0 и β 1 .

При множественной линейной регрессии существует несколько независимых переменных или их функций.

При случайной выборке из популяции ее параметры позволяют получить образец модели линейной регрессии.

В данном аспекте популярнейшим является метод наименьших квадратов. С помощью него получают оценки параметров, которые минимизируют сумму квадратов остатков. Такого рода минимизация (что характерно именно линейной регрессии) этой функции приводит к набору нормальных уравнений и набору линейных уравнений с параметрами, которые решаются с получением оценок параметров.

При дальнейшем предположении, что ошибка популяции обычно распространяется, исследователь может использовать эти оценки стандартных ошибок для создания доверительных интервалов и проведения проверки гипотез о ее параметрах.

Нелинейный регрессионный анализ

Пример, когда функция не является линейной относительно параметров, указывает на то, что сумма квадратов должна быть сведена к минимуму с помощью итерационной процедуры. Это вносит много осложнений, которые определяют различия между линейными и нелинейными методами наименьших квадратов. Следовательно, и результаты регрессионного анализа при использовании нелинейного метода порой непредсказуемы.

Расчет мощности и объема выборки

Здесь, как правило, нет согласованных методов, касающихся числа наблюдений по сравнению с числом независимых переменных в модели. Первое правило было предложено Доброй и Хардином и выглядит как N = t^n, где N является размер выборки, n - число независимых переменных, а t есть числом наблюдений, необходимых для достижения желаемой точности, если модель имела только одну независимую переменную. Например, исследователь строит модель линейной регрессии с использованием набора данных, который содержит 1000 пациентов (N). Если исследователь решает, что необходимо пять наблюдений, чтобы точно определить прямую (м), то максимальное число независимых переменных, которые модель может поддерживать, равно 4.

Другие методы

Несмотря на то что параметры регрессионной модели, как правило, оцениваются с использованием метода наименьших квадратов, существуют и другие методы, которые используются гораздо реже. К примеру, это следующие методы:

  • Байесовские методы (например, байесовский метод линейной регрессии).
  • Процентная регрессия, использующаяся для ситуаций, когда снижение процентных ошибок считается более целесообразным.
  • Наименьшие абсолютные отклонения, что является более устойчивым в присутствии выбросов, приводящих к квантильной регрессии.
  • Непараметрическая регрессия, требующая большого количества наблюдений и вычислений.
  • Расстояние метрики обучения, которая изучается в поисках значимого расстояния метрики в заданном входном пространстве.

Программное обеспечение

Все основные статистические пакеты программного обеспечения выполняются с помощью наименьших квадратов регрессионного анализа. Простая линейная регрессия и множественный регрессионный анализ могут быть использованы в некоторых приложениях электронных таблиц, а также на некоторых калькуляторах. Хотя многие статистические пакеты программного обеспечения могут выполнять различные типы непараметрической и надежной регрессии, эти методы менее стандартизированы; различные программные пакеты реализуют различные методы. Специализированное регрессионное программное обеспечение было разработано для использования в таких областях как анализ обследования и нейровизуализации.

Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными.

Последовательность этапов регрессионного анализа

Рассмотрим кратко этапы регрессионного анализа.

    Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений.

    Определение зависимых и независимых (объясняющих) переменных.

    Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.

    Формулировка гипотезы о форме связи (простая или множественная, линейная или нелинейная).

    Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии)

    Оценка точности регрессионного анализа.

    Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов.

    Предсказание неизвестных значений зависимой переменной.

При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Решение задачи классификации осуществляется таким образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, - к другому классу.

Задачи регрессионного анализа

Рассмотрим основные задачи регрессионного анализа: установление формы зависимости, определение функции регрессии , оценка неизвестных значений зависимой переменной.

Установление формы зависимости.

Характер и форма зависимости между переменными могут образовывать следующие разновидности регрессии:

    положительная линейная регрессия (выражается в равномерном росте функции);

    положительная равноускоренно возрастающая регрессия;

    положительная равнозамедленно возрастающая регрессия;

    отрицательная линейная регрессия (выражается в равномерном падении функции);

    отрицательная равноускоренно убывающая регрессия;

    отрицательная равнозамедленно убывающая регрессия.

Однако описанные разновидности обычно встречаются не в чистом виде, а в сочетании друг с другом. В таком случае говорят о комбинированных формах регрессии.

Определение функции регрессии.

Вторая задача сводится к выяснению действия на зависимую переменную главных факторов или причин, при неизменных прочих равных условиях, и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессии определяется в виде математического уравнения того или иного типа.

Оценка неизвестных значений зависимой переменной.

Решение этой задачи сводится к решению задачи одного из типов:

    Оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т.е. пропущенных значений; при этом решается задача интерполяции.

    Оценка будущих значений зависимой переменной, т.е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции.

Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной.

Рассмотрим некоторые предположения, на которые опирается регрессионный анализ.

Предположение линейности, т.е. предполагается, что связь между рассматриваемыми переменными является линейной. Так, в рассматриваемом примере мы построили диаграмму рассеивания и смогли увидеть явную линейную связь. Если же на диаграмме рассеивания переменных мы видим явное отсутствие линейной связи, т.е. присутствует нелинейная связь, следует использовать нелинейные методы анализа.

Предположение о нормальности остатков . Оно допускает, что распределение разницы предсказанных и наблюдаемых значений является нормальным. Для визуального определения характера распределения можно воспользоваться гистограммамиостатков .

При использовании регрессионного анализа следует учитывать его основное ограничение. Оно состоит в том, что регрессионный анализ позволяет обнаружить лишь зависимости, а не связи, лежащие в основе этих зависимостей.

Регрессионный анализ дает возможность оценить степень связи между переменными путем вычисления предполагаемого значения переменной на основании нескольких известных значений.

Уравнение регрессии.

Уравнение регрессии выглядит следующим образом: Y=a+b*X

При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент - коэффициентом регрессии или B-коэффициентом.

В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой.

Остаток - это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения).

Для решения задачи регрессионного анализа в MS Excel выбираем в меню Сервис "Пакет анализа" и инструмент анализа "Регрессия". Задаем входные интервалы X и Y. Входной интервал Y - это диапазон зависимых анализируемых данных, он должен включать один столбец. Входной интервал X - это диапазон независимых данных, которые необходимо проанализировать. Число входных диапазонов должно быть не больше 16.

На выходе процедуры в выходном диапазоне получаем отчет, приведенный в таблице 8.3а -8.3в .

ВЫВОД ИТОГОВ

Таблица 8.3а. Регрессионная статистика

Регрессионная статистика

Множественный R

R-квадрат

Нормированный R-квадрат

Стандартная ошибка

Наблюдения

Сначала рассмотрим верхнюю часть расчетов, представленную в таблице 8.3а , - регрессионную статистику.

Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .

В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.

Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значениеR-квадрата , близкое к нулю, означает плохое качество построенной модели.

В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.

множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y).

Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.

В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно,множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).

Таблица 8.3б. Коэффициенты регрессии

Коэффициенты

Стандартная ошибка

t-статистика

Y-пересечение

Переменная X 1

* Приведен усеченный вариант расчетов

Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б . Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a (2,694545455).

Исходя из расчетов, можем записать уравнение регрессии таким образом:

Y= x*2,305454545+2,694545455

Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициентов регрессии (коэффициента b).

Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.

Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

В таблице 8.3в . представлены результаты выводаостатков . Для того чтобы эти результаты появились в отчете, необходимо при запуске инструмента "Регрессия" активировать чекбокс "Остатки".

ВЫВОД ОСТАТКА

Таблица 8.3в. Остатки

Наблюдение

Предсказанное Y

Остатки

Стандартные остатки

При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение остатка в нашем случае - 0,778, наименьшее - 0,043. Для лучшей интерпретации этих данных воспользуемся графиком исходных данных и построенной линией регрессии, представленными нарис. 8.3 . Как видим, линия регрессии достаточно точно "подогнана" под значения исходных данных.

Следует учитывать, что рассматриваемый пример является достаточно простым и далеко не всегда возможно качественное построение регрессионной прямой линейного вида.

Рис. 8.3. Исходные данные и линия регрессии

Осталась нерассмотренной задача оценки неизвестных будущих значений зависимой переменной на основании известных значений независимой переменной, т.е. задача прогнозирования.

Имея уравнение регрессии, задача прогнозирования сводится к решению уравнения Y= x*2,305454545+2,694545455 с известными значениями x. Результаты прогнозирования зависимой переменной Y на шесть шагов вперед представлены в таблице 8.4 .

Таблица 8.4. Результаты прогнозирования переменной Y

Y(прогнозируемое)

Таким образом, в результате использования регрессионного анализа в пакете Microsoft Excel мы:

    построили уравнение регрессии;

    установили форму зависимости и направление связи между переменными - положительная линейная регрессия, которая выражается в равномерном росте функции;

    установили направление связи между переменными;

    оценили качество полученной регрессионной прямой;

    смогли увидеть отклонения расчетных данных от данных исходного набора;

    предсказали будущие значения зависимой переменной.

Если функция регрессии определена, интерпретирована и обоснована, и оценка точности регрессионного анализа соответствует требованиям, можно считать, что построенная модель и прогнозные значения обладают достаточной надежностью.

Прогнозные значения, полученные таким способом, являются средними значениями, которые можно ожидать.

В этой работе мы рассмотрели основные характеристики описательной статистики и среди них такие понятия, каксреднее значение ,медиана ,максимум ,минимум и другие характеристики вариации данных.

Также было кратко рассмотрено понятие выбросов . Рассмотренные характеристики относятся к так называемому исследовательскому анализу данных, его выводы могут относиться не к генеральной совокупности, а лишь к выборке данных. Исследовательский анализ данных используется для получения первичных выводов и формирования гипотез относительно генеральной совокупности.

Также были рассмотрены основы корреляционного и регрессионного анализа, их задачи и возможности практического использования.

Регрессионный анализ лежит в основе создания большинства эконометрических моделей, к числу которых следует отнести и модели оценки стоимости. Для построения моделей оценки этот метод можно использовать, если количество аналогов (сопоставимых объектов) и количество факторов стоимости (элементов сравнения) соотносятся между собой следующим образом: п > (5 -г-10) х к, т.е. аналогов должно быть в 5-10 раз больше, чем факторов стоимости. Это же требование к соотношению количества данных и количества факторов распространяется и на другие задачи: установление связи между стоимостью и потребительскими параметрами объекта; обоснование порядка расчета корректирующих индексов; выяснение трендов цен; установление связи между износом и изменениями влияющих факторов; получение зависимостей для расчета нормативов затрат и т.п. Выполнение данного требования необходимо для того, чтобы уменьшить вероятность работы с выборкой данных, которая не удовлетворяет требованию нормальности распределения случайных величин.

Регрессионная связь отражает лишь усредненную тенденцию изменения результирующей переменной, например, стоимости, от изменения одной или нескольких факторных переменных, например, местоположения, количества комнат, площади, этажа и т.п. В этом заключается отличие регрессионной связи от функциональной, при которой значение результирующей переменной строго определено при заданном значении факторных переменных.

Наличие регрессионной связи / между результирующей у и факторными переменными х р ..., х к (факторами) свидетельствует о том, что эта связь определяется не только влиянием отобранных факторных переменных, но и влиянием переменных, одни из которых вообще неизвестны, другие не поддаются оценке и учету:

Влияние неучтенных переменных обозначается вторым слагаемым данного уравнения ?, которое называют ошибкой аппроксимации.

Различают следующие типы регрессионных зависимостей:

  • ? парная регрессия - связь между двумя переменными (результирующей и факторной);
  • ? множественная регрессия - зависимость одной результирующей переменной и двух или более факторных переменных, включенных в исследование.

Основная задача регрессионного анализа - количественное определение тесноты связи между переменными (при парной регрессии) и множеством переменных (при множественной регрессии). Теснота связи количественно выражается коэффициентом корреляции.

Применение регрессионного анализа позволяет установить закономерность влияния основных факторов (гедонистических характеристик ) на изучаемый показатель как в их совокупности, так и каждого из них в отдельности. С помощью регрессионного анализа, как метода математической статистики, удается, во-первых, найти и описать форму аналитической зависимости результирующей (искомой) переменной от факторных и, во-вторых, оценить тесноту этой зависимости.

Благодаря решению первой задачи получают математическую регрессионную модель, с помощью которой затем рассчитывают искомый показатель при заданных значениях факторов. Решение второй задачи позволяет установить надежность рассчитанного результата.

Таким образом, регрессионный анализ можно определить как совокупность формальных (математических) процедур, предназначенных для измерения тесноты, направления и аналитического выражения формы связи между результирующей и факторными переменными, т.е. на выходе такого анализа должна быть структурно и количественно определенная статистическая модель вида:

где у - среднее значение результирующей переменной (искомого показателя, например, стоимости, аренды, ставки капитализации) по п ее наблюдениям; х - значение факторной переменной (/-й фактор стоимости); к - количество факторных переменных.

Функция f(x l ,...,x lc), описывающая зависимость результирующей переменной от факторных, называется уравнением (функцией) регрессии. Термин «регрессия» (regression (лат.) - отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода, и в настоящее время не отражает всей сущности метода, но продолжает применяться.

Регрессионный анализ в общем случае включает следующие этапы:

  • ? формирование выборки однородных объектов и сбор исходной информации об этих объектах;
  • ? отбор основных факторов, влияющих на результирующую переменную;
  • ? проверка выборки на нормальность с использованием х 2 или биноминального критерия;
  • ? принятие гипотезы о форме связи;
  • ? математическую обработку данных;
  • ? получение регрессионной модели;
  • ? оценку ее статистических показателей;
  • ? поверочные расчеты с помощью регрессионной модели;
  • ? анализ результатов.

Указанная последовательность операций имеет место при исследовании как парной связи между факторной переменной и одной результирующей, так и множественной связи между результирующей переменной и несколькими факторными.

Применение регрессионного анализа предъявляет к исходной информации определенные требования:

  • ? статистическая выборка объектов должна быть однородной в функциональном и конструктивно-технологическом отношениях;
  • ? достаточно многочисленной;
  • ? исследуемый стоимостной показатель - результирующая переменная (цена, себестоимость, затраты) - должен быть приведен к одним условиям его исчисления у всех объектов в выборке;
  • ? факторные переменные должны быть измерены достаточно точно;
  • ? факторные переменные должны быть независимы либо минимально зависимы.

Требования однородности и полноты выборки находятся в противоречии: чем жестче ведут отбор объектов по их однородности, тем меньше получают выборку, и, наоборот, для укрупнения выборки приходится включать в нее не очень схожие между собой объекты.

После того как собраны данные по группе однородных объектов, проводят их анализ для установления формы связи между результирующей и факторными переменными в виде теоретической линии регрессии. Процесс нахождения теоретической линии регрессии заключается в обоснованном выборе аппроксимирующей кривой и расчете коэффициентов ее уравнения. Линия регрессии представляет собой плавную кривую (в частном случае прямую), описывающую с помощью математической функции общую тенденцию исследуемой зависимости и сглаживающую незакономерные, случайные выбросы от влияния побочных факторов.

Для отображения парных регрессионных зависимостей в задачах по оценке чаще всего используют следующие функции: линейную - у - а 0 + арс + с степенную - у - aj&i + с показательную - у - линейно-показательную - у - а 0 + ар* + с. Здесь - е ошибка аппроксимации, обусловленная действием неучтенных случайных факторов.

В этих функциях у - результирующая переменная; х - факторная переменная (фактор); а 0 , а р а 2 - параметры регрессионной модели, коэффициенты регрессии.

Линейно-показательная модель относится к классу так называемых гибридных моделей вида:

где

где х (i = 1, /) - значения факторов;

b t (i = 0, /) - коэффициенты регрессионного уравнения.

В данном уравнении составляющие А, В и Z соответствуют стоимости отдельных составляющих оцениваемого актива, например, стоимости земельного участка и стоимости улучшений, а параметр Q является общим. Он предназначен для корректировки стоимости всех составляющих оцениваемого актива на общий фактор влияния, например, местоположение.

Значения факторов, находящихся в степени соответствующих коэффициентов, представляют собой бинарные переменные (0 или 1). Факторы, находящиеся в основании степени, - дискретные или непрерывные переменные.

Факторы, связанные с коэффициентами знаком умножения, также являются непрерывными или дискретными.

Спецификация осуществляется, как правило, с использованием эмпирического подхода и включает два этапа:

  • ? нанесение на график точек регрессионного поля;
  • ? графический (визуальный) анализ вида возможной аппроксимирующей кривой.

Тип кривой регрессии не всегда можно выбрать сразу. Для его определения сначала наносят на график точки регрессионного поля по исходным данным. Затем визуально проводят линию по положению точек, стремясь выяснить качественную закономерность связи: равномерный рост или равномерное снижение, рост (снижение) с возрастанием (убыванием) темпа динамики, плавное приближение к некоторому уровню.

Этот эмпирический подход дополняют логическим анализом, отталкиваясь от уже известных представлений об экономической и физической природе исследуемых факторов и их взаимовлияния.

Например, известно, что зависимости результирующих переменных - экономических показателей (цены, аренды) от ряда факторных переменных - ценообразующих факторов (расстояния от центра поселения, площади и др.) имеют нелинейный характер, и достаточно строго их можно описать степенной, экспоненциальной или квадратичной функциями. Но при небольших диапазонах изменения факторов приемлемые результаты можно получить и с помощью линейной функции.

Если все же невозможно сразу сделать уверенный выбор какой- либо одной функции, то отбирают две-три функции, рассчитывают их параметры и далее, используя соответствующие критерии тесноты связи, окончательно выбирают функцию.

В теории регрессионный процесс нахождения формы кривой называется спецификацией модели, а ее коэффициентов - калибровкой модели.

Если обнаружено, что результирующая переменная у зависит от нескольких факторных переменных (факторов) х { , х 2 , ..., х к, то прибегают к построению множественной регрессионной модели. Обычно при этом используют три формы множественной связи: линейную - у - а 0 + а х х х + а^х 2 + ... + а к х к, показательную - у - а 0 a *i а х т- а х ь, степенную - у - а 0 х х ix 2 a 2. .х^или их комбинации.

Показательная и степенная функции более универсальны, так как аппроксимируют нелинейные связи, каковыми и является большинство исследуемых в оценке зависимостей. Кроме того, они могут быть применены при оценке объектов и в методе статистического моделирования при массовой оценке, и в методе прямого сравнения в индивидуальной оценке при установлении корректирующих коэффициентов.

На этапе калибровки параметры регрессионной модели рассчитывают методом наименьших квадратов, суть которого состоит в том, что сумма квадратов отклонений вычисленных значений результирующей переменной у ., т.е. рассчитанных по выбранному уравнению связи, от фактических значений должна быть минимальной:

Значения j) (. и у. известны, поэтому Q является функцией только коэффициентов уравнения. Для отыскания минимума S нужно взять частные производные Q по коэффициентам уравнения и приравнять их к нулю:

В результате получаем систему нормальных уравнений, число которых равно числу определяемых коэффициентов искомого уравнения регрессии.

Положим, нужно найти коэффициенты линейного уравнения у - а 0 + арс. Сумма квадратов отклонений имеет вид:

/=1

Дифференцируют функцию Q по неизвестным коэффициентам а 0 и и приравнивают частные производные к нулю:

После преобразований получают:

где п - количество исходных фактических значений у их (количество аналогов).

Приведенный порядок расчета коэффициентов регрессионного уравнения применим и для нелинейных зависимостей, если эти зависимости можно линеаризовать, т.е. привести к линейной форме с помощью замены переменных. Степенная и показательная функции после логарифмирования и соответствующей замены переменных приобретают линейную форму. Например, степенная функция после логарифмирования приобретает вид: In у = 1пя 0 +а х 1пх. После замены переменных Y- In у, Л 0 - In а № X- In х получаем линейную функцию

Y=A 0 + cijX, коэффициенты которой находят описанным выше способом.

Метод наименьших квадратов применяют и для расчета коэффициентов множественной регрессионной модели. Так, система нормальных уравнений для расчета линейной функции с двумя переменными Xj и х 2 после ряда преобразований имеет следующий вид:

Обычно данную систему уравнений решают, используя методы линейной алгебры. Множественную степенную функцию приводят к линейной форме путем логарифмирования и замены переменных таким же образом, как и парную степенную функцию.

При использовании гибридных моделей коэффициенты множественной регрессии находятся с использованием численных процедур метода последовательных приближений.

Чтобы сделать окончательный выбор из нескольких регрессионных уравнений, необходимо проверить каждое уравнение на тесноту связи, которая измеряется коэффициентом корреляции, дисперсией и коэффициентом вариации. Для оценки можно использовать также критерии Стьюдента и Фишера. Чем большую тесноту связи обнаруживает кривая, тем она более предпочтительна при прочих равных условиях.

Если решается задача такого класса, когда надо установить зависимость стоимостного показателя от факторов стоимости, то понятно стремление учесть как можно больше влияющих факторов и построить тем самым более точную множественную регрессионную модель. Однако расширению числа факторов препятствуют два объективных ограничения. Во-первых, для построения множественной регрессионной модели требуется значительно более объемная выборка объектов, чем для построения парной модели. Принято считать, что количество объектов в выборке должно превышать количество п факторов, по крайней мере, в 5-10 раз. Отсюда следует, что для построения модели с тремя влияющими факторами надо собрать выборку примерно из 20 объектов с разным набором значений факторов. Во-вторых, отбираемые для модели факторы в своем влиянии на стоимостный показатель должны быть достаточно независимы друг от друга. Это обеспечить непросто, поскольку выборка обычно объединяет объекты, относящиеся к одному семейству, у которых имеет место закономерное изменение многих факторов от объекта к объекту.

Качество регрессионных моделей, как правило, проверяют с использованием следующих статистических показателей.

Стандартное отклонение ошибки уравнения регрессии (ошибка оценки):

где п - объем выборки (количество аналогов);

к - количество факторов (факторов стоимости);

Ошибка, необъясняемая регрессионным уравнением (рис. 3.2);

у. - фактическое значение результирующей переменной (например, стоимости); y t - расчетное значение результирующей переменной.

Этот показатель также называют стандартной ошибкой оценки {СКО ошибки ). На рисунке точками обозначены конкретные значения выборки, символом обозначена линия среднего значений выборки, наклонная штрихпунктирная линия - это линия регрессии.


Рис. 3.2.

Стандартное отклонение ошибки оценки измеряет величину отклонения фактических значений у от соответствующих расчетных значений у { , полученных с помощью регрессионной модели. Если выборка, на которой построена модель, подчинена нормальному закону распределения, то можно утверждать, что 68% реальных значений у находятся в диапазоне у ± & е от линии регрессии, а 95% - в диапазоне у ± 2d e . Этот показатель удобен тем, что единицы измерения сг? совпадают с единицами измерения у ,. В этой связи его можно использовать для указания точности получаемого в процессе оценки результата. Например, в сертификате стоимости можно указать, что полученное с использованием регрессионной модели значение рыночной стоимости V с вероятностью 95% находится в диапазоне от (V -2d,.) до + 2d s).

Коэффициент вариации результирующей переменной:

где у - среднее значение результирующей переменной (рис. 3.2).

В регрессионном анализе коэффициент вариации var представляет собой стандартное отклонение результата, выраженное в виде процентного отношения к среднему значению результирующей переменной. Коэффициент вариации может служить критерием прогнозных качеств полученной регрессионной модели: чем меньше величина var , тем более высокими являются прогнозные качества модели. Использование коэффициента вариации предпочтительнее показателя & е, так как он является относительным показателем. При практическом использовании данного показателя можно порекомендовать не применять модель, коэффициент вариации которой превышает 33%, так как в этом случае нельзя говорить о том, что данные выборки подчинены нормальному закону распределения.

Коэффициент детерминации (квадрат коэффициента множественной корреляции):

Данный показатель используется для анализа общего качества полученной регрессионной модели. Он указывает, какой процент вариации результирующей переменной объясняется влиянием всех включенных в модель факторных переменных. Коэффициент детерминации всегда лежит в интервале от нуля до единицы. Чем ближе значение коэффициента детерминации к единице, тем лучше модель описывает исходный ряд данных. Коэффициент детерминации можно представить иначе:

Здесь- ошибка, объясняемая регрессионной моделью,

а - ошибка, необъясняемая

регрессионной моделью. С экономической точки зрения данный критерий позволяет судить о том, какой процент вариации цен объясняется регрессионным уравнением.

Точную границу приемлемости показателя R 2 для всех случаев указать невозможно. Нужно принимать во внимание и объем выборки, и содержательную интерпретацию уравнения. Как правило, при исследовании данных об однотипных объектах, полученных примерно в один и тот же момент времени величина R 2 не превышает уровня 0,6-0,7. Если все ошибки прогнозирования равны нулю, т.е. когда связь между результирующей и факторными переменными является функциональной, то R 2 =1.

Скорректированный коэффициент детерминации:

Необходимость введения скорректированного коэффициента детерминации объясняется тем, что при увеличении числа факторов к обычный коэффициент детерминации практически всегда увеличивается, но уменьшается число степеней свободы (п - к - 1). Введенная корректировка всегда уменьшает значение R 2 , поскольку (п - 1) > {п- к - 1). В результате величина R 2 CKOf) даже может стать отрицательной. Это означает, что величина R 2 была близка к нулю до корректировки и объясняемая с помощью уравнения регрессии доля дисперсии переменной у очень мала.

Из двух вариантов регрессионных моделей, которые различаются величиной скорректированного коэффициента детерминации, но имеют одинаково хорошие другие критерии качества, предпочтительнее вариант с большим значением скорректированного коэффициента детерминации. Корректировка коэффициента детерминации не производится, если (п - к): к> 20.

Коэффициент Фишера:

Данный критерий используется для оценки значимости коэффициента детерминации. Остаточная сумма квадратов представляет собой показатель ошибки предсказания с помощью регрессии известных значений стоимости у.. Ее сравнение с регрессионной суммой квадратов показывает, во сколько раз регрессионная зависимость предсказывает результат лучше, чем среднее у . Существует таблица критических значений F R коэффициента Фишера, зависящих от числа степеней свободы числителя - к , знаменателя v 2 = п - к - 1 и уровня значимости а. Если вычисленное значение критерия Фишера F R больше табличного значения, то гипотеза о незначимости коэффициента детерминации, т.е. о несоответствии заложенных в уравнении регрессии связей реально существующим, с вероятностью р = 1 - а отвергается.

Средняя ошибка аппроксимации (среднее процентное отклонение) вычисляется как средняя относительная разность, выраженная в процентах, между фактическими и расчетными значениями результирующей переменной:

Чем меньше значение данного показателя, тем лучше прогнозные качества модели. При значении данного показателя не выше 7% говорят о высокой точности модели. Если 8 > 15%, говорят о неудовлетворительной точности модели.

Стандартная ошибка коэффициента регрессии:

где (/I) -1 .- диагональный элемент матрицы {Х Г Х)~ 1 к - количество факторов;

X - матрица значений факторных переменных:

X 7 - транспонированная матрица значений факторных переменных;

(ЖЛ) _| - матрица, обратная матрице.

Чем меньше эти показатели для каждого коэффициента регрессии, тем надежнее оценка соответствующего коэффициента регрессии.

Критерий Стьюдента (t-статистика):

Этот критерий позволяет измерить степень надежности (существенности) связи, обусловленной данным коэффициентом регрессии. Если вычисленное значение t . больше табличного значения

t av , где v - п - к - 1 - число степеней свободы, то гипотеза о том, что данный коэффициент является статистически незначимым, отвергается с вероятностью (100 - а)%. Существуют специальные таблицы /-распределения, позволяющие по заданному уровню значимости а и числу степеней свободы v определять критическое значение критерия. Наиболее часто употребляемое значение а равно 5%.

Мультиколлинеарность , т.е. эффект взаимных связей между факторными переменными, приводит к необходимости довольствоваться ограниченным их числом. Если это не учесть, то можно в итоге получить нелогичную регрессионную модель. Чтобы избежать негативного эффекта мультиколлинеарности, до построения множественной регрессионной модели рассчитываются коэффициенты парной корреляции r xjxj между отобранными переменными х. и х

Здесь XjX; - среднее значение произведения двух факторных переменных;

XjXj - произведение средних значений двух факторных переменных;

Оценка дисперсии факторной переменной х..

Считается, что две переменные регрессионно связаны между собой (т.е. коллинеарные), если коэффициент их парной корреляции по абсолютной величине строго больше 0,8. В этом случае какую-либо из этих переменных надо исключить из рассмотрения.

С целью расширения возможностей экономического анализа получаемых регрессионных моделей используются средние коэффициенты эластичности, определяемые по формуле:

где Xj - среднее значение соответствующей факторной переменной;

у - среднее значение результирующей переменной; a i - коэффициент регрессии при соответствующей факторной переменной.

Коэффициент эластичности показывает, на сколько процентов в среднем изменится значение результирующей переменной при изменении факторной переменной на 1 %, т.е. как реагирует результирующая переменная на изменение факторной переменной. Например, как реагирует цена кв. м площади квартиры на удаление от центра города.

Полезным с точки зрения анализа значимости того или иного коэффициента регрессии является оценка частного коэффициента детерминации:

Здесь - оценка дисперсии результирующей

переменной. Данный коэффициент показывает, на сколько процентов вариация результирующей переменной объясняется вариацией /-й факторной переменной, входящей в уравнение регрессии.

  • Под гедонистическими характеристиками понимаются характеристики объекта, отражающие его полезные (ценные) с точки зрения покупателей и продавцов свойства.

В результате изучения материала главы 4 обучающийся должен:

знать

  • основные понятия регрессионного анализа;
  • методы оценивания и свойства оценок метода наименьших квадратов;
  • основные правила проверки значимости и интервального оценивания уравнения и коэффициентов регрессии;

уметь

  • находить по выборочным данным оценки параметров двумерной и множественной моделей уравнений регрессии, анализировать их свойства;
  • проверять значимость уравнения и коэффициентов регрессии;
  • находить интервальные оценки значимых параметров;

владеть

  • навыками статистического оценивания параметров двумерного и множественного уравнения регрессии; навыками проверки адекватности регрессионных моделей;
  • навыками получения уравнения регрессии со всеми значимыми коэффициентами с использованием аналитического программного обеспечения.

Основные понятия

После проведения корреляционного анализа, когда выявлено наличие статистически значимых связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию вида зависимостей с использованием методов регрессионного анализа. С этой целью подбирают класс функций, связывающий результативный показатель у и аргументы„ вычисляют оценки параметров уравнения связи и анализируют точность полученного уравнения .

Функция|, описывающая зависимость условного среднего значения результативного признака у от заданных значений аргументов, называется уравнением регрессии.

Термин "регрессия" (от лат. regression – отступление, возврат к чему- либо) введен английским психологом и антропологом Ф. Гальтоном и связан с одним из его первых примеров, в котором Гальтон, обрабатывая статистические данные, связанные с вопросом о наследственности роста, нашел, что если рост отцов отклоняется от среднего роста всех отцов на х дюймов, то рост их сыновей отклоняется от среднего роста всех сыновей меньше, чем на x дюймов. Выявленная тенденция была названа регрессией к среднему состоянию.

Термин "регрессия" широко используется в статистической литературе, хотя во многих случаях он недостаточно точно характеризует статистическую зависимость.

Для точного описания уравнения регрессии необходимо знать условный закон распределения результативного показателя у. В статистической практике такую информацию получить обычно не удается, поэтому ограничиваются поиском подходящих аппроксимаций для функции f(x u х 2,.... л*), основанных на предварительном содержательном анализе явления или на исходных статистических данных.

В рамках отдельных модельных допущений о типе распределения вектора показателей <) может быть получен общий вид уравнения регрессии , где. Например, в предположении о том, что исследуемая совокупность показателей подчиняется ()-мерному нормальному закону распределения с вектором математических ожиданий

Где, и ковариационной матрицей,

где– дисперсия у,

Уравнение регрессии (условное математическое ожидание) имеет вид

Таким образом, если многомерная случайная величина ()

подчиняется ()-мерному нормальному закону распределения, то уравнение регрессии результативного показателя у по объясняющим переменнымимеет линейный по х вид.

Однако в статистической практике обычно приходится ограничиваться поиском подходящих аппроксимаций для неизвестной истинной функции регрессии f(x), так как исследователь не располагает точным знанием условного закона распределения вероятностей анализируемого результативного показателя у при заданных значениях аргументов х.

Рассмотрим взаимоотношение между истинной , модельнойи оценкой регрессии . Пусть результативный показатель у связан с аргументом х соотношением

где– случайная величина, имеющая нормальный закон распределения, причеми. Истинная функция регрессии в этом случае имеет вид

Предположим, что точный вид истинного уравнения регрессии нам неизвестен, но мы располагаем девятью наблюдениями над двумерной случайной величиной, связанной соотношениеми представленной на рис. 4.1.

Рис. 4.1. Взаимное расположение истинной f(x) и теоретической уы модели регрессии

Расположение точек на рис. 4.1 позволяет ограничиться классом линейных зависимостей вида

С помощью метода наименьших квадратов найдем оценкууравнения регрессии.

Для сравнения на рис. 4.1 приводятся графики истинной функции регрессиии теоретической аппроксимирующей функции регрессии. К последней сходится по вероятности оценка уравнения регрессии уы при неограниченном увеличении объема выборки ().

Поскольку мы вместо истинной функции регрессии ошибочно выбрали линейную функцию регрессии, что, к сожалению, достаточно часто встречается в практике статистических исследований, то наши статистические выводы и оценки не будут обладать свойством состоятельности, т.е. так бы мы ни увеличивали объем наблюдений, наша выборочная оценкане будет сходиться к истинной функции регрессии

Если бы мы правильно выбрали класс функций регрессии, то неточность в описании с помощью уы объяснялась бы только ограниченностью выборки и, следовательно, она могла бы быть сделана сколько угодно малой при

С целью наилучшего восстановления по исходным статистическим данным условного значения результативного показателяи неизвестной функции регрессии наиболее часто используют следующие критерии адекватности функции потерь .

1. Метод наименьших квадратов, согласно которому минимизируется квадрат отклонения наблюдаемых значений результативного показателя, , от модельных значений , где коэффициенты уравнения регрессии;– значения вектора аргументов в "-М наблюдении:

Решается задача отыскания оценкивектора. Получаемая регрессия называется средней квадратической.

2. Метод наименьших модулей , согласно которому минимизируется сумма абсолютных отклонений наблюдаемых значений результативного показателя от модульных значений, т.е.

Получаемая регрессия называется среднеабсолютной (медианной).

3. Метод минимакса сводится к минимизации максимума модуля отклонения наблюдаемого значения результативного показателя у, от модельного значения, т.е.

Получаемая при этом регрессия называется минимаксной.

В практических приложениях часто встречаются задачи, в которых изучается случайная величина у, зависящая от некоторого множества переменныхи неизвестных параметров. Будем рассматривать () как (k + 1)-мерную генеральную совокупность, из которой взята случайная выборка объемом п, где () результат /-го наблюдения,. Требуется по результатам наблюдений оценить неизвестные параметры. Описанная выше задача относится к задачам регрессионного анализа.

Регрессионным анализом называют метод статистического анализа зависимости случайной величины у от переменных, рассматриваемых в регрессионном анализе как неслучайные величины, независимо от истинного закона распределения