Регресионен анализ на тези пример. Методи за регресионен анализ

Анализ на регресия

Регресия (линеен) анализ - Статистически метод за изучаване на ефекта на една или повече независими променливи върху зависимата променлива. Независимите променливи се наричат \u200b\u200bрегресира или предиктори, и зависими променливи - критерии. Терминология зависим и независим Променливите отразяват само математическата зависимост на променливите ( виж фалшива корелация), не причинно-следствени връзки.

Цели на регресионния анализ

  1. Определяне на степента на детерминистична промяна на критерия (зависими) променливи предиктори (независими променливи)
  2. Прогнозиране на стойността на зависимата променлива, използваща независима)
  3. Определяне на приноса на отделните независими променливи в разликата в зависимите

Регресионният анализ не може да се използва за определяне на наличието на комуникация между променливите, тъй като наличието на такава връзка е предпоставка за прилагането.

Математическа дефиниция на регресия

Строго регресионната зависимост може да бъде определена, както следва. Нека, случайни променливи с дадено съвместно разпределение на вероятностите. Ако за всеки набор от стойности се определя условно математическо очакване

(регресионно уравнение като цяло), \\ t

тази функция се нарича регресия y стойности за стойности и неговия график - регресионна линия от, или уравнение на регресия.

Зависимостта от се проявява в промяната на средните стойности на Y при промяна. Въпреки че с всеки фиксиран набор от стойности стойността остава случайна променлива с определено разсейване.

За да се изясни въпросът, колко точно анализ на регресията оценява промяната в y, когато се използва промяната, средното количество дисперсия y се използва за различни набори от стойности (всъщност това е резултат от разсейването на зависимата променлива около регресионната линия).

Метод най-малките квадрати (изчисляване на коефициентите)

На практика, регресионната линия най-често се търси за линейна функция (линейна регресия), която най-добре закрепва желаната крива. Това се прави с помощта на метода на най-малките квадрати, когато сумата на квадратите на отклоненията на действително наблюдаваните при оценките им са сведени до минимум (наричани оценки с права линия, подходяща за представяне на желаната зависимост от регресия):

(M - вземане на проби). Този подход се основава на известен факт, че сумата се появява в произтичащия израз, приема минималната стойност за случая, когато.

За да се реши проблемът с регресионния анализ по метода на най-малките квадрати, концепцията се въвежда от отзивчиви функции:

Минималното състояние на остатъчната функция:

Получената система е система от линейни уравнения с неизвестно

Ако предоставите безплатни членове на лявата част на уравненията на матрицата

и коефициенти в непознати в дясната част на матрицата

че получаваме матрично уравнение: което лесно се решава от метода Гаус. Получената матрица е матрица, съдържаща коефициентите на уравнението на регресионната линия:

За най-добри оценки е необходимо да се изпълняват предпоставки за МНК (условия на Гаус-Марков). В английската литература такива оценки се наричат \u200b\u200bBlue (най-добрите линейни угарители) - най-добрите линейни оценки.

Тълкуване на регресионни параметри

Параметрите са частни коефициенти на корелация; Тълкуван като дела на дисперсията y, обяснява, когато се определят влиянието на останалите предиктори, т.е. тя измерва индивидуалния принос към обяснението на Y. в случай на корела на предсказателите, проблема с несигурността в оценките, които стават в зависимост от процедурата за включване на предиктори в модела. В такива случаи е необходимо да се прилагат методите за анализ на корелацията и регресионен анализ по стъпка.

Говорейки за нелинейни модели на регресионен анализ, важно е да се обърне внимание на това дали става въпрос за нелинейност на независима променлива (от официална гледна точка, лесно намалена до линейна регресия), или върху нелинейност съгласно очакваните параметри (причинявайки сериозни изчислителни параметри (причинявайки сериозни изчислителни параметри (причиняване на сериозни изчислителни параметри), трудности). С нелинейността на първия тип от смислена гледна точка е важно да се определи външният вид на членовете на формата в модела, като посочва наличието на взаимодействия между знаците и т.н. (виж многоколарността).

Вижте също

Връзки

  • www.kgafk.ru - Лекция на тема "Регресионен анализ"
  • www.basegroup.ru - методи за избор на променливи в регресионни модели

Литература

  • Норман Драйър, Хари Смит Приложен регресионен анализ. Многократна регресия \u003d прилагане на регресионен анализ. - 3RD Ed. - m.: "Диалектика", 2007. - стр. 912. - ISBN 0-471-17082-8
  • Устойчиви методи за оценка на статистическите модели: Монография. - К.: PP "SNPARTEL", 2005. - стр. 504. - ISBN 966-96574-0-7, UDC: 519.237.5: 515.126.2, BBC 22.172 + 22.152
  • Радченко Станислав Григориевич, Методология на регресионен анализ: Монография. - K.: "Kornichuk", 2011. - стр. 376. - ISBN 978-966-7599-72-0

Фондация Wikimedia. 2010.

В статистическо моделиране регресионният анализ е проучване, използвано за оценка на връзката между променливите. Този математически метод включва много други методи за моделиране и анализиране на няколко променливи, когато връзката се изплаща на връзката между зависимата променлива и един или повече независим. Говорейки по-конкретно, регресионният анализ помага да се разбере как типичната стойност на зависимата променлива промяна, ако една от независимите променливи се променят, докато други независими променливи остават фиксирани.

Във всички случаи целевата оценка е функция на независимите променливи и се нарича регресионна функция. В регресионен анализ, характеристиката на промяната в зависимата променлива като регресионна функция може да бъде описана чрез вероятностното разпределение.

Проблеми на регресионния анализ

Този статистически изследвания е широко използван за предсказване, когато използването му има значително предимство, но понякога може да доведе до илюзия или фалшива връзка, така че се препоръчва да го използвате внимателно в посочения въпрос, тъй като, например, корелацията не е такава означава причинно-следствени взаимоотношения.

Разработен е голям брой методи за регресионен анализ, като линейна и обикновена регресия върху метода на най-малките квадрати, които са параметрични. Тяхната същност е, че регресионната функция се определя от гледна точка на крайния брой неизвестни параметри, които се оценяват от данните. Непараметричната регресия позволява функцията му да лежи в определен набор от функции, които могат да бъдат безкрайни.

Като метод за статистически изследвания, регресионният анализ на практика зависи от формата на процеса на генериране на данни и как се отнася до регресионен подход. Тъй като истинската форма на процеса на данни, генерираща, по правило, неизвестен номер, регресионният анализ на данните често зависи до известна степен от предположенията за този процес. Тези предположения понякога се проверяват, ако има достатъчно налични данни. Регресионните модели често са полезни дори когато предположенията са умерено нарушени, въпреки че не могат да работят с максимална ефективност.

В по-тесен смисъл регресията може да се отнася конкретно за оценката на променливите за непрекъснато реакция, за разлика от различните променливи на отговор, използвани в класификацията. В случай на непрекъсната променлива на изхода се нарича и метрична регресия, за да я разграничат от свързани проблеми.

История

Най-ранната форма на регресия е за целия известен метод от най-малките квадрати. Той е публикуван от Legendre през 1805 г. и Гаус през 1809 г. Ленгенда и Гаус прилагат метода за определяне на орбитата на орбитата около слънцето (предимно комети, но по-късно и новотворени малки планети). Гаус публикува по-нататъшно развитие на теорията на най-малките квадрати през 1821 г., включително версията на Теорем Гаус Марков.

Терминът "регрес" излезе с Франсис Галтън през XIX век, за да опише биологичен феномен. Същността е, че растежът на потомците от растежа на предците, като правило, регресира до нормалната средна стойност. За Галтън регресията имаше само това биологично значение, но по-късно работата му продължил Джоли и Карл Пиърсън и доведоха до по-общ статистически контекст. В работата на Йол и Пиърсън съвместното разпределение на отговорите и обяснителните променливи се счита за Гаус. Това предположение беше отхвърлено от Fisher в произведенията от 1922 и 1925 година. Фишър предложи условното разпределение на променливата за отговор е Гаусс, но съвместното разпределение не трябва да бъде такова. В това отношение предложението на Фишър е по-близо до изявлението на Гаус 1821. До 1970 г., понякога оставени до 24 часа, за да се получи резултат от регресионен анализ.

Методите за регресионни анализи продължават да остават област на активни изследвания. През последните десетилетия са разработени нови методи за надеждна регресия; регресия с участието на корелиращи отговори; регресионни методи, които отговарят на различни видове липсващи данни; непараметрична регресия; Байезийски регресионни методи; регресии, в които променливи на прогнозиране се измерват с грешка; Регресия с повечето от предишките, отколкото наблюденията, както и причинно-следствените заключения с регресия.

Регресионни модели.

Моделите за анализ на регресията включват следните променливи:

  • Неизвестни параметри, обозначени като бета, които могат да бъдат скалар или вектор.
  • Независими променливи, X.
  • Зависими променливи, y.

В различни области на науката, когато се използва регресионен анализ, се използват различни термини вместо зависими и независими променливи, но във всички случаи регресионният модел се отнася до функцията x и β.

Сближаването обикновено се прави под формата на Е (y | x) \u003d F (x, р). За извършване на регресионен анализ трябва да се определи форма на функцията на F. По-малко е вероятно въз основа на връзката между Y и X, които не разчитат на данните. Ако такива знания не са налични, е избрана гъвкава или удобна форма F.

Зависима променлива y.

Да предположим сега, че векторът с неизвестни параметри β има дължина k. За извършване на регресионен анализ, потребителят трябва да предостави информация за зависимата променлива Y:

  • Ако има точки n данни за формата (y, x), където n< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ако се наблюдава точно N \u003d K, и функцията F е линейна, уравнението y \u003d F (x, β) може да бъде решено точно и не приблизително. Това намалява за решаване на набора от N-уравнения с N-неизвестни (р елементи), който има едно решение, докато X е линейно независим. Ако f е нелинейно, решението може да не съществува, или може да има много решения.
  • Най-често срещаната е ситуацията, в която се наблюдават n\u003e точки към данните. В този случай има достатъчно информация в данните за оценка на уникалната стойност за β, която по най-добрия начин съответства на данните и регресионния модел, когато приложението към данните може да се счита за предефинирана система в β.

В последния случай регресионният анализ предоставя инструменти за:

  • Търсене на решение за неизвестни параметри β, които например ще минимизират разстоянието между измерената и прогнозна стойност на Y.
  • При определени статистически предположения, регресионният анализ използва излишната информация, за да предостави статистическа информация за неизвестни параметри β и прогнозира стойности на зависимата променлива Y.

Необходимо количество независими измервания

Помислете за регресионния модел, който има три неизвестни параметъра: β 0, β 1 и β2. Да предположим, че експериментаторът извършва 10 измервания в същата стойност на независимия променлив вектор X. В този случай регресионният анализ не дава уникален набор от стойности. Най-доброто нещо, което трябва да се направи, е да се оцени средната стойност и стандартното отклонение на зависимата променлива y. По същия начин, измерването на две различни стойности X, възможно е да се получат достатъчно данни за регресия с две неизвестни, но не и за три или по-неизвестни.

Ако измерванията на експериментатора бяха проведени при три различни стойности на независимия променлив вектор X, регресионният анализ ще осигури уникален набор от оценки за три неизвестни параметъра в β.

В случай на обща линейна регресия, горното одобрение е еквивалентно на изискването, че X t X матрицата е обратима.

Статистически предположения

Когато броят на измерванията n е по-голям от броя на неизвестните параметри K и измервателни грешки ε i, след това, след това се прилага за излишък от информация, съдържаща се в измерванията и се използва за статистически прогнози за относително неизвестни параметри. Този излишък на информация се нарича степен на свобода на регресия.

Фундаментални предположения

Класическите предположения за регресионни анализи включват:

  • Пробата е представител на прогнозирането на логически резултати.
  • Грешката е случайна променлива със средна нулева стойност, която зависи от обяснителните променливи.
  • Независимите променливи се измерват без грешки.
  • Като независими променливи (предиктори), те са линейно независими, т.е. не е възможно да се изразява никакъв предиктор под формата на линейна комбинация от останалите.
  • Грешките са несвързани, т.е. матрица от ковариация на грешки на диагонали и всеки ненулев елемент е дисперсия на грешки.
  • Грешката на дисперсията е постоянна чрез наблюдения (хомоциадастичност). Ако не, можете да използвате метода за окачени най-малки квадрати или други методи.

Тези достатъчни условия за оценка на най-малките квадрати имат необходимите свойства, по-специално тези предположения означават, че оценките на параметрите ще бъдат обективни, последователни и ефективни, особено когато са регистрирани в линейната оценка. Важно е да се отбележи, че действителните данни рядко отговарят на условията. Това означава, че се използва методът, дори ако предположенията не са верни. Вариацията от предположенията понякога може да се използва като мярка, показваща колко е полезен този модел. Много от тези предположения могат да бъдат смекчени в по-напреднали методи. Докладите за статистически анализ, като правило, включват анализ на теста съгласно извадката и методологията за полезност на модела.

В допълнение, променливите в някои случаи се отнасят до стойностите, измерени в точкови места. Може да има пространствени тенденции и пространствени автокорелации в променливи, които нарушават статистическите предположения. Географското пределно регресия е единственият метод, който се занимава с такива данни.

В линейна регресия, характеристика е, че зависимата променлива, която е Y I, е линейна комбинация от параметри. Например, в проста линейна регресия, една независима променлива, x I и два параметъра, β 0 и р 1 се използват за симулиране на n-точки.

С множество линейни регресия има няколко независими променливи или техните функции.

С случайна извадка от населението, нейните параметри ви позволяват да получите образец на линейна регресия.

В този аспект най-квадратният метод е най-популярният. С помощта на нея има оценки на параметрите, които минимизират сумата на квадратите на остатъците. Този вид минимизиране (което е характерно за линейната регресия) на тази функция води до набор от нормални уравнения и набор от линейни уравнения с параметри, които са решени с пристъпване на оценките на параметрите.

С по-нататъшно предположение, че грешката на населението обикновено се разпространява, изследователят може да използва тези оценки на стандартните грешки, за да създаде доверителни интервали и проверка на хипотезите на нейните параметри.

Нелинеен регресионен анализ

Пример, когато функцията не е линейна по отношение на параметрите, показва, че сумата на квадратите трябва да бъде сведена до минимум, използвайки итеративна процедура. Това прави много усложнения, които определят различията между линейните и нелинейни методи на най-малките квадрати. Следователно резултатите от регресионния анализ, използващи нелинейния метод, понякога са непредсказуеми.

Изчисляване на мощността и вземане на проби

Тук, като правило, няма съгласувани методи, свързани с броя на наблюденията в сравнение с броя на независимите променливи в модела. Първото правило беше предложено за добро и пристанище и прилича на n \u003d t ^ n, където п е размерът на извадката, n е броят на независимите променливи, и t е броят на наблюденията, необходими за постигане на желаната точност, ако моделът има само една независима променлива. Например, изследовател изгражда линеен регресионен модел, използвайки набор от данни, който съдържа 1000 пациенти (n). Ако изследователят реши, че са необходими пет наблюдения, за да се определи точно директен (m), тогава максималният брой независими променливи, които моделът може да поддържа, е равен на 4.

Други методи

Въпреки факта, че параметрите на регресионния модел обикновено се оценяват с помощта на метода на най-малките квадрати, има и други методи, които се използват много по-малко. Например, това са следните методи:

  • Байезийски методи (например, метод на байезиански линеен регресия).
  • Регресия на лихвите, използвана за ситуации, при които упадъкът в грешките в лихвите се счита за по-подходящ.
  • Най-малките абсолютни отклонения, което е по-устойчиво в присъствието на емисии, водещи до кв. Регресия.
  • Непараметрична регресия, изискваща голям брой наблюдения и изчисления.
  • Обучение на метрично разстояние, което се изследва в търсене на значително метрично разстояние в дадено входно пространство.

Софтуер

Всички основни статистически софтуерни пакети се извършват с помощта на най-малките квадрати на регресионен анализ. Проста линейна регресия и множествен регресионен анализ могат да бъдат използвани в някои приложения на електронни таблици, както и на някои калкулатори. Въпреки че много софтуерни статистически пакети могат да извършват различни видове непараметрични и надеждни регресия, тези методи са по-малко стандартизирани; Различни софтуерни пакети прилагат различни методи. Специализиран софтуер за регресия е предназначен за използване в такива области като анализ на проучвания и невровализация.

Основната характеристика на регресионен анализ: когато се подпомага, е възможно да се получи специфична информация за каква форма и характер има връзката между изследваните променливи.

Последователност на етапите на регресия

Обмислете за кратко регресиране.

    Формулировка на задачите. На този етап се образуват предварителни хипотези върху зависимостта на изследваните явления.

    Определяне на зависими и независими (обясняващи) променливи.

    Събиране на статистически данни. Данните трябва да се събират за всяка от променливите, включени в регресионния модел.

    Формулировката на хипотезата за формата на комуникация (проста или многократна, линейна или нелинейна).

    Дефиниция функции за регресия (се крие при изчисляването на цифровите стойности на параметрите на регресионното уравнение)

    Оценка на прецизен регресионен анализ.

    Тълкуване на получените резултати. Получените резултати от регресионния анализ се сравняват с предварителни хипотези. Оценката на резултатите от получените резултати се оценява.

    Прогнозиране на неизвестни стойности на зависимата променлива.

С помощта на регресионен анализ е възможно да се реши проблемът за прогнозиране и класификация. Стойностите на прогнозите се изчисляват чрез заместване на регресионното уравнение на стойностите на обяснителните променливи. Решението на проблема с класификацията се извършва по този начин: регресионната линия разделя всички набори от предмети в два класа, а частта от комплекта, където функционалната стойност е по-голяма от нула, принадлежи към един клас, а този, където Тя е по-малка от нула, на друг клас.

Проблеми на регресионния анализ

Разгледайте основните задачи на регресионния анализ: определяне на формата на пристрастяване, определение функции за регресия, Оценка на неизвестни стойности на зависимата променлива.

Определяне на формата на пристрастяване.

Природата и формата на зависимостта между променливите могат да образуват следните разновидности на регресия:

    положителна линейна регресия (изразена в единно растеж на функцията);

    положително еквивалентно увеличаване на регресията;

    положително равновесно увеличаване на регресията;

    отрицателна линейна регресия (изразена в равномерна падаща функция);

    отрицателно еквивалентно намаляване на регресията;

    отрицателно намаляване на равновесието.

Описаните сортове обаче обикновено не са в чиста форма, но в комбинация един с друг. В този случай те говорят за комбинираните форми на регресия.

Определяне на регресионната функция.

Втората задача се намалява, за да се изясни действието на зависимата променлива на основните фактори или причините, при постоянни други равни условия и при изключване на въздействието върху зависимата променлива на случайни елементи. Функция за регресияопределено под формата на математическо уравнение на един или друг тип.

Оценка на неизвестни стойности на зависимата променлива.

Решението на тази задача е да се реши проблемът с един от видовете:

    Оценка на стойностите на зависимата променлива в разглеждания интервал на източника, т.е. пропуснати ценности; В този случай проблемът за интерполация е решен.

    Оценка на бъдещите стойности на зависимата променлива, т.е. намиране на стойности извън посочения интервал на източника; В същото време, задачата за екстраполация е решена.

И двете задачи се решават чрез заместване на регресионното уравнение на установените оценки на параметрите на стойностите на независимите променливи. Резултатът от решаването на уравнението е оценка на стойността на целевата (зависимата) променлива.

Помислете за някои предположения, на които се основава регресионният анализ.

Предположение за обвинение, т.е. Предполага се, че връзката между разглежданите променливи е линейна. Така че, в примера, построихме дисперсионна диаграма и успяхме да видим изрична линейна връзка. Ако на дисперсионната диаграма на променливите виждаме ясна липса на линейна връзка, т.е. Нелинейната комуникация е налице, трябва да се използват методи за нелинейни анализи.

Предположението за нормалност остатък. Предполага се, че разпределението на разликата в предвидените и наблюдаваните стойности е нормално. За да определите визуално естеството на разпределението, можете да използвате хистограми остатък.

Когато се използва регресионен анализ, следва да се вземе предвид основното му ограничение. Именно, че регресионният анализ ви позволява да откривате само зависимости, а не връзките, които са в основата на тези зависимости.

Регресионният анализ дава възможност да се оцени степента на комуникация между променливите чрез изчисляване на предвидената стойност на променливата въз основа на няколко известни стойности.

Регресионно уравнение.

Регресионното уравнение е както следва: y \u003d a + b * x

Използвайки това уравнение, променливата Y се експресира чрез константа А и ъгъл на права линия (или ъглови коефициент) b, умножена по стойност на променливата X. Константа А се нарича свободен член и коефициентът на ъгъла - коефициентът на регресия или коефициента на Б-коефициент.

В повечето случаи (ако не винаги) има известна промяна на наблюденията по отношение на регресията.

Остатък - Това е отклонението на отделна точка (наблюдение) от регресионната линия (прогнозна стойност).

За да разрешите задачата за анализ на регресия в MS Excel, изберете в менюто Обслужване"Пакет за анализ"и инструмент за анализ на "регресия". Ние определяме интервалите на входа X и Y. Интервалът на входа Y е диапазон от анализирани данни, които трябва да включват една колона. Входният интервал X е редица независими данни, които трябва да бъдат анализирани. Броят на входните диапазони трябва да бъде не повече от 16.

На изхода на процедурата в диапазона на изхода получаваме доклада, даден в таблица 8.3А.-8.3V..

Общ резултат

Таблица 8.3а. Статистика за регресия

Статистика за регресия

Множество R.

R-Square.

Нормален r-квадрат

Стандартна грешка

Наблюдения

Първо разгледайте горната част на представените в нея изчисления таблица 8.3А.- статистика на регресия.

Стойност R-Square., също така наричана мярка за сигурност, характеризира качеството на получената регресия. Това качество се изразява чрез степента на съответствие между източниците и регресионния модел (изчислени данни). Мярката за сигурност е винаги в интервала.

В повечето случаи стойността R-Square.разположен между тези ценности, наречен екстремен, т.е. Между нула и единица.

Ако стойността R-Square.в близост до единство, това означава, че конструираният модел обяснява почти цялата променливост на съответните променливи. И напротив, стойност R-Square.Близо до нула означава лошото качество на конструирания модел.

В нашия пример мярката за сигурност е 0.99673, което показва много добра регресия на годността директно към първоначалните данни.

множество R. - Коефициентът на множествено съотношение R - изразява степента на зависимост на независимите променливи (X) и зависимата променлива (Y).

Множество R.това е равно на корен от коефициента на определяне, тази стойност взема стойности в диапазона от нула до един.

В прост линеен регресионен анализ множество R.това е равно на коефициента на корелация на Pearson. Наистина ли, множество R.в нашия случай, той е равен на коефициента на корелация на Pearson от предишния пример (0.998364).

Таблица 8.3b. Коефициенти на рецесия

Фактори

Стандартна грешка

t-статистика

Y-пресичане.

Променлива x 1.

* Дадена е опция за изчисление.

Сега разгледайте средната част на представените в него изчисления таблица 8.3б.. Коефициент на регресия B (2.305454545) и офсет по ордена оси, т.е. Константа А (2,694545455).

Въз основа на изчисленията можем да напишем уравнението на регресията по този начин:

Y \u003d x * 2,305454545 + 2,694545455

Посоката на комуникация между променливите се определя въз основа на признаци (отрицателни или положителни) регресионни коефициенти (коефициент б).

Ако знакът с регресионния коефициент е положителен, връзката на зависимата променлива с независима ще бъде положителна. В нашия случай регресионният коефициент е положителен, следователно връзката също е положителна.

Ако знакът в регресионния коефициент е отрицателен, връзката на зависимата променлива с независима е отрицателна (обратна).

В таблица 8.3V.. Представени са резултатите от изхода остатък. За да се появят тези резултати в доклада, е необходимо да активирате квадратчето "остава" при стартиране на инструмента "регресия".

Заключение Остатък

Таблица 8.3b. Остатъци

Наблюдение

Прогнозира y.

Остатъци

Стандартни остатъци

С тази част на доклада можем да видим отклонения на всяка точка от конструираната регресионна линия. Най-голямата абсолютна стойност остатъкв нашия случай - 0.778, най-малкият - 0.043. За най-доброто тълкуване на тези данни използваме оригиналния график на данните и изградената регресионна линия фиг. 8.3.. Както можете да видите, регресионната линия определено е "съседна" под значението на изходните данни.

Трябва да се има предвид, че разглежданият пример е доста прост и далеч от винаги е възможно да се изгради регресия директен линеен изглед.

Фиг. 8.3. Първоначална линия за данни и регресия

Проблемът за оценката на неизвестните бъдещи стойности на зависимата променлива въз основа на известните стойности на независима променлива остава неизвестна, т.е. Прогнозиране на проблема.

Като регресионно уравнение задачата за прогнозиране се намалява до решаване на уравнението y \u003d x * 2.305454555 + 2.694545455 с известни х стойности. Представени са резултатите от прогнозиране на зависимата променлива Y за шест стъпки напред таблица 8.4..

Таблица 8.4. Резултатите от прогнозната променлива y

Y (прогнозира)

По този начин, в резултат на използване на регресионен анализ в пакета на Microsoft Excel, ние:

    изграждане на регресионно уравнение;

    установена формата на зависимост и посоката на комуникация между променливите - положителна линейна регресия, която се изразява в еднакъв растеж на функцията;

    задайте посоката на комуникация между променливите;

    оценява качеството на получената регресия;

    успяха да видят отклонения на данните за сетълмента от данните на оригиналния комплект;

    бъдещи стойности на зависимата променлива прогнозира.

Ако функция за регресиятой се определя, интерпретиран и оправдан, а оценката на точността на регресионния анализ отговаря на изискванията, можем да приемем, че конструираният модел и прогнозните стойности имат достатъчна надеждност.

Прогнозираните стойности, получени по този начин, са средните стойности, които могат да се очакват.

В тази статия разгледахме основните характеристики. описателна статистикаи сред тях такива концепции като означава,медиана,максимум,минималени други характеристики на вариацията на данните.

Това също беше разгледано накратко концепцията емисии. Разглежданите характеристики се отнасят до така наречения анализ на изследването, заключенията му не могат да се прилагат за общото население, но само за извадката за данни. Анализът на изследванията се използва за получаване на първични заключения и образуването на хипотези спрямо общото население.

Бяха разгледани и основата на корелацията и регресионен анализ, техните задачи и практически възможности.

Регресионният анализ е в основата на създаването на повечето иконометрични модели, които също трябва да включват модел за оценка на стойността. За изграждане на модели за оценка, този метод може да се използва, ако броят на аналозите (сравними обекти) и броя на факторите на стойността (сравнителни елементи) се отнасят един до друг: пс \u003e (5-g-10) x да се, тези. Аналозите трябва да бъдат 5-10 пъти повече от стойностите фактори. Това изискване за съотношението на размера на данните и броя на факторите се прилага и за други задачи: установяване на комуникация между разходите и потребителските параметри на обекта; Обосновка на процедурата за изчисляване на коригиращите индекси; Изясняване на цените на тенденциите; създаване на комуникация между износване и промени в влияещите фактори; Получаване на зависимости за изчисляване на стандартите за разходи и др. Изпълнението на това изискване е необходимо, за да се намали вероятността от пресяване на данни, което не отговаря на изискванията на нормалността на разпределението на случайни променливи.

Регресията отразява само средната тенденция да се променя получената променлива, като стойност, от промяна на един или повече факторни променливи, като местоположения, брой стаи, квадрат, етаж и др. Това е разликата между регресионната връзка от функционалната, при която стойността на получената променлива се определя стриктно чрез определената стойност на факторните променливи.

Наличието на регресия / между резултата w. и факторни променливи x R. ..., x K. (Фактори) предполага, че тази връзка се определя не само от влиянието на избрани факторивни променливи, но и от влиянието на променливите, някои от които обикновено са неизвестни, други не са податливи на оценка и счетоводство:

Ефектът от неизплатени променливи се обозначава с втория мандат на това уравнение. ?, което се нарича грешка в сближаването.

Разграничават се следните видове регресионни зависимости:

  • ? Регресията на двойката е връзката между две променливи (получени и фактори);
  • ? Множество регресия е зависимостта на една получена променлива и две или повече факторни променливи, включени в проучването.

Основната задача на регресионен анализ е количествено определяне на тона на връзката между променливите (с сдвоена регресия) и множество променливи (с многократна регресия). Комуникацията се изразява количествено от коефициента на корелация.

Прилагането на регресионен анализ дава възможност да се установи моделът на влиянието на основните фактори (хедонистични характеристики) върху изследвания индикатор както в тяхната съвкупност, така и в тях поотделно. Използване на регресионен анализ, като метод на математическа статистика, е възможно, първо, да се намери и описва формата на аналитична зависимост от получената (желана) променлива от фактор и, второ, да се оцени близостта на тази зависимост.

Благодарение на решаването на първата задача се получава математически регресионен модел, с който тогава желаният индикатор се изчислява при определените стойности на факторите. Решението на втората задача ви позволява да зададете надеждността на желания резултат.

По този начин регресионният анализ може да бъде определен като набор от официални (математически) процедури, предназначени за измерване на плътността, указанията и аналитичния израз на формата на комуникация между получените и факторни променливи, т.е. При изхода на такъв анализ трябва да бъде структурен и количествено определен статистически модел на формата:

където y - Средната стойност на получената променлива (желания индикатор, например, разходи, лизинг, степен на капитализация) пс нейните наблюдения; x - стойност на факторна променлива (/-десен фактор); да се - Броя на факторните променливи.

Функция f (x l, ..., x lc), Описанието на зависимостта на получената променлива от фактор се нарича уравнение (функция) на регресия. Терминът "регресия" (регресия) е отстъпление, възстановяване на нещо) е свързано със спецификата на една от конкретните задачи, решени на етапа на образуване на метода, и понастоящем не отразява цялата същност на метода, но продължава да се прилага.

Регресионният анализ обикновено включва следните стъпки:

  • ? формиране на проба от хомогенни обекти и събиране на информация за тези обекти;
  • ? Изборът на основните фактори, засягащи получената променлива;
  • ? Проверете извадката за нормалност х. 2 или критерий за биномин;
  • ? приемане на хипотеза за формата на комуникация;
  • ? Математическа обработка на данни;
  • ? получаване на регресионен модел;
  • ? оценка на статистическите си показатели;
  • ? Изчисления за калибриране, използвайки регресионен модел;
  • ? Анализ на резултатите.

Посочената последователност от операции се извършва в изследването на връзката между двойката между факторната променлива и една получена и многократна връзка между получената променлива и няколко фактора.

Използването на регресионен анализ прави определени изисквания за информация за източника:

  • ? Статистическата извадка от обекти трябва да бъде хомогенна във функционални и структурно технологични отношения;
  • ? доста многобройни;
  • ? Изследваната стойност на стойността е получената променлива (цена, цена, разходи) - следва да се даде на един термини на нейното смятане във всички обекти в извадката;
  • ? Факторните променливи трябва да бъдат измерени доста точно;
  • ? Факторните променливи трябва да бъдат независими или минимално зависими.

Изискванията за хомогенност и пълнота на извадката са в противоречие: по-строгите избора на предмети по тяхната хомогенност, толкова по-малко се получава пробата, а напротив, тя трябва да включва обекти в него.

След като данните за групата на хомогенни обекти се събират, техният анализ се извършва, за да се създаде форма на комуникация между получените и факторни променливи под формата на теоретична регресионна линия. Процесът на намиране на теоретичната регресионна линия е разумен избор от приблизителна крива и изчисляване на коефициентите на нейното уравнение. Регресионната линия е гладка крива (в частна дела), описваща с помощта на математическа функция, общата тенденция на зависимостта на зависимостта и изглаждането на незаконните, произволни емисии от влиянието на страничните фактори.

За да се показват двойки регресионни зависимости в очакваните задачи, най-често се използват следните функции: линейни - y - 0 + aRS + S. мощност - u - AJ & I + C Индикативен - y -линейно индикативно - y - 0 + AR * + C. Тук - д. Грешка в сближаването, причинено от действието на неизплатени случайни фактори.

В тези функции, получената променлива; X - факторна променлива (фактор); но 0 , r A 2 - Регресионни параметри, регресионни коефициенти.

Линейният индикативен модел се отнася до класа на така наречените хибридни модели на формата:

където

където H. (I \u003d. 1, /) - стойностите на факторите;

b t (i \u003d 0, /) - коефициентите на регресионното уравнение.

В това уравнение компонентите А, Б. и Z. съответстват на цената на отделните компоненти на очаквания актив, например, стойността на земния парцел и цената на подобренията и параметъра Q.е често срещано. Целта е да се коригира стойността на всички компоненти на очаквания актив към общия фактор на влияние, например място.

Стойностите на факторите в степента на съответните коефициенти са двоични променливи (0 или 1). Фактори в основата на степен - дискретни или непрекъснати променливи.

Фактори, свързани с умножаването на семействата, също са непрекъснати или дискретни.

Спецификацията се извършва като правило, като се използва емпиричен подход и включва два етапа:

  • ? прилагане към графиката на регресионните полеви точки;
  • ? Графичен (визуален) анализ на вида на възможната приблизителна крива.

Видът на регресионната крива не винаги е възможно да се избере незабавно. За да го определите, първо се отнасят в графиката на регресионното поле на източниците. След това визуално провеждаме линия на позицията на точките, като се стремим да разберем качествения модел на комуникация: единен растеж или равномерно намаление, растеж (намаление) с увеличаване на (низходящ) на скоростта на високоговорителя, плавно сближаване някакво ниво.

Този емпиричен подход се допълва от логически анализ, избутващ от вече известните идеи за икономическия и физическия характер на изследваните фактори и тяхното взаимно влияние.

Например, известно е, че зависимите от получените променливи - икономически показатели (цени, лизинг) от редица факторни променливи - ценообразуващи фактори (разстояния от центъра на селището, квадратни и др.) Са нелинейни, и. \\ T Те могат да бъдат достатъчно описани от силата, експоненциалните или квадратичните функции., Но с малки диапазони на промени в факторите могат да бъдат получени приемливи резултати, като се използва линейна функция.

Ако все още е невъзможно незабавно да се направи уверен избор на една функция, след това се вземат две или три функции, изчислете техните параметри и допълнително с помощта на съответните критерии за плътност, накрая изберете функцията.

В теорията регресионният процес на намиране на крива се нарича спецификация модели и нейните коефициенти - калибриранемодели.

Ако се установи, че получената променлива y зависи от няколко факторни променливи (фактори) x (, x 2, ..., x K. Това е прибягно до изграждането на множество регресионен модел. Обикновено се използват три форми на множество комуникации: линейни - y - и 0 + a x x x + a ^ x 2 + ... + и k x k Индикативен - y - 0 A* I. a x t- и x bмощност - y - 0 x x IX 2 A 2. .x ^ или комбинации от тях.

Индикативните и мощни функции са по-универсални, тъй като приблизителните нелинейни облигации, което е по-голямата част от зависимостите при следователите. Освен това те могат да се прилагат при оценката на обектите и в метода на статистическо моделиране по време на масовата оценка и в начина на пряко сравнение в индивидуална оценка при установяване на коригиращи коефициенти.

На етапа на калибриране, параметрите на регресионния модел се изчисляват, като се използват метода на най-малките квадрати, чиято същност е, че сумата на отборите на изчислените стойности на получената променлива w., т.е. Изчислено от избраното уравнение на комуникацията, от действителните стойности трябва да бъдат минимални:

Стойности j) (. И y. Затова известен Q. Това е функция само на коефициентите на уравнението. За намиране на минимум С. трябва да се вземат частни деривати Q. Според коефициентите на уравнението и ги приравняват към нула:

В резултат на това получаваме система от нормални уравнения, чийто брой е равен на броя на дефинираните коефициенти на желаното регресионно уравнение.

Поставете, трябва да намерите коефициентите на линейното уравнение y - 0 + ARS. Сумата от квадратите на отклоненията е:

/=1

Разграничаване на функцията Q. Според неизвестни коефициенти 0. и и приравнява частните деривати до нула:

След като трансформациите получават:

където р Брой действителни стойности на източника w. (брой аналози).

Намалената процедура за изчисляване на коефициентите на регресионното уравнение е приложима и за нелинейни зависимости, ако тези зависимости могат да бъдат линеаризирани, т.е. Ниска до линейна форма чрез подмяна на променливи. Силата и индикативните функции след логаритмика и съответното заместване на променливите придобиват линейна форма. Например, мощна функция след логаритцията придобива типа: в y \u003d 1pi 0 + A H. 1px. След замяна на променливите Y-В. y, l 0 - В. и номер x-В x получаваме линейна функция

Y \u003d a 0 + cijx, Коефициентите на които се намират в описания по-горе метод.

Най-малкият квадратен метод се използва за изчисляване на коефициентите на множествения регресионен модел. Така че, системата на нормалните уравнения за изчисляване на линейна функция с две променливи XJ. и x 2. След поредица от трансформации, това е както следва:

Обикновено тази система на уравнения се решава, като се използват методите на линейната алгебра. Многофункционалната функция води до линейна форма чрез логаритминг и замени променливите по същия начин, както и сдвоената мощност.

Когато се използват хибридни модели, множество регресионни коефициенти са разположени с използване на числени процедури на метода на последователни приближения.

За да се направи окончателен избор на няколко регресионни уравнения, е необходимо да се провери всяко уравнение върху стягане на връзката, което се измерва чрез коефициента на корелация, дисперсия и съотношение на вариация. Можете също да използвате критериите за оценка и рибари за оценка. Колкото по-голяма е стягаността на връзката, която открива кривата, по-предпочитано е от други неща.

Ако задачата на този клас е решена, когато трябва да се установи зависимостта на стойността от коефициентите на разходите, тогава желанието да се вземат предвид възможно най-много влиянието на факторите и по този начин да се изгради по-точен модел на регресия. Въпреки това, две обективни ограничения предотвратяват разширяването на броя на факторите. Първо, за изграждане на множествен регресионен модел, се изисква значително по-обемна проба от обекти, отколкото за изграждане на сдвоен модел. Смята се, че броят на обектите в извадката трябва да надвишава броя пс фактори най-малко 5-10 пъти. От това следва, че за да се изгради модел с три влиятелни фактора, е необходимо да се събере проба от около 20 обекта с различен набор от стойности на факторите. Второ, факторите, избрани за модела при тяхното влияние върху индикатора за стойността, трябва да бъдат достатъчно независими един от друг. Трудно е да се гарантира, че пробата обикновено съчетава обекти, свързани с едно семейство, които имат естествена промяна в много фактори от обекта към обекта.

Качеството на регресионните модели обикновено се проверява с помощта на следните статистически показатели.

Стандартно отклонение на грешката на уравнението на регресията (грешка при оценката):

където р Обем на вземане на проби (брой аналози);

да се - брой фактори (фактори на разходите);

Грешка, необяснима от уравнението на регресията (фиг. 3.2);

y. - действителната стойност на получената променлива (например, цена); y t - Изчислената стойност на получената променлива.

Този индикатор също се нарича стандартна грешка при оценката (грешка на скоростта). В точката на картината са показани специфичните стойности за вземане на проби, символът се обозначава с линията на средните стойности на вземане на проби, наклонената баркотирана линия е регресионната линия.


Фиг. 3.2.

Стандартното отклонение на грешката за оценка измерва стойността на отклонението на действителните стойности от съответните изчислителни стойности w. (получени с помощта на регресионен модел. Ако пробата, на която е изградена моделът, е подчинена на нормалния закон за разпределение, тогава може да се твърди, че 68% от реалните стойности w.намира се в диапазона w. ± & E. от регресионната линия и 95% - в диапазона w. ± 2D E. . Този индикатор е удобен, защото единиците на измерване sG? съвпада с измерване на единици w.. В това отношение може да се използва, за да се посочи точността на резултата, получен в процеса. Например, в сертификат за стойност можете да укажете, че стойността на пазарната стойност, получена с помощта на модела на регресия В. С вероятност от 95% е в диапазона от (V -2D ,.)преди (U. + 2d s).

Camegory вариация на получената променлива:

където y - Средната стойност на получената променлива (фиг. 3.2).

В регресионен анализ коефициентът на вариация VAR е стандартно отклонение на резултата, изразено като процент от средната стойност на получената променлива. Коефициентът на изменение може да служи като критерий за прогнозираните качества на получения модел на регресия: колкото по-малко var.Особено високи са проектите за качество. Използването на коефициента на вариация е за предпочитане пред индикатора & e, тъй като това е относителен индикатор. С практическото използване на този показател е възможно да не се препоръчва моделът, чийто коефициент на вариация надвишава 33%, тъй като в този случай е невъзможно да се каже, че тези проби са подчинени на нормалния закон за разпределение.

Коефициент на определяне (Квадрат на коефициента на множествен корелация):

Този индикатор се използва за анализ на цялостното качество на получения модел на регресия. Той показва кой процент от варирането на получената променлива се обяснява с влиянието на всички факторни променливи, включени в модела. Коефициентът на определяне винаги се крие в диапазона от нула към един. Колкото по-близо до стойността на коефициента на определяне към един, толкова по-добър моделът описва първоначалната серия от данни. Коефициентът на определяне може да бъде представен по различен начин:

Тук е грешка, обяснена от регресионния модел

но - Грешка необяснима

регресионен модел. От икономическа гледна точка този критерий ви позволява да прецените какъв процент от ценообразуването се обяснява с уравнението на регресията.

Точна граница на приемливостта на индикатора R2. За всички случаи е невъзможно да се уточни. Необходимо е да се вземе предвид размерът на извадката и смисленото тълкуване на уравнението. Като правило, когато изучавате данни на същия тип обекти, получени по едно и също време, стойността R2. не надвишава нивото от 0.6-0.7. Ако всички грешки в прогнозите са нула, т.е. Когато връзката между получените и факторните променливи е функционална, R2. =1.

Коригиран коефициент на определяне:

Необходимостта от въвеждане на коригиран коефициент на определяне се обяснява с факта, че с увеличаване на броя на факторите да се Обичайният коефициент на определяне почти винаги се увеличава, но броят на степените на свободата се намалява. (n - до - един). Въведената настройка винаги намалява стойността R2, дотолкова доколкото (P. - 1) \u003e (P- до - един). В резултат на това сумата R 2 CKOF) Тя дори може да стане отрицателна. Това означава, че стойността R2. Беше близо до нула за регулиране и делът на променливата променлива дисперсия обяснява използването на уравнението на регресия w. много малък.

От двете възможности за регресионни модели, които се различават по отношение на коригирания коефициент на определяне, но имат еднакво други критерии за качество, за предпочитане опцията с голяма стойност на коригирания коефициент на определяне. Регулирането на коефициента на определяне не се извършва, ако (P - K): K\u003e 20.

Коефициент на рибар:

Този критерий се използва за оценка на значението на коефициента на определяне. Остатъчна сума от квадрати представлява индикатор за прогнозни грешки чрез регресия на известните стойности на стойността на .. Неговото сравнение с регресионното количество квадрати показва колко пъти зависимостта от регресия предсказва резултата по-добър от средния w. . Има таблица на критичните стойности. F R. Коефициент на рибар в зависимост от броя на степените на свободата на числителя - К., знаменател V 2 \u003d p - K. - 1 и нивото на значимост a. Ако изчислената стойност на критерия за рибар F R. Повече таблична стойност, след това хипотеза за незначителност на коефициента на определяне, т.е. Относно непоследователността на връзките, поставени в действително съществуването на регресионното уравнение, с вероятността p \u003d 1 - и отхвърлена.

Средна грешка на сближаване (Средният процент) се изчислява като средна относителна разлика, изразена като процент, между действителните и изчислени стойности на получената променлива:

Колкото по-малка е стойността на този индикатор, толкова по-добре е предсказуемото качество на модела. С стойността на този индикатор, не по-висока от 7% показват висок прецизен модел. Ако 8 \u003e 15%, те говорят за незадоволителната точност на модела.

Стандартна коефициенна на регресия Грешка:

където (/ i) -1.-диагонални елементи на матрицата (X g x) ~ 1 до - брой фактори;

Х - Матрица на стойностите на факторните променливи:

X 7 - Транспонирана матрица на стойностите на факторните променливи;

(Есен) _ | - Матрица, обратна матрица.

Колкото по-малки са тези показатели за всеки коефициент на регресия, толкова по-надежден е оценката на съответния коефициент на регресия.

Критерий на ученика (T-статистика):

Този критерий ви позволява да измервате степента на надеждност (същественост) на съобщението поради този регресионен коефициент. Ако изчислената стойност t.. Повече таблична стойност

t. AV, където v - P - K - 1 е броят на степените на свободата, хипотезата, че този коефициент е статистически незначителен, отхвърлен с вероятност (100 - а)%. Има специални таблици / разпределение, които позволяват дадено ниво на значимост А и броя на степените на свободата V, за да се определи критичната стойност на критерия. Най-често използваната стойност е 5%.

Многоколинарност. Ефектът на взаимоотношенията между факторните променливи води до необходимостта да бъде съдържание с ограничения номер. Ако това не е да се помисли, тогава можете да получите нелогичен регресионен модел. За да се избегне отрицателният ефект на многоцветността, преди да се конструират многократно регресионен модел, се изчисляват коефициентите на корелацията на двойката r xjxj. между избрани променливи х. и х.

Тук XJX; - Средната стойност на работата на две факторни променливи;

XJXJ - продукта на средните стойности на два факторни променливи;

Оценка на дисперсията на факторната променлива x.

Смята се, че две променливи са регресивно свързани помежду си (т.е. колинеарни), ако коефициентът на корелация на двойки в абсолютна стойност е строго по-голям от 0.8. В този случай някоя от тези променливи следва да бъде изключена от разглеждане.

С цел разширяване на възможностите за икономически анализ на получените регресионни модели, средно коефициенти на еластичност Дефинирани по формулата:

където XJ - Средната стойност на съответната факторна променлива;

y - Средната стойност на получената променлива; a i - Коефициент на регресия със съответната факторна променлива.

Коефициентът на еластичност показва колко процент средната стойност на получената променлива се променя с промяна в факторна променлива с 1%, т.е. Как реагира получената променлива за промяна на факторната променлива. Например, как цената на една четвърт реагира. M квадрат апартамент за отстраняване от центъра на града.

Полезно по отношение на анализа на значението на това или че коефициентът на регресия е оценката коефициент на частното определяне:

Тук - оценка на дисперсията

променлива. Този коефициент показва колко процентни вариации на получената променлива се обяснява с вариацията / в факторната променлива, включена в уравнението на регресията.

  • Под хедонистичните характеристики са характеристиките на обекта, отразяващ неговия полезен (ценен) от гледна точка на купувачите и продавачите на имота.

В резултат на изследването на материала на глава 4, ученикът трябва:

зная

  • Основните концепции за регресионен анализ;
  • Методи за оценка и свойства на оценките на метода на най-малките квадрати;
  • Основни правила за проверка на значимостта и интервалната оценка на коефициентите на уравнение и регресия;

в състояние да бъде

  • Намерете чрез избирателни данни за оценка на параметрите на двуизмерни и множествени модели на регресионни уравнения, анализирайте техните свойства;
  • Проверете значението на уравнението и регресионните коефициенти;
  • Намерете интервални оценки на значимите параметри;

собствен

  • умения за статистическа оценка на параметрите на двуизмерното и многократно регресионно уравнение; умения за проверка на адекватността на регресионните модели;
  • Уменията за получаване на регресионното уравнение с всички значими коефициенти, използващи аналитичен софтуер.

Основни понятия

След анализа на корелацията, когато се открие наличието на статистически значими облигации между променливите и степента на тяхната шлифоване се оценява, обикновено се прехвърля към математическото описание на зависимостите, използвайки методите за регресия. За тази цел те избират класа функции, които свързват индикатора за резултатите w. И аргументите "изчисляват оценките на параметрите на комуникационното уравнение и анализират точността на полученото уравнение.

Функция | описване на зависимостта на условната средна стойност на резултата w. От посочените стойности на аргументите регресионно уравнение.

Терминът "регресия" (от лат. регресия - отстъпление, връщане към нещо), въведено от английски психолог и антрополог Ф. Галтън и е свързан с един от първите му примери, в които Галтън, третиращ статистически данни, свързани с въпроса за наследствеността на растежа, установи, че ако растежът на бащите се отклонява от среден растеж всички fathersa х. инча, тогава растежът на синовете им се отклонява от средния ръст на всички синове, по-малко, отколкото на х. инча. Разкрита тенденция е наречена регресия към средното състояние.

Терминът "регресия" се използва широко в статистическата литература, въпреки че в много случаи не е точно точно характеризиращ се с статистическа зависимост.

Да се \u200b\u200bопише точно регресионното уравнение, е необходимо да се знае условният закон за разпределението на ефективния индикатор y. В статистическата практика тази информация обикновено не е възможна, така ограничена от търсенето на подходящи приближения за функцията f (X.улавяне х.2, .... l *) въз основа на предварителен значителен анализ на явлението или на източника статистически данни.

Като част от отделни моделни предположения за вида на разпределението на вектора на индикаторите<) может быть получен общий вид регресионни уравнениякъдето. Например, при предположението, че тестовият набор от показатели подлежи на () - нормален закон за разпределение с вектор на математическите очаквания.

Където и ковариацията матрица,

където дисперсия y,

Регресионното уравнение (условно математическо очакване) има формата

Така, ако е многоизмерна случайна стойност ()

obeys () -Hell нормален закон за разпределение, регресионното уравнение на ефективния индикатор w. Според обяснението на променливите линейни х. Изглед.

Въпреки това, в статистическата практика, обикновено е необходимо да се ограничи търсенето на подходящи приближения за неизвестна функция за регресия. f (x), Тъй като изследователят не разполага с точни познания за условния закон за вероятностното разпределение на анализирания ефект w. За определени стойности на аргументите х.

Помислете за връзката между истинската оценка на модела на регресията. Нека полученият индикатор w. свързани с аргумент х. От отношенията

къде случайно променлива, имаща нормален закон за разпределение, Fech. Истинската функция на регресията в този случай има формата

Да предположим, че точният тип на истинското уравнение на регресия не е неизвестен за нас, но имаме девет наблюдения за двуизмерна случайна стойност, свързана с връзката, показана на фиг. 4.1.

Фиг. 4.1. Взаимно местоположение на вярноf (x) и теоретичниуред Регресионни модели.

Местоположението на фиг. 4.1 ви позволява да ограничите класа на линейните зависимости на зависимостта

Използвайки метода на най-малките квадрати, ще намерим оценка на регресията.

За сравнение на фиг. 4.1 Графиките на истинската функция на регресията на теоретичната приблизителна функция на регресия са дадени. Последните се сближават в вероятността за оценка на регресионното уравнение уред С неограничено увеличение на размера на пробата ().

Тъй като ние, вместо истинската функция на регресия, погрешно избрахме линейната регресионна функция, която за съжаление, често срещана в практиката на статистическите изследвания, нашите статистически заключения и оценки няма да имат имущество на последователност, т.е. Така че ще увеличим обема на наблюденията, нашата извадка ще бъде свързана с истинската функция на регресията

Ако правилно сме избрали класа на регресионни функции, тогава неточност в описанието уред Би било обяснено само с ограничената извадка и следователно тя може да се направи толкова малка, колкото

С цел най-доброто възстановяване на първоначалните статистически данни на условната стойност на ефективните показатели за неизвестната функция на регресията, най-често се използват следното. критерии за адекватност Функции за загуба.

1. Метод най-малък квадрат, Според който площадът на отклоненията на наблюдаваните стойности на показателя за изпълнение минимизира, от стойностите на модела, когато коефициентите на регресионното уравнение; - стойностите на аргументите в "-m наблюдение: \\ t

Задачата за намиране на евакуацията е решена. Получена регресия се нарича средно квадратичен.

2. Метод на най-малките модулиСпоред които размерът на абсолютните отклонения на наблюдаваните стойности на ефективния индикатор от модулните стойности са сведени до минимум, т.е.

Получена регресия се нарича средата на паша (Медиана).

3. Метод на минимакс Той се свежда до минимум максимално максималния модул за отклонение на наблюдаваната стойност на ефективния индикатор y, от значението на модела, т.е.

Рецесия, получена в същото време, се нарича минимакс.

В практически приложения често се срещат задачи, в които се изследва случайна стойност. y, В зависимост от някои променливи с неизвестни параметри. Ще разгледаме () като (K +. 1) -Мимално общо съвкупност, от която произволната проба се взема по обем p, където () резултатът от наблюдението. Изисква се чрез резултати от наблюдението, нито неизвестни параметри. Описаната по-горе задача се отнася до задачите на регресионния анализ.

Анализ на регресия Обадете се на метода на статистическия анализ на зависимостта на случайната променлива w. от променливи, разглеждани в регресионен анализ като небангенни стойности, независимо от истинския закон на разпространение