Основните характеристики на регресионния анализ. Анализ на регресия в Microsoft Excel

Целта на регресионния анализ е да се измери връзката между зависимата променлива и един (сдвоен регресионен анализ) или няколко (многократни) независими променливи. Независимите променливи също се наричат \u200b\u200bкоефициент, обясняване, определяне, регресира и предиктори.

Зависимата променлива понякога се нарича дефинирано обяснено, "отговор". Изключително широко разпространеният регресионен анализ в емпиричните проучвания не е свързан не само с факта, че това е удобен инструмент за изпитване хипотези. Регресията, особено множествена, е ефективен метод за моделиране и прогнозиране.

Обяснението на принципите на работа с регресионен анализ ще започне с по-прост метод на двойки.

Сдвоен регресионен анализ

Първите действия, използващи регресионен анализ, ще бъдат почти идентични с нас в рамките на изчисляването на коефициента на корелация. Три основни условия за ефективност на анализа на корелацията, използвайки метода Pearson - нормалното разпределение на променливите, измерване на интервалите на променливите, линейната връзка между променливите са от значение за множествена регресия. Съответно, на първия етап се изграждат диаграми, разсейващи диаграми, се извършва статистически дескриптивен анализ на променливите и се изчислява регресионната линия. Както и в рамките на анализа на корелацията, регресионните линии са изградени от най-малкия площад.

За по-ясно илюстрирайте различията между двата метода на анализа на данните, ние се обръщаме към вече разглеждания пример с променливите "Подкрепа на АТР" и "дял от селското население". Изходните данни са идентични. Разликата в диаграмите за разсейване ще бъде, че в регресионния анализ зависимата променлива е правилно разочароваща - в нашия случай "Поддръжка за АТФ" по оста Y, докато в анализа на корелацията няма значение. След почистване емисиите, диаграмата за разсейване е:

Фундаменталната идея за регресионна анализ е, че притежаването на обща тенденция за променливи - под формата на регресионна линия, - можете да предскажете стойността на зависимата променлива, като имате независима стойност.

Представете си конвенционална математическа линейна функция. Всяко директно в евклидовото пространство може да бъде описано по формулата:

където А е константа, която определя компенсацията по оста на ординатата; Б е коефициент, който определя ъгъла на линиите.

Знаейки ъгловия коефициент и постоянен, можете да изчислите (предсказате) стойност за всеки x.

Тази най-проста функция е основала основата на модела за регресионен анализ с резервацията, че стойността на ние ще предскажем точно, но в рамките на определен интервал на доверие, т.е. относно.

Константата е точката на пресичане на регресионната линия и ордена ос (F-пресичане, в статистически опаковки, като правило, обозначени с "прехващач"). В нашия пример с гласуване за АТФ, закръглената му стойност ще бъде 10.55. Ъгловият коефициент Комерсант ще бъде приблизително -0.1 (както в анализа на корелацията, знакът показва вида на комуникацията - директно или обратна). По този начин полученият модел ще има формата на съвместното предприятие C \u003d -0.1 X села. нас. + 10.55.

Така че за случая на "Република Адигеа" с акциите на селското население от 47% от прогнозираната стойност ще бъде 5.63:

ATP \u003d -0.10 х 47 + 10.55 \u003d 5.63.

Разликата между първоначалните и прогнозираните стойности се нарича остатък (с този термин - принципно за статистика - вече сме срещали, когато анализираме таблиците за сключване). Така че за случая на "Република adygea" остатъкът ще бъде равен на 3.92 - 5.63 \u003d -1.71. Колкото по-голяма е модулната стойност на остатъка, толкова по-рядко се предвижда стойността.

Изчислете прогнозираните стойности и остатъци за всички случаи:
Случва се Sel. нас. Мерси

(първоначално)

Мерси

(прогнозира)

Остатъци
Република Adygea. 47 3,92 5,63 -1,71 -
Алтай Република 76 5,4 2,59 2,81
Република Башкортостан 36 6,04 6,78 -0,74
Република Буряция 41 8,36 6,25 2,11
Република Дагестан 59 1,22 4,37 -3,15
Република Ингушетия 59 0,38 4,37 3,99
И т.н.

Анализът на съотношението на първоначалните и прогнозираните стойности се използва за оценка на качеството на получения модел, неговата прогностична способност. Един от основните показатели за регресионната статистика е коефициентът на множествена корелация R - коефициентът на корелация между първоначалните и прогнозираните стойности на зависимата променлива. При регресионен анализ, той е равен на обичайния коефициент на корелация на Peonon между зависимата и независимата променлива, в нашия случай - 0.63. За съществено тълкуване на множеството R, тя трябва да бъде преобразувана в коефициента на определяне. Това се прави по същия начин, както в анализа на корелацията - изграждането на площада. Коефициентът на определяне r -kvadrat (R2) показва съотношението на вариацията на зависимата променлива, обяснена с независими (независими) променливи.

В нашия случай, R2 \u003d 0.39 (0.63 2); Това означава, че променливата "дял от селското население" обяснява около 40% от изменението на разликата в "Подкрепата за АТР". Колкото по-голяма е стойността на коефициента на определяне, толкова по-висока е качеството на модела.

Друг индикатор за качество на модела е стандартна оценка на оценката (стандартна грешка в оценката). Това е индикатор за това колко точката е "разпръсната" около регресионната линия. Измерването на променливите за интервални променливи е стандартното отклонение. Съответно стандартната грешка за оценка е стандартното отклонение на разпределението на остатъчните вещества. Колкото по-висока е нейната стойност, толкова по-силно е разпространението и по-лошия модел. В нашия случай стандартната грешка е 2.18. Това е за тази величина, че нашият модел ще "се обърка средно" при прогнозиране на стойността на променлива "Поддръжка за АТР".

Статистиката за регресия включва и анализ на дисперсията. С него откриваме: 1) коя част от вариация (дисперсия) на зависимата променлива се обяснява с независима променлива; 2) коя част от дисперсията на зависимата променлива пада върху баланса (необяснима част); 3) Какво е отношението на тези две стойности (/ "- отношението). Статистиката на дисперсията е особено важна за пробни проучвания - показва колко вероятно е наличието на комуникация между независими и зависими променливи в общото население. Въпреки това, за непрекъснато Изследванията (както в нашия пример), изучаването на резултатите от анализа на дисперсията не се проверяват. В този случай те се проверяват, ако идентифицираният статистически модел е причинен от съвпадение, че е характерно за този комплекс от условия, при които изследваният комплекс е настроен, т.е. не истината за резултата, получен за някакъв по-обширен общ агрегат, и степента на нейните модели, свобода от случайно въздействие.

В нашия случай статистиката за анализ на дисперсията е както следва:

Ss. df. ГОСПОЖИЦА. Е. стойност
Regnet. 258,77 1,00 258,77 54,29 0.000000001
Наляво. 395,59 83,00 L, 11.
Обща сума 654,36

F-съотношение 54.29 значително на ниво от 0.0000000001. Съответно можем уверено да отхвърлим нулевата хипотеза (която открихме, че връзката, която открихме, е случаен характер).

Подобна функция се извършва от критерия t, но вече по отношение на регресионните коефициенти (ъглово и пресечна точка). С помощта на критерий / проверяваме хипотезата, че в общите коефициенти на регресия са нула. В нашия случай можем отново да изхвърлим нулевата хипотеза.

Многократно регресионен анализ

Множественият регресионен модел е почти идентичен с двойния регресионен модел; Единствената разлика е, че няколко независими променливи са последователно включени в линейната функция:

Y \u003d b1x1 + b2x2 + ... + bpxp + a.

Ако независимите променливи са повече от две, ние нямаме възможност да получим визуална представа за тяхната връзка, в това отношение многократно регресия по-малко "визуална" от парна баня. Ако има две независими променливи, данните са полезни за показване на триизмерна разсейваща диаграма. В професионални статистически софтуерни пакети (например, статистика) има опция за завъртане на триизмерна диаграма, която ви позволява визуално да си представите структурата на данните.

Когато работите с множество регресия, за разлика от парната баня, е необходимо да се определи алгоритъмът за анализ. Стандартният алгоритъм включва всички съществуващи предиктори в окончателния регресионен модел. Алгоритъм стъпка по стъпка предполага последователно включване (изключение) на независими променливи, въз основа на тяхното обяснително "тегло". Стъпка по стъпка метод е добър, когато има много независими променливи; Той "почиства" модел от откровено слаби предиктори, което го прави по-компактен и лаконичен.

Допълнително условие за верността на множеството регресия (заедно с интервюта, нормалността и линейността) е липсата на многоцветност - наличието на силни връзки за корелация между независимите променливи.

Тълкуването на множествена регресионна статистика включва всички разглеждани от нас погледи за случая на регресия на двойки. Освен това има и други важни компоненти в статистиката за многократния регресионен анализ.

Ще илюстрираме работата с множествена регресия върху примера на тестването на хипотези, които обясняват различията в избирателната дейност в регионите на Русия. В хода на конкретните емпирични проучвания бяха направени допускания, че нивото на оборота на гласоподавателя засяга:

Националният фактор (променливата "руска популация"; е оцелел като дела на руското население в предметите на Руската федерация). Предполага се, че увеличението на дела на руското население води до намаляване на дейността на гласоподавателите;

Факторът за урбанизация (променливото "градско население"; се изследва като дела на градското население в предметите на Руската федерация, ние вече сме работили с този фактор в рамките на анализа на съответствието). Предполага се, че увеличаването на дела на градското население също води до намаляване на дейността на гласоподавателите.

Зависимата променлива - "интензивността на избирателната дейност" ("актив") е оцеляла чрез средните данни за появата на регионите на федерални избори от 1995 до 2003 г. Таблицата на източниците на данни за две независими и една зависима променлива ще бъде имат следната форма:

Случва се Променливи
Активи. Планини нас. Рус. нас.
Република Adygea. 64,92 53 68
Алтай Република 68,60 24 60
Република Буряция 60,75 59 70
Република Дагестан 79,92 41 9
Република Ингушетия 75,05 41 23
Република Калмикия 68,52 39 37
Карачая-циргич 66,68 44 42
Република Карелия 61,70 73 73
Коми Република 59,60 74 57
Мари Ел Република 65,19 62 47

И т.н. (след почистване на емисиите 83 случая от 88)

Статистика, описваща качеството на модела:

1. Многократно R \u003d 0.62; L-square \u003d 0.38. Следователно факторът на националния фактор и урбанизация заедно обясняват около 38% от изменението на променливата "избирателна активност".

2. Средната грешка е 3.38. Това е така "средното е погрешно" конструираният модел при прогнозиране на нивото на външния вид.

3. / L-съотношението на обясненото и необяснимото изменение е 25.2 на ниво от 0.000000003. Нулевата хипотеза за шанса на идентифицираните връзки се отхвърля.

4. Критерий / за константни и регресионни коефициенти на променливи "Градско население" и "Руското население" означава на ниво от 0.0000001; 0.00005 и 0.007, съответно. Нулевата хипотеза за случайността на коефициентите се отхвърля.

Допълнителна полезна статистика при анализа на съотношението на първоначалните и прогнозираните стойности на зависимата променлива са разстоянието на махалабис и разстоянието на готвача. Първата - мярка за уникалността на случая (показва колко комбинацията от стойности на всички независими променливи за даден случай се отклонява от средната стойност на всички независими променливи едновременно). Второ - мярка за влиянието на случая. Различни наблюдения по различни начини засягат наклона на регресионната линия и с помощта на приготвянето, те могат да бъдат сравнени с този индикатор. Това е полезно при почистването на емисиите (емисиите могат да бъдат представени като прекалено влиятелен случай).

В нашия пример Дагестан се отнася до уникални и влиятелни случаи.

Случва се Източник

стойности

Предшественик

стойности

Остатъци Разстояние

Махаланобис

Разстояние
Adygea. 64,92 66,33 -1,40 0,69 0,00
Алтай Република 68,60 69.91 -1,31 6,80 0,01
Република Буряция 60,75 65,56 -4,81 0,23 0,01
Република Дагестан 79,92 71,01 8,91 10,57 0,44
Република Ингушетия 75,05 70,21 4,84 6,73 0,08
Република Калмикия 68,52 69,59 -1,07 4,20 0,00

Действителният регресионен модел има следните параметри: U-пресичане (постоянен) \u003d 75.99; Б (планини. САЩ.) \u003d -0.1; Комерсант (Рус. САЩ.) \u003d -0.06. Крайна формула:

AACIVE, \u003d -0.1 x планини. R + - 0.06 x RUS. R + 75.99.

Можем ли да сравним "обяснителната сила" на предишките, въз основа на стойността на коефициента 61. В този случай, да, тъй като и двете независими променливи имат същия процент формат. Въпреки това, най-често многократното регресия се занимава с променливи, измерени в различни скали (например нивото на доходите в рубли и възраст в годините). Ето защо, като цяло, за сравняване на прогнозните възможности на променливите чрез неправилно съотношението на регресия. В статистиката за множествена регресия за тази цел има специален бета коефициент (б) изчислен отделно за всяка независима променлива. Това е частно (изчислено след като се вземе предвид влиянието на всички други предиктори) коефициента на корелация на фактор и реакция и показва независимия принос на коефициента при прогнозиране на стойностите на реакцията. В двойки регресионни анализи, бета коефициентите по очевидни причини са равни на коефициента на корелация на двойката между зависимата и независимата променлива.

В нашия пример бета (планини. САЩ.) \u003d -0.43, бета (rus. Ние.) \u003d -0.28. По този начин и двата фактора влияят неблагоприятно на нивото на избирателната активност, докато значението на фактора на урбанизация е значително по-високо от значението на националния фактор. Кумулативното влияние на двата фактора определя около 38% от изменението на променливата "избирателна активност" (виж L-квадратната стойност).

Регресионният анализ е в основата на създаването на повечето иконометрични модели, които също трябва да включват модел за оценка на стойността. За изграждане на модели за оценка, този метод може да се използва, ако броят на аналозите (сравними обекти) и броя на факторите на стойността (сравнителни елементи) се отнасят един до друг: пс \u003e (5-g-10) x да се, тези. Аналозите трябва да бъдат 5-10 пъти повече от стойностите фактори. Това изискване за съотношението на размера на данните и броя на факторите се прилага и за други задачи: установяване на комуникация между разходите и потребителските параметри на обекта; Обосновка на процедурата за изчисляване на коригиращите индекси; Изясняване на цените на тенденциите; създаване на комуникация между износване и промени в влияещите фактори; Получаване на зависимости за изчисляване на стандартите за разходи и др. Изпълнението на това изискване е необходимо, за да се намали вероятността от пресяване на данни, което не отговаря на изискванията на нормалността на разпределението на случайни променливи.

Регресията отразява само средната тенденция да се променя получената променлива, като стойност, от промяна на един или повече факторни променливи, като местоположения, брой стаи, квадрат, етаж и др. Това е разликата между регресионната връзка от функционалната, при която стойността на получената променлива се определя стриктно чрез определената стойност на факторните променливи.

Наличието на регресия / между резултата w. и факторни променливи x R. ..., x K. (Фактори) предполага, че тази връзка се определя не само от влиянието на избрани факторивни променливи, но и от влиянието на променливите, някои от които обикновено са неизвестни, други не са податливи на оценка и счетоводство:

Ефектът от неизплатени променливи се обозначава с втория мандат на това уравнение. ?, което се нарича грешка в сближаването.

Разграничават се следните видове регресионни зависимости:

  • ? Регресията на двойката е връзката между две променливи (получени и фактори);
  • ? Множество регресия е зависимостта на една получена променлива и две или повече факторни променливи, включени в проучването.

Основната задача на регресионен анализ е количествено определяне на тона на връзката между променливите (с сдвоена регресия) и множество променливи (с многократна регресия). Комуникацията се изразява количествено от коефициента на корелация.

Прилагането на регресионен анализ дава възможност да се установи моделът на влиянието на основните фактори (хедонистични характеристики) върху изследвания индикатор както в тяхната съвкупност, така и в тях поотделно. Използване на регресионен анализ, като метод на математическа статистика, е възможно, първо, да се намери и описва формата на аналитична зависимост от получената (желана) променлива от фактор и, второ, да се оцени близостта на тази зависимост.

Благодарение на решаването на първата задача се получава математически регресионен модел, с който тогава желаният индикатор се изчислява при определените стойности на факторите. Решението на втората задача ви позволява да зададете надеждността на желания резултат.

По този начин регресионният анализ може да бъде определен като набор от официални (математически) процедури, предназначени за измерване на плътността, указанията и аналитичния израз на формата на комуникация между получените и факторни променливи, т.е. При изхода на такъв анализ трябва да бъде структурен и количествено определен статистически модел на формата:

където y - Средната стойност на получената променлива (желания индикатор, например, разходи, лизинг, степен на капитализация) пс нейните наблюдения; x - стойност на факторна променлива (/-десен фактор); да се \u200b\u200b- Броя на факторните променливи.

Функция f (x l, ..., x lc), Описанието на зависимостта на получената променлива от фактор се нарича уравнение (функция) на регресия. Терминът "регресия" (регресия) е отстъпление, възстановяване на нещо) е свързано със спецификата на една от конкретните задачи, решени на етапа на образуване на метода, и понастоящем не отразява цялата същност на метода, но продължава да се прилага.

Регресионният анализ обикновено включва следните стъпки:

  • ? формиране на проба от хомогенни обекти и събиране на информация за тези обекти;
  • ? Изборът на основните фактори, засягащи получената променлива;
  • ? Проверете извадката за нормалност х. 2 или критерий за биномин;
  • ? приемане на хипотеза за формата на комуникация;
  • ? Математическа обработка на данни;
  • ? получаване на регресионен модел;
  • ? оценка на статистическите си показатели;
  • ? Изчисления за калибриране, използвайки регресионен модел;
  • ? Анализ на резултатите.

Посочената последователност от операции се извършва в изследването на връзката между двойката между факторната променлива и една получена и многократна връзка между получената променлива и няколко фактора.

Използването на регресионен анализ прави определени изисквания за информация за източника:

  • ? Статистическата извадка от обекти трябва да бъде хомогенна във функционални и структурно технологични отношения;
  • ? доста многобройни;
  • ? Изследваната стойност на стойността е получената променлива (цена, цена, разходи) - следва да се даде на един термини на нейното смятане във всички обекти в извадката;
  • ? Факторните променливи трябва да бъдат измерени доста точно;
  • ? Факторните променливи трябва да бъдат независими или минимално зависими.

Изискванията за хомогенност и пълнота на извадката са в противоречие: по-строгите избора на предмети по тяхната хомогенност, толкова по-малко се получава пробата, а напротив, тя трябва да включва обекти в него.

След като данните за групата на хомогенни обекти се събират, техният анализ се извършва, за да се създаде форма на комуникация между получените и факторни променливи под формата на теоретична регресионна линия. Процесът на намиране на теоретичната регресионна линия е разумен избор от приблизителна крива и изчисляване на коефициентите на нейното уравнение. Регресионната линия е гладка крива (в частна дела), описваща с помощта на математическа функция, общата тенденция на зависимостта на зависимостта и изглаждането на незаконните, произволни емисии от влиянието на страничните фактори.

За да се показват двойки регресионни зависимости в очакваните задачи, най-често се използват следните функции: линейни - y - 0 + aRS + S. мощност - u - AJ & I + C Индикативен - y -линейно индикативно - y - 0 + AR * + C. Тук - д. Грешка в сближаването, причинено от действието на неизплатени случайни фактори.

В тези функции, получената променлива; X - факторна променлива (фактор); но 0 , r A 2 - Регресионни параметри, регресионни коефициенти.

Линейният индикативен модел се отнася до класа на така наречените хибридни модели на формата:

където

където H. (I \u003d. 1, /) - стойностите на факторите;

b t (i \u003d 0, /) - коефициентите на регресионното уравнение.

В това уравнение компонентите А, Б. и Z. съответстват на цената на отделните компоненти на очаквания актив, например, стойността на земния парцел и цената на подобренията и параметъра Q.е често срещано. Целта е да се коригира стойността на всички компоненти на очаквания актив към общия фактор на влияние, например място.

Стойностите на факторите в степента на съответните коефициенти са двоични променливи (0 или 1). Фактори в основата на степен - дискретни или непрекъснати променливи.

Фактори, свързани с умножаването на семействата, също са непрекъснати или дискретни.

Спецификацията се извършва като правило, като се използва емпиричен подход и включва два етапа:

  • ? прилагане към графиката на регресионните полеви точки;
  • ? Графичен (визуален) анализ на вида на възможната приблизителна крива.

Видът на регресионната крива не винаги е възможно да се избере незабавно. За да го определите, първо се отнасят в графиката на регресионното поле на източниците. След това визуално провеждаме линия на позицията на точките, като се стремим да разберем качествения модел на комуникация: единен растеж или равномерно намаление, растеж (намаление) с увеличаване на (низходящ) на скоростта на високоговорителя, плавно сближаване някакво ниво.

Този емпиричен подход се допълва от логически анализ, избутващ от вече известните идеи за икономическия и физическия характер на изследваните фактори и тяхното взаимно влияние.

Например, известно е, че зависимите от получените променливи - икономически показатели (цени, лизинг) от редица факторни променливи - ценообразуващи фактори (разстояния от центъра на селището, квадратни и др.) Са нелинейни, и. \\ T Те могат да бъдат достатъчно описани от силата, експоненциалните или квадратичните функции., Но с малки диапазони на промени в факторите могат да бъдат получени приемливи резултати, като се използва линейна функция.

Ако все още е невъзможно незабавно да се направи уверен избор на една функция, след това се вземат две или три функции, изчислете техните параметри и допълнително с помощта на съответните критерии за плътност, накрая изберете функцията.

В теорията регресионният процес на намиране на крива се нарича спецификация модели и нейните коефициенти - калибриранемодели.

Ако се установи, че получената променлива y зависи от няколко факторни променливи (фактори) x (, x 2, ..., x K. Това е прибягно до изграждането на множество регресионен модел. Обикновено се използват три форми на множество комуникации: линейни - y - и 0 + a x x x + a ^ x 2 + ... + и k x k Индикативен - y - 0 A* I. a x t- и x bмощност - y - 0 x x IX 2 A 2. .x ^ или комбинации от тях.

Индикативните и мощни функции са по-универсални, тъй като приблизителните нелинейни облигации, което е по-голямата част от зависимостите при следователите. Освен това те могат да се прилагат при оценката на обектите и в метода на статистическо моделиране по време на масовата оценка и в начина на пряко сравнение в индивидуална оценка при установяване на коригиращи коефициенти.

На етапа на калибриране, параметрите на регресионния модел се изчисляват, като се използват метода на най-малките квадрати, чиято същност е, че сумата на отборите на изчислените стойности на получената променлива w., т.е. Изчислено от избраното уравнение на комуникацията, от действителните стойности трябва да бъдат минимални:

Стойности j) (. И y. Затова известен Q. Това е функция само на коефициентите на уравнението. За намиране на минимум С. трябва да се вземат частни деривати Q. Според коефициентите на уравнението и ги приравняват към нула:

В резултат на това получаваме система от нормални уравнения, чийто брой е равен на броя на дефинираните коефициенти на желаното регресионно уравнение.

Поставете, трябва да намерите коефициентите на линейното уравнение y - 0 + ARS. Сумата от квадратите на отклоненията е:

/=1

Разграничаване на функцията Q. Според неизвестни коефициенти 0. и и приравнява частните деривати до нула:

След като трансформациите получават:

където р Брой действителни стойности на източника w. (брой аналози).

Намалената процедура за изчисляване на коефициентите на регресионното уравнение е приложима и за нелинейни зависимости, ако тези зависимости могат да бъдат линеаризирани, т.е. Ниска до линейна форма чрез подмяна на променливи. Силата и индикативните функции след логаритмика и съответното заместване на променливите придобиват линейна форма. Например, мощна функция след логаритцията придобива типа: в y \u003d 1pi 0 + A H. 1px. След замяна на променливите Y-В. y, l 0 - В. и номер x-В x получаваме линейна функция

Y \u003d a 0 + cijx, Коефициентите на които се намират в описания по-горе метод.

Най-малкият квадратен метод се използва за изчисляване на коефициентите на множествения регресионен модел. Така че, системата на нормалните уравнения за изчисляване на линейна функция с две променливи XJ. и x 2. След поредица от трансформации, това е както следва:

Обикновено тази система на уравнения се решава, като се използват методите на линейната алгебра. Многофункционалната функция води до линейна форма чрез логаритминг и замени променливите по същия начин, както и сдвоената мощност.

Когато се използват хибридни модели, множество регресионни коефициенти са разположени с използване на числени процедури на метода на последователни приближения.

За да се направи окончателен избор на няколко регресионни уравнения, е необходимо да се провери всяко уравнение върху стягане на връзката, което се измерва чрез коефициента на корелация, дисперсия и съотношение на вариация. Можете също да използвате критериите за оценка и рибари за оценка. Колкото по-голяма е стягаността на връзката, която открива кривата, по-предпочитано е от други неща.

Ако задачата на този клас е решена, когато трябва да се установи зависимостта на стойността от коефициентите на разходите, тогава желанието да се вземат предвид възможно най-много влиянието на факторите и по този начин да се изгради по-точен модел на регресия. Въпреки това, две обективни ограничения предотвратяват разширяването на броя на факторите. Първо, за изграждане на множествен регресионен модел, се изисква значително по-обемна проба от обекти, отколкото за изграждане на сдвоен модел. Смята се, че броят на обектите в извадката трябва да надвишава броя пс фактори най-малко 5-10 пъти. От това следва, че за да се изгради модел с три влиятелни фактора, е необходимо да се събере проба от около 20 обекта с различен набор от стойности на факторите. Второ, факторите, избрани за модела при тяхното влияние върху индикатора за стойността, трябва да бъдат достатъчно независими един от друг. Трудно е да се гарантира, че пробата обикновено съчетава обекти, свързани с едно семейство, които имат естествена промяна в много фактори от обекта към обекта.

Качеството на регресионните модели обикновено се проверява с помощта на следните статистически показатели.

Стандартно отклонение на грешката на уравнението на регресията (грешка при оценката):

където р Обем на вземане на проби (брой аналози);

да се \u200b\u200b- брой фактори (фактори на разходите);

Грешка, необяснима от уравнението на регресията (фиг. 3.2);

y. - действителната стойност на получената променлива (например, цена); y t - Изчислената стойност на получената променлива.

Този индикатор също се нарича стандартна грешка при оценката (грешка на скоростта). В точката на картината са показани специфичните стойности за вземане на проби, символът се обозначава с линията на средните стойности на вземане на проби, наклонената баркотирана линия е регресионната линия.


Фиг. 3.2.

Стандартното отклонение на грешката за оценка измерва стойността на отклонението на действителните стойности от съответните изчислителни стойности w. (получени с помощта на регресионен модел. Ако пробата, на която е изградена моделът, е подчинена на нормалния закон за разпределение, тогава може да се твърди, че 68% от реалните стойности w.намира се в диапазона w. ± & E. от регресионната линия и 95% - в диапазона w. ± 2D E. . Този индикатор е удобен, защото единиците на измерване sG? съвпада с измерване на единици w.. В това отношение може да се използва, за да се посочи точността на резултата, получен в процеса. Например, в сертификат за стойност можете да укажете, че стойността на пазарната стойност, получена с помощта на модела на регресия В. С вероятност от 95% е в диапазона от (V -2D ,.)преди (U. + 2d s).

Camegory вариация на получената променлива:

където y - Средната стойност на получената променлива (фиг. 3.2).

В регресионен анализ коефициентът на вариация VAR е стандартно отклонение на резултата, изразено като процент от средната стойност на получената променлива. Коефициентът на изменение може да служи като критерий за прогнозираните качества на получения модел на регресия: колкото по-малко var.Особено високи са проектите за качество. Използването на коефициента на вариация е за предпочитане пред индикатора & e, тъй като това е относителен индикатор. С практическото използване на този показател е възможно да не се препоръчва моделът, чийто коефициент на вариация надвишава 33%, тъй като в този случай е невъзможно да се каже, че тези проби са подчинени на нормалния закон за разпределение.

Коефициент на определяне (Квадрат на коефициента на множествен корелация):

Този индикатор се използва за анализ на цялостното качество на получения модел на регресия. Той показва кой процент от варирането на получената променлива се обяснява с влиянието на всички факторни променливи, включени в модела. Коефициентът на определяне винаги се крие в диапазона от нула към един. Колкото по-близо е стойността на коефициента на определяне към един, толкова по-добър моделът описва първоначалния брой данни. Коефициентът на определяне може да бъде представен по различен начин:

Тук е грешка, обяснена от регресионния модел

но - Грешка необяснима

регресионен модел. От икономическа гледна точка този критерий ви позволява да прецените какъв процент от ценообразуването се обяснява с уравнението на регресията.

Точна граница на приемливостта на индикатора R2. За всички случаи е невъзможно да се уточни. Необходимо е да се вземе предвид размерът на извадката и смисленото тълкуване на уравнението. Като правило, когато изучавате данни на същия тип обекти, получени по едно и също време, стойността R2. не надвишава нивото от 0.6-0.7. Ако всички грешки в прогнозите са нула, т.е. Когато връзката между получените и факторните променливи е функционална, R2. =1.

Коригиран коефициент на определяне:

Необходимостта от въвеждане на коригиран коефициент на определяне се обяснява с факта, че с увеличаване на броя на факторите да се Обичайният коефициент на определяне почти винаги се увеличава, но броят на степените на свободата се намалява. (n - до - един). Въведената настройка винаги намалява стойността R2, дотолкова доколкото (P. - 1) \u003e (P- до - един). В резултат на това сумата R 2 CKOF) Тя дори може да стане отрицателна. Това означава, че стойността R2. Беше близо до нула за регулиране и делът на променливата променлива дисперсия обяснява използването на уравнението на регресия w. много малък.

От двете възможности за регресионни модели, които се различават по отношение на коригирания коефициент на определяне, но имат еднакво други критерии за качество, за предпочитане опцията с голяма стойност на коригирания коефициент на определяне. Регулирането на коефициента на определяне не се извършва, ако (P - K): K\u003e 20.

Коефициент на рибар:

Този критерий се използва за оценка на значението на коефициента на определяне. Остатъчна сума от квадрати представлява индикатор за прогнозни грешки чрез регресия на известните стойности на стойността на .. Неговото сравнение с регресионното количество квадрати показва колко пъти зависимостта от регресия предсказва резултата по-добър от средния w. . Има таблица на критичните стойности. F R. Коефициент на рибар в зависимост от броя на степените на свободата на числителя - К., знаменател V 2 \u003d p - K. - 1 и нивото на значимост a. Ако изчислената стойност на критерия за рибар F R. Повече таблична стойност, след това хипотеза за незначителност на коефициента на определяне, т.е. Относно непоследователността на връзките, поставени в действително съществуването на регресионното уравнение, с вероятността p \u003d 1 - и отхвърлена.

Средна грешка на сближаване (Средният процент) се изчислява като средна относителна разлика, изразена като процент, между действителните и изчислени стойности на получената променлива:

Колкото по-малка е стойността на този индикатор, толкова по-добре е предсказуемото качество на модела. С стойността на този индикатор, не по-висока от 7% показват висок прецизен модел. Ако 8 \u003e 15%, те говорят за незадоволителната точност на модела.

Стандартна коефициенна на регресия Грешка:

където (/ i) -1.-диагонални елементи на матрицата (X g x) ~ 1 до - брой фактори;

Х - Матрица на стойностите на факторните променливи:

X 7 - Транспонирана матрица на стойностите на факторните променливи;

(Есен) _ | - Матрица, обратна матрица.

Колкото по-малки са тези показатели за всеки коефициент на регресия, толкова по-надежден е оценката на съответния коефициент на регресия.

Критерий на ученика (T-статистика):

Този критерий ви позволява да измервате степента на надеждност (същественост) на съобщението поради този регресионен коефициент. Ако изчислената стойност t.. Повече таблична стойност

t. AV, където v - P - K - 1 е броят на степените на свободата, хипотезата, че този коефициент е статистически незначителен, отхвърлен с вероятност (100 - а)%. Има специални таблици / разпределение, които позволяват дадено ниво на значимост А и броя на степените на свободата V, за да се определи критичната стойност на критерия. Най-често използваната стойност е 5%.

Многоколинарност. Ефектът на взаимоотношенията между факторните променливи води до необходимостта да бъде съдържание с ограничения номер. Ако това не е да се помисли, тогава можете да получите нелогичен регресионен модел. За да се избегне отрицателният ефект на многоцветността, преди да се конструират многократно регресионен модел, се изчисляват коефициентите на корелацията на двойката r xjxj. между избрани променливи х. и х.

Тук XJX; - Средната стойност на работата на две факторни променливи;

XJXJ - продукта на средните стойности на два факторни променливи;

Оценка на дисперсията на факторната променлива x.

Смята се, че две променливи са регресивно свързани помежду си (т.е. колинеарни), ако коефициентът на корелация на двойки в абсолютна стойност е строго по-голям от 0.8. В този случай някоя от тези променливи следва да бъде изключена от разглеждане.

С цел разширяване на възможностите за икономически анализ на получените регресионни модели, средно коефициенти на еластичност Дефинирани по формулата:

където XJ - Средната стойност на съответната факторна променлива;

y - Средната стойност на получената променлива; a i - Коефициент на регресия със съответната факторна променлива.

Коефициентът на еластичност показва колко процент средната стойност на получената променлива се променя с промяна в факторна променлива с 1%, т.е. Как реагира получената променлива за промяна на факторната променлива. Например, как цената на една четвърт реагира. M квадрат апартамент за отстраняване от центъра на града.

Полезно по отношение на анализа на значението на това или че коефициентът на регресия е оценката коефициент на частното определяне:

Тук - оценка на дисперсията

променлива. Този коефициент показва колко процентни вариации на получената променлива се обяснява с вариацията / в факторната променлива, включена в уравнението на регресията.

  • Под хедонистичните характеристики са характеристиките на обекта, отразяващ неговия полезен (ценен) от гледна точка на купувачите и продавачите на имота.

Концепцията за регресия. Зависимост между променливите стойности х. и y. Може да бъде описан по различни начини. По-специално, всяка форма на комуникация може да бъде изразена чрез уравнението на общ изглед, когато y. се счита за зависима променлива, или функции от друга - независима променлива на X, наречена аргумент. Кореспонденцията между аргумента и функцията може да бъде зададена таблица, формула, график и т.н. Смяна на функцията в зависимост от промяната в един или повече аргументи се нарича регресия. Всички инструменти, използвани за описание на корелациите, е съдържанието. анализ на регресия.

Да изразяват регресионни, корелационни уравнения или регресионни уравнения, емпирични и теоретично изчислени регресионни серии, техните графики, наречени регресионни линии, както и коефициентите на линейна и нелинейна регресия.

Регресивните показатели изразяват връзката двустранна комуникация, като се има предвид промяната в средните признаци на функцията Y. При промяна на стойностите х. i. Знак Х.и, напротив, покажете промяната в средните признаци на функцията Х. чрез модифицирани стойности y. i. Знак Y.. Изключенията са времеви серии или редове на високоговорителите, показващи промяната в знаците във времето. Регресията на такива редове е едностранна.

Различни форми и видове връзки на корелацията са много. Задачата е да се гарантира, че във всеки случай трябва да се идентифицира формуляра за комуникация и да я изрази със съответното съотношение уравнение, което ви позволява да предвидите възможни промени Y. Въз основа на известните промени в другата Х.свързани с първата корелация.

12.1 Линейна регресия

Регресионно уравнение. Резултати от наблюдения, проведени по определен биологичен обект съгласно функциите, свързани с корелацията х. и y.Можете да изобразявате точки в равнината, като изградите система от правоъгълни координати. В резултат на това се получава определена диаграма за разсейване, което дава възможност да се прецени формата и стягане на връзката между различни знаци. Доста често, тази връзка изглежда като директ или може да бъде приблизително с права линия.

Линейна връзка между променливите х. и y. описано от уравнението на Общото мнение, където a, B, C, D, ... - параметри на уравнението, които определят съотношенията между аргументите х. 1 , Х. 2 , Х. 3 ..., х м. и функции.

На практика, не всички възможни, но само някои аргументи, в най-простия случай - само един:

В линейното уравнение на регресия (1) а. - свободен член и параметърът б. Определя наклона на регресионната линия по отношение на осите на правоъгълните координати. В аналитичната геометрия този параметър се нарича ъглов коефициенти в биометричните данни - коефициента на регресия. Визуална гледна точка на този параметър и позицията на регресионните линии Y. до Х. и Х. до Y. В системата на правоъгълните координати дава фиг.1.

Фиг. 1 регресионни линии за x и x соя в системата

правоъгълни координати

Регресионни линии, както е показано на фигура 1, се пресичат в точка на О (,), съответстваща на средните аритметични стойности на корелационните знаци Y. и Х.. При изграждане на регресионни графики по оста на абсцисата, стойностите на независимата променлива x се отлагат и по ордена ос, стойностите на зависимата променлива или функцията Y. линията AV преминава през точката o ( ) съответства на пълната (функционална) връзка между променливите Y. и Х.когато коефициентът на корелация. Колкото по-силна между връзката между Y. и Х.Колкото по-близо до регресионната линия към AB, и напротив, по-слабата връзка между тези стойности, регресионните линии от AB са по-малко отдалечени. При липса на комуникация между признаците на регресионната линия, те са под прав ъгъл по отношение един на друг и.

Тъй като регресионните показатели изразяват усилената двустранна връзка, регресионното уравнение (1) следва да бъде записано, както следва: \\ t

В първата формула средните стойности се определят, когато знакът се променя. Х. на единични мерки, на втората средна стойност, когато действието се променя от единица Y..

Коефициент на регресия. Коефициентът на регресия показва как средната стойност на един символ y. варира, когато мярката на другата, свързана свързана с Y. Знак Х.. Този индикатор се определя с формулата

Тук е ценности с. умножете размера на интервалите на класа λ Ако са намерени на вариационни редове или таблици за корелация.

Коефициентът на регресия може да се изчисли чрез преминаване на изчисляването на средно квадратични отклонения. с. y. и с. х. Според формулата

Ако коефициентът на корелация е неизвестен, коефициентът на регресия се определя, както следва:

Комуникация между регресионни и корелационни коефициенти. Сравняване на формули (11.1) (Тема 11) и (12.5) Виждаме: В техния числите данни същата стойност показва наличието на комуникация между тези показатели. Тази връзка се изразява чрез равенство.

По този начин коефициентът на корелация е равен на средните геометрични коефициенти б. yX. и б. xy. . Формула (6) позволява първо, съгласно известните стойности на регресионните коефициенти б. yX. и б. xy. Определя коефициента на регресия R. xy. и второ, проверете коректността на изчисляването на този показател за корелация R. xy. Между различните знаци Х. и Y..

Както и коефициентът на корелация, коефициентът на регресия характеризира само линейна връзка и е придружена от знак плюс с положителен и минус знак под отрицателна връзка.

Определяне на линейни регресионни параметри. Известно е, че сумата на квадратите на отклонения х. i. От средата има стойност от най-малкия, т.е. тази теорема е в основата на метода на най-малките квадрати. Във връзка с линейна регресия [виж Формула (1)] Изискването на тази теорема удовлетворява известна система от уравнения нормално:

Съвместно решение на тези уравнения по отношение на параметрите а. и б. води до следните резултати:

;

;

, От къде.

Като се има предвид двустранният характер на връзката между променливите Y. и Х., формула за определяне на параметъра но Трябва да се изрази така:

и. (7)

Параметър б.или коефициентът на регресия се определя от следните формули:

Изграждане на емпирични регресии. При наличие на голям брой наблюдения, регресионният анализ започва с изграждането на емпирични регресии от регресия. Емпирична регресия Тя се формира чрез изчисляване на стойностите на една различна функция Х. средни стойности на друга свързана корелация с Х. Знак Y.. С други думи, изграждането на емпирични регресионни редове се свежда до откриване на средни стойности II от съответните стойности на знака и X.

Емпиричната серия от регресия е двоен брой числа, които могат да бъдат изобразени с точки на равнината, а след това чрез свързване на тези точки с права линия, за да се получи емпирична линия на регресия. Емпирични ребресия, особено техните графики регресионни линии, дават визуална представа за формата и стягане на зависимостта на корелацията между различни знаци.

Привеждане в съответствие на емпиричните регресии. Графиките на емпиричните регресивни регресии обикновено не се разхождат гладко, но счупени линии. Това се дължи на факта, че заедно с основните причини, които определят общия модел в променливостта на корелираните признаци, влиянието на множество незначителни причини, причиняващи произволни колебания на възловата на регресия, се влияе от тяхната величина. За да идентифицирате основната тенденция (тенденция) на конюгата вариацията на корелираните знаци, трябва да замените счупените линии, за да изгладят гладко управлението на регресионните линии. Процесът на замяна на счупени линии върху плавно предстоящи повиквания подравняване на емпиричните серии и регресионни линии.

Метод за графичен изравняване. Това е най-лесният начин, който не изисква изчисляване. Неговата същност се свежда до следващата. Емпиричният обхват на регресия е изобразен под формата на графика в системата на правоъгълни координати. Тогава средните регресионни точки са предвидени визуално за които с помощта на владетел или модели провеждат солидна линия. Недостатъкът на този метод е очевидно: той не изключва влиянието на отделните свойства на изследователя върху резултатите от привеждането в съответствие на емпиричните регресионни линии. Следователно, в случаите, когато е необходима по-висока точност при замяна на счупени регресионни линии в гладко движение, се използват и други методи за подреждане на емпиричните серии.

Метод, който се движи средно. Същността на този метод се свежда до последователно изчисляване на средната аритметика на двама или три съседни членове на емпиричните серии. Този метод е особено удобен в случаите, когато емпиричната серия е представена от голям брой членове, така че загубата на две от тях е изключително, която неизбежно с метода на привеждане в съответствие значително ще повлияе на нейната структура.

Метод най-малък квадрат. Този метод е предложен в началото на XIX век А.М. Легендр и независимо от него К. Гаус. Тя ви позволява най-точно подравнете емпиричните серии. Този метод, както е показано по-горе, се основава на предположението, че сумата на опцията на площадите на отклоненията х. i. от средното им има минимална стойност, т.е. оттук и името на метода, който се прилага не само в екологията, но и в техниката. Методът на най-малките квадрати е обективен и универсален, той се използва в голямо разнообразие от случаи при намирането на емпирични уравнения на регресията и определянето на техните параметри.

Изискването на метода на най-малките квадрати е, че теоретичните точки на регресионната линия трябва да бъдат получени по такъв начин, че сумата на площадите на отклоненията от тези точки за емпирични наблюдения y. i. Беше минимално, т.е.

Изчисляване в съответствие с принципите на математическия анализ на минимум на този израз и по определен начин, превръщайки го, можете да получите така наречената система нормални уравненияВ кои неизвестни стойности са желаните параметри на регресионното уравнение, а добре познатите коефициенти се определят от емпиричните стойности на знаците, обикновено сумите на техните стойности и техните кръстосани работи.

Многобройна линейна регресия. Връзката между няколко променливи се приема за изразяване на множеството регресично уравнение, което може да бъде линеен и нелинея. В най-простата форма, многократното регресия се изразява чрез уравнение с две независими променливи ( х., z.):

където а. - свободен член на уравнението; б. и ° С. - параметри на уравнението. За да намерите параметрите на уравнението (10) (съгласно метода на най-малките квадрати), се използва следната система на нормални уравнения:

Редовете на високоговорителите. Подравняване на редовете. Промяната на знаците във времето формира т.нар временни редове или редовете на говорителите. Характерна характеристика на такава серия е, че като независима променлива x, факторът на времето винаги действа тук, а зависим Y е променяща се функция. В зависимост от регресионните редове зависимостта между променливите X и Y е едностранна природа, тъй като факторът на времето не зависи от променливостта на знаците. Въпреки посочените характеристики, редиците на динамиката могат да бъдат оприличени от регресионните редове и да ги обработват сред същите методи.

Подобно на редиците на регресия, емпиричната серия от високоговорители носят въздействието на не само основните, но и многобройни вторични (случайни) фактори, които симулират основната тенденция в променливостта на знаците, които на езика на статистиците се наричат тенденция.

Анализът на серията на ораторите започва с идентифицирането на формата на тенденцията. За това времевата серия е изобразена като линейна графика в системата на правоъгълни координати. В същото време, на ос абсциса, има времеви точки (години, месеци и други единици), и по ордена оси - стойностите на зависимата променлива y. Ако има линейни зависимости между х и y променливи (линейна тенденция) за подравняване на редовете на динамиката по метода на най-малките квадрати, най-подходящото е уравнението на регресията под формата на отклонения на членовете на серия от серия от зависима променлива Y от средната аритметика Серия от независима променливакс:

Ето линейния регресионен параметър.

Числени характеристики на редиците на високоговорителите. Основните обобщаващи цифрови характеристики на серията високоговорители включват средно геометрично И близо до него средно аритметични примерни. Те характеризират средната скорост, която променя стойността на зависимата променлива за определени периоди от време:

Оценка на променливостта на членовете на редица оратори средно квадратично отклонение. При избора на регресионни уравнения за описание на серията на високоговорителите, вземете под формата на тенденция, което може да бъде линейно (или дадено на линейно) и нелинейно. Правилният избор на регресионното уравнение обикновено се оценява по приликите на емпирично наблюдаваните и изчислени стойности на зависимата променлива. По-точен в решаването на този проблем е методът за анализ на регресия на дисперсията (тема 12 стр.4).

Съотношение на редовете на високоговорителите. Често е необходимо да се сравнява динамиката на паралелното време за работа, свързани помежду си с някои общи условия, например, за да се установи връзката между производството на селскостопански продукти и растежа на добитъка за определен период от време. В такива случаи характеристиката на връзката между променливите X и Y служи коефициент на корелация R xy (с линейна тенденция).

Известно е, че тенденцията на редовете на динамиката, като правило, се трептя от трептенията на членовете на поредица от серия от зависима променлива y. От тук има задача на двоен тип: измерване на връзката между в сравнение с редовете, без да се изключва тенденцията и измерват връзката между съседните членове на един и същи ред, с изключение на тенденцията. В първия случай тонът на връзката между свързаните с тях редици говорители се сервира коефициент на корелация (ако линейната връзка), във втория - коефициент на автокорелация. Тези показатели имат различни стойности, макар и изчислени от същите формули (виж темата 11).

Лесно е да се забелязва, че стойността на коефициента на автокорелация влияе върху променливостта на членовете на редица зависими променливи: колкото по-малко членовете на поредицата се отклоняват от тенденцията, толкова по-висок е коефициентът на автокорелация и обратно.

Анализ на регресия и корелация - Статистически изследвания. Това са най-често срещаните начини за показване на зависимостта на всеки параметър от една или повече независими променливи.

По-долу по-долу конкретни практически примери, разгледайте тези два много популярни анализа в околната среда. И дайте пример за получаване на резултати при комбинирането им.

Регресионен анализ в Excel

Показва ефекта на някои стойности (независими, независими) върху зависимата променлива. Например, тъй като броят на икономически активното население върху броя на предприятията, зависимостта на стойностите на заплатите и др. Или: Как да повлияем на чуждестранните инвестиции, цените на енергията и другите. На ниво БВП.

Резултатът от анализа ви позволява да подчертаете приоритетите. И въз основа на основните фактори, прогнозиране, планиране на разработването на приоритетни области, за да вземат управленски решения.

Регресията се случва:

  • линеен (y \u003d a + bx);
  • параболичен (y \u003d a + bx + cx 2);
  • експоненциален (y \u003d a * exp (bx));
  • мощност (y \u003d a * x ^ б);
  • хиперболичен (y \u003d b / x + а);
  • логаритмично (y \u003d b * 1n (x) + а);
  • индикативен (Y \u003d A * B ^ x).

Помислете за примера, изграждането на регресионен модел в Excel и тълкуването на резултатите. Вземете линейния тип регресия.

Задача. В 6 предприятия бяха анализирани средната месечна заплата и броят на премахнати служители. Необходимо е да се определи зависимостта на броя на премахнати служители от средната заплата.

Линейният регресионен модел има следната форма:

Y \u003d 0 + A 1 x 1 + ... + A до X до.

Където А е регресионните коефициенти, X - влияещи променливите, към - броя на факторите.

В нашия пример, сякаш индикаторът за тези, които дестилират работниците са. Влияние на фактора - заплати (X).

Excel има вградени функции, с които можете да изчислите параметрите на линейния регресионен модел. Но по-бързо ще направи добавка "пакет от анализ".

Активиране на мощен аналитичен инструмент:

След активиране, добавката ще бъде достъпна в раздела Данни.

Сега ще се справим с директно регресионен анализ.



Първо, обърнете внимание на R-площад и коефициентите.

Коефициент на определяне r-квадрат. В нашия пример - 0.755 или 75.5%. Това означава, че изчислените параметри на модела със 75,5% обясняват връзката между изследваните параметри. Колкото по-висок е коефициентът на определяне, толкова по-добър моделът. Добро - над 0.8. Лошо - по-малко от 0.5 (такъв анализ едва ли може да се счита за разумно). В нашия пример "не е зле".

Коефициентът 64,1428 показва как ще бъде, ако всички променливи в разглеждания модел ще бъдат 0. Това означава, че други фактори, които не са описани в модела, са повлияни от стойността на анализирания параметър.

Коефициентът -0,16285 показва теглото на променливата x на y. Това е, средната месечна заплата в този модел влияе на количеството -0,16285, цитирано с тегло (това е малка степен на влияние). Знакът "-" показва отрицателен ефект: колкото повече заплата, толкова по-малко премахнат. Какво е правилно.



Анализ на корелацията в Excel

Корелационният анализ помага да се установи дали има връзка между показателите в една или две проби. Например между времето на работа на машината и цената на ремонта, цената на оборудването и продължителността на експлоатацията, растежа и теглото на децата и др.

Ако връзката е налична, тогава увеличаването на един параметър се увеличава (положителна корелация) или намаляване на (отрицателен) на друг. Анализът на корелацията помага на анализите да решат дали е възможно да се предскаже възможната стойност на другата по време на един показател.

Коефициентът на корелация е обозначен с R. Варира от +1 до -1. Класификацията на връзките на корелацията за различни сфери ще бъде различна. Когато стойността на коефициента на 0 линейна връзка между пробите не съществува.

Помислете как използването на средства от Excel за намиране на коефициента на корелация.

За да намерите двойки коефициенти, се използва функцията Correla.

Задача: Определете дали има връзка между времето на работа на струга и цената на нейната услуга.

Поставихме курсора на всяка клетка и натиснете бутона FX.

  1. В категорията "Статистически", изберете функцията на канела.
  2. Аргумент "Масив 1" - Първият диапазон от стойности - времето за работа на машината: A2: A14.
  3. Аргумент "Масив 2" - втората гама от ценности - цената на ремонта: B2: B14. Кликнете върху OK.

За да определите вида на комуникацията, трябва да видите абсолютния номер на коефициента (за всяка област на дейност има своя собствена мащаб).

За анализа на корелацията на няколко параметъра (повече от 2) е по-удобно да се прилага "анализ на данни" (добавка "пакет за анализ"). Списъкът трябва да избере корелация и да определи масив. Всичко.

Получените коефициенти ще бъдат показани в корелационната матрица. Като този:

Корелационен регресионен анализ

На практика тези две техники често се използват заедно.

Пример:


Тези регресионни анализи също се виждат.

По време на проучването учениците често се срещат с различни уравнения. Един от тях е регресионното уравнение - разгледано в тази статия. Този тип уравнение се използва специално за описване на характеристиките на връзката между математическите параметри. Този вид равенства се използват в статистиката и иконометрията.

Определяне на концепцията за регресия

По математика при регресия тя се разбира определена сума, описваща зависимостта на средната стойност на набора от данни от стойностите на друга стойност. Регресионното уравнение показва като функция на определена функция средната стойност на друга характеристика. Регресионната функция има форма на просто уравнение y \u003d x, в което действа като зависима променлива и x - независима (знак фактор). Всъщност регресията се изразява като y \u003d f (x).

Какви са видовете връзки между променливите

Като цяло има два противоположни вида взаимно свързване: корелация и регресия.

Първият се характеризира с равенството на условните променливи. В този случай не е надеждно известен коя променлива зависи от другата.

Ако няма равенство между променливите и не се наблюдава и в условията се казва, коя променлива обяснява и която зависи, тогава можем да говорим за наличието на втория тип. За да се изгради линейно уравнение на регресия, ще бъде необходимо да се установи кой тип комуникация се наблюдава.

Видове регресия

Към днешна дата се отличават 7 различни вида регресия: хиперболични, линейни, множествени, нелинейни, парна баня, обратна, логаритмично линейна.

Хиперболични, линейни и логаритмични

Линейното регресионно уравнение се използва в статистиката, за да се обясни ясно параметрите на уравнението. Изглежда, че y \u003d c + t * x + e. Хиперболичното уравнение има формата на правилната хипербола y \u003d C + T / X + E. Логаритмично линейно уравнение изразява връзката с помощта на логаритмична функция: в Y \u003d в S + T * в X + в E.

Множество и нелинейни

Две по-сложни видове регресия са множествени и нелинейни. Многократното уравнение на регресия се изразява от функцията y \u003d F (x 1, x 2 ... x C) + E. В тази ситуация тя действа като зависима променлива и x - обяснява. Променливата Е е стохастична, тя включва влиянието на други фактори в уравнението. Нелинейното регресионно уравнение е леко противоречиво. От една страна, по отношение на записаните показатели, не е линейно, а от друга страна, в ролята на оценката на показателите е линейна.

Обратни и видове регресия

Обратното е такъв тип функция, която трябва да бъде преобразувана в линеен изглед. В най-традиционните приложни програми тя има формата на функцията y \u003d 1 / s + t * x + e. Двойката регресионна уравнение показва връзката между данните като функция y \u003d F (x) + E. по същия начин, както и в други уравнения, зависи от X и E е стохастичен параметър.

Концепция за корелация

Това е индикатор, който демонстрира съществуването на връзката между две явления или процеси. Силата на връзката се изразява като коефициент на корелация. Неговата стойност варира в интервала [-1; +1]. Отрицателният индикатор показва наличието на обратна връзка, положително - около директно. Ако коефициентът има стойност, равна на 0, тогава няма връзка. Колкото по-близо е стойността до 1 е по-силната връзка между параметрите, по-близо до 0 - по-слабата.

Методи

Корелационните параметрични методи могат да оценят връзката на връзката. Те се използват въз основа на оценката на разпределението, за да проучат параметрите, подлежащи на правото на нормалното разпределение.

Параметрите на линейното регресионно уравнение са необходими за идентифициране на вида на зависимостта, функциите на регресионното уравнение и оценка на показателите за избраната формула на връзката. Полето за корелация се използва като метод за идентификация на комуникацията. За да направите това, всички съществуващи данни трябва да бъдат изобразени графично. В правоъгълна двуизмерна координатна система трябва да приложите всички известни данни. Така се образува областта на корелацията. Стойността на описания фактор се отбелязва по ос абсциса, докато стойностите на зависимата - по оста на ординатата. Ако има функционална зависимост между параметрите, те са изградени под формата на линия.

Ако коефициентът на корелация на такива данни е по-малък от 30%, можем да говорим за почти пълната липса на комуникация. Ако е между 30% и 70%, това показва наличието на връзки на средна плътност. 100% индикатор - доказателства за функционална комуникация.

Нелинейното уравнение на регресия е толкова дълго, колкото е необходимо линейното, необходимо е да се допълни корелационният индекс (R).

Корелация за многократно регресия

Коефициентът на определяне е индикатор за квадрата на множествената корелация. Той говори за близостта на връзката на представения комплекс от показатели с изследвания знак. Той може също да говори за естеството на ефекта от параметрите в резултата. Многократното регресионно уравнение се оценява от този индикатор.

За да се изчисли индикаторът за множествената корелация, е необходимо да се изчисли индексът му.

Метод най-малък квадрат

Този метод е начин за оценка на регресионните фактори. Неговата същност е да се сведе до минимум количеството отклонения в квадрата, получени поради зависимостта на фактора от функцията.

Линейното уравнение на линейното регресия може да бъде оценено с помощта на този метод. Този тип уравнения се използват в случай на откриване между индикатори за линейната зависимост.

Параметри на уравнения

Всеки параметър на линейната регресионна функция носи определено значение. Линейното регресионно уравнение съдържа два параметъра: c и т.н. Параметърът t демонстрира средната промяна в крайната функция на функцията y, при условие за намаляване (увеличаване) на променливата x на сношение. Ако променливата x е нула, функцията е равна на параметъра. Ако променливата x не е нула, тогава факторът c не носи икономическо значение. Единственият ефект върху функцията има знак преди фактора. Ако има минус, тогава можем да кажем за бавна промяна в резултата в сравнение с фактора. Ако има плюс, това показва ускорена промяна в резултата.

Всяка параметър, която променя стойността на уравнението на регресията, може да бъде изразена чрез уравнението. Например, факторът c има формата c \u003d y - tx.

Групирани данни

Има такива условия за задачата, в която цялата информация е групирана от атрибута X, но в същото време съответните средни стойности на зависимия индикатор са посочени за конкретна група. В този случай средните стойности се характеризират с това как индикаторът се променя в зависимост от x. По този начин групираната информация помага да се намери уравнението на регресията. Използва се като анализ на взаимоотношенията. Този метод обаче има своите недостатъци. За съжаление средните показатели често са изложени на външни колебания. Ос колебанията на данни не показват модели на взаимоотношения, те просто го маскират "шум". Средните показатели показват, че моделите на взаимоотношения са много по-лоши от линейното уравнение на регресия. Те обаче могат да се прилагат като основа за търсене на уравнението. Мултифицирането на броя на отделен агрегат върху подходящата средна стойност може да бъде получен по размер на групата. След това е необходимо да се потопите всички получени суми и да намерят окончателния индикатор. Лесно по-трудно да се правят изчисления с индикатора на количеството на HU. В този случай, ако интервалите са малки, е възможно условно да се вземе X за всички единици (в рамките на групата) същото. Трябва да го умножи с количеството u, за да разберете количеството на произведенията на x на y. Освен това всички количества се събират и се получава общото количество HU.

Няколко двойка регресионно уравнение: оценка на важността на комуникацията

Както е било взето по-рано, многократното регресия има функция на формата y \u003d F (x 1, x 2, ..., x m) + e. Най-често такова уравнение се използва за решаване на проблема с доставките и предлагането на стоки, приходите от лихви върху предефинирани акции, изучаване на причините и вида на производствените разходи. Той също така се използва активно в голямо разнообразие от макроикономически проучвания и изчисления, но на нивото на микроикономиката такова уравнение се прилага малко по-малко.

Основната задача на многократно регресия е да се изгради модел на данни, съдържащ огромно количество информация, за да се определи допълнително какъв ефект е отделен всеки от факторите и в общия им агрегат на индикатора, който трябва да бъде моделиран и нейните коефициенти. Регресионното уравнение може да отнеме голямо разнообразие от ценности. В същото време се използват два вида функции за оценка на връзката: линейни и нелинейни.

Линейната функция е изобразена под формата на такова взаимно свързване: y \u003d 0 + a 1 x 1 + a 2 х 2, + ... + a m x m. В същото време А2, М, се считат за коефициенти на "чиста" регресия. Те са необходими за характеристиките на средния параметър на параметъра Y с промяна (намаляване или увеличаване) на всеки съответстващ параметър X на единица, като състоянието на стабилната стойност на други индикатори.

Нелинейни уравнения имат, например, вида на функцията на захранването Y \u003d AH 1 B1 x 2 B2 ... x m BM. В този случай, показателите B 1, B 2 ..... b m се наричат \u200b\u200bеластичност коефициенти, те показват как ще се промени резултатът (като%) с увеличаване на (намаляването) на съответния индикатор на X с 1% и със стабилен индикатор на останалите фактори.

Какви фактори трябва да бъдат разгледани при изграждането на множество регресия

За да се изгради правилно многократно регресия, е необходимо да се установят кои фактори трябва да обърнат специално внимание.

Необходимо е да се постигне известно разбиране на естеството на връзката между икономическите фактори и се моделира. Факторите, които трябва да включват, са задължени да отговарят на следните характеристики:

  • Трябва да подлежи на количествено измерване. За да се използва фактор, описващ качеството на субекта, във всеки случай трябва да се определи количествено.
  • Интеркоргулация на фактори или функционални отношения. Такива действия най-често водят до необратими последици - не е причинена системата на обикновените уравнения и това води до неравнование и недостиг на оценките.
  • В случай на съществуване на огромен показател за връзката, няма начин да се определи изолираното влияние на факторите върху крайния резултат на индикатора, следователно коефициентите се разтварят.

Методи на строителство

Съществува огромен брой методи и методи, които обясняват как могат да бъдат избрани факторите за уравнението. Въпреки това, всички тези методи са изградени върху избора на коефициенти, използвайки индикатора за корелация. Сред тях се отличават:

  • Метод на изключение.
  • Метод на включване.
  • Анализ на регресията стъпка по стъпка.

Първият метод предполага изследвания на всички коефициенти от общия комплект. Вторият метод включва въвеждането на множество допълнителни фактори. Е, третият - най-много фактори, които преди това са били приложени към уравнението. Всеки от тези методи има право да съществува. Те имат своите плюсове и минуси, но всички те могат по свой начин да решават въпроса за нерешителните показатели. Като правило резултатите, получени от всеки отделен метод, са доста близки.

Методи за многоизмерния анализ

Такива методи за определяне на факторите се основават на разглеждането на индивидуалните комбинации от взаимосвързани признаци. Те включват дискриминантно анализ, признаване на външен вид, метода на основния компонент и анализ на клъстерите. Освен това има и факторно анализ, обаче, той се появява поради развитието на метода на компонента. Всички те се прилагат при определени обстоятелства, с определени условия и фактори.