Šo piemēru regresijas analīze. Regresijas analīzes metodes

Regresijas analīze

Regresija (lineārs) analīze - statistikas metode, lai pētītu vienu vai vairāku neatkarīgu mainīgo lielumu ietekmi uz atkarīgo mainīgo. Neatkarīgie mainīgie ir citādi saukti par regresentiem vai prognozētājiem, un atkarīgiem mainīgajiem - kritērijiem. Terminoloģija atkarīgs un neatkarīgs mainīgie atspoguļo tikai mainīgo lielumu matemātisko atkarību ( skatīt nepatiesu korelāciju), nevis cēloņsakarības.

Regresijas analīzes mērķi

  1. Kritērija deterministisko variāciju noteikšana (atkarīgo) mainīgo prognozi (neatkarīgi mainīgie)
  2. Atkarīgā mainīgā vērtība, izmantojot neatkarīgu vērtību)
  3. Individuālo neatkarīgo mainīgo ieguldījumu noteikšana atkarīgā variantā

Regresijas analīzi nevar izmantot, lai noteiktu komunikācijas pieejamību starp mainīgajiem lielumiem, jo \u200b\u200bšāda savienojuma klātbūtne ir priekšnoteikums pieteikumam.

Matemātiskā definīcija regresijas

Stingri regresijas atkarību var definēt šādi. Ļaujiet, izlases mainīgajiem ar konkrētu varbūtību sadalījumu. Ja katrai vērtību kopumam ir noteikta nosacīta matemātiska cerība

(regresijas vienādojums kopumā), \\ t

Šo funkciju sauc par regresija y vērtības vērtībām un tā grafiks - regresijas līnija vai, vai regresijas vienādojums.

Atkarība no izpausmes, mainot vidējās vērtības Y, mainoties. Lai gan ar katru fiksēto vērtību kopumu vērtība joprojām ir nejaušs mainīgais ar definētu izkliedi.

Lai precizētu jautājumu, cik precīzi regresijas analīze novērtē izmaiņas Y, kad tiek izmantotas izmaiņas, vidējais dispersijas y tiek izmantots dažādām vērtībām (patiesībā tas ir atkarīgā mainīgā izkliedes rezultāts ap regresijas līniju).

Metode mazāko kvadrātu (aprēķins koeficientu)

Praksē regresijas līnija visbiežāk meklē lineāru funkciju (lineāro regresiju), kas vislabāk pievieno vēlamo līkni. Tas tiek darīts, izmantojot vismazāko kvadrātu metodi, kad to aprēķinu faktisko novēroto noviržu kvadrātu summa tiek samazināta līdz minimumam (ko sauc par tāmi ar taisnu līniju, kas ir piemērota, lai pārstāvētu vēlamo regresijas atkarību):

(M - paraugu ņemšana). Šī pieeja ir balstīta uz konkrētu faktu, ka summa parādās iegūtajā izteiksmē ņem minimālo vērtību attiecībā uz gadījumiem, kad.

Lai atrisinātu problēmu regresijas analīzi ar mazāko kvadrātu metodi, koncepcija tiek ieviesta ar atsevišķas funkcijas:

Atlikušās funkcijas minimālais stāvoklis:

Iegūtā sistēma ir sistēma lineāro vienādojumu ar nezināmu

Ja jūs sniedzat bezmaksas matricas vienādojumu kreisās daļas locekļus

un koeficienti, kas nav zināmi matricas labajā daļā

ka mēs saņemam matricas vienādojumu: kas ir viegli atrisināt ar Gauss metodi. Iegūtā matrica ir matrica, kurā ir regresijas līnijas vienādojuma koeficienti:

Lai iegūtu vislabākās aplēses, ir nepieciešams veikt MNA priekšnosacījumus (Gauss-Markova apstākļi). Angļu literatūrā šādas aplēses sauc par ziliem (labākajiem lineārajiem netiešajiem aprēķiniem) - labākās lineārās izcilās aplēses.

Regresijas parametru interpretācija

Parametri ir privāti korelācijas koeficienti; Interpretēts kā dispersijas Y īpatsvars, paskaidroja, nosakot atlikušo prognozētāju ietekmi, tas ir, tas mēra individuālu ieguldījumu Y. Gadījumā, ja korelācijas prognozē, problēma nenoteiktības aplēsēm, kas kļūst par Atkarībā no procedūras attiecībā uz prognozētāju iekļaušanu modelī. Šādos gadījumos ir jāpiemēro metodes korelācijas un soli pa solim regresijas analīzei.

Runājot par nelineāriem regresijas analīzes modeļiem, ir svarīgi pievērst uzmanību tam, vai tas ir par nelinearitāti neatkarīgā mainīgā (no oficiāla viedokļa viegli samazināts līdz lineārajam regresijai) vai nelinearitātei saskaņā ar paredzētajiem parametriem (izraisot nopietnu skaitļošanas grūtības). Ar nelinearitāti pirmā veida no nozīmīga viedokļa, ir svarīgi identificēt izskatu locekļu veidlapas modelī, norādot klātbūtni mijiedarbību starp zīmēm, un tā tālāk (skat. Multicollararitāti).

Skatīt arī

Saites

  • www.kgafk.ru - lekcija par tēmu "regresijas analīze"
  • www.basegroup.ru - Mainību atlases metodes regresijas modeļos

Literatūra

  • Norman drayy, Harijs Smith Lietišķā regresijas analīze. Vairāku regresija \u003d lietišķā regresijas analīze. - 3. ed. - M.: "Dialektika", 2007. - P. 912. - ISBN 0-471-17082-8
  • Ilgtspējīgas metodes statistikas modeļu novērtēšanai: monogrāfija. - K.: PP "SANPARTEL", 2005. - P. 504. - ISBN 966-96574-0-7, UDC: 519.237.5: 515.126.2, BBC 22.172 + 22.152
  • Radchenko Stanislav Grigorievich, Regresijas analīzes metodika: monogrāfija. - k.: "Kornichuk", 2011. - P. 376. - ISBN 978-966-7599-72-0

Wikimedia fonds. 2010.

Statistikas modelēšanā regresijas analīze ir pētījums, ko izmanto, lai novērtētu attiecības starp mainīgajiem lielumiem. Šī matemātiskā metode ietver daudzas citas metodes, lai modelētu un analizētu vairākus mainīgos, kad attiecības tiek izmaksātas attiecības starp atkarīgo mainīgo un vienu vai vairāku neatkarīgu. Konkrētāk, regresijas analīze palīdz saprast, kā atkarīgo mainīgo mainīgo izmaiņu tipiskā vērtība, ja viens no neatkarīgajiem mainīgajiem mainās, bet citi neatkarīgi mainīgie ir fiksēti.

Visos gadījumos mērķa novērtēšana ir neatkarīgu mainīgo funkcija un to sauc par regresijas funkciju. Regresijas analīzē atkarīgās mainīgās izmaiņas kā regresijas funkciju var raksturot ar varbūtības sadalījumu.

Regresijas analīzes problēmas

Šī statistikas pētījumu metode tiek plaši izmantota, lai prognozētu, kur tās lietošana ir būtiska priekšrocība, bet dažreiz tas var izraisīt ilūziju vai nepatiesas attiecības, tāpēc ieteicams to izmantot rūpīgi norādītajā jautājumā, jo, piemēram, korelācija nav vidējās cēloņsakarības.

Regresijas analīzei ir izstrādātas daudzas metodes, piemēram, lineārā un parastā regresija par mazāko kvadrātu metodi, kas ir parametriski. Viņu būtība ir tāda, ka regresijas funkcija tiek noteikta attiecībā uz ierobežotu skaitu nezināmu parametru, kas tiek vērtēti no datiem. Non-parametriskā regresija ļauj tās funkciju gulēt konkrētā funkciju kopumā, kas var būt bezgalīgas dimensijas.

Kā statistikas pētījumu metodi regresijas analīze praksē ir atkarīga no datu ģenerēšanas procesa formas un par to, kā tas attiecas uz regresijas pieeju. Tā kā patiesais datu apstrādes veids, kas parasti rada nezināmu numuru, datu regresijas analīze bieži vien ir atkarīga no pieņēmumiem par šo procesu. Šos pieņēmumus dažkārt pārbauda, \u200b\u200bvai ir pietiekams daudzums pieejamo datu. Regresijas modeļi bieži vien ir noderīgi, pat tad, ja pieņēmumi ir vidēji pārkāpti, lai gan viņi nevar strādāt ar maksimālu efektivitāti.

Sakarā ar šaurāku jēgu regresija var attiekties tieši uz nepārtraukto reaģēšanas mainīgo novērtēšanu, atšķirībā no klasifikācijas principa diskrētā reakcijas mainīgajiem lielumiem. Nepārtraukta produkcijas mainīgo gadījumu sauc arī par metrisko regresiju, lai to atšķirtu no saistītām problēmām.

Vēsture

Agrākā regresijas forma ir visa pazīstamā mazāko kvadrātu metode. Viņš tika publicēts Legendre 1805. gadā un Gauss 1809. gadā Lenaland un Gauss piemēroja metodi, lai noteiktu orbītu orbītā ap sauli (galvenokārt komētas, bet vēlāk un nesen atvērtas mazās planētas). Gauss publicēja turpmāku attīstību teorijas vismazāk kvadrātu 1821., ieskaitot versiju Theorem Gauss Markov.

Termins "regress" nāca klajā ar Francis Galton XIX gadsimtā, lai aprakstītu bioloģisko parādību. Būtība bija tāda, ka pēcnācēju izaugsme no senču izaugsmes, kā parasti atgriežas līdz normālam vidējam. Par Galton, regresija bija tikai šī bioloģiskā nozīme, bet vēlāk viņa darbu turpināja Joli un Karl Pearson un, lai iegūtu vispārēju statistikas kontekstu. Yol un Pearson darbā tiek uzskatīts, ka kopīga atbildes un paskaidrojošo mainīgo lielumu sadale ir Gausa. Šo pieņēmumu tika noraidīts ar Fisher darbos 1922. un 1925. gadā. Fisher ierosināja, ka atbildes mainīgā lieluma nosacītā sadale ir Gausa, bet kopīgajam sadalījumam nevajadzētu būt tādam. Šajā sakarā Fisher ierosinājums ir tuvāks Gauss 1821 paziņojums. Līdz 1970. gadam dažreiz atstāja līdz 24 stundām, lai iegūtu regresijas analīzes rezultātu.

Regresijas analīzes metodes joprojām ir aktīvu pētījumu joma. Pēdējās desmitgadēs ir izstrādātas jaunas metodes uzticamai regresijai; regresija, piedaloties korelācijas atbildes; regresijas metodes, kas piemēro dažāda veida trūkstošos datus; nav parametru regresija; Bayesian regresijas metodes; regresijas, kuros mainīgie prognozēšanas tiek mērīti ar kļūdu; Regresija ar lielāko daļu prognozētājiem nekā novērojumi, kā arī cēloņsakarības secinājumi ar regresiju.

Regresijas modeļi

Regresijas analīzes modeļi ietver šādus mainīgos lielumus:

  • Nezināmi parametri, kas norādīti kā beta, kas var būt skalārs vai vektors.
  • Neatkarīgi mainīgie, X.
  • Atkarīgi mainīgie, Y.

Dažādās zinātnes jomās, kur tiek izmantota regresijas analīze, atkarīgo un neatkarīgo mainīgo vietā tiek izmantoti dažādi termini, bet visos gadījumos regresijas modelis attiecas uz funkciju X un β.

Pieteikšanās parasti tiek veikta E (Y | x) \u003d F (X, β) veidā. Lai veiktu regresijas analīzi, būtu jānosaka f funkcijas forma. Tas ir mazāk ticams, pamatojoties uz attiecībām attiecības starp Y un X, kas nav paļaujas uz datiem. Ja šādas zināšanas nav pieejamas, ir izvēlēts elastīgs vai ērts F veidlapa.

Atkarīgs mainīgais y.

Pieņemsim, ka tagad, kad nezināmu parametru β ir garums k. Lai veiktu regresijas analīzi, lietotājam jāsniedz informācija par atkarīgo mainīgo Y:

  • Ja ir punkti n dati par formu (y, x), kur n< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ja ir novērots tieši n \u003d k, un funkcija f ir lineāra, vienādojumu y \u003d f (x, β) var atrisināt tieši un nav aptuveni. Tas samazina, lai atrisinātu N-vienādojumu komplektu ar N-Unknown (β elementiem), kam ir viens šķīdums, līdz X ir lineāri neatkarīga. Ja f ir nelineāra, risinājums var nebūt, vai arī var būt daudz risinājumu.
  • Visbiežāk ir situācija, kad n\u003e norāda uz datiem. Šādā gadījumā dati ir pietiekama informācija, lai novērtētu unikālo vērtību β, kas vislabāk atbilst datiem, un regresijas modelis, kad pieteikumu datiem var uzskatīt par pārstrādāto sistēmu β.

Pēdējā gadījumā regresijas analīze nodrošina rīkus:

  • Risinājums Meklēt nezināmiem parametriem β, kas, piemēram, samazinās attālumu starp izmērīto un paredzamo vērtību Y.
  • Ar dažiem statistikas pieņēmumiem regresijas analīze izmanto pārmērīgu informāciju, lai sniegtu statistisko informāciju par nezināmiem parametriem β un prognozētās atkarīgo mainīgo Y.

Nepieciešamais neatkarīgo mērījumu apjoms

Apsveriet regresijas modeli, kuram ir trīs nezināmi parametri: β 0, β 1 un β 2. Pieņemsim, ka eksperimentētājs veic 10 mērījumus vienā un tajā pašā neatkarīgā mainīgā Vector X vērtībā. Šajā gadījumā regresijas analīze nedod unikālu vērtību kopumu. Vislabāk, kas jādara, ir novērtēt atkarīgās mainīgās vidējās vērtības vidējo vērtību un standarta novirzi. Līdzīgi, mērot divas dažādas vērtības x, ir iespējams iegūt pietiekami daudz datu par regresiju ar diviem nezināmiem, bet ne trīs vai vairāk nezināms.

Ja eksperimenta mērījumi tika veikti trīs dažādās neatkarīgā mainīgā Vector X vērtībās, regresijas analīze nodrošinās unikālu aprēķinu kopumu trīs nezināmiem parametriem β.

Vispārējās lineārās regresijas gadījumā iepriekš minētais apstiprinājums ir līdzvērtīgs prasībai, ka X T X matrica ir atgriezeniska.

Statistikas pieņēmumi

Kad mērījumu skaits n ir lielāks par nezināmo parametru K un mērījumu kļūdu ε I, pēc tam tā pēc tam piemēro mērījumos ietvertās informācijas pārsniegumu, un to izmanto salīdzinoši nezināmu parametru statistiskajām prognozēm. Šo informācijas pārsniegumu sauc par regresijas brīvības pakāpi.

Pamatnoteikumi

Klasiskie pieņēmumi regresijas analīzei ir:

  • Paraugs ir loģiskās produkcijas prognozēšanas pārstāvis.
  • Kļūda ir nejaušs mainīgais ar vidējo nulles vērtību, kas ir atkarīga no paskaidrojošiem mainīgajiem.
  • Neatkarīgie mainīgie tiek mērīti bez kļūdām.
  • Kā neatkarīgie mainīgie (prognozētāji), tie ir lineāri neatkarīgi, tas ir, tas nav iespējams izteikt jebkuru prognozētāju formā lineāru kombināciju pārējo.
  • Kļūdas ir nekorelētas, tas ir, covariance matrica diagonāli un katrs nulles elements ir kļūda dispersijas.
  • Dispersijas kļūda ir nemainīga ar novērojumiem (homocyadasticity). Ja nē, jūs varat izmantot apturēto mazāko kvadrātu vai citu metožu metodi.

Šie pietiekami nosacījumi vismazāko kvadrātu novērtēšanai ir nepieciešamās īpašības, jo īpaši šie pieņēmumi nozīmē, ka parametru aprēķini būs objektīvi, konsekventi un efektīvi, jo īpaši, ja tie ir reģistrēti lineārajā aplēses klasē. Ir svarīgi atzīmēt, ka faktiskie dati reti atbilst nosacījumiem. Tas ir, metode tiek izmantota, pat ja pieņēmumi nav taisnība. Dažreiz var izmantot variācijas no pieņēmumiem, kas parāda, cik daudz šis modelis ir noderīgs. Daudzus no šiem pieņēmumiem var mazināt uzlabotas metodes. Ziņojumi par statistikas analīzi, kā likums, ietver testa analīzi atbilstoši paraugu ņemšanai un metodikai lietderībai modeļa.

Turklāt dažos gadījumos mainīgie attiecas uz vērtībām, ko mēra punktu vietās. Var būt telpiskās tendences un telpiskās autokorelācijas mainīgajos lielumos, kas pārkāpj statistikas pieņēmumus. Ģeogrāfiskā svērtā regresija ir vienīgā metode, kas nodarbojas ar šādiem datiem.

Lineārā regresijā, iezīme ir tā, ka atkarīgs mainīgais, kas ir y i, ir lineāra parametru kombinācija. Piemēram, Vienkāršā lineārā regresijā, viens neatkarīgs mainīgais, x i un divi parametri, β 0 un β 1 tiek izmantoti, lai imitētu N-punktus.

Ar vairākām lineārām regresijām ir vairāki neatkarīgi mainīgie vai to funkcijas.

Ar izlases paraugu no iedzīvotājiem, tā parametri ļauj iegūt lineārās regresijas parauga modeli.

Šajā aspektā visvairāk kvadrātveida metode ir populārākā. Ar to palīdzību ir aplēses par parametriem, kas samazina atlikumu kvadrātu summu. Šāda veida samazināšana (kas ir raksturīga šīs funkcijas lineārās regresijas), noved pie normālu vienādojumu kopuma un lineāru vienādojumu kopums ar parametriem, kas tiek atrisināti ar parametru novērtējumu iegūšanu.

Ar vēl vienu pieņēmumu, ka iedzīvotāju kļūda parasti tiek izplatīta, pētnieks var izmantot šīs aplēses par standarta kļūdām, lai radītu ticamības intervālus un pārbaudītu tās parametru hipotēzes.

Nelineāra regresijas analīze

Piemērs, ja funkcija nav lineāra attiecībā uz parametriem, norāda, ka kvadrātu summa ir jāsamazina, izmantojot iteratīvu procedūru. Tas padara daudz sarežģījumus, kas nosaka atšķirības starp lineārajām un nelineārajām metodēm mazāko kvadrātu. Līdz ar to regresijas analīzes rezultāti, izmantojot nelineāro metodi, dažreiz ir neparedzamas.

Jaudas un paraugu ņemšanas aprēķināšana

Šeit parasti nav saskaņotas metodes, kas saistītas ar novērojumu skaitu, salīdzinot ar modeļa neatkarīgo mainīgo skaitu. Pirmais noteikums tika ierosināts labu un hardin un izskatās n \u003d t ^ n, kur n ir parauga lielums, n ir skaits neatkarīgu mainīgo, un t ir skaits novērojumu nepieciešamo, lai sasniegtu vēlamo precizitāti, ja modelis ir tikai viens neatkarīgs mainīgais. Piemēram, pētnieks veido lineāru regresijas modeli, izmantojot datu kopu, kas satur 1000 pacientus (n). Ja pētnieks nolemj, ka ir nepieciešami pieci novērojumi, lai precīzi noteiktu tiešo (m), tad maksimālais neatkarīgo mainīgo lielumu skaits, ka modelis var atbalstīt, ir vienāds ar 4.

Citas metodes

Neskatoties uz to, ka regresijas modeļa parametri parasti tiek vērtēti, izmantojot vismazāko kvadrātu metodi, ir citas metodes, kas tiek izmantotas daudz mazāk. Piemēram, tās ir šādas metodes:

  • Bayesian metodes (piemēram, Bayes lineārā regresijas metode).
  • Procentu regresija, ko izmanto situācijās, kad procentu kļūdu samazināšanās tiek uzskatīta par piemērotāku.
  • Vismazākās absolūtās novirzes, kas ir izturīgākas, klātbūtnē emisijas, kas izraisa kvantātisko regresiju.
  • Nav parametru regresija, kas prasa lielu skaitu novērojumu un aprēķinu.
  • Mācību metriskā attālums, kas tiek pētīts, meklējot ievērojamu metrisko attālumu konkrētā ievades telpā.

Programmatūra

Visas galvenās statistikas programmatūras paketes tiek veiktas, izmantojot mazāko regresijas analīzes kvadrātu. Vienkāršā lineārā regresija un vairāku regresijas analīzi var izmantot dažās izklājlapu lietojumos, kā arī dažos kalkulatoros. Lai gan daudzas programmatūras statistikas paketes var veikt dažāda veida bez parametru un uzticamu regresiju, šīs metodes ir mazāk standartizētas; Dažādas programmatūras paketes īsteno dažādas metodes. Specializētā regresijas programmatūra tika izstrādāta lietošanai tādās jomās kā analizējot aptaujas un neirovizāciju.

Regresijas analīzes galvenā iezīme: Kad tas ir palīdzēts, ir iespējams iegūt konkrētu informāciju par to, kāda forma un raksturs ir attiecības starp pētītajiem mainīgajiem.

Regresijas analīzes soļu secība

Apsveriet īsi regresējot analīzi.

    Uzdevumu formulējums. Šajā posmā tiek veidotas iepriekšējas hipotēzes, atkarībā no pētītajām parādībām.

    Atkarīgo un neatkarīgu (skaidrojumu) mainīgo noteikšana.

    Statistikas datu vākšana. Dati jāsavāc par katru no regresijas modelī iekļautajiem mainīgajiem lielumiem.

    Hipotēzes formulējums par komunikācijas formu (vienkāršs vai vairākkārtējs, lineārs vai nelineārs).

    Definīcija regresijas funkcijas (atrodas regresijas vienādojuma parametru skaitlisko vērtību aprēķināšanā)

    Precizitātes regresijas analīzes novērtējums.

    Iegūto rezultātu interpretācija. Iegūtie regresijas analīzes rezultāti tiek salīdzināti ar provizoriskām hipotēzēm. Tiek aprēķināts iegūto rezultātu pareizību.

    Paredzētā mainīgo nezināmu vērtību prognozēšana.

Ar regresijas analīzes palīdzību ir iespējams atrisināt prognozēšanas un klasifikācijas problēmu. Prognozes vērtības aprēķina, aizvietojot paskaidrojošo mainīgo vērtību regresijas vienādojumu. Klasifikācijas problēmas risinājums tiek veikts šādā veidā: regresijas līnija sadala visus objektu komplektus divās klasēs, un komplekta daļa, kur funkcija vērtība ir lielāka par nulli, pieder vienai klasei, un to, kur Tas ir mazāks par nulli, uz citu klasi.

Regresijas analīzes problēmas

Apsveriet regresijas analīzes galvenos uzdevumus: atkarības formas noteikšana, definīcija regresijas funkcijas, Atkarīgā mainīgā nezināmo vērtību novērtēšana.

Nosakot atkarības formu.

Dabas un forma atkarības starp mainīgajiem var veidot šādas regresijas šķirnes:

    pozitīva lineāra regresija (izteikta vienotā funkcijas izaugsmē);

    pozitīva ekvivalenta pieaugošā regresija;

    pozitīva līdzsvara pieaugošā regresija;

    negatīva lineāra regresija (izteikta vienotā fitnes funkcijā);

    negatīva ekvivalenta samazināšanās regresija;

    negatīva līdzsvara samazināšanās regresijas.

Tomēr aprakstītās šķirnes parasti nav tīrā veidā, bet kopā ar otru. Šajā gadījumā viņi runā par kombinētajām regresijas formām.

Regresijas funkcijas noteikšana.

Otrais uzdevums tiek samazināts, lai precizētu darbības par galveno faktoru vai cēloņu atkarīgo mainīgo lielumu, pastāvīgi citos vienādos apstākļos, un, ja to izslēdzot ietekmi uz atkarīgo nejaušo elementu mainīgo. Regresijas funkcijanosaka viena vai cita veida matemātiskā vienādojuma veidā.

Atkarīga mainīgā nezināmo vērtību novērtēšana.

Šā uzdevuma risinājums ir atrisināt kādu no veidiem:

    Atkarīgās mainīgā vērtības novērtējums avota datu intervālā, kas tiek izskatīta, t.I. neatbildētās vērtības; Šādā gadījumā interpolācijas problēma ir atrisināta.

    Atkarīgā mainīgā nākotnes vērtības novērtēšana, t.I. atrast vērtības ārpus norādītā avota datu intervāla; Tajā pašā laikā ekstrapolācijas uzdevums ir atrisināts.

Abi uzdevumi tiek atrisināti, aizstājot regresijas vienādojumu atrasti aplēsēm par parametru vērtībām neatkarīgu mainīgo. Vienādojuma risināšanas rezultāts ir novērtējums vērtības mērķa (atkarīga) mainīgā.

Apsveriet dažus pieņēmumus, kas balstās uz regresijas analīzi.

Linoles pieņēmums, t.sk. Tiek pieņemts, ka saikne starp mainīgajiem lielumiem ir lineāri. Tātad, pēc izskatāmā piemērā mēs izveidojām dispersijas shēmu un varēja redzēt skaidru lineāru savienojumu. Ja mainīgo lielumu dispersijas diagrammā mēs redzam skaidru lineārā savienojuma trūkumu, t.i. Nelineārās komunikācijas ir jāizmanto nelineārās analīzes metodes.

Normalitātes pieņēmums atliekas. Tajā ir pieņemts, ka prognozēto un novēroto vērtību atšķirības sadalījums ir normāls. Lai vizuāli noteiktu izplatīšanas veidu, varat izmantot histogrammas atliekas.

Izmantojot regresijas analīzi, jāņem vērā tā galvenais ierobežojums. Tas ir, ka regresijas analīze ļauj jums noteikt tikai atkarības, nevis savienojumus, kas pamatā šīm atkarībām.

Regresijas analīze ļauj novērtēt komunikācijas pakāpi starp mainīgajiem, aprēķinot mainīgo paredzēto vērtību, pamatojoties uz vairākām zināmām vērtībām.

Regresijas vienādojums.

Regresijas vienādojums ir šāds: y \u003d a + b * x

Izmantojot šo vienādojumu, mainīgais y tiek izteikts caur nemainīgu A un leņķi taisnu līniju (vai leņķa koeficientu) B, kas reizināts ar vērtību mainīgo X. Pastāvīgā A saukta arī par brīvu biedru, un stūra koeficientu - regresijas koeficients vai b-koeficients.

Vairumā gadījumu (ja ne vienmēr) ir zināma novērojumu variācija attiecībā uz regresiju.

Atliekas - Tas ir atsevišķa punkta (novērošanas) novirze no regresijas līnijas (prognozētā vērtība).

Lai atrisinātu regresijas analīzes uzdevumu MS Excel, izvēlieties izvēlnē apkalpošana"Analīzes pakete"un rīks "regresijas" analīzei. Mēs norādām ievades intervālus X un Y. Ievades intervāls Y ir virkne atkarīgu datu analīzes, tai jāietver viena kolonna. Ievades intervāls X ir virkne neatkarīgu datu, kas ir jāanalizē. Ieejas diapazonu skaitam jābūt ne vairāk kā 16.

Izejas produkcijas izlaides diapazonā mēs iegūstam ziņojumu 8.3.a tabula-8.3v..

Kopējais iznākums

8.3.a tabula. Regresijas statistika

Regresijas statistika

Vairāki R.

R kvadrāts

Normāls r kvadrāts

Standarta kļūda

Novērojumi

Vispirms apsveriet aprēķinu augšējo daļu 8.3.a tabula- regresijas statistika.

Vērtība R kvadrāts, ko sauc arī par drošības pasākumu, raksturo iegūtā regresijas kvalitāti. Šī kvalitāte ir izteikta ar atbilstības pakāpi starp avota datiem un regresijas modeli (aprēķinātie dati). Noteiktības pasākums vienmēr ir intervāls.

Vairumā gadījumu vērtība R kvadrātsatrodas starp šīm vērtībām, ko sauc par Extreme, I.E. Starp nulli un vienību.

Ja vērtība R kvadrātstuvu vienotībai, tas nozīmē, ka konstruētā modelis izskaidro gandrīz visu attiecīgo mainīgo lielumu mainīgumu. Un gluži pretēji, vērtība R kvadrātsTuvu nullei ir sliktas kvalitātes konstruētā modeļa.

Mūsu piemērā noteiktības pasākums ir 0,99673, kas norāda uz ļoti labu regresiju tieši sākotnējiem datiem.

vairāki R. - Vairāku korelācijas koeficients R - pauž neatkarīgu mainīgo (X) atkarības pakāpi un atkarīgo mainīgo (y).

Vairāki R.tas ir vienāds ar kvadrātsakni no noteikšanas koeficienta, šī vērtība ņem vērtības diapazonā no nulles uz vienu.

Vienkāršā lineārā regresijas analīzē vairāki R.tas ir vienāds ar Pearson korelācijas koeficientu. Tiešām, vairāki R.mūsu gadījumā tas ir vienāds ar Pearson korelācijas koeficientu no iepriekšējā piemērā (0,998364).

8.3.b tabula. Lejupslīdes koeficienti

Faktori

Standarta kļūda

t-statistika

Y krustojums

Mainīgais x 1.

* Ir dota atdalīta aprēķina opcija.

Tagad apsveriet vidējo daļu no aprēķiniem, kas iesniegti 8.3.b tabula. Regresijas koeficients B (2.305454545) un nobīde gar ordinātu asi, t.i. Konstante a (2694545455).

Pamatojoties uz aprēķiniem, mēs varam uzrakstīt regresijas vienādojumu šādā veidā:

Y \u003d x * 2305454545 + 2,694545455

Komunikācijas starp mainīgajiem lielumiem nosaka, pamatojoties uz zīmēm (negatīviem vai pozitīviem) regresijas koeficientiem (koeficients b).

Ja zīme ar regresijas koeficientu ir pozitīva, atkarīgā mainīgā atkarīgā ar neatkarīgo būs pozitīva. Mūsu gadījumā regresijas koeficients ir pozitīvs, tāpēc savienojums ir arī pozitīvs.

Ja regresijas koeficienta zīme ir negatīva, atkarīgā mainīgā lieluma saistība ar neatkarīgu ir negatīva (atpakaļgaita).

Iebildums 8.3V tabula.. Tiek prezentēti produkcijas rezultāti atliekas. Lai šie rezultāti tiktu parādīti ziņojumā, ir nepieciešams aktivizēt izvēles rūtiņu "paliek", sākot ar "regresijas" rīku.

Secinājumu atlikumi

8.3.b tabula. Atliekas

Novērošana

Prognozēts y.

Atliekas

Standarta atliekas

Ar šo ziņojuma daļu mēs varam redzēt katra punkta novirzes no konstruētās regresijas līnijas. Lielākā absolūtā vērtība atliekasmūsu lietā - 0.778, mazākais - 0.043. Lai iegūtu vislabāko šo datu interpretāciju, mēs izmantojam sākotnējo datu grafiku un uzrādīto regresijas līniju fig. 8.3.. Kā redzat, regresijas līnija ir pilnīgi "blakus" izpratnē avota datu.

Jāatceras, ka uzskatītais piemērs ir diezgan vienkāršs un tālu no vienmēr iespējams izveidot regresijas tiešo lineāru skatu.

Fig. 8.3. Sākotnējā datu un regresijas līnija

Problēma novērtēt nezināmu nākotnes vērtības atkarīgo mainīgo, pamatojoties uz zināmajām vērtībām neatkarīga mainīgā, joprojām nav zināms, ti. Problēmu prognozēšana.

Ņemot regresijas vienādojumu, prognozēšanas uzdevums tiek samazināts, lai atrisinātu vienādojumu Y \u003d x * 2.3054545455 + 2.694545455 ar zināmām x vērtībām. Atkarīgo mainīgo Y seši soļi rezultāti ir pārstāvēti 8.4. Tabula..

8.4. Tabula. Mainīgo gadu prognozēšanas rezultāti

Y (prognozēts)

Tādējādi, izmantojot regresijas analīzi Microsoft Excel paketē, mēs:

    būvēts regresijas vienādojums;

    noteica atkarības formu un komunikācijas virzienu starp mainīgajiem lielumiem - pozitīva lineāra regresija, kas izteikta vienotā funkcijas pieaugumā;

    iestatiet komunikācijas virzienu starp mainīgajiem lielumiem;

    novērtēja saņemto regresijas kvalitāti;

    varēja redzēt norēķinu datu novirzes no sākotnējā komplekta datiem;

    prognozēto atkarīgo mainīgo nākotnes vērtības.

Ja regresijas funkcijatas tiek noteikts, interpretēts un pamatots, un regresijas analīzes precizitātes novērtējums atbilst prasībām, mēs varam pieņemt, ka konstrukta modelis un prognozes vērtībām ir pietiekama uzticamība.

Prognozētās vērtības, kas iegūtas šādā veidā, ir vidējās vērtības, kuras var sagaidīt.

Šajā rakstā mēs pārskatījām galvenās īpašības. aprakstoša statistikaun starp tiem šie jēdzieni kā nozīmēt,mediāna,maksimums,minimumsun citas datu izmaiņu īpašības.

Tika arī īsi izskatīts jēdziens emisijas. Uzskatītās īpašības attiecas uz tā saukto pētniecības analīzi, tās secinājumus nevar piemērot iedzīvotājiem, bet tikai uz datu paraugu. Pētījuma datu analīze tiek izmantota, lai iegūtu primāros secinājumus un hipotēzes, salīdzinot ar vispārējo iedzīvotāju skaitīšanu.

Tika apsvērta arī korelācijas un regresijas analīzes pamats, to uzdevumi un praktiskās iespējas.

Regresijas analīze ir saistīta ar lielāko ekonometrisko modeļu izveidi, kas ietver arī vērtības novērtēšanas modeli. Lai izveidotu novērtēšanas modeļus, šo metodi var izmantot, ja analogu skaits (salīdzināmi objekti) un vērtības faktoru skaits (salīdzināšanas elementi) attiecas uz otru: p \u003e (5 -g-10) x uz, tiem. Analogiem jābūt 5-10 reizes vairāk nekā vērtības faktori. Šī prasība attiecībā uz datu apjoma attiecību un faktoru skaitu tiek piemērots arī citiem uzdevumiem: saziņas veidošana starp objekta izmaksām un patēriņa parametriem; Koriģējošo indeksu aprēķināšanas kārtības pamatojums; tendenču cenu precizēšana; Komunikācijas izveide starp nodilumu un ietekmējošo faktoru izmaiņām; Atkarību iegūšana, lai aprēķinātu izmaksu standartus utt. Šīs prasības izpilde ir nepieciešama, lai samazinātu datu izslēgšanas iespējamību, kas neatbilst izlases mainīgo lielumu izplatīšanas normālajām prasībām.

Regresija atspoguļo tikai vidējo tendenci mainīt iegūto mainīgo, piemēram, vērtību, mainīt vienu vai vairākus faktoru mainīgos lielumus, piemēram, atrašanās vietas, telpu skaitu, kvadrātveida, grīdas utt. Tā ir atšķirība starp regresijas saiti no funkcionālā, kurā rezultātā mainīgā vērtība ir stingri noteikta ar konkrēto faktoru mainīgo vērtību.

Regresijas / starp rezultātu klātbūtni w. un faktoru mainīgie x r. ..., x K. (Faktori) liecina, ka šīs attiecības nosaka ne tikai ar izvēlēto faktoru mainīgo ietekmi, bet arī mainīgo lielumu ietekmi, no kuriem daži parasti nav zināmi, citi nav pakļauti novērtēšanai un grāmatvedībai:

Neatbildēto mainīgo lielumu ietekmi apzīmē ar otro šī vienādojuma termiņu. ?, ko sauc par aptuvenu kļūdu.

Šādas regresijas atkarības veidi ir atšķirtas:

  • ? Pairression ir attiecības starp diviem mainīgajiem (rezultātā un faktors);
  • ? Vairāku regresija ir atkarība no viena iegūtā mainīgā un diviem vai vairākiem faktoru mainīgajiem lielumiem, kas iekļauti pētījumā.

Regresijas analīzes galvenais uzdevums ir kvantitatīvs noteikšana saiknes starp mainīgajiem lielumiem (ar pārī regresiju) un mainīgo lielumu (ar vairāku regresiju). Komunikāciju kvantitatīvi izteikta korelācijas koeficients.

Regresijas analīzes piemērošana ļauj noteikt galveno faktoru ietekmes (hedonistisko īpašību) ietekmi uz pētīto rādītāju gan viņu kopumā, gan katrā no tiem atsevišķi. Izmantojot regresijas analīzi, kā matemātiskās statistikas metodi, vispirms ir iespējams atrast un aprakstīt rezultātā (vēlamā) mainīgā analītiskās atkarības formu no faktora un, otrkārt, lai novērtētu šīs atkarības tuvumu.

Pateicoties pirmā uzdevuma risināšanai, iegūst matemātisku regresijas modeli, un pēc tam vēlamais indikators tiek aprēķināts pēc norādītajām faktoriem. Otrā uzdevuma risinājums ļauj iestatīt vēlamā rezultāta ticamību.

Tādējādi regresijas analīzi var definēt kā formālas (matemātiskas) procedūras, kas paredzētas komunikācijas formas sasprindzinājuma, virzienu un analītiskās izpausmes mērīšanai starp rezultātu un faktoru mainīgajiem lielumiem, ti. Šādas analīzes produkcijai jābūt strukturālam un kvantitatīvi definētam formas statistiskajam modelim: \\ t

kur y - Iegūtā mainīgā vidējā vērtība (vēlamais rādītājs, piemēram, izmaksas, nomas, kapitalizācijas likmes) p viņas novērojumi; X - faktora mainīgā vērtība (/ -th vērtības koeficients); uz - Faktoru mainīgo lielumu skaits.

Funkcija f (x l, ..., x lc), \\ t Aprakstot iegūtā mainīgā lieluma atkarību no faktora, tiek saukts par regresijas vienādojumu (funkciju). Termins "regresija" (regresija) ir atkāpšanās, kompensācija kaut ko) ir saistīta ar viena no konkrētiem uzdevumiem, kas atrisināti metodes veidošanās posmā, un pašlaik neatspoguļo visu metodes būtību, bet turpina piemērot.

Regresijas analīze parasti ietver šādas darbības:

  • ? veidojot viendabīgu objektu paraugu un apkopot avota informāciju par šiem objektiem;
  • ? galveno faktoru, kas ietekmē iegūto mainīgo izvēli;
  • ? Pārbaudiet paraugu ņemšanu normālam, izmantojot h. 2 vai binomīna kritērijs;
  • ? hipotēzes pieņemšana par komunikācijas formu;
  • ? Matemātiskā datu apstrāde;
  • ? regresijas modeļa iegūšana;
  • ? novērtējot tās statistikas rādītājus;
  • ? kalibrēšanas aprēķini, izmantojot regresijas modeli;
  • ? Rezultātu analīze.

Norādītā operāciju secība notiek gan pāris saiknes pētījumā starp faktora mainīgo un vienu rezultātu un vairāku saikni starp iegūto mainīgo un vairākiem faktoriem.

Regresijas analīzes izmantošana padara noteiktas prasības avota informācijai:

  • ? Objektu statistiskajam paraugam jābūt viendabīgam funkcionālajām un strukturāli tehnoloģiskajām attiecībām;
  • ? diezgan daudz;
  • ? Vērtības indikators pētījumā ir iegūtais mainīgais (cena, izmaksas, izmaksas) - būtu jāpiešķir vienam noteikumam tā aprēķinu visos izlases objektos;
  • ? Faktoru mainīgie lielumi jāmēra diezgan precīzi;
  • ? Faktoru mainīgajiem jābūt neatkarīgiem vai minimāli atkarīgiem.

Par viendabīguma un pilnīguma parauga prasības ir pretrunā: stingrāka izvēle objektu ar to viendabīgumu, jo mazāk par paraugu iegūst, un, gluži pretēji, tai ir jāiekļauj objekti tajā.

Pēc datiem par viendabīgu objektu grupu tiek savākta, to analīze tiek veikta, lai izveidotu komunikācijas veidu starp iegūto un faktoru mainīgajiem lielumiem teorētiskās regresijas līnijas veidā. Teorētiskās regresijas līnijas atrašanas process ir saprātīga tuvošanās līknes izvēle un tās vienādojuma koeficientu aprēķināšana. Regresijas līnija ir gluda līkne (privātā gadījumā), kas apraksta ar matemātiskas funkcijas palīdzību, atkarības atkarības vispārējo tendenci un nelikumīgas, izlases emisijas no sānu faktoru ietekmes vispārējām tendencēm.

Lai parādītu pārī savienotas regresijas atkarības aprēķinātajos uzdevumos, visbiežāk tiek izmantotas šādas funkcijas: Linear - y - 0 + ars + S. jauda - u - AJ & I + C indikatīvs - y -lineāri indikatīvs - y - 0 + ar * + C. Šeit - e. Tuvināšanas kļūda, ko rada neparedzētu nejaušo faktoru darbība.

Šajās funkcijās, kā rezultātā mainīgais; X - faktora mainīgais (faktors); bet 0 , a r a 2 - Regresijas modeļa parametri, regresijas koeficienti.

Lineāri indikatīvais modelis attiecas uz tā saukto formas hibrīda modeļu klasi:

kur

kur H. (I \u003d. 1, /) - faktoru vērtības;

b t (i \u003d 0, /) - regresijas vienādojuma koeficienti.

Šajā vienādojumā, sastāvdaļas A, B. un Z. Atbilst izmaksām atsevišķu sastāvdaļu aprēķināto aktīvu, piemēram, vērtību zemes gabala un uzlabojumu izmaksas, un parametru Q.ir izplatīta. Tas ir paredzēts, lai pielāgotu vērtību visu sastāvdaļu aprēķināto aktīvu uz vispārējo faktoru ietekmes, piemēram, atrašanās vietu.

Faktoru vērtības atbilstošo koeficientu pakāpē ir bināri mainīgie (0 vai 1). Faktori grādu pamatā - diskrēti vai nepārtraukti mainīgie.

Arī ar reizināšanas ģimenēm saistītie faktori ir arī nepārtraukti vai diskrēti.

Specifikācija parasti tiek veikta, izmantojot empīrisku pieeju un ietver divus posmus:

  • ? attiecas uz regresijas lauka punktu diagrammu;
  • ? Iespējamā tuvināšanas līknes tipa grafiskā (vizuālā) analīze.

Regresijas līknes veids ne vienmēr ir iespējams izvēlēties nekavējoties. Lai to noteiktu, vispirms attiecas uz diagrammu regresijas laukā uz avota datiem. Tad mēs vizuāli veicam rindu pozīcijā punktu, cenšoties noskaidrot kvalitatīvo komunikācijas modeli: vienotu izaugsmi vai vienotu samazinājumu, izaugsmi (samazinājums), palielinoties (dilstošā) no skaļruņu likmes, vienmērīgu tuvināšanu daži līmenis.

Šo empīrisko pieeju papildina loģiskā analīze, izspiežot jau zināmās idejas par izmeklēto faktoru ekonomisko un fizisko raksturu un to savstarpējo ietekmi.

Piemēram, ir zināms, ka iegūto mainīgo lielumu atkarības - ekonomiskie rādītāji (cenas, noma) no vairākiem faktoru mainīgajiem lielumiem - cenu noteikšanas faktori (attālumi no norēķinu centra, kvadrātveida utt.), Ir nelineāri, un Tos var pietiekami aprakstīt ar jaudu, eksponenciālajām vai kvadrātiskām funkcijām.. Bet ar nelieliem diapazoniem izmaiņas faktoros, pieņemamus rezultātus var iegūt, izmantojot lineāru funkciju.

Ja vēl nav iespējams nekavējoties izdarīt pārliecinošu izvēli vienu funkciju, tad tiek veiktas divas vai trīs funkcijas, aprēķināt savus parametrus un tālāk, izmantojot atbilstošos kritērijus saspringtībai, beidzot izvēlēties funkciju.

Teorijā tiek saukts par līknes atrašanas regresijas process specifikācija modeļi un tās koeficienti - kalibrēšanamodeļi.

Ja tiek konstatēts, ka iegūtais mainīgais Y ir atkarīgs no vairākiem faktoriem mainīgajiem (faktori) x (, x 2, ..., x k Tas tiek izmantots vairāku regresijas modeļa būvniecību. Parasti tiek izmantoti trīs vairāku komunikāciju veidi: Linear - y - un 0 + x x x + a ^ x 2 + ... + un k x k indikatīvs - y - a 0 a* I. x t- un x bjauda - y - 0 x x Ix 2 a 2. .x ^ vai to kombinācijas.

Indikatīvās un spēcīgās funkcijas ir vairāk universālākas, jo aptuvenās nelineārās obligācijas, kas ir lielākā daļa atkarību no izmeklētājiem. Turklāt tos var piemērot objektu novērtēšanā un statistikas modelēšanas metodē masas aplēses laikā, kā arī tiešās salīdzināšanas metodi individuālā novērtējumā, nosakot korektīvus koeficientus.

Kalibrēšanas posmā regresijas modeļa parametri tiek aprēķināti, izmantojot vismazāko kvadrātu metodi, kuras būtība ir tāda, ka rezultātā mainīgā aprēķināto vērtību aprēķināto vērtību noviržu kvadrātu summa w.., I.E. Aprēķina ar izvēlēto komunikācijas vienādojumu, no faktiskajām vērtībām jābūt minimālām:

Vērtības j) (. Un. \\ T y Tāpēc zināms Q. Tā ir tikai vienādojuma koeficientu funkcija. Lai atrastu minimumu S. nepieciešams veikt privātus atvasinājumus Q. Saskaņā ar vienādojuma koeficientiem un pielīdziniet tos nullei:

Tā rezultātā mēs iegūstam normālu vienādojumu sistēmu, kuru skaits ir vienāds ar vēlamā regresijas vienādojuma noteikto koeficientu skaitu.

Likts, jums ir jāatrod lineārās vienādojuma koeficienti y - 0 + ARS. Novirzes kvadrātu summa ir:

/=1

Diferencēt funkciju Q. Saskaņā ar nezināmiem koeficientiem a 0. un un vienāda privātus atvasinājumus uz nulli:

Pēc transformācijas saņemiet:

kur p - Avota faktisko vērtību skaits w. tiem (analogu skaits).

Samazinātā procedūra regresijas vienādojuma koeficientu aprēķināšanai ir piemērojama arī nelineārām atkarībām, ja šīs atkarības var linearizēti, t.i. Zema līdz lineārai formai, nomainot mainīgos lielumus. Jauda un indikatīvās funkcijas pēc logaritmēšanas un atbilstošā mainīgo lielumu aizstāšana iegūst lineāru formu. Piemēram, spēcīga funkcija pēc logaritmācijas iegūst tipu: y \u003d 1pi 0 + H. 1px Pēc mainīgo lielumu nomaiņas Y-In. y, l 0 - In. un numurs x-X x mēs iegūstam lineāru funkciju

Y \u003d 0 + cijx, Kuru koeficienti ir atrodami iepriekš aprakstītajā metodē.

Vismazāk kvadrātveida metode tiek izmantota, lai aprēķinātu vairāku regresijas modeļa koeficientus. Tātad, normālu vienādojumu sistēma lineārās funkcijas aprēķināšanai ar diviem mainīgajiem Xj. un x 2 Pēc virknes transformācijas, tas ir šāds:

Parasti šī vienādojumu sistēma tiek atrisināta, izmantojot lineārās algebras metodes. Vairāku jaudas funkcija noved pie lineāras formas ar logaritming un nomainīt mainīgos tādā pašā veidā kā pārī jaudas funkciju.

Lietojot hibrīda modeļus, vairāki regresijas koeficienti atrodas, izmantojot skaitliskās procedūras pēc kārtas kārtas tuvinājumiem.

Lai veiktu galīgo izvēli vairāku regresijas vienādojumu, tas ir nepieciešams, lai pārbaudītu katru vienādojumu par savienojuma sasprindzinājumu, ko mēra ar korelācijas koeficientu, dispersijas un variācijas koeficientu. Jūs varat izmantot arī studentu un Fisher kritērijus novērtēšanai. Jo lielāks savienojuma saspringums nosaka līkni, tas ir vairāk vēlams no citām lietām, kas ir vienādas.

Ja šīs šķiras uzdevums ir atrisināts, ja jānosaka vērtības indikatora atkarība no izmaksu faktoriem, tad vēlme ņemt vērā pēc iespējas vairāk ietekmējošiem faktoriem un tādējādi veidot precīzāku vairāku regresijas modeli. Tomēr divi objektīvi ierobežojumi novērš faktoru skaita paplašināšanu. Pirmkārt, lai izveidotu vairāku regresijas modeli, ir nepieciešams ievērojami vairāk apjomīgāks objektu paraugs, nekā izveidot pārī savienotu modeli. Tiek uzskatīts, ka parauga objektu skaitam jāpārsniedz numurs p faktori vismaz 5-10 reizes. No tā izriet, ka, lai izveidotu modeli ar trim ietekmējošiem faktoriem, ir nepieciešams savākt paraugu apmēram 20 objektus ar dažādiem faktoru vērtībām. Otrkārt, modelim izvēlētie faktori to ietekmē uz vērtības rādītāju jābūt pietiekami neatkarīgiem no otra. Ir grūti nodrošināt, ka paraugs parasti apvieno objektus, kas saistīti ar vienu ģimeni, kuriem ir dabiskas izmaiņas daudzos faktoros no objekta uz objektu.

Regresijas modeļu kvalitāte parasti tiek pārbaudīta, izmantojot šādus statistikas rādītājus.

Regresijas vienādojuma kļūdas standarta novirze (vērtēšanas kļūda):

kur p - paraugu ņemšanas apjoms (analogu skaits);

uz - Faktoru skaits (izmaksu faktori);

Regresijas vienādojums (3.2 att.) Neizskaidrojama kļūda (3.2. Att.);

y - faktiskā vērtība no iegūtā mainīgā (piemēram, izmaksas); y t - Iegūtā mainīgā aprēķinātā vērtība.

Šis rādītājs tiek saukts arī standarta vērtēšanas kļūda (ātruma kļūda). Attēla punktā ir norādītas specifiskās paraugu ņemšanas vērtības, simbolu norāda vidējo paraugu ņemšanas vērtību līnija, slīpā jaunekla līnija ir regresijas līnija.


Fig. 3.2.

Novērtēšanas kļūdas standarta novirze mēra faktisko vērtību novirzes vērtību no attiecīgajām aprēķina vērtībām w. (iegūst, izmantojot regresijas modeli. Ja paraugs, uz kura modelis ir būvēts, ir pakārtots parastajam sadales likumam, tad var apgalvot, ka 68% no reālajām vērtībām w.atrodas diapazonā w. ± & E. no regresijas līnijas un 95% - diapazonā w. ± 2d E. . Šis rādītājs ir ērts, jo mērvienības sg? sakrīt ar mērvienībām w.. Šajā sakarā to var izmantot, lai norādītu procesā iegūtā rezultāta precizitāti. Piemēram, vērtības sertifikātā varat norādīt, ka vērtība no tirgus vērtības, kas iegūta, izmantojot regresijas modeli V. Ar varbūtību 95% ir diapazonā no (V -2d,.)agrāk (U. + 2d s).

Iegūtā mainīgā kaziņa variācija:

kur y - Vidējā vērtība no iegūtā mainīgā (3.2 att.).

Regresijas analīzē variācijas koeficients variants ir standarta novirze no rezultāta, izteikta procentos no vidējās vērtības no iegūtā mainīgā. Variācijas koeficients var kalpot par iegūto regresijas modeļa prognozēto īpašību kritēriju: mazāk summu var.Īpaši augsts ir paredzētie kvalitātes modeļi. Variācijas koeficienta izmantošana ir vēlams indikatoram un e, jo tas ir relatīvs rādītājs. Ar praktisku izmantošanu šo rādītāju, ir iespējams ieteikt neizmantot modeli, kura variācijas koeficients pārsniedz 33%, jo šajā gadījumā nav iespējams teikt, ka šie paraugi ir pakļauti parastajam sadales likumam.

Noteikšanas koeficients (Vairāku korelācijas koeficienta kvadrāts):

Šis rādītājs tiek izmantots, lai analizētu iegūtā regresijas modeļa vispārējo kvalitāti. Tas norāda, kādu procentuālo daļu no iegūtā mainīgā variācijas izskaidro visu modelī iekļauto faktoru mainīgo ietekmi. Noteikšanas koeficients vienmēr atrodas diapazonā no nulles uz vienu. Jo tuvāk vērtības noteikšanas koeficientu uz vienu, jo labāk modelis apraksta sākotnējo datu skaitu. Noteikšanas koeficientu var pārstāvēt atšķirīgi:

Šeit ir kļūda, ko izskaidro regresijas modelis

bet - neizskaidrojama kļūda

regresijas modelis. No ekonomiskā viedokļa šis kritērijs ļauj spriest, cik procentu no cenu svārstībām ir izskaidrots ar regresijas vienādojumu.

Precīza indikatora pieņemamības robeža R 2. Visiem gadījumiem nav iespējams precizēt. Ir nepieciešams ņemt vērā izlases lielumu un vienādojuma nozīmīgu interpretāciju. Kā likums, mācoties datus par tāda paša veida objektiem, kas iegūti aptuveni tajā pašā laikā, vērtību R 2. nepārsniedz līmeni 0,6-0,7. Ja visas prognozēšanas kļūdas ir nulles, ti. Kad attiecības starp iegūto un faktoru mainīgajiem ir funkcionāls, R 2. =1.

Koriģēts noteikšanas koeficients:

Nepieciešamība ieviest koriģētu noteikšanas koeficientu, izskaidro fakts, ka ar faktoru skaita palielināšanu uz Parastais noteikšanas koeficients gandrīz vienmēr pieaug, bet ir samazināts brīvības pakāpes skaits. (n - līdz - viens). Ievadītā regulēšana vienmēr samazina vērtību R2, ciktāl (P - 1) \u003e (ar - uz - viens). Tā rezultātā summa R 2 ckof) Tas pat var kļūt par negatīvu. Tas nozīmē, ka vērtība R 2. Tas bija tuvu nullei korekcijai un mainīgās mainīgās dispersijas īpatsvars, kas izskaidrots, izmantojot regresijas vienādojumu w. ļoti mazs.

No abām regresijas modeļu iespējām, kas atšķiras ar koriģētā noteikšanas koeficienta lielumu, bet tām ir vienlīdz labi citi kvalitātes kritēriji, vēlams iespēja ar lielu koriģētā noteikšanas koeficienta vērtību. Noteikšanas koeficienta korekcija netiek veikta, ja (P - k): k\u003e 20.

Fisher koeficients:

Šis kritērijs tiek izmantots, lai novērtētu noteikšanas koeficienta nozīmi. Kvadrātu atlikums ir prognozēšanas kļūdu rādītājs, regresējot zināmas vērtības vērtības pie .. Tā salīdzinājums ar kvadrātu regresijas apjomu parāda, cik reižu regresijas atkarība prognozē rezultātu labāk nekā vidēji w. . Ir kritisko vērtību tabula. F r. Zvejnieka koeficients atkarībā no skaitītāja brīvības pakāpes skaita - K., Denominator v 2 \u003d p - K. - 1 un nozīmīguma līmenis a. Ja zvejnieka kritērija aprēķinātā vērtība F r. Vairāk tabulas vērtības, tad hipotēze nenozīmīga noteikšanas koeficienta, t.i. Par regresijas vienādojumu noteikto saikņu neatbilstību faktiski pastāvošā, ar varbūtību p \u003d 1 - un noraidīts.

Vidējā tuvināšanas kļūda (Vidējā procentuālā daļa) tiek aprēķināta kā vidējā relatīvā atšķirība, kas izteikta procentos, starp faktiskajām un aprēķinātajām mainīgo vērtībām:

Jo mazāka ir šī rādītāja vērtība, jo labāk ir paredzamā modeļa kvalitāte. Ar šī rādītāja vērtību ne vairāk kā 7% norāda augstu precizitātes modeli. Ja 8 \u003e 15%, viņi runā par modeļa neapmierinošo precizitāti.

Standarta regresijas koeficienta kļūda:

kur (/ i) -1. - matricas diagonālais elements (X g x) ~ 1 līdz - faktoru skaits;

X - Faktoru mainīgo vērtību matrica:

X 7 - Faktoru mainīgo vērtību transponēšana;

(Fall) _ | - matrica, apgrieztā matrica.

Mazāki šie rādītāji katram regresijas koeficientam, jo \u200b\u200bticamāk ir ticams novērtēt atbilstošo regresijas koeficientu.

Studenta kritērijs (T-statistika):

Šis kritērijs ļauj novērtēt komunikācijas ticamības (būtiskuma) pakāpi šīs regresijas koeficienta dēļ. Ja aprēķinātā vērtība t.. Vairāk tabulas vērtība

t. Av, kur v - P - K - 1 ir brīvības pakāpes skaits, hipotēze, ka šis koeficients ir statistiski nenozīmīgs, noraidīts ar varbūtību (100 - a)%. Ir īpašas tabulas / izplatīšana, kas ļauj noteikt konkrētu nozīmīguma līmeni un brīvības V līmeņa skaitu, lai noteiktu kritērija kritisko vērtību. Visbiežāk izmantotā vērtība ir 5%.

Daudzkrāsains. Savstarpēju attiecību ietekme starp faktoru mainīgajiem izraisa nepieciešamību būt saturam ar ierobežoto skaitu. Ja tas nav jāapsver, tad galu galā var iegūt neloģisku regresijas modeli. Lai izvairītos no daudzfunkcionāla negatīva ietekme, pirms vairāku regresijas modeļa izveides tiek aprēķinātas pāru korelācijas koeficienti r xjxj. starp izvēlētajiem mainīgajiem x. un h.

Šeit Xjx; - Divu faktoru mainīgo darbu vidējais rādītājs;

XJXJ - divu faktoru mainīgo vidējo vērtību produkts;

Faktora mainīgā X dispersijas novērtējums X.

Tiek uzskatīts, ka divi mainīgie ir regresīvi saistīti ar otru (I.E. kolinārā), ja to pāru korelācijas koeficients absolūtā vērtībā ir stingri lielāka par 0,8. Šādā gadījumā no šiem mainīgajiem lielumiem jāizslēdz no atlīdzības.

Lai paplašinātu iespējamību ekonomiskās analīzes iegūto regresijas modeļiem, vidēja elastības koeficienti Definēts ar formulu:

kur Xj - Atbilstošā faktora mainīgā vidējā vērtība;

y - Vidējā vērtība no rezultātā mainīgā; i - Regresijas koeficients ar atbilstošu faktoru mainīgo.

Elastības koeficients rāda, cik daudz procentuālā procentu vērtība no rezultātā mainīgo mainās ar izmaiņām faktora mainīgā par 1%, ti. Kā reaģē ar rezultātu mainīgo, lai mainītu faktora mainīgo. Piemēram, kā ceturkšņa cena reaģē. M kvadrātveida dzīvoklis izņemšanai no pilsētas centra.

Noderīga ziņā analīzi par to nozīmīgumu, vai regresijas koeficients ir novērtējums privāta noteikšanas koeficients:

Šeit - novērtējums par dispersijas rezultātā

mainīgs. Šis koeficients rāda, cik daudz procentuālo variāciju no iegūtā mainīgā ir izskaidrojams ar variāciju / faktora mainīgo, kas iekļauts regresijas vienādojumā.

  • Saskaņā ar hedonistiskajām īpašībām ir objekta īpašības, kas atspoguļo tās noderīgo (vērtīgo) no īpašuma pircēju un pārdevēju viedokļa.

Kā rezultātā pētījuma par materiāla 4. nodaļā, students:

zināt

  • Regresijas analīzes pamatjēdzieni;
  • Metodes novērtēšanas un īpašību novērtēšanas metodes vismazāk kvadrātu;
  • Pamatnoteikumi, lai pārbaudītu vienādojuma un regresijas koeficientu nozīmīgumu un intervālu novērtējumu;

būt spējīgam

  • atrast ar selektīviem datiem, lai novērtētu divdimensiju un vairāku regresijas vienādojumu modeļu parametrus, analizējiet to īpašības;
  • Pārbaudiet vienādojuma un regresijas koeficientu nozīmi;
  • atrast nozīmīgu parametru intervālu aplēses;

pieder

  • prasmes statistisko novērtējumu par parametriem divdimensiju un vairāku regresijas vienādojumu; prasmes pārbaudīt regresijas modeļu atbilstību;
  • Prasmes iegūt regresijas vienādojumu ar visiem nozīmīgiem koeficientiem, izmantojot analītisko programmatūru.

Pamatjēdzieni

Pēc korelācijas analīzes, kad tiek atklāta statistiski nozīmīgu obligāciju klātbūtne starp mainīgajiem lielumiem, un tiek lēsts, ka to slīpuma pakāpe parasti pārskaita atkarību matemātisko aprakstu, izmantojot regresijas analīzes metodes. Šim nolūkam viņi izvēlas funkciju klasi, kas saistās ar rezultātu indikatoru w. Un argumenti "aprēķina sakaru vienādojuma parametru aplēses un analizē iegūtā vienādojuma precizitāti.

Funkcija | apraksta rezultāta nosacītās vidējās vērtības atkarību w. no norādītajām vērtībām, ko sauc par argumentiem regresijas vienādojums.

Termins "regresija" (no latiem. regresija - atkāpšanās, atgriezties kaut ko), ko ieviesa angļu psihologs un antropologs F. Galton un ir saistīts ar vienu no viņa pirmajiem piemēriem, kuros Galton, apstrādājot statistikas datus, kas saistīti ar izaugsmes iedzimtības jautājumu, konstatēja, ka, ja no tēvu izaugsme atšķiras no vidējais izaugsme visi Fathersa h. collas, tad viņu dēlu izaugsme atšķiras no visu dēlu vidējā pieauguma nekā uz tālāk x. collas. Atklāja tendenci regresija uz vidējo valsti.

Termins "regresija" tiek plaši izmantota statistikas literatūrā, lai gan daudzos gadījumos tas nav precīzi raksturots ar statistisko atkarību.

Lai precīzi aprakstītu regresijas vienādojumu, ir jāzina spēkā esošais likums par efektīvā rādītāja sadalījumu y Statistikas praksē, šāda informācija parasti nav iespējama, tāpēc ierobežota, meklējot piemērotus tuvinājumus par funkciju f (X.u. h.2, .... l *) Pamatojoties uz provizorisko nozīmīgu analīzi par parādību vai avota statistikas datiem.

Kā daļu no atsevišķiem pieņēmumiem par indikatoru vektora izplatīšanas veidu<) может быть получен общий вид regresijas vienādojumikur. Piemēram, pieņemot, ka rādītāju testa kopums ir pakļauts () - dimensijas normālam sadales likumam ar matemātisko cerību vektoru.

Kur un kovariācijas matrica,

kur-dispersija y,

Regresijas vienādojums (nosacītā matemātiskā cerība) ir veidlapa

Tādējādi, ja daudzdimensiju izlases vērtība ()

obeyys () -Hell Normal izplatīšanas likums, regresijas vienādojums efektīvā rādītāja w. Saskaņā ar skaidrojot mainīgajiem lineāriem h. skats.

Tomēr statistikas praksē parasti ir nepieciešams ierobežot piemērotu tuvinājumu meklēšanu par nezināmu regresijas funkciju. f (x), Tā kā pētniekam nav precīzu zināšanu par analīzes efekta varbūtības sadalījuma nosacīto likumu w. noteiktām argumentu vērtībām x.

Apsveriet attiecības starp patieso, modeļa novērtējumu regresijas. Ļaujiet rezultātā rādītājs w. saistīts ar argumentu h. Pēc attiecībām

kur-izlases mainīgais, kam ir normāls sadales likums, Fech. Patiesā regresijas funkcija šajā gadījumā ir forma

Pieņemsim, ka precīzs patiesā regresijas vienādojuma veids mums nav zināms, bet mums ir deviņi novērojumi vairāk nekā divdimensiju izlases vērtība, kas saistīta ar attiecībām, kas norādītas 1. attēlā. 4.1.

Fig. 4.1. Taisnības savstarpēja atrašanās vietaf (x) un teorētiskiuy Regresijas modeļi

Atrašanās vietas punkti 1. attēlā. 4.1 Ļauj ierobežot klasi lineāro atkarību atkarību

Izmantojot vismazāko kvadrātu metodi, mēs atradīsim regresijas novērtējumu.

Salīdzinājumam 1. attēlā. 4.1 Treisorētiskās regresijas funkcijas regresijas regresijas patiesās funkcijas grafiki. Pēdējais konverģē varbūtības novērtējumu regresijas vienādojumu uy Ar neierobežotu izlases lieluma pieaugumu ().

Tā kā mēs, nevis patieso regresijas funkciju, kļūdaini izvēlējusies lineāro regresijas funkciju, kas, diemžēl, diezgan bieži sastopamas statistikas pētījumu praksē, mūsu statistikas secinājumiem un aplēsēm nebūs konsekvences īpašums, t.i. Tāpēc mēs palielinātu novērojumu apjomu, mūsu izlases vērtējums tiks konverģēts uz regresijas patieso funkciju

Ja mēs būtu pareizi izvēlējušies regresijas funkciju klasi, pēc tam neprecizitāte aprakstā, izmantojot uy Tas būtu izskaidrojams tikai ar ierobežoto paraugu, un tāpēc to varētu izdarīt kā mazs kā

Ar mērķi labāk atgūt sākotnējos statistiskos datus par nosacīto vērtību efektīvu rādītāju par nezināmo funkciju regresijas, visbiežāk izmanto. atbilstības kritēriji Zaudējumu funkcijas.

1. Vismazāk kvadrātveida metode, Saskaņā ar kuru rezultātu rādītāja novēroto vērtības kvadrātu samazina no modeļa vērtībām, kurās regresijas vienādojuma koeficienti; - argumentu vērtības "-M novērojumā: \\ t

Evakuācijas atrašanas uzdevums ir atrisināts. Saņemto regresiju sauc vidējais kvadrātiskais.

2. Metode mazajiem moduļiemSaskaņā ar kuru absolūto novirzes novēroto vērtību efektīvā rādītāja no moduļu vērtībām, ir minimāli, t.e.

Saņemto regresiju sauc viduspakalpi (Vidējais).

3. Minimax metode Tas nāk uz leju, lai samazinātu maksimālo novirzes moduļa novēroto vērtību efektīvā rādītāja y, no modeļa nozīmes, t.i.

Tajā pašā laikā tiek saukta lejupslīde minimax.

Praktiskajos lietojumos tiek atrasti uzdevumi, kuros tiek pētīta nejauša vērtība. y, Atkarībā no dažiem nezināmo parametru mainīgo lielumiem. Mēs izskatīsim () kā (K +. 1) - vismaz vispārēja kopums, no kuras izlases paraugs tiek ņemts pēc tilpuma p, kur () novērošanas rezultāts ,. Nepieciešams ar novērošanas rezultātiem Nezināmi parametri. Iepriekš aprakstītais uzdevums attiecas uz regresijas analīzes uzdevumiem.

Regresijas analīze Zvaniet metodei statistiskās analīzes atkarību no izlases mainīgā w. no mainīgajiem lielumiem, kas tiek uzskatīti regresijas analīzē kā nejaušas vērtības, neatkarīgi no patiesā izplatīšanas likuma