Glavne značilnosti regresijske analize. Regresijska analiza v Microsoft Excelu

Namen regresijske analize je izmeriti povezavo med odvisnim spremenljivko in eno (seznanjeno regresijsko analizo) ali več (večkratnih) neodvisnih spremenljivk. Neodvisne spremenljivke se imenujejo tudi dejavnik, pojasnjevanje, definiranje, regresorji in napovedovalci.

Odvisna spremenljivka se včasih imenuje opredeljena pojasnjena, "odziv". Izjemno razširjena regresijska analiza v empiričnih študijah ni le povezana z dejstvom, da je to priročno testno orodje hipoteze. Regresija, zlasti večkratna, je učinkovita metoda modeliranja in napovedovanja.

Pojasnilo načel dela z regresijsko analizo se bo začela z enostavnejšim paro metodo.

Seznanjena regresijska analiza

Prva dejanja, ki uporabljajo regresijsko analizo, bodo skoraj enake v okviru izračuna korelacijskega koeficienta. Trije glavni pogoji za učinkovitost korelacijske analize z uporabo Pearson metode - običajna porazdelitev spremenljivk, interval merjenje spremenljivk, linearno vez med spremenljivkami je pomembna za večkratno regresijo. V skladu s tem so v prvi stopnji zgrajeni razpršitveni diagrami, izvedemo statistično deskriptivno analizo spremenljivk in izračuna se regresijska linija. Kot v okviru korelacijske analize, so regresijske linije zgrajene z najmanjšo kvadratno metodo.

Bolj jasno ponazarjajo razlike med obema metodama analize podatkov, se obrnemo na že obravnavani primer s spremenljivkami "Podpora ATP" in "Delež podeželskega prebivalstva". Podatki izvornih podatkov so identični. Razlika v razprševalnih diagramih bo, da je v regresijski analizi odvisna spremenljivka pravilno razočaranje - v našem primeru "Podpora ATP" vzdolž osi Y, medtem ko pri korelacijski analizi ni pomembno. Po čiščenju je diagram razpršitve:

Temeljna ideja regresijske analize je, da ima splošni trend spremenljivk - v obliki regresijske linije, - lahko predvidite vrednost odvisne spremenljivke, ki ima neodvisno vrednost.

Predstavljajte si običajno matematično linearno funkcijo. Vsaka neposredna v evklidnem prostoru je mogoče opisati s formulo:

kjer je A konstanta, ki določa offset vzdolž osi ordinate; B je koeficient, ki določa kot linij.

Poznavanje kotnega koeficienta in konstante, lahko izračunate (napovedati) vrednost za katero koli X.

Ta najpreprostejša funkcija je oblikovala osnovo regresijske analize z rezervacijo, da bo vrednost, ki jo bomo napovedali, ne natančno, vendar v določenem intervalu zaupanja, t.j. O.

Konstanta je presečišče regresijske linije in osi osi (F-križišče, v statističnih paketih, praviloma, označena z "Interceptor"). V našem primeru z glasovanjem za ATP bo njena zaokrožena vrednost 10,55. Koški koeficient Kommersant bo približno -0,1 (kot pri korelacijski analizi, znak kaže vrsto komunikacije - neposredno ali obratno). Tako bo nastalen model imel obliko skupnega podjetja C \u003d -0,1 x vasi. ZDA. + 10.55.

Torej, za primer "Republike Adygea" z delnicami podeželskega prebivalstva 47% predvidene vrednosti, je 5,63:

ATP \u003d -0.10 x 47 + 10.55 \u003d 5.63.

Razlika med začetnimi in napovedanimi vrednostmi se imenuje ostanek (s tem izrazom - načelno za statistiko - smo že naleteli pri analizi tabel konjugacije). Zato bo ostanek "Republike Adygea" enak 3,92 - 5.63 \u003d -1.71. Večja je modularna vrednost ostankov, manj uspešno je predvidena vrednost.

Izračunajte predvidene vrednosti in ostanke za vse primere:
Dogaja Sel. ZDA. Hvala

(začetno)

Hvala

(napovedano)

Ostanki
Republika Adygea. 47 3,92 5,63 -1,71 -
Altai Republic. 76 5,4 2,59 2,81
Republika Bashortostan. 36 6,04 6,78 -0,74
Republika Buryatia 41 8,36 6,25 2,11
Republika Dagestan 59 1,22 4,37 -3,15
Republika Inguscia 59 0,38 4,37 3,99
Itd.

Analiza razmerja začetnih in predvidenih vrednosti se uporablja za ocenjevanje kakovosti pridobljenega modela, njegove prognostične sposobnosti. Eden od glavnih kazalnikov regresijske statistike je večkratni korelacijski koeficient r - korelacijski koeficient med začetnimi in predvidenimi vrednostmi odvisne spremenljivke. V analizi parov regresije je enaka običajnemu koeficientu korenacijskega korelacije Peonon med odvisno in neodvisno spremenljivko, v našem primeru - 0,63. Če želite vsebinsko interpretirati večkratno, je treba pretvoriti v koeficient določanja. To je narejeno na enak način kot v korelacijski analizi - konstrukcija trga. Koeficient določanja R -Kvadrat (R2) prikazuje delež variacije odvisnih spremenljivk, pojasnjen z neodvisnimi (neodvisnimi) spremenljivkami.

V našem primeru je R2 \u003d 0,39 (0,63 2); To pomeni, da spremenljivka "delež podeželskega prebivalstva" pojasnjuje približno 40% variacije "podpore za ATP" variacije. Večja je vrednost koeficienta določanja, višja je kakovost modela.

Še en kazalnik kakovosti modela je standardna ocena napaka (standardna napaka pri oceni). To je kazalnik, koliko je točka "razpršena" okoli regresijske linije. Ukrep variacije za intervalne spremenljivke je standardni odklon. V skladu s tem je standardna napaka pri oceni standardni odklon porazdelitve ostankov. Višja je njegova vrednost, močnejša širjenje in slabši model. V našem primeru je standardna napaka 2.18. To je za to velikost, da bo naš model "se napačen v povprečju" pri napovedovanju vrednosti "podpore za ATP" spremenljivke.

Statistika regresije vključuje tudi disperzijsko analizo. Z njim ugotavljamo: 1) kateri delež variacije (disperzijo) odvisne spremenljivke je pojasnjen z neodvisno spremenljivko; 2) kateri delež razpršenosti odvisne spremenljivke pade na ravnotežje (nerazložljiv del); 3) Kakšen je odnos teh dveh vrednot (/ "- odnos". Statistika disperzij je še posebej pomembna za vzorčne študije - kaže, kako verjetno je razpoložljivost komunikacije med neodvisnimi in odvisnimi spremenljivkami v splošni populaciji. Vendar pa za neprekinjeno Raziskave (kot v našem primeru), učenje rezultatov disperzijske analize se ne pregledajo. V tem primeru se preverijo, če je ugotovljen statistični vzorec povzročil naključje, da je značilen za ta kompleks pogojev, v katerih je bil anketirani nastavljen je nastavljena, tj. Ne resnica rezultata, pridobljenega za nekatere obsežnejše splošne agregate, in stopnjo njegovih vzorcev, svoboda pred nenamernim vplivom.

V našem primeru je statistika disperzijske analize naslednje: \\ t

Ss. dF. GOSPA. F. vrednost
RegNet. 258,77 1,00 258,77 54,29 0.000000001
Levo. 395,59 83,00 L, 11.
Skupaj. 654,36

F-razmerje 54.29 znatno na ravni 0,0000000001. V skladu s tem lahko samozavestno zavrnemo ničelno hipotezo (da je povezava, ki smo jo odkrili, naključni znak).

Podobna funkcija izvaja merilo T, vendar že v zvezi z regresijskimi koeficienti (kotno in F-križišče). S pomočjo merilo / preverimo hipotezo, da so v splošnem nastavljenem regresijskih koeficientih nič. V našem primeru lahko ponovno samozavestno zavrzite ničelno hipotezo.

Večkratno regresijsko analizo

Model večkratni regresijski model je skoraj enak seznanjeni regresijski model; Edina razlika je, da je več neodvisnih spremenljivk zaporedno vključeno v linearno funkcijo:

Y \u003d b1x1 + b2x2 + ... + bpxp + a.

Če so neodvisne spremenljivke več kot dva, nimamo priložnosti, da dobimo vizualno predstavo o njihovi povezavi, v zvezi s tem več regresije manj "vizualno" kot parna soba. Če obstajata dve neodvisni spremenljivki, so podatki koristni za prikaz na tridimenzionalni razpršilni diagramu. V strokovni statistični programski paketi (na primer statistika), obstaja možnost za vrtenje tridimenzionalnega diagrama, ki vam omogoča, da vizualno predstavljate strukturo podatkov.

Pri delu z večkratno regresijo, v nasprotju s parno sobo, je treba določiti algoritem analize. Standardni algoritem vključuje vse obstoječe napovedovalce v končnem regresijskem modelu. Algoritem korak za korakom pomeni zaporedno vključitev neodvisnih spremenljivk, ki temelji na njihovi obrazložitvi "teže". Metoda korak za korakom je dobra, če obstaja veliko neodvisnih spremenljivk; On "očisti model od odkrito šibkih napovedovalcev, zaradi česar je bolj kompakten in lakonični.

Dodatni pogoj za pravilnost večkratne regresije (skupaj z intervalitnostjo, normalnostjo in linearnostjo) je odsotnost multikolanarnosti - prisotnost močnih korelacijskih obveznic med neodvisnimi spremenljivkami.

Razlaga večkratne regresijske statistike vključuje vse letve, ki nas obravnavajo za primer regresije par. Poleg tega obstajajo še druge pomembne komponente v statistiki večkratne regresijske analize.

Ilustriramo delo z večkratno regresijo na primeru testiranja hipotez, ki pojasnjujejo razlike v volilnih dejavnostih v regijah Rusije. Med betonskimi empiričnimi študijami so bile predpostavke, da raven prometa volivcev vpliva na:

Nacionalni faktor (spremenljivka "ruske populacije"; je preživel kot delež ruskega prebivalstva v predmetov Ruske federacije). Predvideva se, da povečanje deleža ruskega prebivalstva vodi do zmanjšanja dejavnosti volivcev;

Faktor urbanizacije (spremenljivka »urbana populacija«; je anketiran kot delež mestnega prebivalstva na predmete Ruske federacije, smo že sodelovali s tem dejavnikom v okviru korelacijske analize). Predvideva se, da povečanje deleža mestnega prebivalstva vodi tudi v zmanjšanje dejavnosti volivcev.

Odvisna spremenljivka - "intenzivnost volilne dejavnosti" ("sredstvo") je preživela skozi povprečne podatke o videzu regij na zveznih volitvah od leta 1995 do 2003. Izvorni tabela podatkov za dve neodvisni in ena odvisna spremenljivka bo imajo naslednjo obliko:

Dogaja Spremenljivke
Sredstva. Gore ZDA. Rus. ZDA.
Republika Adygea. 64,92 53 68
Altai Republic. 68,60 24 60
Republika Buryatia 60,75 59 70
Republika Dagestan 79,92 41 9
Republika Inguscia 75,05 41 23
Republika Kalmykia. 68,52 39 37
Karachay-Circassian. 66,68 44 42
Republika Karelia. 61,70 73 73
Komi republika 59,60 74 57
Mari El Republika 65,19 62 47

Itd. (Po čiščenju emisij 83 primerov od 88)

Statistika, ki opisuje kakovost modela:

1. Večkratni R \u003d 0,62; L-kvadrat \u003d 0,38. Zato nacionalni faktor faktorja in urbanizacije skupaj pojasnita približno 38% variacije spremenljivke "volilne dejavnosti".

2. Povprečna napaka je 3,38. To je tako "povprečje je napačno" konstruiran model pri napovedovanju ravni videza.

3. / L-razmerje pojasnjenega in nerazložljive variacije je 25,2 na ravni 0,000000003. Nič hipoteza o možnosti ugotovljenih povezav je zavrnjena.

4. Merilo / za konstantne in regresijske koeficiente spremenljivk "mestnega prebivalstva" in "ruski prebivalstvo" pomen na ravni 0,0000001; 0,00005 in 0,007. Nič hipoteza o naključnosti koeficientov je zavrnjena.

Dodatna koristna statistika pri analizi razmerja začetnih in predvidenih vrednosti odvisne spremenljivke so razdalja Mahalabisa in razdalje kuharja. Prvi merilo edinstvenosti zadeve (kaže, koliko kombinacija vrednosti vseh neodvisnih spremenljivk za določen primer odstopa od srednje vrednosti na vseh neodvisnih spremenljivkah hkrati). Drugi - ukrep vpliva zadeve. Različne opazovanja na različne načine vplivajo na naklon regresijske linije in s pomočjo razdalje za kuhanje, jih je mogoče primerjati s tem kazalnikom. To je koristno pri čiščenju emisij (emisija je lahko zastopana kot preveč vpliven primer).

V našem primeru se Dagestan nanaša na edinstvene in vplivne primere.

Dogaja Vir.

vrednote

Predica

vrednote

Ostanki Razdalja

Mahalanobis.

Razdalja
Adygea. 64,92 66,33 -1,40 0,69 0,00
Altai Republic. 68,60 69.91 -1,31 6,80 0,01
Republika Buryatia 60,75 65,56 -4,81 0,23 0,01
Republika Dagestan 79,92 71,01 8,91 10,57 0,44
Republika Inguscia 75,05 70,21 4,84 6,73 0,08
Republika Kalmykia. 68,52 69,59 -1,07 4,20 0,00

Dejanski regresijski model ima naslednje parametre: U-križišče (konstanta) \u003d 75,99; B (gora. ZDA.) \u003d -0.1; Komersarski (Rus. ZDA.) \u003d -0.06. Končna formula:

Aacive, \u003d -0.1 X Gore. R + - 0,06 x Rus. R + 75,99.

Lahko primerjamo "obrazložitvene sile" napovedovalcev, ki temeljijo na vrednosti koeficienta 61. V tem primeru, da, saj imata obe neodvisni spremenljivki enak odstotek. Vendar pa najpogosteje večkratne regresijske posle s spremenljivkami, merjenimi v različnih lestvicah (na primer raven dohodka v rubljev in starosti v letih). Zato na splošno, za primerjavo napovednih možnosti spremenljivk z regresijskim razmerjem nepravilno. V statistiki večkratne regresije v ta namen je poseben beta koeficient (b) izračunan ločeno za vsako neodvisno spremenljivko. Je zasebna (izračunana po upoštevanju vpliva vseh drugih napovedovalcev) korelacijski koeficient faktorja in odziva ter kaže neodvisen prispevek faktorja v napoved vrednosti odziva. Pri analizi par regresije, beta koeficienti iz očitnih razlogov je enaka par korelacijskega koeficienta med odvisnim in neodvisnim spremenljivko.

V našem primeru beta (gore. ZDA.) \u003d -0.43, beta (Rus. Mi.) \u003d -0.28. Tako oba dejavnika negativno vplivata na raven volilne dejavnosti, medtem ko je pomen faktorja urbanizacije bistveno višji od pomembnosti nacionalnega dejavnika. Kumulativni vpliv obeh dejavnikov določa približno 38% variacije spremenljivke "volilne aktivnosti" (glej vrednost L-kvadrat).

Regresijska analiza temelji vzpostavitev večine ekonometričnih modelov, ki bi morale vključevati tudi model ocenjevanja vrednosti. Za izgradnjo modelov ocenjevanja se ta metoda lahko uporabi, če se število analogov (primerljivih objektov) in število dejavnikov vrednosti (elementi primerjave) nanašajo na drug drugega: str \u003e (5-g-10) x do, ti. Analogi morajo biti 5-10-krat več kot vrednosti vrednosti. Ta zahteva za razmerje med količino podatkov in številom dejavnikov se uporablja tudi za druge nalog: vzpostavitev komunikacije med stroški in parametri potrošnikov predmeta; Obrazložitev Postopek za izračun korektivnih indeksov; Pojasnitev cen trendov; vzpostavitev komunikacije med obrabo in spremembami vplivnih dejavnikov; Pridobivanje odvisnosti od izračun stroškovnih standardov itd. Izvedba te zahteve je potrebna za zmanjšanje verjetnosti sejanja podatkov, ki ne izpolnjuje zahtev normalnosti porazdelitve naključnih spremenljivk.

Regresija odraža le povprečno težnjo, da spremenimo nastalo spremenljivko, kot je vrednost, od spreminjanja ene ali več faktorjev spremenljivk, kot so lokacije, število sob, kvadrat, tleh itd. To je razlika med regresijsko vezjo iz funkcionalnega, na kateri je vrednost nastale spremenljivke strogo določena z določeno vrednostjo faktorjev spremenljivk.

Prisotnost regresije / med rezultatom w. in faktorske spremenljivke x R. ..., x K. (Dejavniki) kažejo, da se ta odnos določi ne le z vplivom izbranih faktorialnih spremenljivk, temveč tudi z vplivom spremenljivk, od katerih nekatere so na splošno neznane, druge pa druge niso primerne za ocenjevanje in računovodstvo:

Učinek neupravičenih spremenljivk je označen z drugim mandatom te enačbe. ?, ki se imenuje napaka pri približevanju.

Razlikujejo se naslednje vrste odvisnosti regresij:

  • ? Regresija par je razmerje med dvema spremenljivkama (nastali in dejavniki);
  • ? Večkratno regresijo je odvisnost od ene rezultate spremenljivke in dve ali več faktorskih spremenljivk, vključenih v študijo.

Glavna naloga regresijske analize je kvantitativna določitev tona razmerja med spremenljivkami (s par regresije) in množico spremenljivk (z večkratno regresijo). Komunikacija je kvantitativno izražena s korelacijskim koeficientom.

Uporaba regresijske analize omogoča vzpostavitev vzorca vpliva glavnih dejavnikov (hedonistične značilnosti) na preučevani kazalnik tako v celoti in vsakega od njih ločeno. Uporaba regresijske analize, kot metoda matematične statistike, je mogoče, najprej, najti in opisati obliko analitične odvisnosti od nastale (želene) spremenljivke iz faktorja in, drugič, da oceni bližina te odvisnosti.

Zahvaljujoč rešitvi prve naloge je pridobljen matematični regresijski model, s katerim se po določenih vrednostih faktorjev izračuna želeni kazalnik. Rešitev druge naloge vam omogoča, da nastavite zanesljivost želenega rezultata.

Tako je mogoče regresijsko analizo opredeliti kot niz formalnih (matematičnih) postopkov, namenjenih za merjenje tesnosti, smeri in analitičnega izražanja oblike komunikacije med nastalimi in faktorskimi spremenljivkami, tj. Na proizvodnji take analize bi morala biti strukturna in kvantitativno opredeljena statistični model obrazca:

kje y - Povprečna vrednost nastale spremenljivke (želeni kazalnik, na primer, stroški, najem, kapitalizacije) str njena opazovanja; X - Vrednost spremenljivke faktorja (/ -TH Factor vrednosti); - Število faktorskih spremenljivk.

Funkcija f (x l, ..., x lc), Opis odvisnosti od nastale spremenljivke iz faktorja se imenuje enačba (funkcija) regresije. Izraz "regresija" (regresija) je umik, povračilo za nekaj) je povezano s posebnosti ene od posebnih nalog, rešenih na stopnji oblikovanja metode, in trenutno ne odraža celotnega bistva metode, ampak še naprej uporabljajo.

Regresijska analiza na splošno vključuje naslednje korake:

  • ? oblikovanje vzorca homogenih predmetov in zbiranje virov informacij o teh objektih;
  • ? izbor glavnih dejavnikov, ki vplivajo na nastalo spremenljivko;
  • ? Preverite vzorčenje za normalno uporabo h. 2 ali kriterij binomina;
  • ? Sprejetje hipoteze o obliki komunikacije;
  • ? Obdelava matematičnih podatkov;
  • ? pridobivanje regresijskega modela;
  • ? ocenjevanje statističnih kazalnikov;
  • ? Kalibracijski izračuni z modelom regresije;
  • ? Analiza rezultatov.

Navedeno zaporedje operacij poteka v študiji obeh povezav par med spremenljivo faktorjem in enim, ki nastane in večkratne vezi med nastalo spremenljivko in več faktorjev.

Uporaba regresijske analize določa določene zahteve za izvorne informacije:

  • ? Statistični vzorec predmetov mora biti homogen v funkcionalnih in strukturno tehnoloških odnosih;
  • ? precej številne;
  • ? Kazalnik vrednosti v študiji je nastala spremenljivka (cena, stroški, stroški) - je treba dati enemu pogoju svojega računa v vseh predmetih v vzorcu;
  • ? Faktorske spremenljivke je treba izmeriti precej natančno;
  • ? Faktorske spremenljivke morajo biti neodvisne ali minimalno odvisne.

Zahteve homogenosti in popolnosti vzorca so v nasprotju: strožji izbor predmetov po homogenosti, manj je vzorec pridobljen, in, nasprotno, mora vključiti predmete v njem.

Po zbiranju podatkov o skupini homogenih predmetov se izvede njihova analiza, da se vzpostavi oblika komunikacije med nastale in faktorske spremenljivke v obliki teoretične regresijske linije. Postopek iskanja teoretične regresijske linije je razumna izbira približevalne krivulje in izračun koeficientov njegove enačbe. Regresijska linija je gladka krivulja (v zasebnem primeru), ki opisuje s pomočjo matematične funkcije, splošne težnje odvisnosti odvisnosti in glajenje nezakonitih, naključnih emisij iz vpliva stranskih faktorjev.

Za prikaz seznanjenih odvisnosti v seznanjenih regresij pri ocenjenih nalogah se najpogosteje uporabljajo naslednje funkcije: linearno - y - 0 + ars + S. Power - u - AJ & I + C Okvirna - y -linearno indikativno - y - 0 + AR * + C. Tukaj - e. Približno napako, ki jo povzroča dejanje neupravičenih naključnih dejavnikov.

V teh funkcijah, nastala spremenljivka; X - faktorska spremenljivka (faktor); zvezek 0 , r a 2 - Parametri regresije, regresijski koeficienti.

Linearno indikativni model se nanaša na razred tako imenovanih hibridnih modelov oblike:

kje

kjer je H. (I \u003d. 1, /) - vrednosti dejavnikov;

b t (i \u003d 0, /) - koeficienti regresijske enačbe.

V tej enačbi, komponente A, B. in Z. ustrezajo stroškom posameznih sestavin ocenjenega sredstva, na primer, vrednost zemljišča in stroške izboljšav in parametra Q.je pogost. Namenjen je prilagoditi vrednosti vseh sestavin ocenjenega sredstva na splošni faktor vpliva, na primer, lokacijo.

Vrednosti dejavnikov v stopnji ustreznih koeficientov so binarne spremenljivke (0 ali 1). Dejavniki v temeljni stopnji - diskretne ali stalne spremenljivke.

Dejavniki, povezani z množenjem družin, so tudi neprekinjeni ali diskretni.

Specifikacija se praviloma izvaja z uporabo empiričnega pristopa in vključuje dve fazi:

  • ? navajanje na grafikonu točk regresije;
  • ? Grafična (vizualna) analiza vrste možne upogovne krivulje.

Vrsta krivulje regresije ni vedno mogoče takoj izbrati. Da bi to ugotovili, najprej veljajo za grafikon regresijskega polja na izvorne podatke. Nato vizualno vodimo črto na položaju točk, ki želijo ugotoviti kvalitativni vzorec komunikacije: enotno rast ali enotno zmanjšanje, rast (zmanjšanje) s povečanjem (spuščanjem) stopnje zvočnikov, nemotenega približevanja nekaj ravni.

Ta empirični pristop dopolnjuje logična analiza, ki izstopa iz že znanih idej o gospodarski in fizični naravi preiskanih dejavnikov in njihov medsebojni vpliv.

Na primer, je znano, da so odvisnosti nastalih spremenljivk - ekonomske kazalnike (cene, najemi) iz številnih faktorskih spremenljivk - faktorji določanja cen (razdalje iz središča naselja, kvadrata, itd), so nelinearne, in Lahko jih dovolj opišemo z močjo, eksponentno ali kvadratne funkcije.. Toda z majhnimi spremembami sprememb dejavnikov, lahko dobite sprejemljive rezultate z linearno funkcijo.

Če je še vedno nemogoče takoj narediti samozavestne izbire enotne funkcije, nato pa se vzameta dva ali tri funkcije, izračunajo svoje parametre in dodatno z uporabo ustreznih meril za tesnjenje, končno izberite funkcijo.

V teoriji se imenuje regresijski proces iskanja krivulje specifikacija modeli in njegovi koeficienti - praznovanjemodeli.

Če se ugotovi, da je nastala spremenljivka y odvisna od več faktorjev spremenljivk (dejavniki) x (, x 2, ..., x K. Ki se zateka k izgradnji večkratnega regresijskega modela. Običajno se uporabljajo tri oblike več komunikacij: linearno - y - in 0 + a x x x + a ^ x 2 + ... + in k x k Okvirna - y - 0 a* JAZ. a x t- in x bpower - y - 0 x x IX 2 A 2. .X ^ ali njihove kombinacije.

Okvirne in zmogljive funkcije so bolj univerzalne, saj približne nelinearne obveznice, ki je večina odvisnosti od preiskovalcev. Poleg tega se lahko uporabijo pri ocenjevanju predmetov in načina statističnega modeliranja med množično oceno, in pri metodi neposredne primerjave pri individualni oceni pri vzpostavljanju korektivnih koeficientov.

V fazi kalibracije se parametri regresijskega modela izračunajo z metodo najmanjših kvadratov, katerega bistvo je, da je vsota kvadratov odstopanj izračunanih vrednosti nastale spremenljivke w.., t.e. Izračunana z izbrano enačbo komuniciranja, od dejanskih vrednosti mora biti minimalna:

Vrednosti j) (. In y. Znano, zato. Q. To je funkcija samo koeficientov enačbe. Za iskanje minimalne S. zasebnih izvedenih finančnih instrumentov Q. Glede na koeficiente enačbe in jih izvažajo na nič:

Posledično dobimo sistem običajnih enačb, katerega število je enako številu določenih koeficientov želene regresijske enačbe.

Postavite, morate najti koeficiente linearne enačbe y - 0 + ars. Vsota kvadratov odstopanj je:

/=1

Različna funkcija Q. Po neznanih koeficientih a 0. in izenačuje zasebne izvedene finančne instrumente na nič:

Po transformacijah dobite:

kje p - Število dejanskih vrednosti vira w. (število analogov).

Zmanjšan postopek za izračun koeficientov regresijske enačbe se uporablja tudi za nelinearne odvisnosti, če so ti odvisnosti lahko linearizirane, t.j. Nizko do linearne oblike z zamenjavo spremenljivk. Power in indikativne funkcije po logaritming in ustrezni zamenjavi spremenljivk pridobijo linearno obliko. Na primer, močna funkcija po lokaritmation pridobi tip: v y \u003d 1pi 0 + A H. 1px. Po zamenjavi spremenljivk Y-V. y, l 0 - V. in številka x-V x smo dobili linearno funkcijo

Y \u003d 0 + cijx, Koeficienti, ki jih najdemo v zgoraj opisani metodi.

Za izračun koeficientov večkratnega regresijskega modela se uporablja najmanjša kvadratna metoda. Torej, sistem običajnih enačb za izračun linearne funkcije z dvema spremenljivkama Xj. in x 2. Po vrsti transformacij je naslednje:

Običajno se ta sistem enačb rešuje z uporabo metod linearne algebre. Funkcija več moči vodi do linearne oblike z logarithing in zamenjajte spremenljivke na enak način kot funkcijo seznanjene moči.

Pri uporabi hibridnih modelov se številni regresijski koeficienti nahajajo z uporabo numeričnih postopkov metode zaporednih približkov.

Za dokončno izbiro več regresijskih enačb je treba preveriti vsako enačbo o tesnosti povezave, ki se meri s korelacijskim koeficientom, disperzijo in razmerju variacij. Uporabite lahko tudi študentska in ribiška merila za vrednotenje. Večja, da je tesnost povezave zazna krivlo, je bolj zaželena od drugih stvari, ki so enake.

Če je naloga tega razreda rešen, ko je treba ugotoviti odvisnost kazalnika vrednosti iz stroškovnih dejavnikov, potem željo, da se upošteva čim bolj vpliva na dejavnike, kot je mogoče, in s tem zgraditi natančnejši večkratni regresijski model. Vendar pa dve objektivni omejitvi preprečujejo širitev števila dejavnikov. Prvič, za izgradnjo večkratnega regresijskega modela, je potreben bistveno bolj obsežen vzorec predmetov, kot je zgradil seznanjen model. Menijo, da mora število predmetov v vzorcu presegati število str Dejavniki vsaj 5-10 krat. Iz tega sledi, da je za izgradnjo modela s tremi vplivnimi dejavniki, je treba zbirati vzorec približno 20 predmetov z različnimi vrednostmi dejavnikov. Drugič, dejavniki, izbrani za model pri njihovem vplivu na kazalnik vrednosti, morajo biti dovolj neodvisni drug od drugega. Težko je zagotoviti, da vzorec običajno združuje predmete, povezane z eno družino, ki imajo naravno spremembo v številnih dejavnikih od predmeta do predmeta.

Kakovost regresijskih modelov se običajno preveri z uporabo naslednjih statističnih kazalnikov.

Standardno odstopanje napak regresijske enačbe (napaka pri oceni):

kje p - volumen vzorčenja (število analogov);

- Število dejavnikov (stroškovni dejavniki);

Napako, ki je nerazložljiva z regresijsko enačbo (Sl. 3.2);

y. - dejanska vrednost nastale spremenljivke (na primer stroški); y t - Izračunana vrednost nastale spremenljivke.

Ta kazalnik se imenuje tudi napaka standardne ocene (napaka hitrosti). Na slikovni točki so navedene posebne vrednosti vzorčenja, simbol je označen s črto povprečnih vrednosti vzorčenja, nagnjena črtna linija je regresijska linija.


Sl. 3.2.

Standardni odklon ocenjevalne napake meri vrednost odstopanja dejanskih vrednosti iz ustreznih vrednosti izračuna w. (pridobljen z regresijskim modelom. Če je vzorec, na katerem je model zgrajen, podrejeni normalnemu zakonu o distribuciji, potem je mogoče trditi, da je 68% realnih vrednosti w.nahaja se v območju w. ± & E. iz regresijske linije in 95% - v območju w. ± 2D E. . Ta kazalnik je primeren, ker merske enote sG? sovpadajo z merskimi enotami w.. V zvezi s tem se lahko uporabi za označevanje natančnosti rezultata, dobljenega v postopku. Na primer, v certifikatu o vrednosti, lahko določite, da vrednost tržne vrednosti, dobljene z uporabo regresijskega modela V. Z verjetnostjo 95% je v območju od (V -2D ,,)prej (U. + 2D S).

Primerjena variacija nastale spremenljivke:

kje y - Povprečna vrednost nastale spremenljivke (slika 3.2).

V regresijski analizi je variacijski koeficient VAR standardni odklon rezultata, izražen kot odstotek povprečne vrednosti nastale spremenljivke. Koeficient variacije lahko služi kot merilo predvidenih lastnosti pridobljenega regresijskega modela: manj kot znesek var.Še posebej visoki so projicirani modeli kakovosti. Uporaba variacijskega koeficienta je bolj zaželena kot indikator in E, saj je relativni kazalnik. S praktično uporabo tega kazalnika je mogoče priporočiti, da model ne uporabljamo, katerega variacijski koeficient presega 33%, saj je v tem primeru nemogoče reči, da so ti vzorci podrejeni običajnim zakonom o distribuciji.

Koeficient določanja (Kvadrat večkratnega korelacijskega koeficienta):

Ta kazalnik se uporablja za analizo splošne kakovosti pridobljene regresijske modela. Označuje, kateri odstotek variacije nastale spremenljivke je pojasnjen z vplivom vseh faktorjev spremenljivk, vključenih v model. Koeficient določanja vedno leži v območju od nič do enega. Bližje vrednost koeficienta določanja na eni, boljši model opisuje začetno število podatkov. Koeficient določanja lahko zastopajo drugače:

Tukaj je napaka, ki jo je pojasnil regresijski model

zvezek - Napaka neizvedljiva

regresijski model. Z gospodarskega vidika, to merilo vam omogoča, da presodite, kakšen odstotek variacije cen je pojasnjeno z regresijsko enačbo.

Natančna meja sprejemljivosti kazalnika R2. Za vse primere je nemogoče določiti. Treba je upoštevati velikost vzorca in smiselno razlago enačbe. Praviloma, ko študirate podatke o istem tipu predmetov, pridobljeno približno istočasno, vrednost R2. ne presega ravni 0,6-0,7. Če so vse napake napovedi nič, t.j. Ko je razmerje med nastalimi in faktorskimi spremenljivkami funkcionalni, R2. =1.

Prilagojen koeficient določanja:

Potreba po uvedbi popravljenega koeficienta določanja je pojasnjena z dejstvom, da s povečanjem števila dejavnikov za Običajni koeficient določanja se skoraj vedno povečuje, vendar se število stopenj svobode zmanjša. (n - na - Ena). Vnesena nastavitev vedno zmanjšuje vrednost R2, Kolikor (P. - 1) \u003e (P- do - eno). Kot rezultat, znesek R2 CKOF) Lahko celo postane negativna. To pomeni, da vrednost R2. Bilo je blizu nič do prilagajanja in delež spremenljive spremenljive razpršenosti je pojasnil z uporabo regresijske enačbe w. zelo majhen.

Obeh možnosti za regresijske modele, ki se razlikujejo po obsegu popravljenega koeficienta določanja, vendar imajo enako dobra druga merila kakovosti, prednostno možnost z veliko vrednostjo prilagojenega koeficienta določanja. Prilagoditev koeficienta določanja se ne izvede, če (P - K): K\u003e 20.

Fisher koeficient:

To merilo se uporablja za oceno pomembnosti koeficienta določanja. Preostala vsota kvadratov predstavlja kazalnik napak na napovedi z regresijo znanih vrednosti vrednosti .. Njegova primerjava z regresijsko količino kvadratov kaže, kolikokrat regresijska odvisnost napoveduje rezultat boljše od povprečja w. . Obstaja tabela kritičnih vrednosti. F R. Fisher koeficient, odvisno od števila stopenj svobode števec - K., imenovalec V 2 \u003d p - K. - 1 in raven pomembnosti a. Če je izračunana vrednost merila ribiškega merilo F R. Več tabularne vrednosti, nato hipoteza za nepomembnost koeficienta določanja, tj. O neskladnosti povezav, določenih v regresijski enačbi, dejansko obstaja, z verjetnostjo p \u003d 1 - in zavrnjena.

Povprečna napaka pri približevanju (Povprečni odstotek) se izračuna kot povprečna relativna razlika, izražena kot odstotek, med dejanskimi in izračunanimi vrednostmi nastale spremenljivke:

Manjša vrednost tega kazalnika, boljša je napovedna kakovost modela. Z vrednostjo tega kazalnika, ne višja od 7% označuje visok natančni model. Če 8 \u003e 15%, govorijo o nezadovoljivi natančnosti modela.

Napaka standardnega regresijskega koeficienta:

kjer (/ i) -1.-diagonalni element matrike (X g x) ~ 1 do - Število dejavnikov;

X - Matrika vrednosti faktorskih spremenljivk:

X 7 - Prenesena matrika vrednosti spremenljivk faktorja;

(Padec) _ | - Matrica, Reverse Matrix.

Manjši ti kazalniki za vsak regresijski koeficient, bolj zanesljivo ocenjevanje ustreznega regresijskega koeficienta.

Merilo študenta (Statistika T-Statistika):

To merilo vam omogoča merjenje stopnje zanesljivosti (pomembnosti) komunikacije zaradi tega regresije koeficienta. Če je izračunana vrednost t.. Več tabularne vrednosti

t. AV, kje. v - P - K - 1 je število stopenj svobode, hipoteza, da je ta koeficient statistično nepomemben, zavrnjen z verjetnostjo (100 - a)%. Obstajajo posebne tabele / distribucije, ki omogočajo določeno stopnjo pomembnosti a in število stopenj svobode V za določitev kritične vrednosti merila. Najpogosteje uporabljena vrednost je 5%.

Multicollalinarity.. Učinek medsebojnih odnosov med faktorskimi spremenljivkami vodi do potrebe po vsebini z omejenim številom. Če to ne bi bilo treba razmisliti, potem lahko sčasoma dobite nelogičen regresijski model. Da bi se izognili negativnemu učinku multikolanarnosti, pred izdelavo večkratne regresije, se izračunajo koeficienti korelacije par r xjxj. med izbranimi spremenljivkami x. in h.

Tukaj Xjx; - Povprečje dela dveh faktorjev spremenljivk;

Xjxj - produkt povprečnih vrednosti dveh faktorjev spremenljivk;

Ocena razpršenosti spremenljivke faktorja X.

Menijo, da sta dve spremenljivki nazadnje povezani med seboj (i.e. Collinear), če je njihov koeficient korelacije v absolutni vrednosti strogo večji od 0,8. V tem primeru je treba katero koli od teh spremenljivk izključiti iz obravnave.

Da bi razširili možnosti ekonomske analize pridobljenih modelov regresij, medija koeficienti elastičnosti Opredeljen s formulo:

kje Xj - Povprečna vrednost ustrezne spremenljivke faktorja;

y - Povprečna vrednost nastale spremenljivke; a i - Regresijski koeficient z ustrezno faktorsko spremenljivko.

Koeficient elastičnosti kaže, koliko odstotkov je povprečna vrednost nastale spremenljive spremembe s spremembo spremenljivke faktorja za 1%, t.j. Kako reagira nastalo spremenljivko, da spremeni spremenljivko faktorja. Na primer, kako se cena četrtine reagira. M kvadratni apartma za odstranjevanje od centra mesta.

Koristno v smislu analize pomembnosti tega ali ta regresijski koeficient je ocena koeficient zasebnega določanja:

Tukaj - ocena disperzije

spremenljivka. Ta koeficient kaže, koliko odstotkov variacije nastale spremenljivke je razloženo z variacijo / v spremenljivki faktorja, ki je vključena v regresijsko enačbo.

  • V skladu z hedonističnimi značilnostmi so značilnosti predmeta, ki odraža njegovo uporabno (dragoceno) z vidika kupcev in prodajalcev nepremičnine.

Koncept regresije. Odvisnost med variabilnimi vrednostmi x. in y. Na različne načine. Zlasti se lahko vsaka oblika komunikacije izrazi z enačbo skupnega stališča, kjer y. se šteje za odvisno spremenljivko ali funkcije iz druge - neodvisne spremenljivke X, poklican prepir. Korespondenca med argumentom in funkcijo je mogoče nastaviti tabelo, formulo, urnik itd. Spreminjanje funkcije, odvisno od spremembe enega ali več argumentov, se imenuje regresijo. Vsa orodja, ki se uporabljajo za opis korelacij, je vsebina. regresijska analiza.

Za izražanje regresije, korelacijskih enačb ali regresijskih enačb, empirične in teoretično izračunane regresijske serije so postrežene njihove grafike, imenovane regresijske linije, pa tudi koeficiente linearne in nelinearne regresije.

Regresijski kazalniki izražajo korelacijsko dvostransko komunikacijo, glede na spremembo v povprečju znakov funkcije Y. Pri spreminjanju vrednosti x. jAZ. Znak X.In nasprotno, kažejo spremembo v povprečnih znakih funkcije X. s spremenjenimi vrednostmi y. jAZ. Znak Y.. Izjeme so časovne vrste, ali vrstice zvočnikov, ki kažejo spremembo v znakih sčasoma. Regresija takšnih vrstic je enostranska.

Različne oblike in vrste korelacijskih vezi so številni. Naloga je zagotoviti, da je v vsakem primeru opredeliti komunikacijski obrazec in ga izraziti z ustrezno korelacijsko enačbo, ki vam omogoča, da predvidite možne spremembe Y. Na podlagi znanih sprememb v drugi X.povezana s prvo korelacijo.

12.1 Linearna regresija

Regresijska enačba. Rezultati pripomb, ki se izvajajo nad določenim biološkim predmetom v skladu z značilnostmi korelacije x. in y., Lahko prikažete točke na letalu z izgradnjo sistema pravokotnih koordinat. Posledično je pridobljen določen razpršen grafikon, zaradi česar je mogoče oceniti obliko in tesnost povezave med različnimi znaki. Pogosto je ta povezava izgleda kot neposredna ali jo je mogoče približati ravne črte.

Linearno razmerje med spremenljivkami x. in y. opisana z enačbo splošnega pogleda, kjer a, B, C, D, ... - parametre enačbe, ki določajo razmerja med argumenti x. 1 , X. 2 , X. 3 ..., X. m. in funkcije.

V praksi ni vse mogoče, ampak le nekaj argumentov, v najpreprostejšem primeru - samo ena:

V enačbi linearne regresije (1) a. - prosti član in parameter b. Določa nagib regresijske linije glede na osi pravokotnih koordinat. V analitični geometriji se ta parameter imenuje kotni koeficient.in v biometričnih podatkih - regresijski koeficient.. Vizualni pogled na ta parameter in položaj regresijskih linij Y. jo X. in X. jo Y. V sistemu pravokotnih koordinat daje sliko.

Sl. 1 regresijske linije za X in X Sojo v sistemu

pravokotne koordinate

Regresijske linije, kot je prikazano na sliki 1, sekajo na točki O (,), ki ustreza povprečnim aritmetičnim vrednostm pri korelacijskih znakih, povezanih s korelacijo Y. in X.. Pri gradnji regresijskih grafov vzdolž osi abscisa, se vrednosti neodvisne spremenljivke X deponirajo in vzdolž osi osi, vrednosti odvisnih spremenljivk ali funkcijo y. linija AV, ki poteka skozi točko O ( ) ustreza polnim (funkcionalnim) povezavi med spremenljivkami Y. in X.ko korelacijski koeficient. Močnejša povezava med Y. in X.Bližje regresijsko linijo AB, in, nasprotno, šibkejša povezava med temi vrednotami, regresijske linije od AB, manj oddaljene. V odsotnosti komunikacije med znaki regresijske linije so pod pravim kotom v odnosu med seboj in.

Ker regresijski kazalniki izražajo korelacijsko dvostransko povezavo, je treba regresijsko enačbo (1) zabeležiti na naslednji način: \\ t

V prvi formuli se povprečne vrednosti določijo, ko se znak spremeni. X. na enoto ukrepov, na drugem - povprečne vrednosti, ko se dejanje spremeni z enoto Y..

Regresijski koeficient. Regresijski koeficient kaže, kako povprečna vrednost enega znaka y. se razlikuje, ko je ukrep drugega, povezan z njim Y. Znak X.. Ta kazalnik je določen s formulo

Tukaj je vrednote s. Pomnožite na velikost intervalov razreda λ Če so bili našli na variacijskih vrstah ali korelacijskih tabelah.

Regresijski koeficient se lahko izračuna s prenosom izračuna srednje kvadratnih odstopanj. s. y. in s. x. Po formuli

Če korelacijski koeficient ni znan, se regresijski koeficient določi na naslednji način:

Komunikacija med regresijskimi in korelacijskimi koeficienti. Primerjava formula (11.1) (tema 11) in (12.5), vidimo: v svojem številu, enaka vrednost označuje prisotnost komunikacije med temi kazalniki. Ta povezava je izražena z enakostjo.

Zato je korelacijski koeficient enak povprečnim geometrijskim koeficientom b. yx. in b. xy. . Formula (6) omogoča, prvič, glede na znane vrednosti regresijskih koeficientov b. yx. in b. xy. Določite koeficient regresiona R. xy. , in drugič, preverite pravilnost izračuna tega kazalnika korelacije R. xy. Med različnimi znaki X. in Y..

Kot tudi korelacijski koeficient, regresijski koeficient označuje le linearno povezavo in jo spremlja znak plus s pozitivnim in minusnim znakom pod negativno povezavo.

Določanje parametrov linearne regresije. Znano je, da je vsota kvadratov odstopanj x. jAZ. Iz sredine je vrednost najmanjšega, the.e. Ta izrek je osnova metode najmanjših kvadratov. V zvezi z linearno regresijo [glej Formula (1)] Zahteva po tem teoremu izpolnjuje določen sistem enačb, imenovanih normalno:

Skupna rešitev teh enačb glede parametrov a. in b. vodi do naslednjih rezultatov:

;

;

, Od koder.

Glede na dvostransko naravo razmerja med spremenljivkami Y. in X., formula za določanje parametra zvezek Kot je to treba izraziti:

in. (7)

Parameter b.ali regresijski koeficient se določi z naslednjimi formulami: \\ t

Gradnja empiričnih vrst regresije. V prisotnosti velikega števila opazovanj se regresijska analiza začne z izgradnjo empiričnih vrst regresije. Empirična regresija Oblikovana je z izračunom vrednosti ene razliške funkcije X. Povprečne vrednosti druge povezane korelacije X. Znak Y.. Z drugimi besedami, gradnja empiričnih regresijskih vrstic se zmanjša na iskanje skupinskih povprečij II ustreznih vrednosti znaka in X.

Empirična serija regresije je dvojno število številk, ki jih je mogoče prikazati s točkami na ravnini, nato pa s povezovanjem teh točk z ravnijo črte, da dobimo empirično linijo regresije. Empirične vrste regresije, zlasti njihove grafike regresijske linije, podajte vizualno predstavo o obliki in tesnosti korelacijske odvisnosti med različnimi znaki.

Poravnava empiričnih vrst regresije. Grafi empiričnih vrst regresije običajno niso gladko hoje, ampak zlomljene linije. To je posledica dejstva, da skupaj z glavnimi razlogi, ki določajo celoten vzorec v variabilnosti korelacijskih znakov, vpliva vpliv številnih manjših razlogov, ki povzročajo naključna nihanja vodnih točk regresije, vpliva njihova velikost. Če želite ugotoviti glavni trend (trend) konjugata variacije koreliranih znakov, morate zamenjati zlomljene črte za gladko, gladko vožnjo regresijske linije. Postopek zamenjave zlomljenih linij na nemoteno prihajajoči klici poravnava empiričnih serij in regresijske linije.

Metoda grafičnega izravnavanja. To je najlažji način, ki ne zahteva računalništva. Njegovo bistvo pride do naslednjega. Empirična paleta regresije je upodobljena v obliki grafa v sistemu pravokotnih koordinat. Potem so povprečne regresijske točke vizualno načrtovane, za katere s pomočjo ravnila ali vzorcev izvajajo trdno črto. Pomanjkljivost te metode je očitna: ne izključuje vpliva posameznih lastnosti raziskovalca na rezultate poravnave empirične regresijske linije. Zato se v primerih, ko je potrebna višja natančnost pri zamenjavi zlomljenih regresijskih vodov v gladko vožnjo, se uporabljajo druge metode poravnave empiričnih serij.

Metoda se premika povprečje. Bistvo te metode se zmanjša na dosleden izračun povprečne aritmetike dveh ali treh sosednjih članov empirične serije. Ta metoda je še posebej primerna v primerih, ko je empirična serija predstavljala veliko število članov, tako da je izguba dveh izmed njih izjemno, ki bo neizogibno z metodo usklajevanja opazno vplivala na njegovo strukturo.

Najmanj kvadrata. Ta metoda je predlagana na začetku XIX stoletja A.M. Legendre in ne glede na njega K. Gauss. Omogoča vam najbolj natančno poravnavo empirične serije. Ta metoda, kot je prikazano zgoraj, temelji na predpostavki, da je vsota kvadratov odstopanj x. jAZ. iz njihovega povprečja je minimalna vrednost, tj. Zato ime metode, ki se uporablja ne le v ekologiji, ampak tudi v tehniki. Metoda najmanjših kvadratov je objektivna in univerzalna, ki se uporablja v najrazličnejših primerih pri iskanju empiričnih enačb vrst regresije in določanje njihovih parametrov.

Zahteva po metodi najmanjših kvadratov je, da je treba teoretične točke regresijske linije pridobiti tako, da je vsota kvadratov odstopanj od teh točk za empirične pripombe y. jAZ. Bilo je minimalno, tj.

Izračun v skladu z načeli matematične analize minimalnega tega izraza in na določen način, ki ga preoblikuje, lahko dobite tako imenovani sistem normalne enačbeV katerih neznanih vrednosti so želeni parametri regresijske enačbe, in znani koeficienti določajo empirične vrednosti znakov, običajno vsote njihovih vrednot in njihovih prerezov.

Več linearne regresije. Odnos med več spremenljivkami je potreben za izražanje večkratne regresijske enačbe, ki je lahko linear. in nelinear.. V najpreprostejši obliki je večkratna regresija izražena z enačbo z dvema neodvisnima spremenljivkama ( x., z.):

kje a. - svoboden član enačbe; b. in c. - parametre enačbe. Da bi našli parametre enačbe (10) (v skladu z metodo najmanjših kvadratov), \u200b\u200bse uporablja naslednji sistem običajnih enačb:

Vrste zvočnikov. Poravnava vrstic. Sprememba znakov v času je tako imenovana začasne vrstice ali vrstice zvočnikov. Značilnost takšne serije je, da kot neodvisna spremenljivka X, čas dejavnik vedno deluje tukaj, in odvisna Y je spreminjajoča funkcija. Glede na regresijske vrstice je odvisnost med spremenljivkami X in Y enostransko naravo, saj časovni faktor ni odvisen od variabilnosti znakov. Kljub določenim značilnostim se lahko uvrstitve dinamike primerjajo z regresijskimi vrstami in jih obdelujejo med iste metode.

Kot vrstice regresije, empirična serija zvočnikov nosijo vpliv ne le glavne, temveč tudi številne sekundarne (naključne) dejavnike, ki simulirajo glavni trend variabilnosti znakov, ki se v jeziku statistikov imenuje trend..

Analiza serije zvočnikov se začne z identifikacijo oblike trenda. Za to je časovna vrsta upodobljena kot linearni graf v sistemu pravokotnih koordinat. Hkrati, na osi abscisa, so časovne točke (let, mesecev in druge enote časa), in ob oredini osi - vrednosti odvisne spremenljivke y. Če obstajajo linearne odvisnosti od X in variables (linearni trend) za poravnavo vrstic dinamike z metodo najmanjših kvadratov, najbolj primerna je regresijska enačba v obliki odstopanj članov serije serije odvisnih spremenljivk y od povprečne aritmetike Serija neodvisne variabilke:

Tukaj je parameter linearnega regresije.

Številske lastnosti vrstic zvočnikov. Glavne splošne številčne lastnosti serije zvočnikov vključujejo srednji geometrični In blizu njenega srednjega aritmetnega. Označujejo povprečno hitrost, ki spremeni vrednost odvisne spremenljivke za določena obdobja časa:

Vrednotenje variabilnosti članov številnih govornikov povprečno kvadratno odstopanje. Pri izbiri regresijskih enačb za opis vrste zvočnikov upoštevajte obliko trenda, ki je lahko linearna (ali dana linearni) in nelinearni. Pravilna izbira regresijske enačbe se običajno ocenjuje po podobnosti empirično opazovanih in izračunanih vrednosti odvisne spremenljivke. Bolj natančen pri reševanju tega problema je metoda disperzijske regresijske analize (tema 12 str.4).

Korelacija vrstic zvočnikov. Pogosto je potrebno primerjati dinamiko vzporednih časovnih vrst, ki je med seboj povezana z nekaterimi splošnimi pogoji, na primer, da bi ugotovili povezavo med proizvodnjo kmetijskih proizvodov in rastjo živine v določenem časovnem obdobju. V takih primerih povezava med spremenljivkami X in Y služi korelacijski koeficient R xy (z linearnim trendom).

Znano je, da je trend vrstic dinamike, praviloma, z nihanjem članov vrste serije serije odvisnih spremenljivk y. Od tu je naloga dvojnega tipa: merjenje razmerja med V primerjavi z vrsticami, ki ne izključujejo trenda, in merjenje razmerja med sosednjimi člani iste vrstice, razen trenda. V prvem primeru je na voljo ton povezave med povezanimi vrsticami zvočnikov korelacijski koeficient (če je linearna povezava), v drugem - koeficient avtokorelacije. Ti kazalniki imajo različne vrednosti, čeprav izračunajo iste formule (glej to temo 11).

To je enostavno opaziti, da vrednost koeficienta avtokorelacije vpliva na variabilnost članov številne odvisne spremenljivke: manj člani serije odstopajo od trenda, višje je koeficient avtokorelacije, in obratno.

Regresijska in korelacijska analiza - statistične raziskovalne metode. To so najpogostejši načini za prikaz odvisnosti katerega koli parametra iz ene ali več neodvisnih spremenljivk.

Spodaj na posebnih praktičnih primerih razmislite o teh dveh zelo priljubljenih analiza okoljskega okolja. In navedite tudi primer pridobivanja rezultatov, ko jih združuje.

Regresijska analiza v Excelu

Kaže učinek nekaterih vrednosti (neodvisnih, neodvisnih) na odvisno spremenljivko. Na primer, kot število gospodarsko aktivnega prebivalstva na številu podjetij, vrednosti plač, itd Parametri odvisno. Ali: kako vplivati \u200b\u200bna tuje investicije, cene energije in druge. Na ravni BDP.

Rezultat analize vam omogoča poudarjanje prednostnih nalog. In na podlagi glavnih dejavnikov, napovedujejo, načrtujejo razvoj prednostnih področij, da bi odločitve o upravljanju.

Regresija se zgodi:

  • linearni (y \u003d a + bx);
  • parabolični (y \u003d a + bx + cx 2);
  • eksponenten (y \u003d a * exp (bx));
  • moč (y \u003d a * x ^ b);
  • hiperbolični (y \u003d b / x + a);
  • logaritmic (y \u003d b * 1n (x) + a);
  • okvirna (y \u003d a * b ^ x).

Razmislite o zgledu, gradnjo regresijskega modela v Excelu in razlagi rezultatov. Vzemite linearno vrsto regresije.

Nalogo. Pri 6 podjetij je bila analizirana povprečna mesečna plača in število odpravljenih zaposlenih. Treba je določiti odvisnost od števila odpravljenih zaposlenih iz povprečne plače.

Linearni regresijski model ima naslednjo obliko:

Y \u003d 0 + a 1 x 1 + ... + a do x to.

Kjer je A regresijski koeficienti, X - vplivajo na spremenljivke, na - število dejavnikov.

V našem primeru, kot da je kazalnik tistih, ki so destilirani delavci. Vplivajo na faktor - plače (x).

Excel ima vgrajene funkcije, s katerimi lahko izračunate parametre linearne regresijske modela. Toda hitreje bo dodal "paket analize".

Aktivirajte zmogljivo analitično orodje:

Po aktiviranju bo dodatek na kartici podatkov na voljo.

Zdaj se bomo ukvarjali z neposredno regresijsko analizo.



Prvič, bodite pozorni na R-kvadrat in koeficiente.

R-kvadrat - koeficient določanja. V našem primeru - 0,755 ali 75,5%. To pomeni, da izračunani parametri modela za 75,5% pojasnijo razmerje med preučenimi parametri. Višji je koeficient določanja, boljši je model. Dobro - nad 0,8. Slabo - manj kot 0,5 (taka analiza se težko šteje za razumno). V našem primeru, "ni slabo."

Koeficient 64.1428 kaže, kako bo Y, če bodo vse spremenljivke v obravnavanem modelu 0. To je, drugi dejavniki, ki niso opisani v modelu, vpliva vrednost analiziranja parametra.

Koeficient -0,16285 prikazuje težo spremenljivke x na y. To pomeni, da povprečna mesečna plača v tem modelu vpliva na količino -0,16285, ki je naveden s težo (to je majhna stopnja vpliva). Znak "-" označuje negativen učinek: več plače, manj odpravljanje. Kaj je prav.



Korelacijska analiza v Excelu

Korelacijska analiza pomaga ugotoviti, ali obstaja povezava med kazalniki v enem ali dveh vzorcih. Na primer, med delovanjem stroja in stroški popravila, cene opreme in trajanjem delovanja, rast in težo otrok, itd

Če je povezava na voljo, se poveča povečanje ene parametra (pozitivna korelacija) ali zmanjšanje (negativnega) drugega. Korelacijska analiza pomaga analitiki, da se odloči, ali je mogoče predvideti možno vrednost drugega v obsegu enega kazalnika.

Koeficient korelacije je označen z R. Od +1 do -1. Klasifikacija korelacijskih vezi za različna področja bo drugačna. Ko vrednost koeficienta 0 linearnih odnosov med vzorci ne obstaja.

Razmislite, kako uporabljati Excelove sklade, da bi našli korelacijski koeficient.

Da bi našli seznanjene koeficiente, se uporablja funkcija Correla.

Naloga: Ugotovite, ali obstaja razmerje med časom delovanja stružnice in stroške njegove službe.

Kursor smo postavili na katero koli celico in pritisnite gumb FX.

  1. V kategoriji "Statistical", izberite funkcijo Cornela.
  2. Argument "Array 1" - Prva vrsta vrednosti - čas delovanja stroja: A2: A14.
  3. Argument "Array 2" - Druga vrsta vrednot - Stroški popravila: B2: B14. Kliknite V redu.

Za določitev vrste komunikacije morate videti absolutno število koeficienta (za vsako področje dejavnosti je njen obseg).

Za korelacijsko analizo več parametrov (več kot 2) je bolj priročno za uporabo "analiza podatkov" (add-on "analiza" analiza "). Seznam mora izbrati korelacijo in označiti matriko. Vse.

Nastali koeficienti bodo prikazani v korelacijski matrici. Všečkaj to:

Korelacijska regresijska analiza

V praksi se ti dve tehniki pogosto uporabljajo skupaj.

Primer:


Ta regresijska analiza je postala vidna.

Med študijem se učenci pogosto srečujejo z različnimi enačbami. Ena izmed njih je regresijska enačba - obravnavana v tem članku. Ta vrsta enačbe se uporablja posebej za opis značilnosti razmerja med matematičnimi parametri. Ta vrsta enakosti se uporablja v statistiki in ekonometriji.

Opredelitev pojma regresije

V matematiki pod regresijo je namenjena določenemu znesku, ki opisuje odvisnost povprečne vrednosti niz podatkov iz vrednosti druge vrednosti. Regresijska enačba prikazuje kot funkcijo določene funkcije srednja vrednost druge funkcije. Regresijska funkcija ima obliko preproste enačbe y \u003d x, v kateri deluje kot odvisna spremenljivka, in X - neodvisni (znakov faktor). Dejansko je regresija izražena kot y \u003d f (x).

Kakšne so vrste povezav med spremenljivkami

Na splošno obstajata dve nasprotni vrsti medsebojnega povezovanja: korelacijo in regresija.

Najprej je značilna enakost pogojnih spremenljivk. V tem primeru ni zanesljivo znano, katera spremenljivka je odvisna od druge.

Če ni enakosti med spremenljivkami in se ne upošteva in v pogojih, ki jih poveže, katera spremenljivka pojasnjuje in ki je odvisna, potem lahko govorimo o razpoložljivosti druge vrste. Da bi zgradili linearno regresijsko enačbo, bo treba ugotoviti, katera vrsta komunikacije je opaziti.

Vrste regresije

Do danes se razlikujejo 7 različnih vrst regresije: hiperbolična, linearna, večkratna, nelinearna, parna soba, vzvratno, logaritmično linearna.

Hiperbolični, linearni in logaritmični

Linearna regresijska enačba se uporablja v statističnih podatkih, da jasno razložijo parametre enačbe. Izgleda kot y \u003d c + t * x + e. Hiperbolična enačba ima obliko pravilnega Hyperbole Y \u003d C + T / X + E. Logaritmično linearna enačba izraža razmerje s pomočjo logaritmične funkcije: v Y \u003d v S + T * v x + v E.

Več in nelinear.

Še dve kompleksni tipi regresije sta večkratna in nelinearna. Enačba večkratne regresije je izražena s funkcijo y \u003d f (x 1, x 2 ... x c) + E. V tem primeru deluje kot odvisna spremenljivka in X - razlaga. Spremenljivka E je stohastika, vključuje vpliv drugih dejavnikov v enačbi. Enačba nelinearne regresije je nekoliko protislovna. Po eni strani, glede na posnete kazalnike, ni linearna, na drugi strani pa je v vlogi vrednotenja kazalnikov linearna.

Obratna in oginalna vrsta regresije

Reverse je takšna vrsta funkcije, ki jo je treba pretvoriti v linearni pogled. V najbolj tradicionalnih aplikativnih programih ima obliko funkcije y \u003d 1 / s + t * x + e. Par regresijske enačbe prikazuje odnos med podatki kot funkcijo Y \u003d F (X) + E. na enak način, kot v drugih enačbah, je odvisno od X, in E je stohastični parameter.

Koncept korelacije

To je kazalnik, ki dokazuje obstoj razmerja dveh pojavov ali procesov. Sila odnos je izražena kot korelacijski koeficient. Njegova vrednost se spreminja v intervalu [-1; +1]. Negativni kazalnik označuje prisotnost povratnih informacij, pozitivno - o neposredni. Če koeficient vzame vrednost, ki je enaka 0, potem ni nobenega razmerja. Bližje vrednost na 1 je močnejša povezava med parametri, bližje do 0 - šibkejši.

Metode

Korelacijske parametrične metode lahko ocenijo razmerje odnosa. Uporabljajo se na podlagi ocene distribucije za raziskovanje parametrov, ki so predmet zakona o normalni porazdelitvi.

Parametri linearne regresijske enačbe so potrebni za identifikacijo vrste odvisnosti, funkcije regresijske enačbe in ocenjevanje kazalnikov izvoljene formule razmerja. Kot komunikacijska identifikacijska metoda se uporablja korelacijsko polje. V tem, da morajo biti vsi obstoječi podatki grafično prikazani. V pravokotnem dvodimenzionalnem koordinatnem sistemu morate uporabiti vse znane podatke. Tako se oblikuje področje korelacije. Vrednost opisanega faktorja je opažena vzdolž osi abscisa, medtem ko vrednosti odvisnega - vzdolž osi ordinate. Če je med parametri funkcionalno odvisnost, so zgrajene v obliki črte.

Če je korelacijski koeficient takih podatkov manjši od 30%, lahko govorimo o skoraj popolni odsotnosti komunikacije. Če je med 30% in 70%, to označuje prisotnost priključkov medija. 100% indikator - dokazila o funkcionalni komunikaciji.

Nelinearna regresijska enačba je tako dolgo, kot je linearna, je treba dopolniti indeks korelacije (R).

Korelacija za večkratno regresijo

Koeficient določanja je kazalnik kvadrata množine korelacije. Pogovori o bližini odnos predstavljenega kompleksa kazalnikov s študijem. Prav tako lahko govori o naravi učinka parametrov na rezultat. Ta kazalnik ocenjuje večkratna regresijska enačba.

Da bi izračunali kazalnik pluralne korelacije, je treba izračunati njen indeks.

Najmanj kvadratna metoda

Ta metoda je način ocenjevanja regresijskih dejavnikov. Njegovo bistvo je zmanjšati količino odstopanj na trgu, pridobljenega zaradi odvisnosti faktorja iz funkcije.

Enačba par linearne regresije se lahko oceni s to metodo. Ta vrsta enačb se uporabljajo v primeru odkrivanja med linearnimi kazalniki odvisnosti.

Parametri enačb

Vsak parameter funkcije linearne regresije nosi določen pomen. Parne linearna regresijska enačba vsebuje dva parametra: C, itd Parameter T dokazuje povprečno spremembo končne funkcije funkcije Y, pod pogojem zmanjševanja (povečanje) spremenljivke X na spolni odnos. Če je spremenljivka X enaka nič, je funkcija enaka parametru. Če spremenljivka X ni nič, potem faktor C ne nosi gospodarskega pomena. Edini učinek na funkcijo ima znak pred faktorjem. Če je minus, potem lahko rečemo o počasni spremembi v primerjavi s faktorjem. Če je plus, to označuje pospešeno spremembo rezultata.

Vsak parameter, ki spreminja vrednost regresijske enačbe, se lahko izrazi prek enačbe. Faktor C ima na primer obrazec C \u003d Y-TX.

Združeni podatki

Obstajajo takšni pogoji za nalogo, v kateri je vse informacije združene z atributom X, vendar hkrati ustrezne povprečne vrednosti odvisnega indikatorja indicirane za določeno skupino. V tem primeru so povprečne vrednosti značilne, kako se indikator spremeni, odvisno od X. Zato združene informacije pomagajo najti regresijsko enačbo. Uporablja se kot analiza odnosov. Vendar pa ima ta metoda pomanjkljivosti. Na žalost so povprečni kazalniki pogosto izpostavljeni zunanjim nihanjem. Oscilacije podatkov ne prikazujejo vzorcev odnosov, samo prikrijejo "hrup". Povprečni kazalniki prikazujejo vzorce odnosov so veliko slabše od linearne regresijske enačbe. Vendar pa se lahko uporabijo kot osnova za iskanje enačbe. Multifing Število ločenega agregata na ustreznem povprečju je mogoče doseči z zneskom v skupini. Nato je treba potopiti vse prejete zneske in našli končni kazalnik. Preprosto težje narediti izračune z indikatorjem količine HU. V tem primeru, če so intervali majhni, je mogoče pogojno vzeti X za vse enote (znotraj skupine) enako. To bi ga treba pomnožiti z zneskom u, da bi ugotovili količino dela x na y. Poleg tega se vsi zneski dobijo in dosežemo skupni znesek HU.

Večkratni par regresijske enačbe: Ocena pomena komunikacije

Kot je bilo že upoštevano, ima večkratno regresijo funkcijo obrazca y \u003d f (x 1, x 2, ..., x m) + e. Najpogosteje se taka enačba uporabi za reševanje problema dobave in dobave blaga, obrestne prihodke od na novo opredeljenih delnic, preučevanje vzrokov in vrste proizvodnih stroškov. Prav tako se aktivno uporablja v najrazličnejših makroekonomskih študijah in izračunih, vendar se na ravni mikroekonomije, da se enačba uporabi malo manj.

Glavna naloga večkratne regresije je izgradnja podatkovnega modela, ki vsebuje ogromno informacij, da bi dodatno določili, kateri učinek je vsak od dejavnikov ločen in v celotnem agregatu na kazalnik, ki ga je treba oblikovati in njegovi koeficienti. Regresijska enačba lahko traja široko paleto vrednosti. Hkrati se za oceno razmerja uporabljata dve vrsti funkcij: linearna in nelinearna.

Linearna funkcija je prikazana v obliki takega medsebojnega povezovanja: Y \u003d 0 + A1 x 1 + A 2 x 2, + ... + A M X m. Hkrati A2, M, se štejejo za koeficiente "čiste" regresije. Potrebni so za značilnosti povprečnega parametra parametra Y s spremembo (zmanjšanje ali naraščanje) vsakega ustreznega parametra X na enoto, s pogojem stabilne vrednosti drugih kazalnikov.

Nelinearne enačbe imajo na primer tip moči Y \u003d AH 1 B1 x 2 B2 ... x M BM. V tem primeru se kazalniki B 1, B 2 ..... B M imenujejo koeficienti elastičnosti, kažejo, kako se bo rezultat spremenil (kot%) s povečanjem (zmanjševanjem) ustreznega kazalnika x za 1% in s stabilnim kazalnikom preostalih dejavnikov.

Katere dejavnike je treba upoštevati pri izgradnji večkratne regresije

Da bi pravilno gradili večkratno regresijo, je treba ugotoviti, kateri dejavniki bi morali posebno pozornost nameniti.

Potrebno je imeti določeno razumevanje narave odnosa med gospodarskimi dejavniki in modelirano. Dejavniki, ki bodo morali vključevati, morajo izpolnjevati naslednje značilnosti:

  • Za kvantitativno merjenje. Za uporabo faktorja, ki opisuje kakovost predmeta, je treba v vsakem primeru količinsko opredeliti.
  • Interkulacija dejavnikov ali funkcionalnih odnosov. Takšni ukrepi najpogosteje privedejo do nepopravljivih posledic - sistem navadnih enačb ni posledica, in to pomeni njeno nezanesljivost in ne-natančnost ocen.
  • V primeru obstoja velikega kazalnika korelacije ni nobenega načina za določitev izoliranega vpliva dejavnikov na končni rezultat kazalnika, zato koeficienti postanejo ne-interpretirani.

Metode gradnje

Obstaja veliko metod in metod, ki pojasnjujejo, kako lahko izberete dejavnike za enačbo. Vendar pa so vse te metode zgrajene na izbiri koeficientov z uporabo kazalnika korelacije. Med njimi se razlikujejo:

  • Načina izjeme.
  • Metoda vključevanja.
  • Analiza regresije po korakih.

Prva metoda pomeni preglede vseh koeficientov iz skupnega niza. Druga metoda vključuje uvedbo množice dodatnih dejavnikov. No, tretji - najpogostejši dejavniki, ki so bili prej uporabljeni za enačbo. Vsaka od teh metod ima pravico do obstoja. Imajo svoje prednosti in slabosti, vendar lahko vse na svoj način rešijo vprašanje, da bi diskrefinirali nepotrebne kazalnike. Rezultati, pridobljeni z vsako posamezno metodo, so praviloma precej blizu.

Metode večdimenzionalne analize

Takšne metode za določanje dejavnikov temeljijo na obravnavi posameznih kombinacij medsebojno povezanih znakov. Vključujejo diskriminantno analizo, priznanje videza, metodo glavne komponente in analizo grozdov. Poleg tega obstaja tudi faktorska analiza, vendar se je pojavila zaradi razvoja metode komponent. Vsi se uporabljajo v določenih okoliščinah, z določenimi pogoji in dejavniki.