Regresijska analiza tega primera. Metode regresijske analize

Regresijska analiza

Regresijo (linear.) analiza - Statistična metoda za preučevanje učinka ene ali več neodvisnih spremenljivk na odvisni spremenljivko. Neodvisne spremenljivke so sicer imenovane regresorji ali napovedovalci, in odvisne spremenljivke - merila. Terminologija odvisno in neodvisno Spremenljivke odražajo le matematično odvisnost spremenljivk ( glej napačno korelacijo), ne pa vzročne odnose.

Cilji regresijske analize

Določanje stopnje deterministične variacije merila (odvisnih) spremenljivih napovedi (neodvisne spremenljivke)
Napoved vrednosti odvisne spremenljivke z uporabo neodvisnega)
Določitev prispevka posameznih neodvisnih spremenljivk v različici odvisnosti

Regresijska analiza ni mogoče uporabiti za določitev razpoložljivosti komunikacije med spremenljivkami, saj je prisotnost takšne povezave predpogoj za aplikacijo.

Matematična definicija regresije

Strogo regresijska odvisnost je mogoče opredeliti na naslednji način. Pustiti, naključne spremenljivke z določeno skupno razdelitev verjetnosti. Če je za vsak niz vrednosti definirano pogojno matematično pričakovanje

(regresijska enačba na splošno), \\ t

ta funkcija se imenuje regresijo Y vrednosti za vrednosti in njegov urnik - regresijska linija Or regresijska enačba.

Odvisnost od manifestira sama pri spreminjanju povprečnih vrednosti Y pri menjavi. Čeprav z vsakim fiksnim nizom vrednosti, vrednost ostane naključna spremenljivka z definiranim razprševanjem.

Če želite pojasniti vprašanje, kako natančno regresijska analiza ocenjuje spremembo Y, ko se uporabi sprememba, povprečna količina disperzije Y se uporablja za različne komplete vrednosti (v resnici je posledica odvajanja odvisne spremenljivke okoli regresijske linije).

Metoda najmanjših kvadratov (izračun koeficientov)

V praksi je regresijska linija najpogosteje išče linearno funkcijo (linearna regresija), ki je najboljša pritrjena želena krivulja. To se izvede z uporabo metode najmanjših kvadratov, ko se vsota kvadratov odstopanj dejansko opaženega na njihovih ocenah zmanjša (imenovana ocene z ravno črto, primerno za zastopanje želene odvisnosti regresije):

(M - Vzorčenje). Ta pristop temelji na določenem dejstvu, da se znesek pojavi v izjemenu, ki izhaja iz tega, kar upošteva minimalno vrednost za primer.

Za reševanje problema regresijske analize z metodo najmanjših kvadratov se koncept uvede odzivne funkcije:

Najmanjši pogoj preostale funkcije:

Nastali sistem je sistem linearnih enačb z neznanim

Če posredujete brezplačne člane levega dela matričnih enačb

in koeficiente na neznanem v desnem delu matrike

da dobimo matrično enačbo: ki je zlahka rešila Metoda Gauss. Nastala matrika je matrika, ki vsebuje koeficiente regresijske linije enačbe:

Za najboljše ocene je treba izvesti predpogoje MNA (Pogoji Gauss-Markov). V angleški literaturi se takšne ocene imenujejo modre (najboljše linearne neobijene ocene) - najboljše linearne izjemne ocene.

Razlaga parametrov regresije

Parametri so zasebni korelacijski koeficienti; Razlagati kot delež disperzije Y, pojasnjen pri določanju vpliva preostalih tokarjev, to je, da meri individualni prispevek k razlagi Y. v primeru korelacije napovedovalcev, problem negotovosti v ocenah, ki postanejo odvisno od postopka za vključitev napovednih v model. V takih primerih je treba uporabiti metode za analizo korelacije in analize regresije po korakih.

Ko že govorimo o nelinearnih modelih regresijske analize, je pomembno, da se pozorni na to, ali gre za nelinearnost neodvisne spremenljivke (s formalnega vidika, ki se zlahka zmanjša na linearno regresijo), ali na nelinearnosti po ocenjenih parametrih (kar povzroča resno računsko težave). Z nelinearnostjo prve vrste s pomembnega stališča je pomembno opredeliti pojav članov obrazca v modelu, kar kaže na prisotnost interakcij med znaki, in tako naprej (glej multicolarinarnost).

Poglej tudi

Povezave

www.kgafk.ru - Predavanje na temo "Regresijska analiza"
www.basegroup.ru - metode izbire spremenljivk v regresijskih modelih

Literatura.

Norman Drayer, Harry Smith Uporabljena analiza regresije. Večkratno regresijo \u003d uporabljena regresijska analiza. - 3. ed. - M.: "Dialektike", 2007. - P. 912. - ISBN 0-471-17082-8
Trajnostne metode za ocenjevanje statističnih modelov: monografija. - K.: PP "SANPARTEL", 2005. - P. 504. - ISBN 966-96574-0-7, UDC: 519.237.5: 515.126.2, BBC 22.172 + 22.152
Radchenko Stanislav Grigorievich, Metodologija regresijske analize: monografija. - K.: "Kornichuk", 2011. - P. 376. - ISBN 978-966-7599-72-0

Fundacija Wikimedia. 2010.

V statističnem modeliranju je regresijska analiza študija, ki se uporablja za ocenjevanje razmerja med spremenljivkami. Ta matematična metoda vključuje številne druge metode za modeliranje in analizo več spremenljivk, ko se razmerje plača odnos med odvisno spremenljivko in eno ali več neodvisnih. Natančneje, regresijska analiza pomaga razumeti, kako tipična vrednost odvisnih spremenljivk sprememb, če se ena od neodvisnih spremenljivk spremeni, medtem ko druge neodvisne spremenljivke ostanejo fiksne.

V vseh primerih je ciljna vrednotenje funkcija neodvisnih spremenljivk in se imenuje regresijska funkcija. V regresijski analizi se lahko značilnost spremembe odvisne spremenljivke kot regresijska funkcija opiše z razdeljevanjem verjetnosti.

Težave z regresijsko analizo

Ta statistična raziskovalna metoda se pogosto uporablja za napovedovanje, kjer ima njena uporaba pomembna prednost, vendar včasih lahko privede do iluzije ali lažnega odnosa, zato je priporočljivo, da ga skrbno uporabljate v določenem vprašanju, saj na primer, korelacija ne povprečne vzročne odnose.

Za regresijsko analizo je bilo razvito veliko število metod, kot je linearna in navadna regresija na metodi najmanjših kvadratov, ki so parametrične. Njihovo bistvo je, da je regresijska funkcija določena v smislu končnega števila neznanih parametrov, ki se ocenjujejo iz podatkov. Ne-parametrična regresija omogoča njeno funkcijo v določenem nizu funkcij, ki so lahko neskončne-dimenzionalne.

Kot statistična raziskovalna metoda je regresijska analiza v praksi odvisna od oblike postopka proizvodnje podatkov in o tem, kako se nanaša na regresijski pristop. Ker je prava oblika procesa podatkov, ki proizvaja, kot pravilo, neznano število, regresijska analiza podatkov, je pogosto odvisna od predpostavk o tem procesu. Te predpostavke se včasih preverijo, če obstaja zadosten znesek razpoložljivih podatkov. Regresijski modeli so pogosto koristni, tudi če so predpostavke zmerno kršene, čeprav ne morejo delati z največjo učinkovitostjo.

V ožjem smislu se lahko regresija posebej nanaša na oceno stalnih spremenljivk odziva, v nasprotju z spremenljivkami diskretnih odzivov, ki se uporabljajo v klasifikaciji. Primer kontinuirane izhodne spremenljivke se imenuje tudi metrična regresija, da jo razlikuje od sorodnih težav.

Zgodovina

Najzgodnejša oblika regresije je vse znane metode najmanjših kvadratov. Legendre leta 1805 je bil objavljen leta 1805 in Gauss leta 1809. Lenaland in Gauss je uporabil metodo za nalogo, da določimo orbito orbiti okoli sonca (večinoma komete, vendar kasneje in na novo odprte majhne planete). Gauss je leta 1821 objavil nadaljnji razvoj teorije najmanjših kvadratov, vključno z različico teorema Gauss Markov.

Izraz "regres" je prišel s Francisom Galtonom v stoletju XIX, da bi opisal biološki fenomen. Bistvo je bilo, da je rast potomcev iz rasti prednikov, praviloma, nastaja na normalno povprečje. Za Galton je regresija imela le ta biološki pomen, kasneje pa se je njegovo delo nadaljevalo Joli in Karl Pearson in prinesel v splošnejše statistične kontekst. Pri delu YOL in Pearsona se šteje, da je skupna porazdelitev odgovorov in razlagalnih spremenljivk Gaussian. Ta predpostavka je zavrnila Fisher v delih iz leta 1922 in 1925. Fisher je predlagal, da je pogojna porazdelitev spremenljivke odziva Gaussian, vendar skupna distribucija ne bi smela biti taka. V zvezi s tem je predlog ribištva bližje izjavi Gauss 1821. Do leta 1970 je včasih ostalo do 24 ur, da bi dosegli rezultat regresijske analize.

Metode regresijske analize še naprej ostajajo področje aktivnih študij. V zadnjih desetletjih so bile razvite nove metode za zanesljivo regresijo; regresija s sodelovanjem korelacijskih odzivov; Metode regresije, ki sprejmejo različne vrste manjkajočih podatkov; ne-parametrična regresija; Metode Bayesian regresije; regresije, v katerih se spremenljivke napovedovanja merijo z napako; Regresija z večino napovednih kot opažanja, pa tudi vzročne ugotovitve z regresijo.

Regresijski modeli

Modeli za analizo regresije vključujejo naslednje spremenljivke:

Neznani parametri so označeni kot beta, ki je lahko skalarna ali vektor.
Neodvisne spremenljivke, X.
Odvisne spremenljivke, y.

Na različnih področjih znanosti, kjer se uporablja regresijska analiza, se namesto odvisnih in neodvisnih spremenljivk uporabljajo različne izraze, vendar v vseh primerih regresijski model se nanaša na funkcijo X in β.

Približevanje se običajno izvede v obliki E (Y | x) \u003d f (x, β). Za izvedbo regresijske analize je treba določiti obliko F funkcije F. Manj verjetno je na podlagi odnosa odnos med Y in X, ki se ne zanašajo na podatke. Če takšno znanje ni na voljo, je izbran prožen ali priročen obrazec F.

Odvisna spremenljivka y.

Recimo, da ima vektor neznanih parametrov β dolžino K. Za izvedbo regresijske analize mora uporabnik zagotoviti informacije o odvisni spremenljivki Y:

Če obstajajo točke n podatkov obrazca (Y, x), kjer je n< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.

Če je opaziti točno n \u003d k, in funkcija F je linearna, enačba y \u003d f (x, β) lahko rešite točno in ne približno. To zmanjšuje reševanje niza N-enačb z N-neznanimi (β elementi), ki ima eno samo raztopino, dokler je X linearno neodvisen. Če je F nelinearna, raztopina ne obstaja, ali pa lahko obstaja veliko rešitev.
Najpogostejša je situacija, ko se opazijo n\u003e kaže na podatke. V tem primeru je v podatkih zadostne informacije, ki ocenjujejo edinstveno vrednost za β, ki na najboljši način ustreza podatkom in regresijskim modelom, ko se aplikacija za podatke lahko obravnava kot redefiniran sistem v β.

V slednjem primeru regresijska analiza zagotavlja orodja za:

Rešitev Iskanje neznanih parametrov β, ki bo na primer zmanjšala razdaljo med izmerjeno in napovedano vrednostjo Y.
Z določenimi statističnimi predpostavkami regresijska analiza porabi presežne informacije za zagotavljanje statističnih informacij o neznanih parametrih β in predvidenih vrednosti odvisnih spremenljivk Y.

Zahtevana količina neodvisnih meritev

Razmislite o regresijskem modelu, ki ima tri neznane parametre: β 0, β 1 in β 2. Recimo, da eksperimentator izvede 10 meritev v isti vrednosti neodvisne variabilne vektorja X. V tem primeru regresijska analiza ne daje edinstvenega niza vrednot. Najboljša stvar je, da ocenite povprečno vrednost in standardni odklon odvisne spremenljivke y. Podobno merjenje dveh različnih vrednosti X je mogoče dobiti dovolj podatkov za regresijo z dvema neznano, vendar ne za tri ali Več neznanih.

Če so meritve eksperimentatorja izvedene pri treh različnih vrednostih neodvisne variabilne vektorja X, bo regresijska analiza zagotovila edinstven niz ocen za tri neznane parametre v β.

V primeru splošne linearne regresije je zgoraj navedena odobritev enakovredna zahteva, da je matrika X T X reverzibilna.

Statistične predpostavke

Ko je število meritev n večje od števila neznanih parametrov K in meritvenih napak ε i, potem, praviloma, potem velja za presežek informacij, ki jih vsebujejo meritve, in se uporablja za statistične napovedi relativno neznanih parametrov. Ta presežek informacij se imenuje stopnja svobode regresije.

Temeljne predpostavke

Klasične predpostavke za regresijsko analizo vključujejo:

Vzorec je predstavnik napovedi logičnega izhoda.
Napaka je naključna spremenljivka s povprečno ničelno vrednostjo, ki je pogojena z razlagalnimi spremenljivkami.
Neodvisne spremenljivke se merijo brez napak.
Ker so neodvisne spremenljivke (napovedovalci), so linearno neodvisne, to je, da ni mogoče izraziti nobenega napovedovalca v obliki linearne kombinacije ostalih.
Napake so nepovezane, to je matrika kovariance napak diagonal in vsakega neničelnega elementa je disperzija napake.
Napaka disperzijo je konstantna s pripombami (homokastastičnost). Če ne, lahko uporabite metodo začasnih najmanjših kvadratov ali drugih metod.

Ti zadostni pogoji za ocenjevanje najmanjših kvadratov imajo potrebne lastnosti, zlasti te predpostavke pomenijo, da bodo ocene parametrov objektivne, dosledne in učinkovite, zlasti če so registrirane v razred linearne ocene. Pomembno je omeniti, da dejanski podatki redko izpolnjujejo pogoje. To pomeni, da se metoda uporablja, tudi če predpostavke niso resnične. Variacije od predpostavk se lahko včasih uporablja kot ukrep, ki prikazuje, koliko je ta model uporaben. Mnoge od teh predpostavk se lahko ublažijo v bolj naprednih metodah. Poročila o statistični analizi, praviloma vključujejo analizo preskusa glede na vzorčenje in metodologijo za uporabnost modela.

Poleg tega se spremenljivke v nekaterih primerih nanašajo na vrednosti, izmerjene v točkah. Obstajajo prostorski trendi in prostorske avtokorelacije v spremenljivkah, ki kršijo statistične predpostavke. Geografska tehtana regresija je edina metoda, ki obravnava take podatke.

V linearni regresiji je funkcija, da je odvisna spremenljivka, ki je Y I, linearna kombinacija parametrov. Na primer, v preprosti linearni regresiji, ena neodvisna spremenljivka, X I in dva parametra, β 0 in β 1, se uporabljajo za simulacijo N-točk.

Z več linearno regresijo je več neodvisnih spremenljivk ali njihovih funkcij.

Z naključnim vzorcem od populacije vam njegovi parametri omogočajo pridobitev vzorčnega modela linearne regresije.

V tem vidiku je najbolj priljubljena metoda najbolj kvadrata. S pomočjo njega obstajajo ocene parametrov, ki zmanjšujejo vsoto kvadratov ostankov. Ta vrsta minimizacije (ki je značilna za linearno regresijo) te funkcije vodi do niza normalnih enačb in niz linearnih enačb s parametri, ki so rešeni s pridobivanjem ocen parametrov.

Z nadaljnjo predpostavko, da je populacijska napaka običajno razdeljena, lahko raziskovalec uporabi te ocene standardnih napak, da bi ustvarili intervale zaupanja in preverjajo hipoteze njegovih parametrov.

Nelinearna regresijska analiza

Primer, ko funkcija ni linearna glede na parametre, kaže, da je treba vsoto kvadratov zmanjšati z uporabo iterativnega postopka. Zaradi tega je veliko zapletov, ki določajo razlike med linearnimi in nelinearnimi metodami najmanjših kvadratov. Zato so rezultati regresijske analize z nelinearno metodo včasih nepredvidljivi.

Izračun moči in vzorčenja

Tukaj, praviloma ni dogovorjenih metod, ki se nanašajo na število opazovanj v primerjavi s številom neodvisnih spremenljivk v modelu. Prvo pravilo je bilo predlagano za dobro in harmono in izgleda kot n \u003d t ^ n, kjer je n velikost vzorca, n je število neodvisnih spremenljivk, in t je število opazovanj, potrebnih za doseganje želene natančnosti, če je model ima samo eno neodvisno spremenljivko. Na primer, raziskovalec gradi linearni regresijski model z uporabo podatkovnega niza, ki vsebuje 1000 bolnikov (n). Če raziskovalec odloči, da je potrebno pet opazovanj, da bi natančno določili neposredno (m), potem največje število neodvisnih spremenljivk, ki jih model lahko podpira, enak 4.

Druge metode

Kljub dejstvu, da se parametri regresijskega modela običajno ocenjujejo z metodo najmanjših kvadratov, obstajajo druge metode, ki se uporabljajo veliko manj. Na primer, to so naslednje metode:

Bayesian metode (na primer Bayesian linearna regresijska metoda).
Obrestna regresija, ki se uporablja za primere, ko se upad napak obresti šteje za bolj primerno.
Najmanjša absolutna odstopanja, ki je bolj odporna na prisotnost emisij, ki vodijo do količinske regresije.
Ne-parametrična regresija, ki zahteva veliko število opazovanj in izračunov.
Usposabljanje metrične razdalje, ki se preučuje v iskanju pomembne metrične razdalje v danem vhodnem prostoru.

Programska oprema

Vse pomembne statistične programske pakete se izvajajo z najmanjšimi kvadrati regresijske analize. Enostavna linearna regresija in večkratno regresijsko analizo se lahko uporablja v nekaterih aplikacijah preglednic, kot tudi na nekaterih kalkulatorjih. Čeprav lahko številne pakete statistike programske opreme opravljajo različne vrste ne-parametrične in zanesljive regresije, so te metode manj standardizirane; Različne programske pakete izvajajo različne metode. Specializirana programska oprema regresije je bila namenjena uporabi na takih območjih kot analiza raziskav in nevrolovnosti.

Glavna značilnost regresijske analize: Ko je pomagal, je mogoče pridobiti posebne informacije o tem, kateri obliki in lik ima razmerje med preučevanimi spremenljivkami.

Zaporedje stopnje regresijske analize

Razmislite o na kratko nazadovanje analize.

Besedilo. Na tej stopnji se predhodne hipoteze oblikujejo na odvisnosti preučevanih pojavov.

Določanje odvisnih in neodvisnih (pojasnjevanje) spremenljivk.

Zbiranje statističnih podatkov. Podatke je treba zbrati za vsako spremenljivke, vključene v regresijski model.

Besedilo hipoteze o obliki komunikacije (preproste ali večkratne, linearne ali nelinearne).

Opredelitev regresijske funkcije (leži pri izračunu numeričnih vrednosti parametrov regresijske enačbe)

Ocena natančne regresijske analize.

Razlaga dobljenih rezultatov. Dobljeni rezultati regresijske analize se primerjajo s predhodnimi hipotezami. Ocenjena je pravilnost rezultatov dobljenih rezultatov.

Napoved neznanih vrednosti odvisne spremenljivke.

S pomočjo regresijske analize je mogoče rešiti problem napovedovanja in klasifikacije. Vrednosti napovedi se izračunajo z zamenjavo na regresijsko enačbo vrednosti pojasnjevalnih spremenljivk. Rešitev problema razvrščanja se izvaja na ta način: regresijska voda razdeli vse sklope predmetov v dva razreda, del seta, kjer je vrednost funkcije večja od nič, pripada enemu razredu in tistemu, kjer To je manj kot nič, za drug razred.

Težave z regresijsko analizo

Upoštevajte glavne naloge regresijske analize: nastavitev oblike odvisnosti, opredelitev regresijske funkcijeOcena neznanih vrednosti odvisnih spremenljivk.

Nastavitev oblike odvisnosti.

Narava in oblika odvisnosti od spremenljivk lahko tvorijo naslednje sorte regresije:

pozitivna linearna regresija (izražena v enotni rasti funkcije);

pozitivna enakovredna naraščajoča regresija;

pozitivno ravnovesje, ki povečuje regresijo;

negativna linearna regresija (izražena v enotni funkciji padanja);

negativna enakovredna zmanjševanje regresije;

negativno ravnovesje, ki zmanjšuje regresijo.

Vendar pa opisane sorte običajno niso v čisti obliki, ampak v kombinaciji med seboj. V tem primeru govorijo o kombiniranih oblikah regresije.

Določanje regresijske funkcije.

Druga naloga se zmanjša, da se pojasni ukrep o odvisni spremenljivki glavnih dejavnikov ali vzrokov, pod nenehnimi drugimi enakimi pogoji, in ob upoštevanju izključitve vpliva na odvisno spremenljivko naključnih elementov. Regresijska funkcijadoločena v obliki matematične enačbe enega ali drugega tipa.

Ocena neznanih vrednosti odvisnih spremenljivk.

Rešitev te naloge je rešiti problem ene od vrst:

Ocena vrednosti odvisnih spremenljivk v obravnavanem intervalu izvornega izvora, t.j. zamujene vrednosti; V tem primeru je problem interpolacije rešen.

Ocena prihodnjih vrednot odvisne spremenljivke, tj. Iskanje vrednosti zunaj določenega intervala podatkovnega izvora; Hkrati je rešena naloga ekstrapolacije.

Obe nalogi sta rešeni z zamenjavo regresijske enačbe ugotovljenih ocen parametrov vrednosti neodvisnih spremenljivk. Rezultat reševanja enačbe je ocena vrednosti ciljne (odvisne) spremenljivke.

Razmislite o nekaterih predpostavkah, na katerih temelji regresijska analiza.

Predpostavka za perilo, tj. Predvideva se, da je razmerje med obravnavanimi spremenljivkami linearno. Torej, v obravnavanem primeru smo zgradili disperzijski diagram in smo lahko videli eksplicitno linearno povezavo. Če na disperzijskem diagramu spremenljivk vidimo jasno odsotnost linearne povezave, tj. Nelinearna komunikacija je prisotna, uporaba nelinearnih analiz.

Predpostavka o normalnosti ostanek. Predpostavlja, da je razdelitev razlike v predvidenih in opazovanih vrednotah normalna. Vizualno določiti naravo distribucije, lahko uporabite histograme ostanek.

Pri uporabi regresijske analize je treba upoštevati njeno glavno omejitev. Je, da regresijska analiza vam omogoča, da odkrijete le odvisnosti, ne pa povezave, na katerih temelji te odvisnosti.

Regresijska analiza omogoča oceno stopnje komunikacije med spremenljivkami z izračunom predvidene vrednosti spremenljivke na podlagi več znanih vrednot.

Regresijska enačba.

Enačba regresije je naslednja: y \u003d a + b * x

Uporaba te enačbe, spremenljivka Y je izražena preko konstantnega A in kota ravne črte (ali kotnega koeficienta) B, pomnoženo z vrednostjo spremenljivke X. Konstanta A se imenuje tudi svobodni član, in koži koeficient - regresijski koeficient ali B-koeficient.

V večini primerov (če ne vedno) obstaja določena sprememba opazovanj glede na regresijo neposredno.

Ostanek - To je odstopanje ločene točke (opazovanje) iz regresijske linije (predvidena vrednost).

Če želite reševanje naloge regresijske analize v MS Excelu, izberite v meniju Service."Paket analize"in orodje za analizo "regresije". Določamo vhodne intervale X in Y. Interval vhod Y je vrsta odvisnih podatkov analiziranih, mora vsebovati en stolpec. Vhodni interval X je vrsta neodvisnih podatkov, ki jih je treba analizirati. Število vhodnih območij ne sme biti več kot 16.

Po izhodu postopka v izhodnem območju dobimo poročilo, navedeno v tabela 8.3A.-8.3V..

Skupni rezultat

Tabela 8.3a. Regresijska statistika
Regresijska statistika
Večkratni R.
R-Square.
Normalni kvadrat r
Standardna napaka
Opazovanja

Najprej razmislite o zgornjem delu izračunov, predstavljenih v tabela 8.3A.- Statistika regresije.

Vrednost R-Square., imenovano tudi merilo gotovosti, označuje kakovost pridobljene regresije neposredno. Ta kakovost je izražena z stopnjo skladnosti med izvornimi podatki in regresijskim modelom (izračunani podatki). Merilo gotovosti je vedno v intervalu.

V večini primerov je vrednost R-Square.med temi vrednotami, imenovanimi Extreme, t.j. Med nič in enoto.

Če vrednost R-Square.v bližini enotnosti to pomeni, da konstruirani model pojasnjuje skoraj vso variabilnost ustreznih spremenljivk. In nasprotno, vrednost R-Square.Blizu nič pomeni slabo kakovost konstruiranega modela.

V našem primeru je merilo gotovosti 0,99673, kar kaže na zelo dobro regresijo, ki je neposredno na začetne podatke.

večkratni R. - Večkratni korelacijski koeficient R - izraža stopnjo odvisnosti neodvisnih spremenljivk (x) in odvisne spremenljivke (Y).

Večkratni R.to je enako kvadratnim korenom iz koeficienta določanja, ta vrednost traja vrednosti v območju od nič do ene.

V preprosti linearni regresijski analizi večkratni R.enako je koeficient kovansa Pearsona. Res, večkratni R.v našem primeru je enaka koeficientu korelacije Pearsona iz prejšnjega primera (0,998364).

Tabela 8.3B. Koeficienti recesije
	Dejavniki	Standardna napaka	t - Statistika
Y-CHANGING.
Spremenljivka x 1.
* Podana je okrnjena možnost izračuna.

Zdaj razmislite o srednjem delu izračunov, predstavljenih tabela 8.3B.. Regresijski koeficient B (2.305454545) in offset vzdolž osi osi, t.j. Stalno a (2.694545455).

Na podlagi izračunov lahko na ta način napišemo regresijsko enačbo:

Y \u003d x * 2,305454545 + 2,694545455

Smer komunikacije med spremenljivkami se določi na podlagi znakov (negativnih ali pozitivnih) regresijskih koeficientov (koeficient B).

Če je znak z regresijskim koeficientom pozitiven, je odnos odvisne spremenljivke z neodvisno bo pozitiven. V našem primeru je regresijski koeficient pozitiven, zato je povezava pozitivna.

Če je znak na regresijskem koeficientu negativen, je razmerje odvisne spremenljivke z neodvisnim negativnim (obratno).

V tabela 8.3V.. Predstavljeni so rezultati izhoda ostanek. Da bi ti rezultati prikazani v poročilu, je potrebno aktivirati potrditveno polje "ostane" pri zagonu "regresije" orodje.

Zaključek Ostanki

Tabela 8.3b. Ostanki
Opazovanje	Napovedano y.	Ostanki	Standardni ostanki

S tem delom poročila lahko vidimo odstopanja vsake točke iz konstrukcije regresijske linije. Največja absolutna vrednost ostanekv našem primeru - 0,778, najmanjši - 0,043. Za najboljšo interpretacijo teh podatkov uporabljamo izvirni razpored podatkov in zgrajena regresijska linija, ki je predstavljena sl. 8.3.. Kot lahko vidite, je regresijska linija povsem vsekakor "sosednji" pod smislu vira podatkov.

Upoštevati je treba, da je primer obravnavan precej preprost in daleč od vedno mogoče graditi regresijo neposrednega linearnega pogleda.

Sl. 8.3. Začetni podatki in regresijska linija

Problem ocenjevanja neznanih prihodnjih vrednot odvisne spremenljivke na podlagi znanih vrednot neodvisne spremenljivke ostaja neznan, t.j. Napovedovanje problemov.

Ob regresijski enačbi se nalaga napovedovanje zmanjša na reševanje enačbo Y \u003d x * 2.3054545455 + 2.694545455 z znanimi x vrednostmi. Rezultati napovedovanja odvisne spremenljivke Y za šest korakov naprej so predstavljeni tabela 8.4..

Tabela 8.4. Rezultate napovedovanja spremenljivke y
	Y (napovedano)

Tako, kot posledica uporabe regresijske analize v paketu Microsoft Excel, smo:

zgrajena regresijska enačba;

vzpostavljena oblika odvisnosti in smeri komunikacije med spremenljivkami - pozitivna linearna regresija, ki je izražena v enotni rasti funkcije;

nastavite smer komunikacije med spremenljivkami;

ocenila kakovost prejete regresije;

so lahko videli odstopanja podatkov o poravnavi iz podatkov izvirnega niza;

prihodnje vrednosti napovedane odvisne spremenljivke.

Če regresijska funkcijadoločena je, razlaga in utemeljena, ocena natančnosti regresijske analize izpolnjuje zahteve, lahko domnevamo, da imajo konstruirani model in napovedane vrednosti zadostno zanesljivost.

Predvidene vrednosti, pridobljene na ta način, so povprečne vrednosti, ki jih je mogoče pričakovati.

V tem prispevku smo pregledali glavne značilnosti. opisna statistikain med njimi taki koncepti kot pomeni,mediana.,največje,najmanjdruge značilnosti sprememb podatkov.

Prav tako se je na kratko obravnaval koncept emisij. Upoštevane značilnosti se nanašajo na tako imenovano raziskovalno analizo, njene sklepe se ne smejo uporabljati za splošno populacijo, ampak samo na podatkovni vzorec. Raziskovalna analiza podatkov se uporablja za pridobitev primarnih zaključkov in nastajanja hipotez glede na splošno populacijo.

Upoštevane so bile tudi teme korelacije in regresijske analize, njihove naloge in praktične možnosti.

Regresijska analiza temelji vzpostavitev večine ekonometričnih modelov, ki bi morale vključevati tudi model ocenjevanja vrednosti. Za izgradnjo modelov ocenjevanja se ta metoda lahko uporabi, če se število analogov (primerljivih objektov) in število dejavnikov vrednosti (elementi primerjave) nanašajo na drug drugega: str \u003e (5-g-10) x do, ti. Analogi morajo biti 5-10-krat več kot vrednosti vrednosti. Ta zahteva za razmerje med količino podatkov in številom dejavnikov se uporablja tudi za druge nalog: vzpostavitev komunikacije med stroški in parametri potrošnikov predmeta; Obrazložitev Postopek za izračun korektivnih indeksov; Pojasnitev cen trendov; vzpostavitev komunikacije med obrabo in spremembami vplivnih dejavnikov; Pridobivanje odvisnosti od izračun stroškovnih standardov itd. Izvedba te zahteve je potrebna za zmanjšanje verjetnosti sejanja podatkov, ki ne izpolnjuje zahtev normalnosti porazdelitve naključnih spremenljivk.

Regresija odraža le povprečno težnjo, da spremenimo nastalo spremenljivko, kot je vrednost, od spreminjanja ene ali več faktorjev spremenljivk, kot so lokacije, število sob, kvadrat, tleh itd. To je razlika med regresijsko vezjo iz funkcionalnega, na kateri je vrednost nastale spremenljivke strogo določena z določeno vrednostjo faktorjev spremenljivk.

Prisotnost regresije / med rezultatom w. in faktorske spremenljivke x R. ..., x K. (Dejavniki) kažejo, da se ta odnos določi ne le z vplivom izbranih faktorialnih spremenljivk, temveč tudi z vplivom spremenljivk, od katerih nekatere so na splošno neznane, druge pa druge niso primerne za ocenjevanje in računovodstvo:

Učinek neupravičenih spremenljivk je označen z drugim mandatom te enačbe. ?, ki se imenuje napaka pri približevanju.

Razlikujejo se naslednje vrste odvisnosti regresij:

? Regresija par je razmerje med dvema spremenljivkama (nastali in dejavniki);
? Večkratno regresijo je odvisnost od ene rezultate spremenljivke in dve ali več faktorskih spremenljivk, vključenih v študijo.

Glavna naloga regresijske analize je kvantitativna določitev tona razmerja med spremenljivkami (s par regresije) in množico spremenljivk (z večkratno regresijo). Komunikacija je kvantitativno izražena s korelacijskim koeficientom.

Uporaba regresijske analize omogoča vzpostavitev vzorca vpliva glavnih dejavnikov (hedonistične značilnosti) na preučevani kazalnik tako v celoti in vsakega od njih ločeno. Uporaba regresijske analize, kot metoda matematične statistike, je mogoče, najprej, najti in opisati obliko analitične odvisnosti od nastale (želene) spremenljivke iz faktorja in, drugič, da oceni bližina te odvisnosti.

Zahvaljujoč rešitvi prve naloge je pridobljen matematični regresijski model, s katerim se po določenih vrednostih faktorjev izračuna želeni kazalnik. Rešitev druge naloge vam omogoča, da nastavite zanesljivost želenega rezultata.

Tako je mogoče regresijsko analizo opredeliti kot niz formalnih (matematičnih) postopkov, namenjenih za merjenje tesnosti, smeri in analitičnega izražanja oblike komunikacije med nastalimi in faktorskimi spremenljivkami, tj. Na proizvodnji take analize bi morala biti strukturna in kvantitativno opredeljena statistični model obrazca:

kje y - Povprečna vrednost nastale spremenljivke (želeni kazalnik, na primer, stroški, najem, kapitalizacije) str njena opazovanja; X - Vrednost spremenljivke faktorja (/ -TH Factor vrednosti); - Število faktorskih spremenljivk.

Funkcija f (x l, ..., x lc), Opis odvisnosti od nastale spremenljivke iz faktorja se imenuje enačba (funkcija) regresije. Izraz "regresija" (regresija) je umik, povračilo za nekaj) je povezano s posebnosti ene od posebnih nalog, rešenih na stopnji oblikovanja metode, in trenutno ne odraža celotnega bistva metode, ampak še naprej uporabljajo.

Regresijska analiza na splošno vključuje naslednje korake:

? oblikovanje vzorca homogenih predmetov in zbiranje virov informacij o teh objektih;
? izbor glavnih dejavnikov, ki vplivajo na nastalo spremenljivko;
? Preverite vzorčenje za normalno uporabo h. 2 ali kriterij binomina;
? Sprejetje hipoteze o obliki komunikacije;
? Obdelava matematičnih podatkov;
? pridobivanje regresijskega modela;
? ocenjevanje statističnih kazalnikov;
? Kalibracijski izračuni z modelom regresije;
? Analiza rezultatov.

Navedeno zaporedje operacij poteka v študiji obeh povezav par med spremenljivo faktorjem in enim, ki nastane in večkratne vezi med nastalo spremenljivko in več faktorjev.

Uporaba regresijske analize določa določene zahteve za izvorne informacije:

? Statistični vzorec predmetov mora biti homogen v funkcionalnih in strukturno tehnoloških odnosih;
? precej številne;
? Kazalnik vrednosti v študiji je nastala spremenljivka (cena, stroški, stroški) - je treba dati enemu pogoju svojega računa v vseh predmetih v vzorcu;
? Faktorske spremenljivke je treba izmeriti precej natančno;
? Faktorske spremenljivke morajo biti neodvisne ali minimalno odvisne.

Zahteve homogenosti in popolnosti vzorca so v nasprotju: strožji izbor predmetov po homogenosti, manj je vzorec pridobljen, in, nasprotno, mora vključiti predmete v njem.

Po zbiranju podatkov o skupini homogenih predmetov se izvede njihova analiza, da se vzpostavi oblika komunikacije med nastale in faktorske spremenljivke v obliki teoretične regresijske linije. Postopek iskanja teoretične regresijske linije je razumna izbira približevalne krivulje in izračun koeficientov njegove enačbe. Regresijska linija je gladka krivulja (v zasebnem primeru), ki opisuje s pomočjo matematične funkcije, splošne težnje odvisnosti odvisnosti in glajenje nezakonitih, naključnih emisij iz vpliva stranskih faktorjev.

Za prikaz seznanjenih odvisnosti v seznanjenih regresij pri ocenjenih nalogah se najpogosteje uporabljajo naslednje funkcije: linearno - y - 0 + ars + S. Power - u - AJ & I + C Okvirna - y -linearno indikativno - y - 0 + AR * + C. Tukaj - e. Približno napako, ki jo povzroča dejanje neupravičenih naključnih dejavnikov.

V teh funkcijah, nastala spremenljivka; X - faktorska spremenljivka (faktor); zvezek 0 , r a 2 - Parametri regresije, regresijski koeficienti.

Linearno indikativni model se nanaša na razred tako imenovanih hibridnih modelov oblike:

kje

kjer je H. (I \u003d. 1, /) - vrednosti dejavnikov;

b t (i \u003d 0, /) - koeficienti regresijske enačbe.

V tej enačbi, komponente A, B. in Z. ustrezajo stroškom posameznih sestavin ocenjenega sredstva, na primer, vrednost zemljišča in stroške izboljšav in parametra Q.je pogost. Namenjen je prilagoditi vrednosti vseh sestavin ocenjenega sredstva na splošni faktor vpliva, na primer, lokacijo.

Vrednosti dejavnikov v stopnji ustreznih koeficientov so binarne spremenljivke (0 ali 1). Dejavniki v temeljni stopnji - diskretne ali stalne spremenljivke.

Dejavniki, povezani z množenjem družin, so tudi neprekinjeni ali diskretni.

Specifikacija se praviloma izvaja z uporabo empiričnega pristopa in vključuje dve fazi:

? navajanje na grafikonu točk regresije;
? Grafična (vizualna) analiza vrste možne upogovne krivulje.

Vrsta krivulje regresije ni vedno mogoče takoj izbrati. Da bi to ugotovili, najprej veljajo za grafikon regresijskega polja na izvorne podatke. Nato vizualno vodimo črto na položaju točk, ki želijo ugotoviti kvalitativni vzorec komunikacije: enotno rast ali enotno zmanjšanje, rast (zmanjšanje) s povečanjem (spuščanjem) stopnje zvočnikov, nemotenega približevanja nekaj ravni.

Ta empirični pristop dopolnjuje logična analiza, ki izstopa iz že znanih idej o gospodarski in fizični naravi preiskanih dejavnikov in njihov medsebojni vpliv.

Na primer, je znano, da so odvisnosti nastalih spremenljivk - ekonomske kazalnike (cene, najemi) iz številnih faktorskih spremenljivk - faktorji določanja cen (razdalje iz središča naselja, kvadrata, itd), so nelinearne, in Lahko jih dovolj opišemo z močjo, eksponentno ali kvadratne funkcije.. Toda z majhnimi spremembami sprememb dejavnikov, lahko dobite sprejemljive rezultate z linearno funkcijo.

Če je še vedno nemogoče takoj narediti samozavestne izbire enotne funkcije, nato pa se vzameta dva ali tri funkcije, izračunajo svoje parametre in dodatno z uporabo ustreznih meril za tesnjenje, končno izberite funkcijo.

V teoriji se imenuje regresijski proces iskanja krivulje specifikacija modeli in njegovi koeficienti - praznovanjemodeli.

Če se ugotovi, da je nastala spremenljivka y odvisna od več faktorjev spremenljivk (dejavniki) x (, X2, ..., x K. Ki se zateka k izgradnji večkratnega regresijskega modela. Običajno se uporabljajo tri oblike več komunikacij: linearno - y - in 0 + a x x x + a ^ x 2 + ... + in k x k Okvirna - y - 0 a* JAZ. a x t- in x bpower - y - 0 x x IX 2 A 2. .X ^ ali njihove kombinacije.

Okvirne in zmogljive funkcije so bolj univerzalne, saj približne nelinearne obveznice, ki je večina odvisnosti od preiskovalcev. Poleg tega se lahko uporabijo pri ocenjevanju predmetov in načina statističnega modeliranja med množično oceno, in pri metodi neposredne primerjave pri individualni oceni pri vzpostavljanju korektivnih koeficientov.

V fazi kalibracije se parametri regresijskega modela izračunajo z metodo najmanjših kvadratov, katerega bistvo je, da je vsota kvadratov odstopanj izračunanih vrednosti nastale spremenljivke w.., t.e. Izračunana z izbrano enačbo komuniciranja, od dejanskih vrednosti mora biti minimalna:

Vrednosti j) (. In y. Znano, zato. Q. To je funkcija samo koeficientov enačbe. Za iskanje minimalne S. zasebnih izvedenih finančnih instrumentov Q. Glede na koeficiente enačbe in jih izvažajo na nič:

Posledično dobimo sistem običajnih enačb, katerega število je enako številu določenih koeficientov želene regresijske enačbe.

Postavite, morate najti koeficiente linearne enačbe y - 0 + ars. Vsota kvadratov odstopanj je:

/=1

Različna funkcija Q. Po neznanih koeficientih a 0. in izenačuje zasebne izvedene finančne instrumente na nič:

Po transformacijah dobite:

kje p - Število dejanskih vrednosti vira w. (število analogov).

Zmanjšan postopek za izračun koeficientov regresijske enačbe se uporablja tudi za nelinearne odvisnosti, če so ti odvisnosti lahko linearizirane, t.j. Nizko do linearne oblike z zamenjavo spremenljivk. Power in indikativne funkcije po logaritming in ustrezni zamenjavi spremenljivk pridobijo linearno obliko. Na primer, močna funkcija po lokaritmation pridobi tip: v y \u003d 1pi 0 + A H. 1px. Po zamenjavi spremenljivk Y-V. y, l 0 - V. in številka x-V x smo dobili linearno funkcijo

Y \u003d 0 + cijx, Koeficienti, ki jih najdemo v zgoraj opisani metodi.

Za izračun koeficientov večkratnega regresijskega modela se uporablja najmanjša kvadratna metoda. Torej, sistem običajnih enačb za izračun linearne funkcije z dvema spremenljivkama Xj. in x 2. Po vrsti transformacij je naslednje:

Običajno se ta sistem enačb rešuje z uporabo metod linearne algebre. Funkcija več moči vodi do linearne oblike z logarithing in zamenjajte spremenljivke na enak način kot funkcijo seznanjene moči.

Pri uporabi hibridnih modelov se številni regresijski koeficienti nahajajo z uporabo numeričnih postopkov metode zaporednih približkov.

Za dokončno izbiro več regresijskih enačb je treba preveriti vsako enačbo o tesnosti povezave, ki se meri s korelacijskim koeficientom, disperzijo in razmerju variacij. Uporabite lahko tudi študentska in ribiška merila za vrednotenje. Večja, da je tesnost povezave zazna krivlo, je bolj zaželena od drugih stvari, ki so enake.

Če je naloga tega razreda rešen, ko je treba ugotoviti odvisnost kazalnika vrednosti iz stroškovnih dejavnikov, potem željo, da se upošteva čim bolj vpliva na dejavnike, kot je mogoče, in s tem zgraditi natančnejši večkratni regresijski model. Vendar pa dve objektivni omejitvi preprečujejo širitev števila dejavnikov. Prvič, za izgradnjo večkratnega regresijskega modela, je potreben bistveno bolj obsežen vzorec predmetov, kot je zgradil seznanjen model. Menijo, da mora število predmetov v vzorcu presegati število str Dejavniki vsaj 5-10 krat. Iz tega sledi, da je za izgradnjo modela s tremi vplivnimi dejavniki, je treba zbirati vzorec približno 20 predmetov z različnimi vrednostmi dejavnikov. Drugič, dejavniki, izbrani za model pri njihovem vplivu na kazalnik vrednosti, morajo biti dovolj neodvisni drug od drugega. Težko je zagotoviti, da vzorec običajno združuje predmete, povezane z eno družino, ki imajo naravno spremembo v številnih dejavnikih od predmeta do predmeta.

Kakovost regresijskih modelov se običajno preveri z uporabo naslednjih statističnih kazalnikov.

Standardno odstopanje napak regresijske enačbe (napaka pri oceni):

kje p - volumen vzorčenja (število analogov);

- Število dejavnikov (stroškovni dejavniki);

Napako, ki je nerazložljiva z regresijsko enačbo (Sl. 3.2);

y. - dejanska vrednost nastale spremenljivke (na primer stroški); y t - Izračunana vrednost nastale spremenljivke.

Ta kazalnik se imenuje tudi napaka standardne ocene (napaka hitrosti). Na slikovni točki so navedene posebne vrednosti vzorčenja, simbol je označen s črto povprečnih vrednosti vzorčenja, nagnjena črtna linija je regresijska linija.

Sl. 3.2.

Standardni odklon ocenjevalne napake meri vrednost odstopanja dejanskih vrednosti iz ustreznih vrednosti izračuna w. (pridobljen z regresijskim modelom. Če je vzorec, na katerem je model zgrajen, podrejeni normalnemu zakonu o distribuciji, potem je mogoče trditi, da je 68% realnih vrednosti w.nahaja se v območju w. ± & E. iz regresijske linije in 95% - v območju w. ± 2D E. . Ta kazalnik je primeren, ker merske enote sG? sovpadajo z merskimi enotami w.. V zvezi s tem se lahko uporabi za označevanje natančnosti rezultata, dobljenega v postopku. Na primer, v certifikatu o vrednosti, lahko določite, da vrednost tržne vrednosti, dobljene z uporabo regresijskega modela V. Z verjetnostjo 95% je v območju od (V -2D ,,)prej (U. + 2D S).

Primerjena variacija nastale spremenljivke:

kje y - Povprečna vrednost nastale spremenljivke (slika 3.2).

V regresijski analizi je variacijski koeficient VAR standardni odklon rezultata, izražen kot odstotek povprečne vrednosti nastale spremenljivke. Koeficient variacije lahko služi kot merilo predvidenih lastnosti pridobljenega regresijskega modela: manj kot znesek var.Še posebej visoki so projicirani modeli kakovosti. Uporaba variacijskega koeficienta je bolj zaželena kot indikator in E, saj je relativni kazalnik. S praktično uporabo tega kazalnika je mogoče priporočiti, da model ne uporabljamo, katerega variacijski koeficient presega 33%, saj je v tem primeru nemogoče reči, da so ti vzorci podrejeni običajnim zakonom o distribuciji.

Koeficient določanja (Kvadrat večkratnega korelacijskega koeficienta):

Ta kazalnik se uporablja za analizo splošne kakovosti pridobljene regresijske modela. Označuje, kateri odstotek variacije nastale spremenljivke je pojasnjen z vplivom vseh faktorjev spremenljivk, vključenih v model. Koeficient določanja vedno leži v območju od nič do enega. Bližje vrednost koeficienta določanja na eni, boljši model opisuje začetno število podatkov. Koeficient določanja lahko zastopajo drugače:

Tukaj je napaka, ki jo je pojasnil regresijski model

zvezek - Napaka neizvedljiva

regresijski model. Z gospodarskega vidika, to merilo vam omogoča, da presodite, kakšen odstotek variacije cen je pojasnjeno z regresijsko enačbo.

Natančna meja sprejemljivosti kazalnika R2. Za vse primere je nemogoče določiti. Treba je upoštevati velikost vzorca in smiselno razlago enačbe. Praviloma, ko študirate podatke o istem tipu predmetov, pridobljeno približno istočasno, vrednost R2. ne presega ravni 0,6-0,7. Če so vse napake napovedi nič, t.j. Ko je razmerje med nastalimi in faktorskimi spremenljivkami funkcionalni, R2. =1.

Prilagojen koeficient določanja:

Potreba po uvedbi popravljenega koeficienta določanja je pojasnjena z dejstvom, da s povečanjem števila dejavnikov za Običajni koeficient določanja se skoraj vedno povečuje, vendar se število stopenj svobode zmanjša. (n - na - Ena). Vnesena nastavitev vedno zmanjšuje vrednost R2, Kolikor (P. - 1) \u003e (P- do - eno). Kot rezultat, znesek R2 CKOF) Lahko celo postane negativna. To pomeni, da vrednost R2. Bilo je blizu nič do prilagajanja in delež spremenljive spremenljive razpršenosti je pojasnil z uporabo regresijske enačbe w. zelo majhen.

Obeh možnosti za regresijske modele, ki se razlikujejo po obsegu popravljenega koeficienta določanja, vendar imajo enako dobra druga merila kakovosti, prednostno možnost z veliko vrednostjo prilagojenega koeficienta določanja. Prilagoditev koeficienta določanja se ne izvede, če (P - K): K\u003e 20.

Fisher koeficient:

To merilo se uporablja za oceno pomembnosti koeficienta določanja. Preostala vsota kvadratov predstavlja kazalnik napak na napovedi z regresijo znanih vrednosti vrednosti .. Njegova primerjava z regresijsko količino kvadratov kaže, kolikokrat regresijska odvisnost napoveduje rezultat boljše od povprečja w. . Obstaja tabela kritičnih vrednosti. F R. Fisher koeficient, odvisno od števila stopenj svobode števec - K., imenovalec V 2 \u003d p - K. - 1 in raven pomembnosti a. Če je izračunana vrednost merila ribiškega merilo F R. Več tabularne vrednosti, nato hipoteza za nepomembnost koeficienta določanja, tj. O neskladnosti povezav, določenih v regresijski enačbi, dejansko obstaja, z verjetnostjo p \u003d 1 - in zavrnjena.

Povprečna napaka pri približevanju (Povprečni odstotek) se izračuna kot povprečna relativna razlika, izražena kot odstotek, med dejanskimi in izračunanimi vrednostmi nastale spremenljivke:

Manjša vrednost tega kazalnika, boljša je napovedna kakovost modela. Z vrednostjo tega kazalnika, ne višja od 7% označuje visok natančni model. Če 8 \u003e 15%, govorijo o nezadovoljivi natančnosti modela.

Napaka standardnega regresijskega koeficienta:

kjer (/ i) -1.-diagonalni element matrike (X g x) ~ 1 do - Število dejavnikov;

X - Matrika vrednosti faktorskih spremenljivk:

X 7 - Prenesena matrika vrednosti spremenljivk faktorja;

(Padec) _ | - Matrica, Reverse Matrix.

Manjši ti kazalniki za vsak regresijski koeficient, bolj zanesljivo ocenjevanje ustreznega regresijskega koeficienta.

Merilo študenta (Statistika T-Statistika):

To merilo vam omogoča merjenje stopnje zanesljivosti (pomembnosti) komunikacije zaradi tega regresije koeficienta. Če je izračunana vrednost t.. Več tabularne vrednosti

t. AV, kje. v - P - K - 1 je število stopenj svobode, hipoteza, da je ta koeficient statistično nepomemben, zavrnjen z verjetnostjo (100 - a)%. Obstajajo posebne tabele / distribucije, ki omogočajo določeno stopnjo pomembnosti a in število stopenj svobode V za določitev kritične vrednosti merila. Najpogosteje uporabljena vrednost je 5%.

Multicollalinarity.. Učinek medsebojnih odnosov med faktorskimi spremenljivkami vodi do potrebe po vsebini z omejenim številom. Če to ne bi bilo treba razmisliti, potem lahko sčasoma dobite nelogičen regresijski model. Da bi se izognili negativnemu učinku multikolanarnosti, pred izdelavo večkratne regresije, se izračunajo koeficienti korelacije par r xjxj. med izbranimi spremenljivkami x. in h.

Tukaj Xjx; - Povprečje dela dveh faktorjev spremenljivk;

Xjxj - produkt povprečnih vrednosti dveh faktorjev spremenljivk;

Ocena razpršenosti spremenljivke faktorja X.

Menijo, da sta dve spremenljivki nazadnje povezani med seboj (i.e. Collinear), če je njihov koeficient korelacije v absolutni vrednosti strogo večji od 0,8. V tem primeru je treba katero koli od teh spremenljivk izključiti iz obravnave.

Da bi razširili možnosti ekonomske analize pridobljenih modelov regresij, medija koeficienti elastičnosti Opredeljen s formulo:

kje Xj - Povprečna vrednost ustrezne spremenljivke faktorja;

y - Povprečna vrednost nastale spremenljivke; a i - Regresijski koeficient z ustrezno faktorsko spremenljivko.

Koeficient elastičnosti kaže, koliko odstotkov je povprečna vrednost nastale spremenljive spremembe s spremembo spremenljivke faktorja za 1%, t.j. Kako reagira nastalo spremenljivko, da spremeni spremenljivko faktorja. Na primer, kako se cena četrtine reagira. M kvadratni apartma za odstranjevanje od centra mesta.

Koristno v smislu analize pomembnosti tega ali ta regresijski koeficient je ocena koeficient zasebnega določanja:

Tukaj - ocena disperzije

spremenljivka. Ta koeficient kaže, koliko odstotkov variacije nastale spremenljivke je razloženo z variacijo / v spremenljivki faktorja, ki je vključena v regresijsko enačbo.

V skladu z hedonističnimi značilnostmi so značilnosti predmeta, ki odraža njegovo uporabno (dragoceno) z vidika kupcev in prodajalcev nepremičnine.

Zaradi študije gradiva iz poglavja 4 bi moral študent:

vedeti

Osnovni pojmi regresijske analize;
metode vrednotenja in lastnosti ocen metode najmanjših kvadratov;
Osnovna pravila za preverjanje pomena in intervala ocenjevanje enačb in regresijskih koeficientov;

biti sposoben

Poiščite selektivne podatke, da ocenite parametre dvodimenzionalnih in večkratnih modelov regresijskih enačb, analizirajo njihove lastnosti;
Preverite pomen enačb in regresijskih koeficientov;
Poiščite ocene intervala smiselnih parametrov;

lastnik

spretnosti statistične ocene parametrov dvodimenzionalne in večkratne regresijske enačbe; spretnosti za preverjanje ustreznosti regresijskih modelov;
Veščine pridobivanja regresijske enačbe z vsemi pomembnimi koeficienti z analitično programsko opremo.

Osnovni pojmi

Po analizi korelacije, ko se pokaže prisotnost statistično pomembnih vezi med spremenljivkami, in stopnja njihove razmašenosti se ocenjuje, običajno prenese na matematični opis odvisnosti z uporabo metod regresijske analize. V ta namen izberejo razred funkcij, ki vežejo kazalnik rezultatov w. In argumente "Izračunajo ocene parametrov komunikacijske enačbe in analizirajo točnost pridobljene enačbe.

Funkcija | opisuje odvisnost pogojene povprečne vrednosti rezultata w. iz določenih vrednosti argumentov regresijska enačba.

Izraz "regresija" (iz lat. regresija - umik, vrnitev v nekaj), ki ga je uvedel angleški psiholog in antropolog F. Galton in je povezan z enim od njegovih prvih primerov, v katerih Galton, ki obravnava statistične podatke, ki se nanašajo na vprašanje dednosti rasti, ugotovil, da če se rast očetov odstopa od Povprečna rast Vse Fathersa h. palci, nato pa rast njihovih sinov odstopa od povprečne rasti vseh sinov, manjše kot na x. palcev. Poimenovan trend je bil imenovan regresija srednji državi.

Izraz "regresija" se pogosto uporablja v statistični literaturi, čeprav v mnogih primerih ni natančno natančno označen s statistično odvisnostjo.

Za natančno opisati regresijsko enačbo, je treba vedeti pogojno pravo porazdelitve učinkovitega kazalnika y. V statistični praksi takšne informacije običajno niso možne, tako omejene po iskanju primernih približkov za funkcijo f (X.u. h.2, ... L *) Na podlagi predhodne smiselne analize pojava ali statističnih podatkov o viru.

Kot del ločenih vzorčnih predpostavk o vrsti porazdelitve vektorja kazalnikov<) может быть получен общий вид regresijske enačbekje. Na primer, pod predpostavko, da je preskusni sklop kazalnikov predmet () - dimenzionalni normalni zakon o distribuciji z vektorjem matematičnih pričakovanj.

Kje in matrika kovariance,

kjer disperzijo y,

Regresijska enačba (pogojna matematična pričakovanja) ima obrazec

Torej, če je večdimenzionalna naključna vrednost ()

obeys () -Hell Normal Distribution Law, regresijska enačba učinkovitega kazalnika w. Po razlaganju spremenljivk linearno h. Pogled.

Vendar pa je v statistični praksi običajno treba omejiti iskanje primernih približkov za neznano pravo regresijo. f (x), Ker raziskovalec nima natančnega poznavanja pogojnega zakona o porazdelitvi verjetnosti analiziranega učinka w. Za določene vrednosti argumentov x.

Razmislite o odnosu med resnico, oceno modela regresije. Naj nastale kazalnik w. povezana z argumentom h. Po odnosu

kjer-naključna spremenljivka, ki ima običajen zakon o distribuciji, Fech. Resnična funkcija regresije v tem primeru ima obliko

Recimo, da nam natančna vrsta enačbe prave regresije ni znana, vendar imamo devet opazovanj nad dvodimenzionalno naključno vrednostjo, povezano z razmerjem, prikazanim na sl. 4.1.

Sl. 4.1. Medsebojna lokacija resničnostif (x) in teoretičnouy. Regresijski modeli

Lokacijske točke na sl. 4.1 Omogoča omejevanje razreda linearne odvisnosti odvisnosti

Uporaba metode najmanjših kvadratov bomo našli oceno regresije.

Za primerjavo na sl. 4.1 Navedeni so grafi resnične funkcije regresije teoretične funkcije za približevanje regresije. Slednji se v verjetnosti konvergirajo oceno regresijske enačbe uy. Z neomejenim povečanjem velikosti vzorca ().

Ker smo namesto prave regresijske funkcije napačno izbrali funkcijo linearne regresije, ki je na žalost v praksi statističnih študij, naš statistični zaključki in ocene, ne bodo imeli lastnosti doslednosti, t.j. Torej bi povečali obseg opazovanj, bo ocena našega vzorca konvergirana na pravo funkcijo regresije

Če smo bili pravilno izbrali razred regresijskih funkcij, potem netočnost v opisu z uporabo uy. Razloženo bi bilo le z omejenim vzorcem in je torej mogoče storiti kot majhno kot

Z najboljšim okrevanjem začetnih statističnih podatkov o pogojni vrednosti učinkovitih kazalnikov neznane funkcije regresije se najpogosteje uporabljajo naslednje. merila ustreznosti Funkcije izgube.

1. Najmanj kvadrata, V skladu s katerim kvadrat odstopanj opazovanih vrednosti kazalnika uspešnosti zmanjša, od vzorčnih vrednosti, kjer koeficienti regresijske enačbe; - vrednosti argumentov v "-m opazovanju":

Naloga iskanja evakuacije je rešena. Prejeta regresija se imenuje srednje kvadratna.

2. Metoda najmanjših modulovGlede na katerega količina absolutnih odstopanj opazovanih vrednosti učinkovitega kazalnika iz modularnih vrednosti se zmanjša, t.e.

Prejeta regresija se imenuje sredi pasacle. (Mediana).

3. MINIMAX METODA Gre za zmanjšanje največjega odstopanja modula opazovane vrednosti učinkovitega kazalnika y, iz vzorčnega pomena, t.j.

Recesija, pridobljena hkrati minimax.

V praktičnih aplikacijah se naloge pogosto najdejo, v katerih je preučena naključna vrednost. y, Odvisno od nekaterih vrst spremenljivk neznanih parametrov. Upoštevali bomo () kot (K +. 1) -Mimalna splošna celota, iz katere se vzame naključni vzorec p, kjer () rezultat opazovanja ,. Potrebna z rezultati opazovanja Neznani parametri. Zgoraj opisana naloga se nanaša na naloge regresijske analize.

Regresijska analiza Pokličite metodo statistične analize odvisnosti naključne spremenljivke w. iz spremenljivk, ki se obravnavajo v regresijski analizi kot ne-naključne vrednosti, ne glede na pravo zakonodajo