Regresyon veri analizi örneği. Regresyon analizi yöntemleri

Regresyon analizi

regresyon (doğrusal) analiz- bir veya daha fazla bağımsız değişkenin bağımlı değişken üzerindeki etkisini incelemek için istatistiksel bir yöntem. Bağımsız değişkenler, aksi takdirde, regresörler veya tahmin ediciler olarak adlandırılır ve bağımlı değişkenler, kriter değişkenleridir. terminoloji bağımlı ve bağımsız değişkenler yalnızca değişkenlerin matematiksel bağımlılığını yansıtır ( bkz. Yanlış Korelasyon), neden-sonuç ilişkileri değil.

Regresyon Analizinin Amaçları

  1. Kriter (bağımlı) değişkeninin yordayıcılarla (bağımsız değişkenler) varyasyonunun determinizm derecesinin belirlenmesi
  2. Bağımsız(lar)ı kullanarak bağımlı değişkenin değerini tahmin etme
  3. Bireysel bağımsız değişkenlerin bağımlı değişkenin varyasyonuna katkısının belirlenmesi

Regresyon analizi, değişkenler arasında bir ilişkinin varlığını belirlemek için kullanılamaz, çünkü böyle bir ilişkinin varlığı, analizin uygulanması için bir ön koşuldur.

Regresyonun matematiksel tanımı

Kesin olarak regresyon bağımlılığı aşağıdaki gibi tanımlanabilir. Belirli bir ortak olasılık dağılımına sahip rastgele değişkenler olsun. Her değer kümesi için koşullu bir beklenti tanımlanırsa

(genel regresyon denklemi),

sonra fonksiyon çağrılır gerileme büyüklükler cinsinden Y'nin büyüklüğü ve grafiği regresyon hattı tarafından veya regresyon denklemi.

Bağımlılık, değişirken Y'nin ortalama değerlerindeki değişiklikte kendini gösterir. Her sabit değer kümesi için, miktar belirli bir saçılma ile rastgele bir miktar olarak kalır.

Regresyon analizinin, değişirken Y'deki değişimi ne kadar doğru tahmin ettiği sorusunu açıklığa kavuşturmak için, farklı değer kümeleri için Y varyansının ortalama değeri kullanılır (aslında gelir bağımlı değişkenin regresyon çizgisi etrafındaki dağılımının ölçüsüne göre).

En küçük kareler yöntemi (katsayıların hesaplanması)

Pratikte, regresyon çizgisi en çok şu şekilde aranır: doğrusal fonksiyon(doğrusal regresyon) istenen eğriye en uygun olanıdır. Bu, tahminlerinden fiilen gözlemlenen sapmaların karelerinin toplamı en aza indirildiğinde en küçük kareler yöntemi kullanılarak yapılır (istenen regresyon bağımlılığını temsil ettiğini iddia eden düz bir çizgi kullanan tahminleri kastediyoruz):

(M örnek boyutudur). Bu yaklaşım gerçeğe dayanmaktadır. bilinen gerçek yukarıdaki ifadede görünen toplam, tam olarak ne zaman olduğu durum için minimum değeri alır.

Sorunu çözmek regresyon analizi en küçük kareler yöntemi kavramı tanıtır artık fonksiyonlar:

Artık fonksiyon için minimum koşul:

Ortaya çıkan sistem, bilinmeyenli bir lineer denklem sistemidir.

Denklemlerin sol tarafındaki serbest terimleri matris ile temsil edersek

ve matrisin sağ tarafında bilinmeyenlerin katsayıları

sonra Gauss yöntemiyle kolayca çözülen matris denklemini elde ederiz:. Ortaya çıkan matris, regresyon çizgisi denkleminin katsayılarını içeren bir matris olacaktır:

almak için en iyi notlar OLS ön koşullarının (Gauss-Markov koşulları) yerine getirilmesi gereklidir. İngilizce literatürde, bu tür tahminlere MAVİ (En İyi Doğrusal Tarafsız Tahminciler) denir - en iyi doğrusal tarafsız tahminler.

Regresyon Parametrelerini Yorumlama

Parametreler kısmi korelasyon katsayılarıdır; diğer tahmin edicilerin etkisi konsolide edildiğinde açıklanan Y varyansının oranı olarak yorumlanır, yani Y'nin açıklamasına bireysel katkıyı ölçer. İlişkili tahmin ediciler söz konusu olduğunda, tahminlerde belirsizlik sorunu ortaya çıkar ve bu tahmin edicilerin modele dahil edilme sırasına bağlı hale gelir. Bu gibi durumlarda korelasyon analizi ve kademeli regresyon analizi yöntemlerinin kullanılması gerekir.

Doğrusal olmayan regresyon analizi modellerinden bahsederken, bağımsız değişkenlerdeki doğrusallıktan mı (resmi bir bakış açısından, doğrusal regresyona kolayca indirgenebilir) yoksa tahmin edilen parametrelerdeki doğrusallıktan mı (ciddi hesaplamalara neden olan) bahsettiğimize dikkat etmek önemlidir. zorluklar). İlk türün doğrusal olmaması durumunda, anlamlı bir bakış açısından, özellikler arasındaki etkileşimlerin varlığını gösteren, vb. (bkz. Çoklu Bağlantı) modeldeki tür üyelerinin görünümünü vurgulamak önemlidir.

Ayrıca bakınız

Bağlantılar

  • www.kgafk.ru - "Regresyon analizi" konulu ders
  • www.basegroup.ru - regresyon modellerinde değişken seçme yöntemleri

Edebiyat

  • Norman Draper, Harry Smith Uygulamalı regresyon analizi. Çoklu Regresyon = Uygulamalı Regresyon Analizi. - 3. baskı. - E.: "Diyalektik", 2007. - S. 912. - ISBN 0-471-17082-8
  • İstatistiksel Modellerin Tahmin Edilmesi için Sürdürülebilir Yöntemler: Monograf. - K.: PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5: 515.126.2, BBK 22.172 + 22.152
  • Stanislav Radchenko, Regresyon Analizi Metodolojisi: Monograf. - K.: "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

Wikimedia Vakfı. 2010.

İstatistiksel modellemede regresyon analizi, değişkenler arasındaki ilişkiyi değerlendirmek için kullanılan bir çalışmadır. Bu matematiksel teknik, bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiye odaklanan, birden fazla değişkeni modelleme ve analiz etmeye yönelik diğer birçok tekniği içerir. Daha spesifik olarak, regresyon analizi, diğer açıklayıcı değişkenler sabit kalırken açıklayıcı değişkenlerden biri değişirse bağımlı değişkenin tipik değerinin nasıl değiştiğini anlamanıza yardımcı olur.

Her durumda, hedef puan açıklayıcı değişkenlerin bir fonksiyonudur ve regresyon fonksiyonu olarak adlandırılır. Regresyon analizinde, bağımlı değişkendeki değişimi, bir olasılık dağılımı kullanılarak tanımlanabilen bir regresyon fonksiyonu olarak karakterize etmek de ilgi çekicidir.

Regresyon Analizi Görevleri

Bu istatistiksel araştırma yöntemi, kullanımının önemli bir avantajı olduğu, ancak bazen yanılsamaya veya yanlış tutumlara yol açabileceği tahminlerde yaygın olarak kullanılmaktadır, bu nedenle, örneğin korelasyon anlamına gelmediğinden, bu konuda dikkatli kullanılması önerilir. nedensellik.

Tarafından dizayn edilmiştir Büyük sayı parametrik olan doğrusal ve sıradan en küçük kareler regresyonu gibi regresyon analizi gerçekleştirme yöntemleri. Bunların özü, regresyon fonksiyonunun, verilerden tahmin edilen sonlu sayıda bilinmeyen parametre cinsinden tanımlanmasıdır. Parametrik olmayan regresyon, fonksiyonlarının sonsuz boyutlu olabilen belirli bir fonksiyon setinde yatmasına izin verir.

İstatistiksel bir araştırma yöntemi olarak, pratikte regresyon analizi, veri üretme sürecinin biçimine ve bunun regresyon yaklaşımıyla ilişkisine bağlıdır. Bir veri sürecinin gerçek biçimi genellikle bilinmeyen bir sayı olduğundan, verilerin regresyon analizi genellikle bir dereceye kadar süreçle ilgili varsayımlara bağlıdır. Yeterli veri varsa, bu varsayımlar bazen test edilebilir. Regresyon modelleri, mümkün olduğu kadar verimli çalışmasalar da, varsayımlar orta düzeyde bozulduğunda bile genellikle yararlıdır.

Daha dar bir anlamda, regresyon, sınıflandırmada kullanılan ayrık yanıt değişkenlerinin aksine, özellikle sürekli yanıt değişkenlerinin tahminine atıfta bulunabilir. Sürekli çıktı değişkeninin durumu, onu ilgili problemlerden ayırt etmek için metrik regresyon olarak da adlandırılır.

Tarih

En eski regresyon şekli, iyi bilinen en küçük kareler yöntemidir. 1805'te Legendre ve 1809'da Gauss tarafından yayınlandı. astronomik gözlemler Güneş etrafındaki cisimlerin yörüngeleri (çoğunlukla kuyruklu yıldızlar, ancak daha sonra yeni keşfedilen küçük gezegenler). Gauss, 1821'de Gauss-Markov teoreminin bir versiyonu da dahil olmak üzere en küçük kareler teorisinin daha da geliştirilmesini yayınladı.

"Gerileme" terimi, 19. yüzyılda Francis Galton tarafından biyolojik fenomen... Sonuç olarak, ataların büyümesinden doğan yavruların büyümesi, kural olarak, normal ortalamaya geriler. Galton için regresyon yalnızca bu biyolojik anlama sahipti, ancak daha sonra çalışmaları Udney Yoley ve Karl Pearson tarafından devam ettirildi ve daha genel bir istatistiksel bağlama getirildi. Yule ve Pearson'ın çalışmasında, yanıt ve açıklayıcı değişkenlerin ortak dağılımı Gauss olarak kabul edilir. Bu varsayım, 1922 ve 1925'te Fisher tarafından reddedildi. Fisher, yanıt değişkeninin koşullu dağılımının Gauss olduğunu, ancak ortak dağılımın olmaması gerektiğini öne sürdü. Bu bağlamda Fisher'in varsayımı Gauss'un 1821'deki formülasyonuna daha yakındır. 1970 yılına kadar regresyon analizinin sonucunun alınması bazen 24 saati bulmaktaydı.

Regresyon analizi yöntemleri aktif bir araştırma alanı olmaya devam etmektedir. Son yıllarda, sağlam regresyon için yeni yöntemler geliştirildi; ilişkili yanıtlarla regresyon; içeren regresyon yöntemleri farklı şekiller kayıp veri; parametrik olmayan regresyon; Bayesian regresyon yöntemleri; tahmin değişkenlerinin hata içinde ölçüldüğü regresyonlar; gözlemlerden daha fazla yordayıcı ile regresyon ve regresyon ile nedensel çıkarımlar.

Regresyon modelleri

Regresyon analizi modelleri aşağıdaki değişkenleri içerir:

  • Bir skaler veya vektör olabilen bilinmeyen parametreler, beta ile gösterilir.
  • Bağımsız değişkenler, X.
  • Bağımlı değişkenler, Y.

Regresyon analizinin uygulandığı çeşitli bilim alanlarında bağımlı ve bağımsız değişkenler yerine farklı terimler kullanılır, ancak her durumda regresyon modeli Y'yi X ve β'nın bir fonksiyonuna atar.

Yaklaşım genellikle E (Y | X) = F (X, β) biçiminde yazılır. Regresyon analizini gerçekleştirmek için f fonksiyonunun formu belirlenmelidir. Daha az yaygın olarak, verilere dayanmayan Y ve X arasındaki ilişkinin bilgisine dayanır. Böyle bir bilgi mevcut değilse, esnek veya rahat şekil F.

Bağımlı değişken Y

Şimdi, β bilinmeyen parametre vektörünün k uzunluğuna sahip olduğunu varsayalım. Regresyon analizini gerçekleştirmek için kullanıcının bağımlı değişken Y hakkında bilgi sağlaması gerekir:

  • (Y, X) biçimindeki N veri noktası gözlenirse, burada N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет yeterβ kurtarmak için veriler.
  • Tam olarak N = K gözlenirse ve F fonksiyonu lineer ise, o zaman Y = F (X, β) denklemi yaklaşık olarak değil tam olarak çözülebilir. Bu, X lineer olarak bağımsız olduğu sürece benzersiz bir çözüme sahip olan N-bilinmeyenlerle (elemanlar β) bir N-denklemleri kümesini çözmeye indirgenir. F doğrusal değilse, çözüm olmayabilir veya birçok çözüm olabilir.
  • En yaygın durum, verilere N> noktalarının gözlenmesidir. Bu durumda, verilere en iyi uyan β için benzersiz değeri tahmin etmek için verilerde yeterli bilgi ve verilere uygulamanın β'da bir üstbelirlenmiş sistem olarak görülebileceği bir regresyon modeli vardır.

İkinci durumda, regresyon analizi aşağıdakiler için araçlar sağlar:

  • Bilinmeyen β parametreleri için, örneğin ölçülen ve tahmin edilen Y değeri arasındaki mesafeyi en aza indirecek bir çözüm arayın.
  • Belirli istatistiksel varsayımlar altında, regresyon analizi, bağımlı değişken Y'nin bilinmeyen β parametreleri ve tahmin edilen değerleri hakkında istatistiksel bilgi sağlamak için fazla bilgiyi kullanır.

Gerekli sayıda bağımsız ölçüm

Üç bilinmeyen parametresi olan bir regresyon modeli düşünün: β 0, β 1 ve β 2. Deneycinin X vektörü için bağımsız değişkenin aynı değeri üzerinde 10 ölçüm yaptığını varsayalım. Bu durumda, regresyon analizi benzersiz bir değerler seti sağlamaz. Yapılacak en iyi şey, bağımlı değişken Y'nin ortalamasını ve standart sapmasını tahmin etmektir. Benzer şekilde, iki farklı X değerini ölçerek, üç veya daha fazla bilinmeyenle değil, iki bilinmeyenle gerilemeye yetecek kadar veri elde edebilirsiniz.

Deneycinin ölçümleri X vektörünün bağımsız değişkeninin üç farklı değerinde yapılmışsa, regresyon analizi β'daki üç bilinmeyen parametre için benzersiz bir tahmin seti sağlayacaktır.

Genel doğrusal regresyon durumunda, yukarıdaki ifade X T X matrisinin ters çevrilebilir olması şartına eşdeğerdir.

İstatistiksel varsayımlar

Ölçüm sayısı N, bilinmeyen parametrelerin sayısından ve ölçüm hatalarından ε i büyük olduğunda, kural olarak, ölçümlerde yer alan fazla bilgi yayılır ve bilinmeyen parametrelerle ilgili istatistiksel tahminler için kullanılır. Bu bilgi fazlalığına regresyonun serbestlik derecesi denir.

Temel varsayımlar

Regresyon analizi için klasik varsayımlar şunları içerir:

  • Örnek, çıkarımı tahmin etmenin bir temsilcisidir.
  • hata rastgele değişken açıklayıcı değişkenlere bağlı olan sıfır ortalaması ile.
  • Açıklayıcı değişkenler hatasız ölçülür.
  • Bağımsız değişkenler (yordayıcılar) olarak doğrusal olarak bağımsızdırlar, yani herhangi bir yordayıcıyı diğerlerinin doğrusal bir bileşimi olarak ifade etmek mümkün değildir.
  • Hatalar korelasyonsuzdur, yani köşegenlerin hata kovaryans matrisi ve sıfırdan farklı her bir eleman hatanın varyansıdır.
  • Gözlemlere göre hatanın varyansı sabittir (homosedastisite). Değilse, ağırlıklı en küçük kareler veya diğer yöntemler kullanılabilir.

Bunlar yeterli koşullar en küçük kareler tahmini gerekli özelliklere sahiptir, özellikle bu varsayımlar, parametre tahminlerinin, özellikle doğrusal tahminler sınıfında dikkate alındığında, nesnel, tutarlı ve etkili olacağı anlamına gelir. Kanıtların koşulları nadiren karşıladığını belirtmek önemlidir. Yani varsayımlar doğru olmasa bile yöntem kullanılır. Varsayımlardan sapma bazen modelin ne kadar yararlı olduğunun bir ölçüsü olarak kullanılabilir. Bu varsayımların çoğu, daha gelişmiş yöntemlerle gevşetilebilir. İstatistiksel analiz raporları, tipik olarak, modelin kullanışlılığı için örnek verilere ve metodolojiye karşı testlerin analizini içerir.

Ayrıca değişkenler bazı durumlarda nokta konumlarında ölçülen değerleri ifade eder. Mekansal eğilimler olabilir ve uzaysal otokorelasyon istatistiksel varsayımları ihlal eden değişkenlerde. Coğrafi Ağırlıklı Regresyon, bu tür verilerle ilgilenen tek tekniktir.

Doğrusal regresyonda özellik, Y i olan bağımlı değişkenin, parametrelerin doğrusal bir birleşimi olmasıdır. Örneğin, basit doğrusal regresyon, n noktalarını modellemek için bir bağımsız değişken, x i ve iki parametre, β 0 ve β 1 kullanır.

Çoklu doğrusal regresyonda, birkaç bağımsız değişken veya işlevleri vardır.

Bir popülasyondan rastgele örneklendiğinde, parametreleri doğrusal regresyon modelinin bir örneğini sağlar.

Bu açıdan en küçük kareler yöntemi en popüler olanıdır. Artıkların karelerinin toplamını en aza indiren parametre tahminlerini elde etmek için kullanılır. Bu fonksiyonun bu tür minimizasyonu (doğrusal regresyonun özelliğidir), bir dizi normal denkleme ve parametre tahminlerini elde etmek için çözülen parametreli bir dizi doğrusal denkleme yol açar.

Popülasyon hatasının genellikle yayıldığı varsayımı altında, araştırmacı, güven aralıkları oluşturmak ve parametreleri hakkında hipotezleri test etmek için bu standart hata tahminlerini kullanabilir.

Doğrusal Olmayan Regresyon Analizi

Fonksiyonun parametrelere göre doğrusal olmadığı bir örnek, yinelemeli bir prosedür kullanılarak kareler toplamının minimize edilmesi gerektiğini gösterir. Bu, doğrusal ve doğrusal olmayan en küçük kareler arasında ayrım yapan birçok karmaşıklığı beraberinde getirir. Sonuç olarak, doğrusal olmayan bir yöntem kullanıldığında regresyon analizinin sonuçları bazen tahmin edilemez.

Güç ve numune boyutunun hesaplanması

Modeldeki açıklayıcı değişkenlerin sayısına karşı gözlem sayısı için genellikle tutarlı bir yöntem yoktur. İlk kural Dobra ve Hardin tarafından önerildi ve N = t ^ n'ye benziyor, burada N örneklem büyüklüğü, n bağımsız değişkenlerin sayısı ve t, model varsa istenen doğruluğu elde etmek için gereken gözlem sayısıdır. sadece bir bağımsız değişken. Örneğin, bir araştırmacı 1000 hasta (N) içeren bir veri kümesini kullanarak doğrusal bir regresyon modeli oluşturur. Araştırmacı, düz çizgiyi (m) doğru bir şekilde belirlemek için beş gözlem gerektiğine karar verirse, modelin destekleyebileceği maksimum bağımsız değişken sayısı 4'tür.

Diğer yöntemler

Bir regresyon modelinin parametreleri genellikle en küçük kareler yöntemi kullanılarak tahmin edilse de, daha az sıklıkla kullanılan başka yöntemler de vardır. Örneğin, bunlar aşağıdaki yöntemlerdir:

  • Bayes yöntemleri (örneğin, Bayes doğrusal regresyon yöntemi).
  • Yüzde regresyonu, yüzde hatalarını düşürmenin daha uygun olduğu durumlarda kullanılır.
  • Kuantil regresyona yol açan aykırı değerlerin varlığında daha sağlam olan en küçük mutlak sapmalar.
  • Çok sayıda gözlem ve hesaplama gerektiren parametrik olmayan regresyon.
  • Belirli bir girdi uzayında anlamlı bir uzaklık metriği aranırken öğrenilen uzaktan öğrenme metriği.

Yazılım

Tüm önemli istatistiksel yazılım paketleri, en küçük kareler regresyon analizi kullanılarak gerçekleştirilir. Basit Doğrusal Regresyon ve Çoklu Regresyon Analizi, bazı hesaplayıcıların yanı sıra bazı hesap tablosu uygulamalarında da kullanılabilir. Birçok istatistiksel yazılım paketi, çeşitli parametrik olmayan ve sağlam regresyon türlerini gerçekleştirebilse de, bu yöntemler daha az standartlaştırılmıştır; farklı yazılım paketleri farklı yöntemler uygular. Anket analizi ve nörogörüntüleme gibi alanlarda kullanılmak üzere özel regresyon yazılımı geliştirilmiştir.

Regresyon analizinin ana özelliği: yardımıyla, çalışılan değişkenler arasındaki ilişkinin şekli ve doğası hakkında özel bilgiler alabilirsiniz.

Regresyon Analizi Adımlarının Sırası

Regresyon analizinin aşamalarını kısaca ele alalım.

    Problem cümlesi. Bu aşamada, araştırılan fenomenlerin bağımlılığı hakkında ön hipotezler oluşturulur.

    Bağımlı ve bağımsız (açıklayıcı) değişkenlerin belirlenmesi.

    İstatistiksel verilerin toplanması. Regresyon modelinde yer alan değişkenlerin her biri için veri toplanmalıdır.

    İletişim biçimi hakkında bir hipotezin oluşturulması (basit veya çoklu, doğrusal veya doğrusal olmayan).

    Tanım regresyon fonksiyonları (regresyon denkleminin parametrelerinin sayısal değerlerinin hesaplanmasından oluşur)

    Regresyon analizinin doğruluğunun tahmini.

    Elde edilen sonuçların yorumlanması. Regresyon analizinin elde edilen sonuçları, ön hipotezlerle karşılaştırılır. Elde edilen sonuçların doğruluğu ve olasılığı değerlendirilir.

    Tahmin değil bilinen değerler bağımlı değişken.

Regresyon analizi yardımıyla tahmin ve sınıflandırma problemini çözmek mümkündür. Parametre regresyon denkleminde açıklayıcı değişken değerleri yerine konularak tahmin edilen değerler hesaplanır. Sınıflandırma problemi şu şekilde çözülür: regresyon çizgisi, tüm nesne kümesini iki sınıfa böler ve kümenin fonksiyonun değerinin sıfırdan büyük olduğu kısmı bir sınıfa ve olduğu kısım bir sınıfa aittir. sıfırdan küçük başka bir sınıfa aittir.

Regresyon Analizi Görevleri

Regresyon analizinin ana görevlerini göz önünde bulundurun: bağımlılık biçimini belirleme, belirleme regresyon fonksiyonları, bağımlı değişkenin bilinmeyen değerlerinin tahmini.

Bağımlılık biçiminin oluşturulması.

Değişkenler arasındaki bağımlılığın doğası ve biçimi, aşağıdaki regresyon türlerini oluşturabilir:

    pozitif lineer regresyon (fonksiyonun tek tip büyümesinde ifade edilir);

    pozitif üniform artan regresyon;

    pozitif, sürekli artan gerileme;

    negatif doğrusal regresyon (fonksiyonun tek tip düşüşü olarak ifade edilir);

    negatif tekdüze azalan regresyon;

    negatif, eşit yavaş azalan regresyon.

Bununla birlikte, açıklanan çeşitler genellikle saf halde değil, birbirleriyle kombinasyon halinde bulunur. Bu durumda, birleşik regresyon biçimlerinden söz edilir.

Regresyon fonksiyonunun belirlenmesi.

İkinci görev, ana faktörlerin veya nedenlerin bağımlı değişkeni üzerindeki etkisini, diğer tüm şeyler eşitken ve rastgele öğelerin bağımlı değişkeni üzerindeki etkinin dışlanmasına tabi olarak bulmaktır. Regresyon fonksiyonuşu veya bu türden bir matematiksel denklem olarak tanımlanır.

Bağımlı değişkenin bilinmeyen değerlerinin tahmin edilmesi.

Bu sorunun çözümü, türlerden birinin sorununu çözmeye indirgenmiştir:

    İlk verilerin dikkate alınan aralığı içinde bağımlı değişkenin değerlerinin tahmini, yani. kayıp değerler; bu enterpolasyon problemini çözer.

    Bağımlı değişkenin gelecekteki değerlerinin tahmini, yani. ilk verilerin belirtilen aralığının dışındaki değerleri bulmak; bu ekstrapolasyon problemini çözer.

Her iki problem de, bağımsız değişkenlerin değerlerinin parametrelerinin bulunan tahminlerini regresyon denklemine koyarak çözülür. Denklemin çözülmesinin sonucu, hedef (bağımlı) değişkenin değerinin bir tahminidir.

Regresyon analizinin dayandığı bazı varsayımlara bakalım.

Doğrusallık varsayımı, yani incelenen değişkenler arasındaki ilişkinin doğrusal olduğu varsayılır. Bu nedenle, ele alınan örnekte bir dağılım diyagramı oluşturduk ve açık bir doğrusal ilişki görebildik. Değişkenlerin saçılma diyagramında doğrusal bir ilişkinin açık bir şekilde yokluğunu görürsek, yani. doğrusal olmayan bir ilişki varsa, doğrusal olmayan analiz yöntemleri kullanılmalıdır.

normallik varsayımı kalanlar... Tahmin edilen ve gözlenen değerler arasındaki farkın dağılımının normal olduğunu varsayar. Dağıtımın doğasını görsel olarak belirlemek için histogramları kullanabilirsiniz. kalanlar.

Regresyon analizini kullanırken, ana sınırlamasını aklınızda tutmalısınız. Regresyon analizinin, bu bağımlılıkların altında yatan bağlantıları değil, yalnızca bağımlılıkları bulmanıza izin vermesi gerçeğinden oluşur.

Regresyon analizi, bir değişkenin tahmin edilen değerini bilinen birkaç değere dayalı olarak hesaplayarak değişkenler arasındaki ilişkinin derecesini tahmin etmeyi mümkün kılar.

Regresyon denklemi.

Regresyon denklemi şöyle görünür: Y = a + b * X

Bu denklem, Y değişkenini a sabiti ve düz çizginin (veya eğimin) b eğimi ile X değişkeninin değeri olarak ifade eder.a sabitine kesişme noktası da denir ve eğim, regresyon katsayısı veya B'dir. katsayı.

Çoğu durumda (her zaman olmasa da), regresyon çizgisine göre belirli bir gözlem dağılımı vardır.

Kalan tek bir noktanın (gözlem) regresyon çizgisinden (tahmin edilen değer) sapmasıdır.

MS Excel'de regresyon analizi problemini çözmek için menüden seçin Hizmet"Analiz paketi" ve "Regresyon" analiz aracı. X ve Y giriş aralıklarını ayarladık. Giriş aralığı Y, analiz edilecek bağımlı veri aralığıdır, bir sütun içermelidir. Giriş X aralığı, analiz edilmesi gereken bağımsız veri aralığıdır. Giriş aralığı sayısı 16'dan fazla olmamalıdır.

Çıktı aralığında prosedürün çıktısında verilen raporu alıyoruz. tablo 8.3a-8.3c.

SONUÇLARIN SONUÇLARI

Tablo 8.3a. Regresyon istatistikleri

Regresyon istatistikleri

Çoklu R

R Meydanı

Normalleştirilmiş R-kare

Standart hata

gözlemler

İlk olarak, aşağıda sunulan hesaplamaların üst kısmını düşünün. tablo 8.3a, - regresyon istatistikleri.

Miktar R Meydanı kesinlik ölçüsü olarak da adlandırılan , elde edilen regresyon çizgisinin kalitesini karakterize eder. Bu kalite, orijinal veriler ile regresyon modeli (hesaplanan veriler) arasındaki uyum derecesi ile ifade edilir. Kesinliğin ölçüsü her zaman aralık içindedir.

Çoğu durumda, değer R Meydanı aşırı olarak adlandırılan bu değerler arasında yer alır, yani. sıfır ile bir arasında.

eğer değer R Meydanı bire yakın, bu, oluşturulan modelin karşılık gelen değişkenlerin neredeyse tüm değişkenliğini açıkladığı anlamına gelir. Buna karşılık, değer R Meydanı, sıfıra yakın, inşa edilen modelin kalitesiz olduğu anlamına gelir.

Örneğimizde, kesinlik ölçüsü 0.99673'tür ve bu, regresyon çizgisinin orijinal verilere çok iyi uyduğunu gösterir.

çoğul R - çoklu korelasyon katsayısı R - bağımsız değişkenlerin (X) ve bağımlı değişkenin (Y) bağımlılık derecesini ifade eder.

Çoklu R eşittir kare kök belirleme katsayısından, bu değer sıfırdan bire kadar olan değerler alır.

Basit doğrusal regresyon analizinde çoğul R Pearson korelasyon katsayısına eşittir. Gerçekten mi, çoğul R bizim durumumuzda, önceki örnekteki Pearson korelasyon katsayısına (0,998364) eşittir.

Tablo 8.3b. Regresyon katsayıları

oranlar

Standart hata

t-istatistikleri

Y-kavşak

Değişken X 1

* Gösterilen, hesaplamaların kesilmiş bir versiyonudur

Şimdi burada sunulan hesaplamaların orta kısmına bakalım. tablo 8.3b... Burada regresyon katsayısı b (2.305454545) ve ordinat boyunca kayma verilmiştir, yani. sabit a (2.694545455).

Hesaplamalara dayanarak, regresyon denklemini aşağıdaki gibi yazabiliriz:

Y = x * 2.305454545 + 2.694545455

Değişkenler arasındaki ilişkinin yönü, regresyon katsayılarının (b katsayısı) işaretlerine (negatif veya pozitif) göre belirlenir.

Regresyon katsayısının işareti pozitif ise bağımlı değişken ile bağımsız değişken arasındaki ilişki pozitif olacaktır. Bizim durumumuzda regresyon katsayısının işareti pozitiftir, dolayısıyla ilişki de pozitiftir.

Regresyon katsayısının işareti negatif ise bağımlı değişken ile bağımsız değişken arasındaki ilişki negatiftir (ters).

İÇİNDE Tablo 8.3c... çıktı sonuçları sunulur kalanlar... Bu sonuçların raporda görünmesi için "Regression" aracını başlatırken "Residuals" onay kutusunun aktif hale getirilmesi gerekmektedir.

ÇEKİLME KALAN

Tablo 8.3c. Kalanlar

Gözlem

Tahmini Y

Kalanlar

Standart kalıntılar

Raporun bu bölümünün yardımıyla, çizilen regresyon çizgisinden her noktanın sapmasını görebiliriz. En yüksek mutlak değer kalan bizim durumumuzda - 0.778, en küçüğü 0.043'tür. Bu verilerin daha iyi yorumlanması için, ilk verilerin grafiğini ve aşağıda sunulan çizilen regresyon çizgisini kullanacağız. incir. 8.3... Gördüğünüz gibi, regresyon çizgisi, orijinal verilerin değerlerine oldukça doğru bir şekilde "uyumlu".

Söz konusu örneğin oldukça basit olduğu ve yüksek kaliteli bir doğrusal regresyon çizgisi oluşturmanın her zaman mümkün olmadığı akılda tutulmalıdır.

İncir. 8.3. Ham veri ve regresyon çizgisi

Bağımsız değişkenin bilinen değerlerine dayalı olarak bağımlı değişkenin bilinmeyen gelecek değerlerinin tahmin edilmesi sorunu göz ardı edilmiştir, yani. tahmin problemi.

Bir regresyon denklemine sahip olan tahmin problemi, Y = x * 2.305454545 + 2.694545455 denklemini bilinen x değerleriyle çözmeye indirgenir. Bağımlı değişken Y'nin altı adım ilerisini tahmin etmenin sonuçları sunulmuştur. tablo 8.4'te.

Tablo 8.4. Y değişkeni tahmin sonuçları

Y (öngörülen)

Böylece, Microsoft Excel paketinde regresyon analizi kullanmanın bir sonucu olarak:

    bir regresyon denklemi oluşturdu;

    değişkenler arasındaki ilişkinin bağımlılık biçimini ve yönünü belirledi - fonksiyonun tek biçimli büyümesinde ifade edilen pozitif doğrusal regresyon;

    değişkenler arasındaki ilişkinin yönünü belirledi;

    elde edilen regresyon çizgisinin kalitesini değerlendirdi;

    orijinal kümenin verilerinden hesaplanan verilerin sapmalarını görebildi;

    bağımlı değişkenin gelecekteki değerlerini tahmin etti.

Eğer bir regresyon fonksiyonu belirlenir, yorumlanır ve gerekçelendirilir ve regresyon analizinin doğruluğunun değerlendirilmesi gereksinimleri karşılarsa, oluşturulan modelin ve tahmin edilen değerlerin yeterli güvenilirliğe sahip olduğunu varsayabiliriz.

Bu şekilde elde edilen tahmin değerleri, beklenebilecek ortalama değerlerdir.

Bu çalışmamızda temel özelliklerini inceledik. tanımlayıcı istatistikler ve bunların arasında gibi kavramlar vardır anlamına gelmek,medyan,maksimum,asgari ve veri varyasyonunun diğer özellikleri.

kavramı emisyonlar... Göz önünde bulundurulan özellikler, sözde keşifsel veri analizi ile ilgilidir, sonuçları genel popülasyon için değil, yalnızca bir veri örneği için geçerli olabilir. Keşfedici veri analizi, birincil sonuçlar çıkarmak ve popülasyon hakkında hipotezler oluşturmak için kullanılır.

Korelasyon ve regresyon analizinin temelleri, görevleri ve pratik kullanım olanakları da dikkate alındı.

Regresyon analizi, maliyet tahmin modelini içeren çoğu ekonometrik modelin oluşturulmasının temelidir. Değerleme modelleri oluşturmak için, analogların sayısı (karşılaştırılabilir nesneler) ve değer faktörlerinin sayısı (karşılaştırma öğeleri) aşağıdaki gibi birbiriyle ilişkiliyse bu yöntem kullanılabilir: P> (5 -g-10) x için,şunlar. maliyet faktörlerinden 5-10 kat daha fazla analog olmalıdır. Veri miktarının oranı ve faktör sayısı için aynı gereklilik diğer görevler için de geçerlidir: nesnenin maliyeti ile tüketici parametreleri arasında bir ilişki kurmak; düzeltici endeksleri hesaplama prosedürünün doğrulanması; fiyat trendlerinin netleştirilmesi; aşınma ve yıpranma ile etkileyen faktörlerdeki değişiklikler arasında bir bağlantı kurmak; maliyet standartlarını hesaplamak için bağımlılıklar elde etmek, vb. Rastgele değişkenlerin normal dağılımının gerekliliğini karşılamayan bir veri örneğiyle çalışma olasılığını azaltmak için bu gereksinimin yerine getirilmesi gereklidir.

Regresyon ilişkisi, yalnızca bir veya daha fazla faktör değişkenindeki (örneğin, konum, oda sayısı, alan, kat, vb.) değişikliklerden ortaya çıkan değişkenin (örneğin maliyet) ortalama eğilimini yansıtır. Bu, sonuç değişkeninin değerinin, faktör değişkenlerinin belirli bir değeri için kesin olarak tanımlandığı, regresyon ilişkisi ile işlevsel olan arasındaki farktır.

Sonuç arasında bir regresyon ilişkisinin varlığı / de ve faktöriyel değişkenler x p ..., x'e(faktörler), bu ilişkinin sadece seçilen faktör değişkenlerinin etkisiyle değil, bazıları genellikle bilinmeyen, diğerleri tahmin edilemeyen ve dikkate alınamayan değişkenlerin etkisiyle belirlendiğini gösterir:

Açıklanmayan değişkenlerin etkisi, bu denklemin ikinci terimi ile gösterilir. ?, buna yaklaşım hatası denir.

Aşağıdaki regresyon bağımlılığı türleri vardır:

  • ? eşleştirilmiş regresyon - iki değişken arasındaki ilişki (sonuçlanan ve faktöriyel);
  • ? çoklu regresyon - bir sonuç değişkeninin ve çalışmaya dahil edilen iki veya daha fazla faktöriyel değişkenin bağımlılığı.

Regresyon analizinin ana görevi, değişkenler (çift regresyonda) ve bir dizi değişken (çoklu regresyonda) arasındaki ilişkinin sıkılığını ölçmektir. İletişimin sıkılığı, korelasyon katsayısı ile nicel olarak ifade edilir.

Regresyon analizinin kullanılması, ana faktörlerin (hedonistik özellikler) incelenen gösterge üzerindeki etkisinin düzenliliğini hem bütünlüklerinde hem de her biri ayrı ayrı belirlememizi sağlar. Regresyon analizi yardımıyla, bir matematiksel istatistik yöntemi olarak, ilk olarak, ortaya çıkan (istenen) değişkenin faktör değişkenlerine analitik bağımlılığının biçimini bulmak ve tanımlamak ve ikinci olarak, sıkılığını değerlendirmek mümkündür. bu bağımlılık.

İlk problemin çözümü sayesinde, faktörlerin verilen değerleri için istenen göstergenin hesaplandığı matematiksel bir regresyon modeli elde edilir. İkinci problemin çözümü, hesaplanan sonucun güvenilirliğini belirlemeyi mümkün kılar.

Bu nedenle, regresyon analizi, sonuç ve faktör değişkenleri arasındaki ilişkinin formunun yoğunluğunu, yönünü ve analitik ifadesini ölçmek için tasarlanmış bir dizi resmi (matematiksel) prosedür olarak tanımlanabilir, yani. Böyle bir analizin çıktısı, aşağıdaki formun yapısal ve niceliksel olarak tanımlanmış bir istatistiksel modeli olmalıdır:

Nerede y - sonuçta ortaya çıkan değişkenin (gerekli gösterge, örneğin maliyet, kira, kapitalizasyon oranı) ortalama değeri P onun gözlemleri; x faktör değişkeninin değeridir (i-inci maliyet faktörü); - faktör değişkenlerinin sayısı.

fonksiyon f (x l, ..., x lc), elde edilen değişkenin faktöriyel üzerindeki bağımlılığını tanımlayan regresyon denklemi (fonksiyon) olarak adlandırılır. "Gerileme" terimi (gerileme (lat.) - geri çekilme, bir şeye geri dönüş), yöntemin oluşumu aşamasında çözülen belirli sorunlardan birinin özellikleriyle ilişkilidir ve şu anda yöntemin tüm özünü yansıtmamaktadır, ama kullanılmaya devam ediyor.

Regresyon analizi genellikle aşağıdaki adımları içerir:

  • ? homojen nesnelerin bir örneğinin oluşturulması ve bu nesneler hakkında ilk bilgilerin toplanması;
  • ? ortaya çıkan değişkeni etkileyen ana faktörlerin seçimi;
  • ? kullanarak numunenin normallik için kontrol edilmesi x 2 veya binom kriteri;
  • ? iletişim biçimi hakkındaki hipotezin kabulü;
  • ? matematiksel veri işleme;
  • ? bir regresyon modelinin elde edilmesi;
  • ? istatistiksel göstergelerinin değerlendirilmesi;
  • ? bir regresyon modeli kullanarak doğrulama hesaplamaları;
  • ? sonuçların analizi.

Belirtilen işlem dizisi, hem bir faktör değişkeni ile bir sonuç değişkeni arasındaki ikili ilişkinin hem de bir sonuç değişkeni ile birkaç faktöriyel değişken arasındaki çoklu ilişkinin incelenmesinde yer alır.

Regresyon analizinin kullanılması, ilk bilgilere belirli gereksinimler getirir:

  • ? nesnelerin istatistiksel bir örneği, işlevsel ve yapısal olarak homojen olmalıdır;
  • ? oldukça çok sayıda;
  • ? araştırılan maliyet göstergesi - sonuçta ortaya çıkan değişken (fiyat, ana maliyet, maliyetler) - numunedeki tüm nesneler için hesaplanması için aynı koşullara indirgenmelidir;
  • ? faktör değişkenleri yeterince doğru ölçülmelidir;
  • ? faktöriyel değişkenler bağımsız veya minimum düzeyde bağımlı olmalıdır.

Numunenin homojenliği ve eksiksizliği için gereksinimler çelişkilidir: homojenliklerine göre nesnelerin seçimi ne kadar katı olursa, numune o kadar küçük olur ve tersine, numuneyi büyütmek için çok fazla olmayan nesneleri dahil etmek gerekir. birbirine benzer.

Bir grup homojen nesne hakkında veri topladıktan sonra, sonuç ve faktör değişkenleri arasındaki ilişkinin formunu teorik bir regresyon çizgisi şeklinde oluşturmak için analiz edilirler. Teorik regresyon doğrusunu bulma süreci, yaklaşıklık eğrisinin makul bir seçiminden ve denkleminin katsayılarının hesaplanmasından oluşur. Regresyon çizgisi, düz bir eğridir (belirli bir durumda, düz bir çizgi), matematiksel fonksiyon Genel trend bağımlılığı araştırdı ve yan faktörlerin etkisinden kaynaklanan düzensiz, rastgele emisyonları düzeltti.

Tahmin problemlerinde eşleştirilmiş regresyon bağımlılıklarını görüntülemek için genellikle aşağıdaki işlevler kullanılır: doğrusal - y - 0 + ars + s Güç yasası - y - aj ve ben + c gösterge - y - doğrusal üstel - y - 0 + ap * + c. Buraya - e Rastgele faktörler için açıklanmayan eylem nedeniyle yaklaşıklık hatası.

Bu fonksiyonlarda y sonuç değişkenidir; x - faktör değişkeni (faktör); fakat 0 , bir p 2 - regresyon modelinin parametreleri, regresyon katsayıları.

Doğrusal üstel model, formun sözde hibrit modelleri sınıfına aittir:

Nerede

nerede x (i = 1, /) - faktörlerin değerleri;

b t (i = 0, /) regresyon denkleminin katsayılarıdır.

Bu denklemde, bileşenler A, B ve Z Değerlendirilen varlığın münferit bileşenlerinin maliyetine karşılık gelir, örneğin bir arsanın maliyeti ve iyileştirmelerin maliyeti ve parametre S yaygındır. Konum gibi ortak bir etki faktörü için değerlendirilen varlığın tüm bileşenlerinin değerini ayarlamak üzere tasarlanmıştır.

Karşılık gelen katsayıların gücünde olan faktörlerin değerleri ikili değişkenlerdir (0 veya 1). Derecenin altında yatan faktörler kesikli veya sürekli değişkenlerdir.

Çarpma işaretli katsayılarla ilişkili faktörler de sürekli veya ayrıktır.

Spesifikasyon, kural olarak, ampirik bir yaklaşım kullanılarak gerçekleştirilir ve iki aşamayı içerir:

  • ? regresyon alanının noktalarının çizilmesi;
  • ? olası bir yaklaşım eğrisinin formunun grafiksel (görsel) analizi.

Regresyon eğrisinin tipi her zaman hemen seçilemez. Bunu belirlemek için, ilk önce regresyon alanının noktaları ilk verilere göre çizilir. Ardından, bağlantının niteliksel düzenliliğini bulmaya çalışarak noktaların konumu boyunca görsel olarak bir çizgi çizin: tekdüze büyüme veya tekdüze azalma, dinamik oranında bir artış (düşüş) ile büyüme (düşüş), belirli bir düzeye yumuşak yaklaşım seviye.

Bu ampirik yaklaşım, incelenen faktörlerin ekonomik ve fiziksel doğası ve bunların karşılıklı etkileri hakkında zaten bilinen fikirlerden başlayarak mantıksal analizle desteklenir.

Örneğin, ortaya çıkan değişkenlerin - ekonomik göstergelerin (fiyatlar, rant) bir dizi faktör değişkenine - fiyatlandırma faktörlerinin (yerleşim merkezinden, alandan uzaklık, vb.) bağımlılıklarının doğrusal olmadığı ve oldukça katı olduğu bilinmektedir. güç, üstel veya ikinci dereceden fonksiyonlarla tanımlanabilirler ... Ancak faktörlerin küçük değişim aralıklarıyla, doğrusal bir fonksiyon kullanılarak kabul edilebilir sonuçlar elde edilebilir.

Bununla birlikte, herhangi bir işlevden hemen emin bir seçim yapmak mümkün değilse, iki veya üç işlev seçilir, parametreleri hesaplanır ve ardından iletişimin sıkılığı için uygun kriterler kullanılarak işlev nihayet seçilir.

Teoride, bir eğrinin şeklini bulma işlemine regresyon denir. Şartname model ve katsayıları - kalibrasyon modeller.

Ortaya çıkan değişken y'nin birkaç faktöriyel değişkene (faktörlere) bağlı olduğu bulunursa x (, x 2, ..., x k, daha sonra çoklu regresyon modeli oluşturmaya başvururlar. Genellikle, çoklu iletişimin üç biçimi kullanılır: doğrusal - y - bir 0 + bir x x x + bir ^ x 2 + ... + bir k x k, gösterge - y - 0 bir* ben bir x t - bir x b, Güç yasası - y - bir 0 x x ix 2 a 2. .x ^ veya bunların kombinasyonları.

Üstel ve kuvvet yasası işlevleri, değerlendirmede incelenen bağımlılıkların çoğunluğu olan doğrusal olmayan ilişkilere yaklaştıkları için daha evrenseldir. Ayrıca, nesnelerin değerlendirilmesinde ve kütle değerlendirmesinde istatistiksel modelleme yönteminde ve düzeltme faktörlerini oluştururken bireysel değerlendirmede doğrudan karşılaştırma yönteminde uygulanabilirler.

Kalibrasyon aşamasında, regresyon modelinin parametreleri, özü, ortaya çıkan değişkenin hesaplanan değerlerinin sapmalarının karelerinin toplamı olan en küçük kareler yöntemi ile hesaplanır. de., yani seçilen ilişki denklemine göre hesaplanan gerçek değerler minimum olmalıdır:

j) (. Ve de. bilinmektedir, bu nedenle S sadece denklemin katsayılarının bir fonksiyonudur. Minimumu bulmak için S kısmi türev almanız gerekir S denklemin katsayıları ile ve onları sıfıra eşitleyin:

Sonuç olarak, sayısı aranan regresyon denkleminin belirlenen katsayılarının sayısına eşit olan bir normal denklem sistemi elde ederiz.

Diyelim ki katsayıları bulmamız gerekiyor. Doğrusal Denklem y - 0 + ars. Sapmaların karelerinin toplamı:

/=1

Farklılaşma işlevi S bilinmeyen katsayılarla 0 ve kısmi türevleri sıfıra eşitleyin:

Dönüşümlerden sonra şunları elde ederler:

Nerede P - orijinal gerçek değerlerin sayısı de onlar (analog sayısı).

Regresyon denkleminin katsayılarını hesaplamak için yukarıdaki prosedür, eğer bu bağımlılıklar doğrusallaştırılabiliyorsa, yani doğrusal olmayan bağımlılıklar için de geçerlidir. değişkenlerin bir değişikliğini kullanarak doğrusal bir forma indirgeyin. Güç ve üstel fonksiyon logaritmayı ve buna karşılık gelen değişken değişimini aldıktan sonra doğrusal bir biçim alırlar. Örneğin, logaritmayı aldıktan sonraki güç fonksiyonu şu şekli alır: у = 1пя 0'da + bir x 1 piksel. Değişkenleri değiştirdikten sonra Y-İçinde y, L 0 -İçinde bir öküz- x'de doğrusal bir fonksiyon elde ederiz

Y = A 0 + cijX, katsayıları yukarıda açıklanan yöntemle bulunur.

Çoklu regresyon modelinin katsayılarını hesaplamak için en küçük kareler yöntemi de kullanılır. Böylece, iki değişkenli doğrusal bir fonksiyonu hesaplamak için normal denklemler sistemi Xj ve x 2 bir dizi dönüşümden sonra şöyle görünür:

Genellikle bu denklem sistemi lineer cebir yöntemleri kullanılarak çözülür. Çoklu güç fonksiyonu, logaritmayı alıp değişkenleri bir çift güç fonksiyonu ile aynı şekilde değiştirerek doğrusallaştırılır.

Hibrit modeller kullanılırken, ardışık yaklaşımlar yönteminin sayısal prosedürleri kullanılarak çoklu regresyon katsayıları bulunur.

Birkaç regresyon denkleminden son seçimi yapmak için, korelasyon katsayısı, varyans ve varyasyon katsayısı ile ölçülen sıkılık için her bir denklemi kontrol etmek gerekir. Değerlendirme için Student ve Fisher kriterlerini de kullanabilirsiniz. Eğrinin gösterdiği bağlantının sıkılığı ne kadar büyükse, diğer her şey eşit olduğunda o kadar tercih edilir.

Böyle bir sınıfın bir sorunu çözülüyorsa, maliyet göstergesinin maliyet faktörlerine bağımlılığını belirlemek gerektiğinde, mümkün olduğu kadar çok etkileyen faktörü hesaba katma ve böylece daha doğru bir çoklu regresyon modeli oluşturma arzusudur. anlaşılabilir. Bununla birlikte, faktör sayısının genişlemesi iki nesnel sınırlama tarafından engellenmektedir. İlk olarak, çoklu bir regresyon modeli oluşturmak, eşleştirilmiş bir model oluşturmaktan çok daha büyük bir nesne örneği gerektirir. Örnekteki nesne sayısının, örnekteki nesne sayısının sayıyı aşması gerektiği genel olarak kabul edilir. P faktörler en az 5-10 kez. Üç etkili faktörlü bir model oluşturmak için farklı faktör değerlerine sahip yaklaşık 20 nesneden oluşan bir örnek toplamak gerekir. İkincisi, model için seçilen faktörlerin maliyet göstergesi üzerindeki etkileri bakımından birbirinden oldukça bağımsız olması gerekir. Bunu sağlamak kolay değildir, çünkü örnek genellikle aynı aileye ait nesneleri bir araya getirir ve nesneden nesneye birçok faktörde düzenli bir değişiklik vardır.

Regresyon modellerinin kalitesi genellikle aşağıdaki istatistikler kullanılarak kontrol edilir.

Regresyon denkleminin hatasının standart sapması (tahmin hatası):

Nerede P -örnek boyutu (analog sayısı);

- faktör sayısı (maliyet faktörleri);

Regresyon denklemiyle açıklanmayan bir hata (Şekil 3.2);

de. - ortaya çıkan değişkenin gerçek değeri (örneğin, maliyet); YT - elde edilen değişkenin hesaplanan değeri.

Bu gösterge de denir tahminin standart hatası (hatanın standart sapması). Şekilde, noktalar numunenin belirli değerlerini, sembol numunenin ortalama değerlerinin çizgisini, eğik çizgi noktalı çizgi ise regresyon çizgisidir.


İncir. 3.2.

Tahmin hatasının standart sapması, gerçek değerlerin y'nin karşılık gelen hesaplanan değerlerden sapma miktarını ölçer. de(bir regresyon modeli kullanılarak elde edilmiştir. Modelin üzerine kurulduğu örnek normal dağılım yasasına tabi ise, gerçek değerlerin %68'inin olduğu söylenebilir. de menzilde de ± & e regresyon çizgisinden ve %95 aralıkta de ± 2d e... Bu gösterge uygundur çünkü ölçü birimleri sr? maç birimleri de,. Bu bakımdan değerlendirme sürecinde elde edilen sonucun doğruluğunu belirtmek için kullanılabilir. Örneğin değer sertifikasında, regresyon modeli kullanılarak elde edilen piyasa değerinin ne olduğunu belirtebilirsiniz. V%95 olasılıkla şu aralıktadır: (V -2d ,.)önce (en + 2d s).

Ortaya çıkan değişkenin varyasyon katsayısı:

Nerede y - ortaya çıkan değişkenin ortalama değeri (Şekil 3.2).

Regresyon analizinde, varyasyon katsayısı var, elde edilen değişkenin ortalamasının yüzdesi olarak ifade edilen sonucun standart sapmasıdır. Varyasyon katsayısı, elde edilen regresyon modelinin öngörücü nitelikleri için bir kriter olarak hizmet edebilir: değer ne kadar küçükse var, modelin öngörücü nitelikleri ne kadar yüksekse. Göreceli bir gösterge olduğu için değişkenlik katsayısının kullanılması indeks & e'ye tercih edilir. Bu göstergenin pratik kullanımında değişkenlik katsayısı %33'ü aşan bir modelin kullanılmaması önerilebilir, çünkü bu durumda bu örneklerin normal dağılım yasasına tabi olduğu söylenemez.

belirleme katsayısı (kare çoklu korelasyon katsayısı):

Bu gösterge, ortaya çıkan regresyon modelinin genel kalitesini analiz etmek için kullanılır. Elde edilen değişkendeki varyasyonun yüzde kaçının modele dahil edilen tüm faktör değişkenlerinin etkisinden kaynaklandığını gösterir. Belirleme katsayısı her zaman sıfırdan bire kadardır. daha daha yakın anlam belirleme katsayısı birse, model orijinal veri serisini o kadar iyi tanımlar. Belirleme katsayısı farklı şekilde temsil edilebilir:

İşte regresyon modeli tarafından açıklanan hata,

fakat - hata, açıklanamayan

Regresyon modeli. Ekonomik bir bakış açısından, bu kriter, regresyon denklemi ile fiyat değişiminin yüzde kaçının açıklandığını yargılamanıza izin verir.

Göstergenin kesin kabul edilebilirlik sınırı R2 tüm durumlar için belirtmek imkansızdır. Hem örneklem büyüklüğü hem de denklemin anlamlı yorumu dikkate alınmalıdır. Kural olarak, yaklaşık olarak aynı anda elde edilen aynı türdeki nesneler üzerindeki verileri incelerken, değer R2 0.6-0.7 seviyesini geçmez. Tüm tahmin hataları sıfırsa, yani. Sonuç ve faktör değişkenleri arasındaki ilişki işlevsel olduğunda, o zaman R2 =1.

Düzeltilmiş belirleme katsayısı:

Düzeltilmiş bir belirleme katsayısı sunma ihtiyacı, faktör sayısındaki artışla açıklanmaktadır. için olağan belirleme katsayısı neredeyse her zaman artar, ancak serbestlik derecesi sayısı azalır (n - k- bir). Girilen düzeltme her zaman değeri azaltır R2, kadarıyla (P - 1) > (n-k - bir). Sonuç olarak, değer R 2 CKOf) negatif bile olabilir. Bunun anlamı, miktar R2 ayarlamadan önce sıfıra yakındı ve regresyon denklemi kullanılarak açıklanan değişkenin varyans oranı deçok küçük.

Düzeltilmiş belirleme katsayısı değerinde farklılık gösteren, ancak eşit derecede iyi diğer kalite kriterlerine sahip olan iki regresyon modeli varyantından, düzeltilmiş belirleme katsayısının büyük bir değerine sahip varyant tercih edilir. Belirleme katsayısı şu durumlarda ayarlanmaz: (n - k): k> 20.

Fisher katsayısı:

Bu kriter, belirleme katsayısının önemini değerlendirmek için kullanılır. Artık kareler toplamı bilinen maliyet değerlerinin regresyonunu kullanan tahmin hatasının bir ölçüsüdür .. Karelerin regresyon toplamı ile karşılaştırılması, regresyon bağımlılığının sonucu ortalamadan kaç kez daha iyi tahmin ettiğini gösterir. de... Kritik değerler tablosu var FR Payın serbestlik derecesi sayısına bağlı olarak Fisher katsayıları - için, payda v 2 = n - k- 1 ve önem düzeyi a. Fisher kriterinin hesaplanan değeri ise FR tablo değerinden daha fazla, o zaman belirleme katsayısının önemsizliği hipotezi, yani. regresyon denkleminde ortaya konan ilişkilerin gerçek olanlarla tutarsızlığı hakkında, olasılık p = 1 - a reddedilir.

Ortalama yaklaşım hatası(ortalama yüzde sapma), ortaya çıkan değişkenin gerçek ve hesaplanmış değerleri arasındaki yüzde olarak ifade edilen ortalama nispi fark olarak hesaplanır:

daha daha az değer verilen gösterge, modelin tahmin kalitesi daha iyi. Bu göstergenin değeri %7'den yüksek değilse, model oldukça doğrudur. Eğer bir 8 > %15, modelin yetersiz doğruluğunu gösterir.

Regresyon katsayısı standart hatası:

burada (/ I) -1. matrisin köşegen elemanıdır (XGX) ~ 1k - faktör sayısı;

X - faktöriyel değişken değerleri matrisi:

X 7 - faktör değişken değerlerinin transpoze edilmiş matrisi;

(ЖЛ) _ | - matrisin tersi matris.

Her bir regresyon katsayısı için bu göstergeler ne kadar küçük olursa, karşılık gelen regresyon katsayısının tahmini o kadar güvenilir olur.

Öğrenci testi (t-istatistikleri):

Bu kriter, verilen regresyon katsayısı nedeniyle ilişkinin güvenilirlik derecesini (maddilik) ölçmenizi sağlar. Hesaplanan değer ise t... daha fazla tablo değeri

t av, nerede v - n - k - 1, serbestlik derecesi sayısıdır, daha sonra bu katsayının istatistiksel olarak önemsiz olduğu hipotezi (100 - a) olasılığı ile reddedilir. Kriterin kritik değerini belirlemek için belirli bir önem düzeyine ve v serbestlik derecesi sayısına izin veren özel / -dağılım tabloları vardır. a için en sık kullanılan değer %5'tir.

çoklu doğrusallık, yani faktör değişkenleri arasındaki ara bağlantıların etkisi, sınırlı sayıda bunlarla yetinme ihtiyacını doğurur. Bu dikkate alınmazsa, mantıksız bir regresyon modeli elde edebilirsiniz. Çoklu doğrusallığın olumsuz etkisinden kaçınmak için, çoklu bir regresyon modeli oluşturmadan önce çift korelasyon katsayıları hesaplanır. r xjxj seçilen değişkenler arasında x. ve x

Buraya XjX; - iki faktöriyel değişkenin çarpımının ortalama değeri;

XjXj - iki faktöriyel değişkenin ortalama değerlerinin ürünü;

Faktör değişkeninin varyansının tahmini x ..

Mutlak değerdeki ikili korelasyonlarının katsayısı kesinlikle 0,8'den büyükse, iki değişkenin birbiriyle regresyon olarak ilişkili olduğu (yani eşdoğrusal) olduğu kabul edilir. Bu durumda, bu değişkenlerden herhangi biri dikkate alınmamalıdır.

Güçlendirmek amacı ile ekonomik analiz sonuçtaki regresyon modelleri ortalamayı kullanır elastikiyet katsayıları, formülle belirlenir:

Nerede Xj - karşılık gelen faktör değişkeninin ortalaması;

y - ortaya çıkan değişkenin ortalama değeri; bir ben - karşılık gelen faktör değişkeni için regresyon katsayısı.

Esneklik katsayısı, faktör değişkeni %1 değiştiğinde, yani sonuç değişkeninin değerinin ortalama olarak yüzde kaç değişeceğini gösterir. ortaya çıkan değişkenin faktör değişkenindeki bir değişikliğe nasıl tepki verdiği. Örneğin, metrekare fiyatı nasıl? şehir merkezinden uzakta daire alanının m.

Tahmin, belirli bir regresyon katsayısının önemini analiz etme açısından yararlıdır. özel belirleme katsayısı:

İşte sonucun varyansının tahmini

değişken. Bu katsayı, elde edilen değişkendeki varyasyonun yüzde kaçının regresyon denkleminde yer alan i. faktör değişkeninin varyasyonu ile açıklandığını gösterir.

  • Hedonik özellikler, alıcılar ve satıcılar açısından yararlı (değerli) özelliklerini yansıtan bir nesnenin özellikleridir.

Bölüm 4'teki materyali çalışmanın bir sonucu olarak, öğrenci:

bilmek

  • regresyon analizinin temel kavramları;
  • tahmin yöntemleri ve en küçük kareler tahmininin özellikleri;
  • denklemin ve regresyon katsayılarının anlamlılığını ve aralık tahminini kontrol etmek için temel kurallar;

yapabilmek

  • örnek verilere dayalı iki boyutlu ve çoklu regresyon denklemi modellerinin parametrelerinin tahminlerini bulmak, özelliklerini analiz etmek;
  • denklemin ve regresyon katsayılarının önemini kontrol edin;
  • önemli parametrelerin aralık tahminlerini bulun;

kendi

  • iki boyutlu ve çoklu regresyon denklemlerinin parametrelerini istatistiksel olarak tahmin etme becerileri; regresyon modellerinin yeterliliğini kontrol etme becerileri;
  • Analitik yazılım kullanarak tüm önemli katsayılarla regresyon denklemini elde etme becerileri.

Temel konseptler

Korelasyon analizi yapıldıktan sonra istatistiksel olarak anlamlı bağlantılar Değişkenler arasındaki sıkılık derecesi değerlendirilirken, genellikle regresyon analizi yöntemlerini kullanarak bağımlılık türlerinin matematiksel bir tanımına ilerlerler. Bu amaçla, etkin göstergeyi birbirine bağlayan bir işlev sınıfı seçilir. de ve argümanlar "kısıt denkleminin parametrelerinin tahminlerini hesaplar ve elde edilen denklemin doğruluğunu analiz eder.

İşlev | etkili göstergenin koşullu ortalama değerinin bağımlılığını açıklayan de argümanların verilen değerlerinden denir regresyon denklemi.

"Gerileme" terimi (lat. gerileme - geri çekilme, bir şeye dönüş) İngiliz psikolog ve antropolog F. Galton tarafından tanıtıldı ve ilk örneklerinden biri ile ilişkiliydi; burada Galton, boy kalıtımı sorunuyla ilgili istatistiksel verileri işlerken, babaların boyunun eğer tüm babaların ortalama yüksekliğinden sapar x inç, o zaman oğullarının boyu, tüm oğulların ortalama boyundan x inç. Belirlenen trendin adı ortalamaya gerileme.

"Regresyon" terimi, birçok durumda istatistiksel bağımlılığı doğru bir şekilde karakterize etmese de, istatistiksel literatürde yaygın olarak kullanılmaktadır.

Regresyon denkleminin doğru bir açıklaması için etkin göstergenin koşullu dağılım yasasını bilmek gerekir. de.İstatistiksel uygulamada, bu tür bilgilerin elde edilmesi genellikle mümkün değildir, bu nedenle, fonksiyon için uygun yaklaşımların aranması ile sınırlıdır. f (x sen x 2, .... l *), olgunun ön anlamlı analizine veya ilk istatistiksel verilere dayanmaktadır.

Gösterge vektörünün dağılım türü hakkında belirli model varsayımları çerçevesinde<) может быть получен общий вид regresyon denklemleri nerede. Örneğin, incelenen gösterge setinin matematiksel beklentiler vektörü ile () boyutlu normal dağılım yasasına uyduğu varsayımıyla

Nerede ve kovaryans matrisi,

fark nerede y,

Regresyon denklemi (koşullu beklenti) şu şekildedir:

Böylece, eğer çok boyutlu bir rastgele değişken ()

() boyutlu normal dağılım yasasına, ardından etkin göstergenin regresyon denklemine uyar de açıklayıcı değişkenlerde doğrusaldır x görünüm.

Bununla birlikte, istatistiksel uygulamada, genellikle kendinizi bilinmeyen gerçek regresyon fonksiyonu için uygun yaklaşımları bulmakla sınırlamanız gerekir. f(x), araştırmacı, analiz edilen etkin göstergenin koşullu olasılık dağılımı yasası hakkında tam bilgiye sahip olmadığı için de verilen argüman değerleri için x.

Doğru, model ve regresyon puanları arasındaki ilişkiyi düşünün. Etkili gösterge olsun de argümanla ilgili x oran

normal dağılıma sahip rastgele bir değişken nerede ve ve. Bu durumda gerçek regresyon işlevi

Gerçek regresyon denkleminin tam biçimini bilmediğimizi varsayalım, ancak oran ile ilişkili ve Şekil 2'de gösterilen iki boyutlu bir rastgele değişken üzerinde dokuz gözlemimiz var. 4.1.

İncir. 4.1. Gerçeğin karşılıklı düzenlenmesif(x) ve teorikvayregresyon modelleri

Şekildeki noktaların konumu. 4.1, kendimizi formun doğrusal bağımlılıkları sınıfıyla sınırlamamıza izin verir.

En küçük kareler yöntemini kullanarak regresyon denkleminin tahminini buluruz.

Karşılaştırma için, Şek. 4.1, gerçek regresyon fonksiyonunun ve teorik yaklaşımlı regresyon fonksiyonunun grafiklerini gösterir. Regresyon denkleminin tahmini, olasılık olarak ikincisine yakınsar vayörnek boyutunda sınırsız bir artışla ().

Ne yazık ki istatistiksel araştırma pratiğinde oldukça yaygın olan gerçek regresyon işlevi yerine yanlışlıkla doğrusal bir regresyon işlevi seçtiğimiz için, istatistiksel sonuçlarımız ve tahminlerimiz tutarlılık özelliğine sahip olmayacaktır, yani. gözlem hacmini ne kadar arttırırsak arttıralım, örnek tahminimiz gerçek regresyon fonksiyonuna yakınsamayacaktır.

Regresyon fonksiyonlarının sınıfını doğru seçmiş olsaydık, o zaman açıklamadaki yanlışlık vay sadece sınırlı seçimle açıklanabilir ve bu nedenle istenildiği kadar küçük yapılabilir.

Etkili göstergenin koşullu değerini ve bilinmeyen regresyon fonksiyonunu ilk istatistiksel verilerden en iyi şekilde geri yüklemek için, en sık aşağıdakiler kullanılır. yeterlilik kriterleri kayıp fonksiyonları.

1. En küçük kareler yöntemi, buna göre, etkin göstergenin gözlemlenen değerlerinin model değerlerinden sapmasının karesi en aza indirilir, burada regresyon denkleminin katsayıları; "-"deki argüman vektörünün değerleridir. M gözlemi:

Bir vektör için bir tahmin bulma sorunu çözüldü. Ortaya çıkan regresyon denir ortalama kare.

2. En az modül yöntemi etkin göstergenin gözlemlenen değerlerinin modüler değerlerden mutlak sapmalarının toplamının en aza indirildiği, yani.

Ortaya çıkan regresyon denir ortalama mutlak(medyan).

3. Minimaks yöntemi etkin göstergenin gözlemlenen değerinin maksimum sapma modülünü en aza indirmeye indirgenir y, model değerinden, yani

Ortaya çıkan regresyon denir minimaks.

Pratik uygulamalarda, rastgele bir değişkenin çalışıldığı problemlerle sıklıkla karşılaşılır. y, bazı değişkenlere ve bilinmeyen parametrelere bağlı olarak. () olarak ele alacağız (k + 1) rastgele bir hacim örneğinin alındığı boyutlu genel popülasyon P, nerede () i. gözlemin sonucudur. Gözlem sonuçlarına göre bilinmeyen parametrelerin tahmin edilmesi gerekmektedir. Yukarıda açıklanan problem, regresyon analizi problemleriyle ilgilidir.

Regresyon analizi rastgele bir değişkenin bağımlılığının istatistiksel analiz yöntemi olarak adlandırılır de gerçek dağılım yasasına bakılmaksızın, regresyon analizinde rastgele olmayan değerler olarak kabul edilen değişkenler üzerinde