image image image image image image

Regresyon Analizleri

1. Basit Doğrusal Regresyon

Analizin Amacı:

Basit doğrusal regresyon, iki değişken arasındaki doğrusal ilişkiyi incelemek için kullanılan temel bir regresyon modelidir. Bağımlı değişkenin bağımsız değişken tarafından nasıl etkilendiğini ölçmek için kullanılır.

Kullanılan Veri Seti:

Veri Türü: Kesit verisi veya zaman serisi verisi olabilir.
Bağımlı Değişken (Y): Sürekli (nicel) bir değişken olmalıdır.
Bağımsız Değişken (X): Sürekli veya kategorik olabilir (ikili değişkenler için uygun dönüşümler gerekir).

Temel Yöntem:

Matematiksel olarak şu şekilde ifade edilir:

Y=β01X+ε

Burada:

Y: Bağımlı değişken
X: Bağımsız değişken
β0​: Sabit terim
β1​: X’in Y üzerindeki etkisini gösteren katsayı
ε: Hata terimi

Regresyon katsayıları En Küçük Kareler Yöntemi (OLS – Ordinary Least Squares) ile tahmin edilir.

Uygulama Alanları:

Ekonomi: Enflasyon ile faiz oranları arasındaki ilişkiyi inceleme
Finans: Hisse senedi getirileri ile piyasa endeksi arasındaki ilişki
Sağlık: Sigara tüketimi ile akciğer kanseri oranları arasındaki ilişki
Pazarlama: Reklam harcamalarının satışlar üzerindeki etkisini ölçme

Avantajlar ve Sınırlılıklar:

Avantajlar:

Kolay anlaşılır ve yorumlanabilir.
Basit ve hızlı uygulanabilir.
Çoğu temel ekonomik ve finansal analiz için yeterlidir.

Sınırlılıklar:

İki değişken arasındaki ilişkinin doğrusal olması gerekir.
Bağımsız değişken ile hata terimi arasında ilişki olmamalıdır (aksi takdirde yanlı tahminler oluşur).
Hata terimi normal dağılmalı ve sabit varyansa sahip olmalıdır (homoskedastisitevarsayımı).

 

2. Çoklu Doğrusal Regresyon

Analizin Amacı:

Çoklu doğrusal regresyon, bağımlı değişken ile birden fazla bağımsız değişken arasındaki doğrusal ilişkiyi analiz etmek için kullanılır. Gerçek dünyadaki birçok problemde birden fazla faktör sonucu etkileyebilir, bu nedenle çoklu regresyon daha gerçekçi tahminler yapmayı sağlar.

Kullanılan Veri Seti:

Veri Türü: Kesit verisi, zaman serisi verisi veya panel veri olabilir.
Bağımlı Değişken (Y): Sürekli (nicel) bir değişken olmalıdır.
Bağımsız Değişkenler (X1,X2,…,Xk​): Sürekli veya kategorik olabilir.

Temel Yöntem:

Model şu şekilde ifade edilir:

Y=β0+β1X1+β2X2++βkXk+ε

Burada:

Y: Bağımlı değişken
X1,X2,…,Xk​: Bağımsız değişkenler
β0​: Sabit terim
β1,β2,…,βk ​: Her bir bağımsız değişkenin katsayıları
ε: Hata terimi

Regresyon katsayıları yine En Küçük Kareler Yöntemi (OLS) ile tahmin edilir.

Uygulama Alanları:

Ekonomi: Enflasyon oranının faiz oranları, döviz kuru ve işsizlik oranı gibi değişkenlerle ilişkisini inceleme.
Finans: Hisse senedi fiyatlarının faiz oranları, ekonomik büyüme ve sektörel değişkenler ile ilişkisini analiz etme.
Pazarlama: Satış hacmini fiyat, reklam harcaması ve müşteri sadakati gibi faktörlerle modelleme.
Sağlık: Kalp hastalığı riskini yaş, sigara tüketimi, kolesterol seviyesi ve kan basıncı gibi değişkenlerle tahmin etme.

Avantajlar ve Sınırlılıklar:

Avantajlar:

Birden fazla bağımsız değişkenin etkisini kontrol ederek daha iyi modelleme sağlar.
Karmaşık ilişkileri daha doğru analiz edebilir.
Öngörü gücü yüksektir.

Sınırlılıklar:

Çoklu Doğrusallık (Multicollinearity): Bağımsız değişkenler birbirleriyle yüksek korelasyona sahipse tahminlerin güvenilirliği düşebilir.
Veri gereksinimi: Daha fazla değişken olduğunda, anlamlı sonuçlar elde etmek için büyük bir veri setine ihtiyaç duyulur.
Doğrusal varsayım: Modelin, bağımsız değişkenler ile bağımlı değişken arasındaki ilişkinin doğrusal olduğu varsayımına dayanması bir sınırlılıktır.
 

3. Lojistik ve Probit Regresyon

Analizin Amacı:

Lojistik ve probit regresyon modelleri, bağımlı değişkenin ikili (binary) olduğu durumlarda kullanılır. Yani, bağımlı değişken sadece 0 veya 1 gibi iki farklı değer alır. Bu tür modeller, olasılık tahmini yapmak için kullanılır.

Lojistik Regresyon: Bağımlı değişkenin belirli bir olaya ait olasılığını tahmin etmek için kullanılır.
Probit Regresyon: Lojistik regresyona benzer ancak varsayımlarında normal dağılımı esas alır, özellikle küçük örneklemler için daha uygundur.

Kullanılan Veri Seti:

Veri Türü: Kesit verisi, zaman serisi verisi veya panel veri olabilir.
Bağımlı Değişken (Y): İkili (binary) olmalıdır (örneğin, hastalık var/yok, kredi alındı/alınmadı, müşteri ürünü satın aldı/almadı gibi).
Bağımsız Değişkenler (X): Sürekli veya kategorik olabilir.

Temel Yöntem:

Lojistik regresyon modeli:

P(Y=1)= e0​+β1​X1​+kXk​) / 1+e0​+β1​X1​+kXk​)​

Burada çıktı 0 ile 1 arasında bir olasılık değeridir.

Probit regresyon modeli:

P(Y=1)=Φ(β0​+β1​X1​+k​Xk​)

Burada Φ, standart normal dağılımın kümülatif dağılım fonksiyonudur.

Farkları:

Lojistik regresyonda hata terimleri lojistik dağılıma, probit regresyonda ise normal dağılıma uyar.
Lojistik model daha hesaplamaya elverişli olduğu için daha yaygın kullanılır.

Uygulama Alanları:

Ekonomi: Kredi başvurusunun onaylanıp onaylanmayacağını tahmin etme.
Finans: Bir şirketin iflas edip etmeyeceğini tahmin etme.
Sağlık: Bir hastanın belirli bir hastalığa yakalanma olasılığını tahmin etme.
Pazarlama: Bir müşterinin ürünü satın alma olasılığını tahmin etme.

5. Avantajlar ve Sınırlılıklar:

Avantajlar:

Bağımlı değişkenin olasılık tahminini verir.
Lineer regresyondaki normal dağılım varsayımına ihtiyaç duymaz.
Kategorik ve sürekli değişkenleri birlikte kullanabilir.

Sınırlılıklar:

Çıktı sadece 0 veya 1 olmalıdır (çok kategorili durumlar için genelleştirilmiş versiyonlar kullanılır: multinominal lojistik vb.).
Aykırı değerler modele büyük etkiler yapabilir.
Olasılık tahmini yapmasına rağmen, doğrudan etkileri yorumlamak doğrusal regresyon kadar kolay değildir.
 

Poisson ve Negatif Binom Regresyon

Analizin Amacı:

Poisson ve negatif binom regresyon modelleri, bağımlı değişkenin sayı verisi (countdata) olduğu durumlarda kullanılır. Bu modeller, bir olayın belirli bir zaman veya mekânda kaç kez gerçekleştiğini tahmin etmek için uygundur.

Poisson Regresyon: Olası sonuçların varyansının ortalamaya eşit olduğu varsayımıyla çalışan temel modeldir.
Negatif Binom Regresyon: Varyansın ortalamadan büyük olduğu durumlarda (aşırı saçılma – overdispersion) daha iyi tahminler yapar.

Kullanılan Veri Seti:

Veri Türü: Kesit verisi, zaman serisi veya panel veri olabilir.
Bağımlı Değişken (Y): Pozitif tam sayı (0, 1, 2, 3…) olmalıdır. Örneğin:
o Günlük müşteri sayısı
o Bir hastanın bir yıl içinde doktora gitme sayısı
o Bir şirketin yıllık dava sayısı
Bağımsız Değişkenler (X): Sürekli veya kategorik olabilir.

Temel Yöntem:

Poisson Regresyon Modeli:

E(YX)=e(β0+β1X1++βkXk)

Poisson modelinde hata terimleri Poisson dağılımına uyar.

Negatif Binom Regresyon Modeli:
Negatif binom regresyon, Poisson modelindeki ortalama = varyans varsayımını gevşeterek varyansın daha büyük olduğu durumlar için kullanılır. Matematiksel olarak gamma dağılımı ile Poisson’un birleşimi olarak ifade edilir.

Uygulama Alanları:

Ekonomi: İşletmelerin yıllık açılan şube sayısını modelleme.
Finans: Bankaların dolandırıcılık vakası sayısını tahmin etme.
Sağlık: Bir hastanın acil servise başvurma sıklığını analiz etme.
Pazarlama: Müşterilerin belirli bir ürünü kaç kez satın alacağını tahmin etme.

Avantajlar ve Sınırlılıklar:

Avantajlar:

Sayım verileri için uygundur.
Poisson modeli, çok düşük olasılıkla meydana gelen olayları modellemekte başarılıdır.
Negatif binom modeli, varyansın ortalamadan büyük olduğu durumlarda esneklik sağlar.

Sınırlılıklar:

Poisson regresyonda aşırı saçılma (overdispersion) varsa model doğru tahminler yapamayabilir. Bu durumda negatif binom modeli tercih edilmelidir.
Sıfır şişmesi (zero-inflation) olan veri setlerinde (örneğin birçok gözlemde bağımlı değişken sıfır olabilir) özel modeller gereklidir (Zero-Inflated Poisson veya Zero-Inflated Negative Binomial).
 

Tobit Regresyon (Kesilmiş ve Sınırlı Veri Modelleri)

1. Analizin Amacı:

Tobit regresyon, bağımlı değişkenin belli bir aralıkta sınırlı olduğu (kesilmiş veya sansürlenmiş) durumlarda kullanılır. Klasik doğrusal regresyonun uygulanamayacağıdurumlarda, gözlemlerin belirli bir eşik değerinin altında veya üstünde sıkıştığı veri setleri için uygundur.

Sansürlenmiş Veri (Censored Data): Bağımlı değişken belli bir eşiğin altında veya üstünde gözlenemiyor ama var.
o Örnek: Gelir anketlerinde, 50.000 TL üstündeki gelirler sadece “50.000 TL ve üzeri” olarak kaydediliyorsa.
Kesilmiş Veri (Truncated Data): Bağımlı değişken belirli bir eşikten itibaren tamamen kayboluyor.
o Örnek: Belirli bir yaşın altındaki bireyler bir ankete dahil edilmiyorsa.

2. Kullanılan Veri Seti:

Veri Türü: Kesit verisi veya panel veri olabilir.
Bağımlı Değişken (Y): Sürekli ancak belirli aralıklarda sınırlandırılmış olmalıdır.
o Örneğin, kredi notu 0 ile 1000 arasında olabilir.
o Ev fiyatları belirli bir alt sınırdan başlayabilir.
Bağımsız Değişkenler (X): Sürekli veya kategorik olabilir.

3. Temel Yöntem:

Tobit modeli, standart doğrusal regresyon modelinin genişletilmiş hâlidir:

Ancak burada Yi (gizli değişken) doğrudan gözlemlenemez. Bunun yerine:

Bu durumda En Çok Olabilirlik (Maximum Likelihood – MLE) yöntemiyle parametre tahmini yapılır.

4. Uygulama Alanları:

Ekonomi: Kredi başvurularında reddedilen kişilerin kredi puanlarının bilinmemesi.
Finans: Yatırımcıların sadece belirli bir eşiğin üstündeki kazançları raporlaması.
Sağlık: Belirli bir değerin altında ölçülemeyen kan basıncı seviyeleri.
Pazarlama: Müşteri harcamalarının belirli bir taban seviyenin altında raporlanmaması.

5. Avantajlar ve Sınırlılıklar:

Avantajlar:

Kesilmiş ve sansürlenmiş veriler için uygundur.
Standart OLS modellerinin yanıltıcı olduğu durumlarda daha doğru tahminler sunar.

Sınırlılıklar:

Normal dağılım varsayımı gerektirir.
Küçük veri setlerinde tahmin sonuçları kararsız olabilir.
Geleneksel regresyonlara kıyasla yorumlanması daha zordur.
 

Çok Düzeyli (Hiyerarşik) Regresyon Modelleri

1. Analizin Amacı:

Çok düzeyli (hiyerarşik) regresyon modelleri, verilerin iç içe geçmiş (hiyerarşik) yapıda olduğu durumlarda kullanılır. Geleneksel regresyon analizleri, bağımsız gözlemler varsayımına dayanırken, çok düzeyli modeller gruplamalar arasındaki bağımlılıkları hesaba katar.

Örneğin:

Öğrenciler → Okullar → Şehirler gibi bir yapı varsa, öğrenciler aynı okulda oldukları için veriler tamamen bağımsız değildir.
Çalışanlar → Şirketler → Sektörler gibi yapılanmalarda da benzer bir bağımlılık olabilir.

Bu tür bağımlılıkları göz ardı etmek yerine çok düzeyli regresyon ile modellemek, daha doğru ve güvenilir tahminler yapılmasını sağlar.

2. Kullanılan Veri Seti:

Veri Türü: Kesit verisi veya panel veri olabilir.
Bağımlı Değişken (Y): Sürekli veya kategorik olabilir.
Bağımsız Değişkenler (X): Sürekli veya kategorik olabilir ve farklı düzeylerde bulunabilir.

3. Temel Yöntem:

İki düzeyli çok düzeyli regresyon modeli örneği:

 

 

 

 

 

Burada üç seviyeli bir modelde:

iii bireyler,
jjj gruplar (örneğin okullar),
kkk daha üst düzeydeki yapılar (örneğin şehirler) olabilir.

Bu modelde hata bileşenleri farklı seviyelerde modellenerek gruplar arasındaki korelasyon dikkate alınır.

4. Uygulama Alanları:

Eğitim: Öğrenci başarılarını okullara ve şehirlere göre modelleme.
Sağlık: Hastaların tedavi sonuçlarını hastaneler ve bölgeler arasında karşılaştırma.
Finans: Çalışan maaşlarını şirket ve sektör seviyelerinde analiz etme.
Pazarlama: Müşteri sadakatini mağaza ve bölgelere göre inceleme.

5. Avantajlar ve Sınırlılıklar:

Avantajlar:

Gruplanmış veriler için en uygun modellerden biridir.
Bağımlı gözlemlerden kaynaklanan hata yapısını daha iyi yakalar.
Farklı düzeylerde değişkenlerin etkisini modellemeye olanak tanır.

Sınırlılıklar:

Model tahminleri karmaşıktır ve daha fazla hesaplama gerektirir.
Veri setinin yeterince büyük olması gerekir, aksi takdirde model kararsız olabilir.
Yorumlaması geleneksel regresyona göre daha zordur.
 

Robust Regresyon (Aykırı Değerlere Dirençli Modeller)

1. Analizin Amacı:

Robust regresyon, aykırı değerlerin model üzerindeki etkisini azaltarak güvenilir tahminler yapmayı amaçlayan bir regresyon türüdür. Geleneksel doğrusal regresyon modeli (OLS – En Küçük Kareler Yöntemi) aykırı değerlere karşı hassastır. Robust regresyon teknikleri, aykırı değerlerin etkisini minimize ederek daha istikrarlı sonuçlar üretir.

Aykırı değerler:

Veri giriş hatalarından kaynaklanabilir.
Gerçekten sıra dışı gözlemler olabilir.
Regresyon katsayılarının yanlış tahmin edilmesine neden olabilir.

Robust regresyon, bu tür durumlarda OLS yerine daha güvenilir tahminler sağlayan yöntemler sunar.

2. Kullanılan Veri Seti:

Veri Türü: Kesit verisi, zaman serisi veya panel veri olabilir.
Bağımlı Değişken (Y): Sürekli bir değişken olmalıdır.
Bağımsız Değişkenler (X): Sürekli veya kategorik olabilir.

3. Temel Yöntem:

Robust regresyonda en yaygın kullanılan iki yöntem şunlardır:

M-estimators (Huber ve Tukey Yöntemleri):

Aykırı değerlerin etkisini azaltmak için hata terimlerine farklı ağırlıklar verir.
Küçük hata terimlerine OLS gibi davranırken, büyük hata terimlerini aşağı çeker.

LAD (Least Absolute Deviations – En Küçük Mutlak Sapmalar):

Mutlak hata (|e|) değerlerini minimize eder.
Aykırı değerler büyük kareli hatalar yaratmadığı için OLS’ye göre daha dayanıklıdır.

Matematiksel olarak Huber Regresyonu şöyle ifade edilir:

Burada k değeri, hata teriminin ne zaman “aykırı” kabul edileceğini belirler.

4. Uygulama Alanları:

Ekonomi: Hanehalkı gelir verilerinde hatalı girişlerden kaynaklanan aşırı uç değerleri kontrol etme.
Finans: Borsa getirilerini analiz ederken anormal fiyat hareketlerinden kaynaklanan bozulmaları önleme.
Sağlık: Hasta verilerinde ölçüm hatalarını minimize etme.
Pazarlama: Müşteri harcama verilerinde uç değerlere karşı dayanıklı modeller oluşturma.

5. Avantajlar ve Sınırlılıklar:

Avantajlar:

Aykırı değerlere duyarlı değildir, güvenilir tahminler sunar.
Doğrusal regresyonun sınırlamalarını giderir.
Özellikle hatalı veri girişlerinin olduğu veri setlerinde çok faydalıdır.

Sınırlılıklar:

Karmaşık hesaplama gerektirir, OLS kadar hızlı çalışmaz.
Modelin hangi robust yönteme dayanacağı dikkatlice seçilmelidir.
Standart hata hesaplamaları geleneksel OLS’ye göre daha zor olabilir.
 

Quantile Regresyon (Kantil Regresyon)

1. Analizin Amacı:

Quantile regresyon, bağımlı değişkenin dağılımının farklı bölümlerini (kantillerini) modellemek için kullanılır. Geleneksel doğrusal regresyon, ortalama (beklenen değer) üzerinde dururken, quantile regresyon medyan veya başka herhangi bir kanti üzerine odaklanır. Aykırı değerlere duyarlıdır ve verinin tamamını daha esnek bir şekilde analiz etme imkanı sunar.

Örneğin:

Medyan Regresyon (0.5 Kanti): Bağımlı değişkenin ortanca değerini modellemek için kullanılır.
Alt Kantiller (0.1, 0.25): Düşük gelirli hanehalklarının durumunu analiz etmek için kullanılabilir.
Üst Kantiller (0.75, 0.9): Yüksek gelirli hanehalklarının durumunu analiz etmek için kullanılabilir.

2. Kullanılan Veri Seti:

Veri Türü: Kesit verisi, zaman serisi veya panel veri olabilir.
Bağımlı Değişken (Y): Sürekli bir değişken olmalıdır.
Bağımsız Değişkenler (X): Sürekli veya kategorik olabilir.

3. Temel Yöntem:

Kantil regresyon, mutlak hataların kantil değerlerine göre minimize edilmesini sağlar. Matematiksel olarak:

Burada ρτ kantil kayıp fonksiyonudur ve τ kantil seviyesini temsil eder (örneğin, τ=0.5 medyan regresyonu ifade eder).

Medyan Regresyon (τ = 0.5): Mutlak sapmaları minimize eder.
0.25 Kantili: Alt çeyrekteki değişiklikleri inceler.
0.75 Kantili: Üst çeyrekteki değişiklikleri inceler.

4. Uygulama Alanları:

Ekonomi: Gelir dağılımındaki eşitsizlikleri analiz etme.
Finans: Portföy getirilerinin farklı risk seviyelerinde nasıl değiştiğini inceleme.
Sağlık: Tedavi etkilerinin hasta gruplarına göre farklılık gösterip göstermediğini analiz etme.
Pazarlama: Farklı müşteri segmentlerinin harcama alışkanlıklarını inceleme.

5. Avantajlar ve Sınırlılıklar:

Avantajlar:

Aykırı değerlere duyarlıdır ve farklı kantiller üzerinde analiz yapar.
Verinin tamamını daha esnek bir şekilde anlamayı sağlar.
Non-parametrik yöntemlere alternatif olarak kullanılır ve normal dağılım varsayımı gerektirmez.

Sınırlılıklar:

Yorumlaması geleneksel doğrusal regresyona göre daha zordur.
Hesaplaması daha karmaşıktır ve büyük veri setlerinde daha uzun sürebilir.
Özellikle küçük örneklemler için katsayıların güvenilirliği azalabilir.
×