Lineer ve Lojistik regresyonlar genellikle insanların veri biliminde öğrendiği ilk algoritmalardır. Popülerliklerinden dolayı, birçok analist bu iki çeşidi bilir. Daha fazla ilgisi olanlar ise modelleme aşamasında regresyon çeşitlerini daha kapsamlı değerlendirmektedir..

Gerçek şu ki, model için kullanılabilecek çok sayıda regresyon tekniği bulunmaktadır. Her tekniğin kendi has bir yolu ve uygulaması için en özel bir şartı vardır.

Bu makalede, veri biliminde en sık kullanılan yedi regresyon türünü basit bir şekilde açıkladım. Bu yazı sayesinde, insanların karşılaştıkları her soruna sadece doğrusal / lojistik regresyon uygulamak yerine, modellerine en uygun regresyon seçimi konusunda yardımcı olacağını düşünüyorum.

 Regresyon Analizi Nedir?

Regresyon analizi, bağımlı (hedef) ve bağımsız değişken(ler) (yordayıcı) arasındaki ilişkiyi araştıran bir (prediction) modelleme tekniğidir. Bu teknik vasıtasıyla tahminler, zaman serileri modellemesi ve değişkenler arasındaki nedensellik ilişkisi bulunabilir. Örneğin, sürücülerin öfkeli sürmesi ile trafik kazası geçirmeleri arasındaki ilişki regresyon ile incelenebilir.

Regresyon analizi, verileri modellemek ve analiz etmek için önemli bir araçtır. Regresyon analizinde amaç veri noktalarından geçen çizginin (/) bu noktalar arasındaki farkları en aza indirilecek şekilde bir eğri yerleştirilmesini sağlamaktır. Bunu önümüzdeki bölümlerde daha ayrıntılı olarak açıklayacağım.

Neden Regresyon Analizi kullanıyoruz?

Yukarıda bahsettiğim gibi, regresyon analizi iki veya daha fazla değişken arasındaki ilişkiyi tahmin eder. Bunu kolay bir örnekle anlayalım:

Diyelim ki, bir şirketin satışlarındaki artışı mevcut ekonomik koşullara göre tahmin etmek istiyorsunuz. Satışlardaki artışın ekonomideki büyümenin yaklaşık iki buçuk katı olduğunu gösteren şirket verilerine sahipsiniz. Bu verileri kullanarak, şirketin gelecekteki satışlarını mevcut ve geçmiş bilgilere dayandırarak tahmin edebilirsiniz. Bunun gibi örnekler çoğaltılabilir.

Şimdi gelgelelim mandalinanın (regresyonun) faydalarına;

  1. Regresyon bağımlı değişken ve bağımsız değişken arasındaki anlamlı ilişkileri gösterir.
  2. Aynı zamanda birden fazla bağımsız değişkenin bağımlı değişken üzerindeki gücünü gösterir.

Regresyon analizi ayrıca, fiyat değişim etkisi ve reklam faaliyetleri gibi farklı niteliklerde ölçülen değişkenlerin etkilerini karşılaştırabilmemizi sağlar. Bu ölçümleme sayesinde pazar araştırmacılarına, veri analistlerine, veri bilimcilerine tahmine dayalı modeller oluşturmalarını sağlayarak en iyi değişkenleri seçmelerinde yardımcı olur.

Kaç Tür Regresyon Tekniği Vardır?

Tahmin yapmak için bulunan çok sayıda regresyon tekniği vardır. Bu teknikler üç ölçüm metoduna göre (bağımsız değişken sayısı, bağımlı değişken türü ve regresyon çizgisinin şekli) değişkenlik gösterirler..

 

Modelleriniz için yaratıcılık istiyorsanız daha önce çoğunluğun kullanmadığı yukarıdaki parametrelerin bir kombinasyonunu deneyebilirsiniz. Hatta yeni regresyon teknikleri bile üretebilirsiniz. Ancak buna başlamadan önce, en sık kullanılan yedi regresyon tekniğine bir göz atalım:

  1. Lineer Regresyon

En çok bilinen modelleme tekniklerinden biridir. Doğrusal regresyon, genellikle, öngörücü modellemeyi öğrenirken insanların seçtiği ilk birkaç konu arasındadır. Bu teknikte, bağımlı değişken süreklidir, bağımsız değişken(ler) sürekli veya ayrık olabilir ve regresyon çizgisinin doğası doğrusaldır.

Doğrusal Regresyon, bağımlı değişken (Y) ile bir veya daha fazla bağımsız değişken (X) arasında en uygun düz çizgiyi (aynı zamanda regresyon doğrusu olarak da bilinir) kullanarak bir ilişki kurar.

Y = a + b * X + e denklemiyle temsil edilir, burada a kesişme, b çizginin eğimi ve e hata terimidir. Bu denklem, öngörülen değişken(ler)’e dayanarak hedef değişkenin değerini tahmin etmek için kullanılabilir.

Basit doğrusal regresyon ve çoklu doğrusal regresyon arasındaki fark, çoklu doğrusal regresyonun (> 1) bağımsız değişkenleri olduğu, basit doğrusal regresyonun ise sadece 1 bağımsız değişkeni olduğu yönündedir.

Şimdi soru şu: “En uygun doğruyu nasıl elde ederiz?”.

Bu sorunun cevabı En Küçük Kareler Yöntemi ile kolayca bulunabilir. Bir regresyon çizgisini yerleştirmek için kullanılan en yaygın yöntemdir. Bu metot ile her bir veri noktasından çizgiye kadar dikey sapmaların karelerinin toplamını en aza indirerek, gözlemlenen veriler için en uygun doğru hesaplanır. Sapmalarda pozitif ve negatif değerleri birbirine eşit konuma getirmek için öncelikli olarak kareler alınır.

Model performansını R-kare metriğini kullanarak değerlendirebiliriz.

Önemli noktalar:

  • Bağımsız ve bağımlı değişkenler arasında doğrusal bir ilişki olmalı
  • Çoklu regresyonda çoklu bağlantı, otokorelasyon veya heteroskedastisite olma durumlarına karşı dikkatli olunmalıdır..
  • Doğrusal Regresyon, ayrık verilere (outlier) karşı çok hassastır. Regresyon eğrisini ve nihayetinde öngörülen değerleri korkunç şekilde etkileyebilir.
  • Çok kutupluluk katsayılı tahminlerin varyansını artırabilir ve tahminleri modeldeki ufak değişikliklere karşı çok hassas hale getirebilir.
  • Birden fazla bağımsız değişken olması durumunda, en önemli bağımsız değişkenlerin seçimi içinde tek tek bağımsız değişkenleri modele sokup çıkararak deneme yanılma ile model başarısını artırabilirsiniz.
  1. Lojistik Regresyon

Lojistik regresyon, True ve False (flag) olasılığını bulmak için kullanılır. Verimizde bağımlı değişken ikili (0/1, Doğru / Yanlış, Evet / Hayır) ise lojistik regresyon kullanmalıyız. Burada Y’nin değeri 0 ile 1 arasındadır ve aşağıdaki denklem ile gösterilebilir.

lojit (p) = 1 (p / (1-p)) = b0 + b1X1 + b2X2 + b3X3 …. + bkXk

Yukarıda, p, ilgilenilen özelliğin var olma olasılığıdır.

Burada sormanız gereken bir soru “neden denklemde logaritma kullandık?”.

Bir binom dağılımı (bağımlı değişken) ile çalıştığımız için, bu dağıtıma en uygun bağlantı fonksiyonunu seçmemiz gerekir. Bu yüzden logaritma kullanılır.

Önemli noktalar:

  • Sınıflandırma problemlerinde yaygın olarak kullanılır.
  • Lojistik regresyon, bağımlı ve bağımsız değişkenler arasında doğrusal bir ilişki aramaz. Tahmin edilen oran oranına doğrusal olmayan bir logaritma dönüşümü uyguladığı için çeşitli ilişki tiplerini idare edebilir.
  • Model aşamasında lojistik regresyon için belirlenen revizyonlar adım adım gerçekleştirilmelidir.
  • Örneklem büyüklüğü gerektirir.
  • Bağımsız değişkenlerin birbirleriyle oto-korelasyonu bulunmamalıdır. .Kategorik değişkenleri modele ekleme şansımız bulunmaktadır.
  1. Polinom Regresyonu

Bir regresyon denkleminde bağımsız değişkenin gücü 1’den fazla ise, bir polinom regresyon denklemidir. Aşağıdaki denklem bir polinom denklemini temsil eder:

y = a + b * x ^ 2

Bu regresyon tekniğinde en uygun doğru düz çizgi değildir. Daha çok veri noktalarına uyan bir eğridir.

Önemli noktalar:

  • Daha düşük hata almak için daha yüksek derecede bir polinom yerleştirme eğilimi olsa da, bu aşırı öğrenme (overfitting) ile sonuçlanabilir. Uygunluğu görmek ve eğrinin problemin doğasına uyduğundan emin olmaya odaklanmak için ilişkileri daima model öncesi ya da sonrası çizmeye çalışın. Çizimin nasıl yardımcı olabileceğine dair bir örnek:
  • Özellikle uçlara doğru eğrilere bakarsanız bu şekillerin ve trendlerin bir anlam ifade edip etmediğini görebilirsiniz. Daha yüksek polinom değerleri ile çalışırsanız tuhaf sonuçlar doğurabilir.
  1. Kademeli (Stepwise) Regresyon

Bu regresyon şekli, çoklu bağımsız değişkenlerle uğraşıldığında kullanılır

Bu teknik ile önemli değişkenlerin ayırt edilmesinde R-kare, t-istatistik ve AIC metrikleri kullanılır. Bağımsız değişkenleri kademeli olarak eleyen ya da ekleyen  teknik otomatik ya da sizin yönlendirmenizle değişkenleri modele alarak ya da çıkararak en etkili seçimi yapar. Stepwise yönteminin belirli seçenekleri bulunmaktadır:

  • Standart kademeli regresyon iki şey yapar. Her adım için gerekli olan değişkenleri ekler veya kaldırır.
  • İleriye doğru seçim, modeldeki en anlamlı değişken ile başlar ve her adım için değişken ekler.
  • Geriye doğru eleme, modeldeki tüm değişkenlerle başlar ve adım adım en az anlamlı değişkenleri kaldırır.

Bu modelleme tekniğinin hedefi, tahmin edilen minimum düzeyi değişkenleri eleyerek ya da ekleyerek maksimum düzeye çıkarmaktır. Çok boyutlu veri setleri için ideal bir tekniktir.

  1. Ridge Regresyon

Ridge regresyon, sapmalı tahmin yöntemlerinden biridir. Çoklu doğrusal bağlılık olduğunda en küçük kareler tahmincilerinin varyanslarından daha küçük varyanslı tahminler verdiğinden tercih edilebilir. Kullanılması ile tüm değişkenlere modelde yer verme imkanı olabilmektedir. Sapmalı olmasına rağmen teorik sonuçları nedeni ile tercih edilebilmektedir.

y = a + b * x (lineer regresyon eğrisinin formülü)

Bu denklemin bir hata terimi de vardır.

y = a + b * x + e (hata terimi), [hata terimi, gözlemlenen ve öngörülen değer arasındaki bir tahmin hatasını düzeltmek için gereken değerdir]

y = a + y = a + b1x1 + b2x2 + …. + e, çoklu bağımsız değişkenler için.

Doğrusal bir denklemde, tahmin hataları iki alt bileşene ayrılabilir. Birincisi önyargılı, ikincisi de varyanstır. Tahmini hata, bu iki bileşenden biri veya her ikisi de olabilir. Burada, farklılık nedeniyle oluşan hatayı tartışalım.

Önemli noktalar:

  • Bu regresyonun varsayımları, normalliğin kabul edilmemesi dışında, en küçük kareler regresyonuyla aynıdır.
  • Katsayıların değerini küçültür ancak sıfıra ulaşmaz, bu da özellik seçim özelliği olmadığını gösterir
  • Bu bir düzenleme yöntemidir ve l2 düzenini kullanır.
  1. Lasso Regresyonu

Lasso regresyonu (Least Absolute Shrinkage and Selection Operator Regression), lineer regresyonun başka bir düzenlileştirilmiş çeşididir. Ridge Regresyon’a benzer şekilde, Lasso (Least Absolute Shrinkage and Selection Operator Regression), regresyon katsayılarının mutlak boyutunu da sıfıra indirebilir. Ek olarak, değişkenliği azaltabilir yani değişken seçimi yapabilir (Feature Selection). Doğrusal regresyon modellerinin doğruluğunu artırabilir.

Lasso regresyonu, ridge regresyonundan farklı olarak  kareler yerine çaprazlama fonksiyonundaki mutlak değerlerin kullanımı ile farklılık gösterir. Bu, bazı parametre tahminlerinin tamamen sıfırlanmasına neden olan değerlerin sıfırlanmasına (veya tahminlerin mutlak değerlerinin toplamının eşit olarak sınırlandırılmasına) yol açar.

Önemli noktalar:

  • Bu regresyonun varsayımları, normalliğin kabul edilmemesi dışında, en küçük kareler regresyonuyla aynıdır.
  • Katsayıları sıfıra (tam olarak sıfır) daraltır, bu özellik (feature) seçiminde kesinlikle yardımcı olur.
  • Bu bir düzenleme yöntemidir ve normalleştirme yöntemi kullanılır.
  • Eğer bir değişken grubu yüksek düzeyde korelasyon gösteriyorsa, Lasso tekniği bunlardan sadece birini alır ve diğerini sıfıra çeker.
  1. ElasticNet Regresyonu

ElasticNet, Lasso ve Ridge regresyon tekniklerinin melezidir diyebiliriz. Düzenleyici olarak L1 ve L2 ile eğitilmiştir. Elastik-net, ilişkili birden fazla özellik olduğunda faydalıdır. Lasso regresyonunun iki bağımsız değişkenli bir modelde bunlardan birini rastgele seçmesi muhtemelken, ElasticNet regresyonu ikisini birden seçmesi olasıdır.

Önemli noktalar:

  • Yüksek korelasyonlu değişkenler durumunda grup etkisini teşvik eder.
  • Seçilen değişkenlerin sayısında bir sınırlama yoktur.

Doğru regresyon modeli nasıl seçilir?

Sadece bir veya iki teknik bildiğiniz zaman hayat genellikle basittir. Tanıdığım eğitim kurumlarından birinde öğrencilere şunu söylediklerini duymuştum. Eğer sonuç sürekli ise lineer eğer sonuç iki ise lojistik regresyon kullanın. Ancak, elimizdeki seçeneklerin sayısı ne kadar yüksekse, doğru olanı seçmek o kadar zor olur. Benzer bir durum regresyon modellerinde de olur.

Birden fazla regresyon modelinde, bağımsız ve bağımlı değişkenlerin türüne, verilerdeki boyutluluğa ve verilerin diğer temel özelliklerine göre en uygun tekniği seçmek önemlidir. Doğru regresyon modelini seçmek için uygulamanız gereken anahtar faktörler aşağıdadır:

  1. Veri keşfi, inşa edilecek modelinin kaçınılmaz bir parçasıdır. Doğru modeli seçmeden önce ilk adım olan değişkenlerin ilişkilerini ve etkilerini kesinlikle her noktası ile tanımlamalısınız.
  2. Farklı modelleme tarzlarını karşılaştırmak için, R-kare, Düzeltilmiş R-kare, AIC, BIC ve hata terimi gibi istatistiksel parametreleri kullanarak farklı ölçümleri analiz edebiliriz. Bir diğeri Mallow’s Cp kriteri. Bu, temelde modelinizi olası tüm alt modellerle karşılaştırarak (veya bunlardan dikkatlice seçerek) modelinizde olası yanlılığı kontrol eder.
  3. Çapraz doğrulama, tahmin için kullanılan modelleri değerlendirmenin en iyi yoludur. Burada verilerinizi iki gruba ayırırsınız. Gözlemlenen ve öngörülen değerler arasındaki basit bir ortalama (karelerin farkı), tahmin doğruluğu için bir ölçüt sağlar.
  4. Veri kümenizin birden fazla kafa karıştırıcı değişkeni varsa otomatik model seçim yöntemini seçmemelisiniz, çünkü bunları aynı anda bir modele koymak istemezsiniz.
  5. Regresyon düzenlileştirme yöntemleri (Lasso, Ridge ve ElasticNet) veri setindeki değişkenler arasında yüksek boyutluluk ve çoklu bağlanma olması durumunda iyi çalışır.

Sonuç

Şimdiye dek, size regresyon hakkında genel bir bilgi verim.bakışınız olduğunu umuyorum. Bu regresyon teknikleri, veri koşulları dikkate alınarak uygulanmalıdır. Hangi tekniğin kullanılacağını bulmak için en iyi püf noktalardan biri değişken ailesini, yani kesikli veya sürekli olma durumunu kontrol etmektir.

One Reply to “Veri Biliminde Yedi Regresyon Analizi”

  1. Lineer regresyon görüntü işleme alanında ki birçok algoritma içinde kullanılan bir konu ve burada çok açıklayıcı bir şekilde açıkladığınız için teşekkür ederiz.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.