21 Temmuz 2017 Cuma

Machine Learning - 3 - Logistics Regression

Merhaba,


Bir önceki yazıda linear regression(doğrusal ilkelleme) modelinden bahsetmiştik.


Linear bir denklem y=ax+b şeklinde ifade edilebilir. Burada y dependent(bağımlı), x ise independent(bağımsız) bir variable(değişken)'dir. Linear bir equation(denklem)'ı birden fazla bağımlı değişken olması durumunda y = B0 + B1*X1 + B2*X2 + E şeklinde de ifade edebiliriz. Burada B ile gösterilen ifadeler coefficient(katsayı)'dır. Birden fazla bağımlı değişken olması durumunda modelimiz de multiple linear regression ismini alır. Bu durumda regression line'ımız artık bir düzlem haline gelebilir. Örneğin aşağıdaki grafikte weight ve horsepower x1 ve x2 olarak adlandırabileceğimiz bağımsız değişkenler MPG ise y olarak adlandırabileceğimiz bağımlı değişkenimizdir. Noktaların düzleme uzaklığı ise error'u ifade eder.





Bazı durumlarda linear regression'dan daha farklı bir modele ihtiyaç duyabiliriz. Örneğin bir dergi aboneliğinin yaş ile ilişkisini inceliyoruz. Burda dergiye abone olmak binary(sadece evet-1- veya hayır-0-) bir değişkendir ve elimizdeki veriler ile dergiye abone olma olasılığını gösteren p(abonelik=1) grafiğini çizmek istiyoruz. Bu durumda linear regression modeli ile elimizdeki verilere göre bir grafik çizdiğimizde regression line'ımız p(abonelik=1) = -1,7+0,064*yaş şeklinde çıkabilir.


Bu tahmin modeli ile 35 yaşındaki bir kişinin dergiye abone olma olasılığı =-1,7+0,064*35=0,54 olabilir ancak 25 yaşındaki bir kişi için olasılık -0,09 ve 45 yaşındaki bir kişi için ise olasılık 1,2 olarak tahmin edilir. Dolayısıyla modelimizin tahminleri mantıksız 25 ve 45 yaşındaki kişiler için yanlış olmaya başlar ve modelimizde sağdaki grafikteki gibi tahmin alabileceğimiz bir fonksiyona ihtiyaç duyabiliriz.





Bunu sağlamak için ln ( p/(1-p) ) = B0 + B1 * yaş gibi bir denklem kullanabiliriz. Bu denklem artık linear bir fonksiyon değildir. Bu denklem logistic regression olarak adlandırılır. Özellikle dergiye abone olmak gibi sonucu binary olan bir durumu tahmin etmeye çalışıyorsak logistic regression kullanılabilir.


Örneğin ln ( p / (1-p) ) = -26,52 + 0,78 * yaş denkleminin grafiği aşağıdaki gibidir ve p'nin 0'ın altında veya 1'in üzerinde bir değer alması imkansızdır.


Hiç yorum yok:

Yorum Gönder