Paylaşım , Takip İçin
Olasılık (probability) nedir?
- Olasılık en basit ifade ile olaylar için olası durumları inceleyen alandır.
- Yarın havanın yağışlı olması veya olmaması,
- Dünyaya gelecek bir çocuğun erkek veya kız olması ihtimali,
- Belirti veren bir kişinin Covid olup olmaması,
- Olasılıkla açıklanan olayların analizi ise istatistik yardımıyla yapılır.
Temel kavramlar
- Örnek uzayı (sample space – Ɛ): çalışma alanımızda karşımıza çıkacak durumlar kümesidir.
- Örneğin, yazı tura deneyinde örnek uzay = {Y, T}
- Zar için örnek uzayı = {1,2,3,4,5,6}
- Örnek uzayı deneme sayısına bağlı olarak değişir. Örneğin iki kere yazı tura deneyi yaptığımızda örnek uzayı;
- {YY, YT, TY, TT} gibi dört durumdan oluşacaktır. Ya da yazı tura deneyini üç kez tekrar edersek;
- {YYY, YYT, YTY, YTT, TYY, TYT, TTY, TTT} gibi sekiz durumdan oluşacaktır.
- Dolayısıyla örnek uzayı, yaptığımız deneylerdeki bütün olası durumları bize sunar.
Olasılık fonksiyonları
- X, örnek uzayında yer alan bir olay olmak üzere;
- P(X), X olayı ile [0, 1] değerleri arasında eşleşme sağlayan olasılık fonksiyonudur.
- X olayı hilesiz yazı tura olmak üzere; P(X)=|X| / | Ɛ| olarak hesap edilir.
- X olayı 3’e bölünebilen bir değerin zar üzerinde çıkması olasılığı olmak üzere;
- P(X)=P({3, 6})=2/6=1/3 olacaktır.
- Eğer A ve B olayları ayrık olaylarsa, A ve B kesişimi boş kümeyse o zaman iki olayın birleşiminin olasılığı olasılıklar toplamı olacaktır.
- A ∩ B à boş küme
- P(A U B) = P(A) + P(B) olacaktır.
- Örneğin, zarın 3 veya 4 gelmesi olasılığı hesap edilirken iki olay birbirinden farklı olduğu için 3 gelme olasılığı ile 4gelme olasılığı hesap edilir ve bu değerler toplanır.
Yazı – tura deneyi
- Olasılık konusunu açıklamak için en iyi örneklerden yazı – tura deneyidir. Paranın yazı gelme olasılığına P(Y), tura gelme olasılığına da P(T) dersek; P(T) olasılığı aşağıdaki gibi hesap edilebilir.
P(T)=(|tura gelenlerin sayısı|)/|toplam deney sayısı|
- Böylece bir olayın olasılığı;
P= (olayın meydana gelme sayısı) / (bütün denemelerin sayısı)
- Olarak verilebilir. Normal şartlar altında yazı/tura deneylerinde yazı ve turanın gelme olasılığı eşit olup toplam durum sayısı iki olduğu için aşağıdaki ifade yazılabilir.
P(Y)=P(T)=1/2
ZAR ATMA DENEYİ
- Olasılıkta sık kullanılan diğer deney Zar Atma deneyidir.
- Bir zar üzerinde toplam 6 farklı değer vardır. Her bir değerin gelme olasılığı eşit ve 1/6 olarak bilinir. Örneğin; 1 gelme olasılığı P(1)=1/6’dır.
- Atılan zarın 1 veya 6 gelme olasılığı her birinin gelme olasılıkları toplamıdır.
- P(1 veya 6)=P(1) + P(6) = 1/6 + 1/6=1/3 olacaktır.
- Veya zarın 1 veya 6 gelmesi olay sayısı bakımından ele alındığında toplam 6 olası durumdan 2’si olarak karşımıza çıkar. Bu mantığa göre hesap edildiğinde de; olayın meydana gelme sayısı / toplam olay sayısından; 2/6 = 1/3 olarak elde edilir.
- Eğer çift sayı gelme olasılığı istenseydi;
- P(çift)=1/2 olarak hesap edilecekti. Çünkü 1…6 arasındaki değerlerden 3 tanesi çift sayıdır (2,4,6) ve toplam olası durum sayısı 6 olduğu için sonuç ½ olacaktır.
Bazı ipuçları
- Bir olayın meydana gelme olasılığı 0 ile 1 arasında değer alır. Olasılığın sıfır olması «imkansız» (impossible), bir olması ise «kesin» (certain) olarak bilinir.
- Gerçek hayatta gördüğümüz sıfır hiçbir zaman sıfır veya bir hiçbir zaman bir değildir. Mucizevi veya belirsiz durumlar sıfır ve bir durumunu az da olsa etkiler.
- 1’den büyük veya negatif olasılık değeri olmaz.
- Bazen olasılık yüzde olarak da verilir. Olasılık yüzde olarak verildiğinde olasılık değeri %0 ile %100 arasında değişir.
- Bir A olayının olasılığı P(A) olarak yazılır.
- Eğer P(A)> P(B) ise, A olayının meydana gelme olasılığı B olayının meydana gelme olasılığından yüksektir diye yorumlarız.
- Eğer P(A)=P(B) ise o zaman A ve B olaylarının gerçekleşme olasılıklarının eşit olduğunu ifade ederiz.
Örnek Problem 1
- İçinde üç sarı, iki kırmızı, iki yeşil ve bir mavi bilye olmak üzere; bu torbadan çekilen bir bilyenin sarı olma olasılığı nedir?
P(Sarı)=|Sarı|/|Toplam|
- Yani toplam sarı bilye sayısını toplam olay sayısına böleriz.
P(Sarı)=3/8 olarak bulunur.
Örnek Problem 2
- Bir zar atma probleminde P(zar<=2)=?
- Bir zarın 2’ye eşit ve küçük şartını sağlayabilmesi için zarın 1 veya 2 gelmesi lazımdır. O zaman olasılık: P(zar<=2)=2/6=1/3 olacaktır.
- Zar atma probleminde P(zar>=3)=?
- Bir zarın 3’e eşit ve daha büyük olması şartını sağlayabilmesi için; 3, 4, 5, 6 sayıları gelmesi lazımdır. Yani 6 durum içerisinde 4 durum. P(zar>=3)=4/6
Şartlı (koşullu) Olasılıklar
- Bir olayın (A) olasılığı, başka bir olayın (B) gerçekleşmesine bağlıysa o zaman koşullu olasılıkları hesap ederiz.
- B olayı verildiğinde A olayının gerçekleşme olasılığı: P(A | B)
- A olayının öncel olasılığı: P(A)
B olayı verildiğinde A’nın son olasılığı: P(A│B)=(P(A∩B))/(P(B))
BAĞIMSIZLIK (INDEPENDENCE)
- İki olayın birbirinden bağımsız gelişmesi ve birbirine etki etmemesidir.
- Örneğin;
- P(A) = P(A|B)
- İki ayrık olay için şartlı olasılık ilişkisi
- P(A∩B)=P(A).P(B)
- İki ayrık olayın kesişimi bulunurken
- P(Y|TTTTT)=1/2
- Örneklemde çok sayıda H (tura) çıkması tura olasılığını etkilemez.
RANDOM DEĞİŞKEN GÖSTERİMİ
- p(X = a)
- X rastgele bir değişken olup örnek uzaydan bir olay ele alır.
- Örneğin, yazı-tura deneyinde;
- P(X=T)=1/2 veya P(X=Y)=1/2
- Diğer örnekler
- p(tennis = yes)
- p(tennis = yes | outlook = rain)
- p(tennis = yes | outlook = sunny)
Binom olasılık
- N elemanlı bir ikili sayı dizisinde (1 ve 0 elemanlarından oluşan)
- Pr[1]=p ve Pr[0]=1-p=q iken;
- U={n elemanlı bir dizide r adet 1 değerinin olması}
- n elemanlı bir dizide r adet 1’in oluşma olasılığı binom olasılığı ile bulunur.
- Böyle bir dizide r adet 1 ve n-r adet 0 bulunur.
Bayes sınıflandırma
Veri ve hedef
- Eğitim verisi
- start=B, end=ia, location
- start=B, end=er, person
- start=M, end=ia, person
- start=L, end=ia, location
- start=N, end=er, location
- start=B, end=ia, location
- start=E, end=nd, location
- start=N, end=ia, location
- start=A, end=er, person
- start=L, end=ke, person
- Hedefimiz:
- Özellikleri en benzer sınıfa eşleyen bir fonksiyon öğrenmek
- En iyi sınıf = bayes decision rule = argmaxlabel p(label | features)
Doğrudan son parametre tahmini
p(label│features)=(C(label ve feature içeren özellikler))/(C(feature içeren özellikler))
- p(label = location | start = B; end = er) = 0/1 = 0 (B ile başlayıp er ile sonlanan örneklerin location olma olasılığı). Örnek verimiz içerisinde B ile başlayıp er ile sonlanan ve etiketi location olan hiç örnek olmadığı için pay kısmına sıfır (0) değeri, B ile başlayıp er ile biten bir (1) örnek olduğu için de payda kısmına 1 yazarak işlem sonucunu elde ederiz.
- p(label = person | start = B; end = er) = 1/1 = 1
- p(label = location | start = B; end = ia)= 2/2 = 1
- p(label = person | start = B; end = ia) = 0/2 = 0
- Bu yöntem çok iyi çalışmaz
- Seyreklik sorunu vardır. Herhangi bir belirli özellik kombinasyonu nadirdir, genellemesi zordur.
- Bir metindeki her kelime bir özellik olduğunda daha da kötüdür.
- Her metin benzersiz olacaktır ve hiçbir genelleme yapılmayacaktır.
- Yeni örnekler etiketlenemez
BAYES KURALI
- Arasında bir kıyaslama yapılır. Her iki denklemin paydası da p(features) olduğu için yukarıdaki kıyas kısaltılarak p(features|location).p(location) ile p(features|person).p(person) kıyasına dönüşecektir. Böylece son değeri (posterior) hesaplamak için iki değere ihtiyacımız vardır:
- Kanıt olasılığı (the likelihood of the evidence): p(features|label)
- Öncel olasılık: p(label)
Doğrudan son olasılığın bulunması
- P(features | label) = C(label ve feature içeren örnekler) / C(label içeren örnekler)
- p(start = B; end = er | label = location) = 0/6 =0
- p(start = B; end = er | label = person) = ¼ = 0,25
- p(start = B; end = ia | label = location) = 2/6 = 0,333
- p(start = B; end = ia | label = person) = 0/4 = 0
- Hala sorunlu: hala seyrek, hala çok fazla sıfır, genellemesi hala zor
Naive bayes sınıflandırma
- Almış olduğumuz yeni bir örnek için sınıflandırma yapalım.
- Daha önce böyle bir örnek eğitim setinde olmasa bile sınıflayıcı çalışır.
- «start=L, end=er» (Test verisi)
- p(features | A)*p(A) ve p(features | B)*p(B) değerlerini hesap edeceğiz.
- p(start = L | location) * p(end = er | location) * p(location) = (1/6)*(1/6)*(6/10)=0.02
- p(start = L | person) * p(end = er | person) * p(person) = (1/4)*(2/4)*(4/10)=0.06
Böylece, 0.06(person olasılığı)>0.02(location olasılığı) olduğu için “start=L, end=er” örneği büyük olasılıkla bir kişi adıdır. Sınıf bilgisi person olarak bulunmuştur.
Neden naive bayes
- Naive bayes daha modüler bir yapıyı destekler
- Seyreklik ile ilgili olarak bize yardımcı olur
- Belirli özellik kombinasyonları nadirdir
- Bireysel özellikler daha az seyrektir. İkili özellik olasılığı sıfır olan birçok durumda tekli olasılıklar sıfırdan farklı olabilir.
Smoothing
- Burada bir şeyler ters gitmektedir.
- “ia” ile biten location olasılığı 0.67, “ia” ile biten person olasılığı 0.25 olmasına rağmen sözcük person olarak sınıflandırılmıştır.
- Location sınıfı Person sınıfına nispetle ön olasılık bakımından daha büyük olmasına rağmen Austria sözcüğü location değil person olarak sınıflandırılmıştır.
- Bu hatayı düzeltebilmek için λ parametresi eklenir.
- Böylece hatalı sınıflandırmaya sebep olan sıfır olasılıklarından kurtuluruz.
- Austria örneğine dönerek sadece 1 gibi bir rakam ekleyerek bile sıfır olasılıklardan sistemi kurtarabiliriz. Bu işleme smoothing adı verilir.
Bir önceki makine öğrenmesi konusu için tıklayınız — Regresyon Analizi
Paylaşım , Takip İçin