Ekim 19, 2021
11 11 11 ÖÖ
TCP nedir ? Aktarım Katmanı 2
Aktarım Katmanı Tcp Nedir
Yönlendirme Nedir 2 ?
Yönlendirme Nedir ?
Ağ Katmanı Nedir 2 ?
Ağ Katmanı Nedir ?
Veri Bağı Katmanı Nedir 2 ?
Android Studio Nasıl Kurulur ?
Veri Bağı Katmanı Nedir ?
Fiziksel Katman Nedir ?
Son Yazılar
TCP nedir ? Aktarım Katmanı 2 Aktarım Katmanı Tcp Nedir Yönlendirme Nedir 2 ? Yönlendirme Nedir ? Ağ Katmanı Nedir 2 ? Ağ Katmanı Nedir ? Veri Bağı Katmanı Nedir 2 ? Android Studio Nasıl Kurulur ? Veri Bağı Katmanı Nedir ? Fiziksel Katman Nedir ?
Veri Analizi Nedir Olasılık ve İstatistik

Veri Analizi Nedir Olasılık ve İstatistik

Paylaşım , Takip İçin

Veri toplandığından yapılacak ilk şeylerden biri, verideki her bir değerin
(skorun) veride kaç defa görüldüğünü saymaktır. Ortaya çıkan sayılar eldeki
verinin ne olduğu hakkında önemli ipucu verir.
Çok basit bir örnek olarak, diyelim ki 10  kişilik bir arkadaş grubundaki kişilerin
eğitim seviyeleri şöyle olsun:


lise, üniversite, yüksek lisans, lise, üniversite, üniversite,
üniversite, ortaokul, yüksek lisans.

Veri toplandığından yapılacak ilk seylerden biri, verideki her bir değerin
(skorun) veride kaç defa görüldüğünü saymaktır. Ortaya çıkan sayılar eldeki
verinin ne olduğu hakkında önemli ipucu verir.
Çok basit bir örnek olarak, diyelimki 10 kişilik bir arkadas grubundaki kisilerin
eğitim seviyeleri şöyle olsun:
lise,üniversite, y.lisans, y.lisans, lise, universite, universite, universite,
ortaokul, y.lisans olsun.
Bu durumda 1 ortaokul, 2 lise, 4 üniversite ve 3 y.lisans mezunu vardır.

Histogram

Değişkenin aldığı farklı
değerlerin veride kaç
defa görüldüğünü
gösteren sütun grafiğine
histogram diyeceğiz.

Peki ya veri deki değişkenimiz sayısal ise? Bu durumda histogram nasıl olur?
Yine diyelim ki 10 kişilik bu arkadaş grubundaki kişilerin boyları cm cinsiden
şöyle olsun:
191, 168, 176, 175, 188, 180, 184, 180, 189, 178.
Bu durumda 180cm iki kez, diğer uzunluklar bir kez görülmüş olur. O halde
histogram:

Histogram

Bu histograma bakarak
gruptaki kişilerin boyları
hakkında hemen bir
kanıya varmak, bir
sonuç çıkarmak güçtür.

Not : Yukarıdaki gruplama tamamen kişiseldir. İsteyen değişkenleri başka aralıklarla da
gruplayabilir, ama grup aralıklarının aynı olmasına dikkat edilmelidir!

Değişken sayısal iken, bu değişkenin daha çok hangi değerler aldığını göstermek için,
yani bu değerin histogramı için, genel yaklaşım değeri gruplara bölmektir: buna
İngilizce de (binnning, (kutulamak)) denir.
Bu veriden 3 grup oluşturalım:
165 – 175 arası değerler: 168, 175 (2 adet)
175 – 185 arası değerler: 176, 178, 180,180,184 (5 adet)
185 – 195 arası değerler: 188, 189, 191 (3 adet)

Veri Analizi Nedir Olasılık ve İstatistik

Bu histograma bakarak verimizdeki değişken
olan boy uzunluğu hakkında hemen bir
sonuca varabiliriz: Gruptaki kişilerin
%50’sinin boyu 175 cm ile 185 cm
arasındadır

Göreli Sıklık Dağılımı (Relative Frequency Distribution)

Veri de her bir değerin görülme sayısını dikkate aldığımızda, ortaya çıkan sıklık
dağılımı o veriye özgü (elimizdeki örneğe (sample)) gibi görülebilir. Verinin
alındığı popülasyona yönelik daha genel bir sonuca varmak için görülme sayıları
normalleştirilerek, her bir sayının [0-1] arası bir değer alması sağlanabilir. Bu
şekilde oluşturulan sıklık dağılımına göreli sıklık dağılımı (relative frequency
table) denilir.
Bir görülme sayısını [0-1] aralığına getirmek için, bu sayıyı toplam görülme
sayısına (veri deki toplam eleman sayısı) böleriz:
Bir önceki örnekte toplam 10 kişi vardı. Bu 10 kişinin 2’sinin boyu 165-175
arasında idi. O halde 165-175 cm olanların görülme (sıklık) yüzdesi: 2
10
= 0.2
175-185 arası 5 kişinin görülme yüzdesi: 5
10
= 0.5
185-195 arası 3 kişinin görülme yüzdesi: 3
10
= 0.5

Sıklık Dağılımı Ne Zaman Normaldir?

İdeal dünyada veri, merkezi etrafında toplanmıştır. Bu, ”normal” olandır.
Verinin bu şekilde merkezi etrafında toplanmasına normal dağılım diyeceğiz.
Normal dağılıma sahip bir verinin histogramı çan eğrisi şeklinde olur.

Veri Analizi Nedir Olasılık ve İstatistik
  • Ortalama boy olan 165-170 boya sahip
    kişilerin sayısı en fazladır.

  • Uç değerdeki boylara: 150-155 ve 180-185
    sahip kişilerin sayıları en azdır.

  • Grafikte ortalama boyun sağı ve solu
    simetriktir.
  • Sonuç olarak; eğer sıklık dağılımı normalse veri merkezi etrafına toplanmıştır.
    Bu şu demektir:

  • En fazla ortalama değer görülür.

  • Uç değerler (en küçük değerler, en büyük değerler) en az görülür
  • .
    Ortalama değerin altındaki ve ve üstündeki değerlerin görülme sayısı hemen
    hemen aynıdır.

Farklı Normal Sıklık Dağılımları

Sıklık dağılımının normal
olabilmesi için ortalama
değerin sağındaki ve
solundaki değerlerin
görülme sayılarının
aynı olması gerekir.

Sıklık Dağılımının Normalden Sapması

Bazen en sık görülen değer ortalama değer olmaz. Örneğin küçük değerler çok
daha sık görülebilir.
Örneğin 11 kişilik bir arkadaş topluluğunda istatistik dersinden alınan vize notları:
70, 50, 5, 45, 35, 17, 25, 27, 90, 5, 38
olsun. Bu değerleri 20’lik aralıklara bölersek: 0-20 arası 3 değer, 20-40 arası 4
değer, 40-60 arası 2 değer, 60-80 arası 1 değer, 80-100 arası 1 değer görülür

Veri Analizi Nedir Olasılık ve İstatistik

Bu şekilde küçük değerlerin daha çok görüldüğü dağılıma pozitif eğriliğe (positively skewed) sahip dağılım diyeceğiz.

Karşıt şekilde veride eğer büyük değerler daha çoksa, bu sıklık dağılımına negatif eğriliğe (negatively skewed) sahip dağılım denir. Bir önceki örnekte notlar eğer : 25, 50, 5, 52, 82,100, 95, 78, 65, 75 , 95 

Bu eğriye pozitif denmesinin nedeni kuyruğunun sayı doğrusunda pozitif yöne doğru uzaması; benzer şekilde aşağıdaki eğriye negatif denmesinin nedeni kuyruğunun negatif yöne doğru uzamasıdır.

Daire Grafiği (Pie Chart)

İlgilendiğimiz değişkenim sembolik türde bir kategorik değişken ise (yani bu
değişkenler sözel ve sıralanamıyorsa) bu değişkenin farklı değerlerinin veride ne
sıklıkta görüldüğünü görselleştirmek için daire grafiği (pie chart) çizeriz.
ör. Diyelim ki bir bölümünde 54 kişi Sivas ’lı, 12 kişi Mersin ’li, 25 kişi Kayseri ’li, 20
kişi Adana ’lı ve 4 kişi Hatay ’lı olsun.
Bu veriden elde edilen daire grafiği bölümdeki kişilerin memleketlerini ve bu
memleketlerin görülme yüzdelerini verir:

Veri Analizi Nedir Olasılık ve İstatistik

Merkezi Eğilim (Central Tendency)

Bir veride değişkenin merkezinin nerede olduğunu hesaplayabiliriz. Bu merkez
veride en çok görülen değerdir ve bütün veriyi özetlerken kullanacağımız iki
büyüklükten biridir (diğeri varyasyon).
Merkezi eğilim 3 şekilde hesaplanabilir: Ortalama, Medyan ve Mod.

1. Ortalama (Mean – Average)

En bilindik merkez hesaplama yöntemidir. Basitçe tüm değerler toplanır; toplam
kaç tane değer varsa o sayıya bölünür.

ör. 7 kişilik bir gruptaki kişilerin takipçi sayıları: 95, 110, 136, 151, 175, 188, 602
olsun. Bu gruptaki kişilerin ortalama takipçi sayısı:

Değerlerin toplamı / 7 = 208.1 çıkmaktadır.

Fakat dikkat edilirse bulunan ortalama değer verinin tamamını özetlemekten
biraz uzaktır. Çünkü verinin yaklaşık %85’i (7 değerin 6’sı) [95 – 188] aralığındadır
ama bulunan ortalama değer bu aralık içerisinde yer almaz. Bu, uç (extreme) bir
değer olan 602’nin ortalamayı epey yukarı çekmesinden dolayı oluşmuştur. Yani aşırı
popüler kişi ortalamayı alt üst etmiştir.

2. Medyan (Ortadaki Değer)

ör. 7 kişilik bir gruptaki kişilerin takipçi sayıları: 95, 110, 136, 151, 175, 188, 602
olsun. Bu gruptaki kişilerin medyanını bulalım.

Verinin merkezini bulmanın bir başka yolu medyanı hesaplamaktır. Basitçe medyan,
verideki değerler küçükten büyüğe sıralandığında ortadaki değerdir.

Sıralandığı zaman ortadaki değer 151 olmaktadır.

Medyan, ortalamaya göre daha az uç değerlerden etkilenir. Öte yandan medyan
yalnızca sıralamaya dayandığından, medyan hesabında verideki değerleri tam
olarak kullanıyoruz diyemeyiz.

3. Mod (Mode)

Mod, veride en sık görülen değerdir. Verinin merkezini hesaplarken kullanabiliriz.
Değişkenimiz sayısal türde ise, aynı değerin birden fazla görülmesi pek mümkün
olmaz. Genelde tüm değerler bir kez görülmüş olur. Örneğin bir önceki örnekte
herkesin takipçi sayılası farklıdır. Şu halde en çok görülen değerden pek söz
edemeyiz.
Öte yandan diyelim ki değişkenimiz kategorik olsun. Bu durumda verinin merkezi
için mod hesabını kullanabiliriz.


ör. Diyelim ki bir garajdaki araçların 45’i araba, 17’si SUV ve 6’sı motor bisiklet olsun.
Bu durumda bu verideki araç değişkenin modu araba olur.

Olasılık ve İstatistik konusunun bir önceki konusu için — Tıklayınız


Paylaşım , Takip İçin
5 1 vote
Article Rating

Bir Cevap Yazın

0 Yorum
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
HAYALİNDEKİ YAZILIM
%d blogcu bunu beğendi: