Paylaşım , Takip İçin
Veri Keşfi Nedir ?
- Veri keşfi, veri karakteristiklerini daha iyi anlayabilmek için yapılmış çalışmalara verilen isimdir.
Veri Keşfinde Kullanılan Teknikler
- Keşifsel veri analizi,
- Görselleştirme üzerine odaklanmıştır
- Kümeleme ve anormallik tespiti keşifsel teknikler olarak görülebilir
- Veri keşfi konusunda odak noktası şu alanlar olacaktır
- Özet istatistikler
- Görselleştirme
- Çevrimiçi analitik işlem (OLAP)
İris (Süsen Çiçeği) Data
- Keşifsel veri analizi tekniklerinin bir çoğu iris (süsen çiçeği) veri seti ile açıklanır. İlgili veri setine UCI Machine Learning veri deposundan ulaşmak mümkündür.
- Bu veri Douglas Fisher tarafından elde edilmiştir.
- Çiçeğin üç sınıfı vardır:
- Setosa | Virginica | Versicolour
- Dört tane giriş niteliği vardır
- Sepal genişliği | Sepal uzunluğu | Petal genişliği | Petal uzunluğu
- Çiçeğin üç sınıfı vardır:
Özet İstatistikler
- Özet istatistikler veriyi özetlemeye yarayan ölçümlerdir.
- Özetlenmiş özellikler; frekans, yerleşim ve yayılma ölçüleri içerir
- Örnekler: yerleşimi sunan bir ölçüm – ortalama
yayılımı sunan bir ölçüm – standart sapma
- Örnekler: yerleşimi sunan bir ölçüm – ortalama
- Özetlenmiş özellikler; frekans, yerleşim ve yayılma ölçüleri içerir
- Birçok özet istatistik veri üzerinden tek bir geçiş ile elde edilebilir.
Frekans ve Mod
- Bir nitelik değerinin frekansı; veri seti içerisinde o değerin kaç kez tekrarlandığını sunar.
- Örneğin, istenen nitelik değeri ‘cinsiyet’ olsun, bununla ilgili sunum şöyle olur “temsil edici bir popülasyonda cinsiyeti ‘bayan’ olanların frekansı %50 civarındadır”.
- Bir nitelik için mod değeri, veri setinde en sık yer tekrar eden nitelik değeridir.
- Frekans ve mod tipik olarak kategorik veri ile birlikte kullanılır.
Frekans ve mod örneği

Mod değeri BB’dir. Çünkü en çok BB görülmüştür.
Yer Ölçüleri: Ortalama ve Medyan (Ortanca)
- Ortalama, bir nokta kümesinin yeriyle ilgili en genel ölçümü sunar.
- Ortalama değeri taşmalara karşı aşırı duyarlıdır. Taşmalardan kötü şekilde etkilenir.
- Bu yüzden, genellikle medyan veya kırpılmış ortalama kullanılır.
Ortalama ve medyan örneği

- Toplam=592
- Eleman sayısı (m)=8
- Mean=Toplam/m=592/8=74
- m değeri çift olduğu için medyan;
- medyan=1/2(74+74)=74
Yayılım Ölçüleri: Aralık ve Varyans
- Aralık (range) en büyük değer ile en küçük değer arasındaki farktır.
- Varyans veya standart sapma bir nokta kümesinin yayılımına ait en genel ölçümdür.
- Standart sapma ölçümü de taşmalara karşı duyarlıdır ve sıklıkla diğer ölçümler kullanılır.
Varyans, aralık, AAD, MAD
- m=8 ve m-1=7 olup
- Varyans(x)=3168/7=452,571
- m=8 olup
- AAD(x)=110/8=13,75
- range(x)=99-30=69
- En yüksek ile en düşük puan arası
- İnterqaurtile range(x) ise
- x75=87,75 (ilk yarı ortalaması)
- x25=60,25 (ikinci yarı ortalaması)
- x75-x25=87,75-60,25=27,50

MAD hesabı için öncelikle |x-xort| değerlerini sıraya dizmek zorundayız.
Görselleştirme
- Görselleştirme, verinin karakteristikleri, veri elemanları veya öznitelikleri arasındaki ilişkilerin analiz edilebilmesi veya raporlanabilmesi için verinin görsel formata dönüşümüdür.
- Verinin görselleştirilmesi veri keşfi için en güçlü ve en çekici tekniklerden biridir.
- İnsanlar bilgiyi görsel olarak sunmakla çok büyük miktardaki veriyi analiz etme şansına sahip olmuşlardır.
- Genel örüntü ve trend tespiti yapabilmişlerdir.
- Görselleştirme sayesinde, taşmalar ve alışılmamış örüntülerin tespiti edilebilmiştir.
Örnek: Deniz Yüzeyi Sıcaklığı
- Aşağıda 1982 temmuzu için deniz yüzeyi sıcaklığı görülmektedir.
- On binlerce veri noktası tek bir şekille özetlenmiştir.

Sunum
- Veriler, onların nitelikleri ve veriler arasındaki ilişkiler; noktalar, satırlar, şekiller ve renkler gibi grafiksel elemanlara dönüştürülebilir.
- Örnek:
- Nesneler sıklıkla noktalarla sunulur
- Onların özellikleri noktaların karakteristikleri (renk, boyut ve şekil gibi) veya pozisyonu ile sunulabilir.
- Eğer pozisyon bilgisi kullanılırsa taşmalar ve grup içinde kalmalar rahatça izlenebilir ve kolaylıkla taşma tespiti algılanabilir.
Düzenleme
- Heterojen halde anlaşılmasında zorluk yaşanan veri homojen hale getirilir. Buna düzenleme adı verilir. Bu sayede; veriyi anlama daha kolay hale getirilebilir.

Görselleştirme teknikleri : Histograms
- Histogram
- Genellikle bir değişkenin değerlere dayalı dağılımını gösterir
- Değerleri kutulara böler ve her bir kutuda bir çubuk işaretler.
- Her bir çubuğun yüksekliği nesnelerin sayısını gösterir
- Histogramın şekli kutuların sayısına bağlıdır
İki boyutlu Histogramlar
- İki özniteliğin değerlerinin kesişim dağılımını gösterir
Görselleştirme Teknikleri : Kutu Çizgileri
- Kutu çizgileri (Box Plots)
- Tukey tarafından bulunmuştur
- Veri dağılımı ile ilgili bir diğer gösterim yöntemidir.
- 5 özet istatistik göstergesinin bir arada gösterildiği ve mukayese imkanı veren grafik
Görselleştirme Teknikleri : Saçılma Çizgileri
- Saçılma çizgileri
- Öznitelik değerleri pozisyonu belirler,
- İki boyutlu saçılma çizgileri en sık kullanılan olup üç boyutlu olanları da vardır,
- Sıklıkla, ek öznitelikler; nesneleri sunan işaretlerin boyut, şekil, ve renkleri kullanılarak gösterilebilir.
- Saçılma çizgilerinin dizilere sahip olması özniteliklerin birkaç çifti arasındaki ilişkileri karmaşık olarak özetleyebilmek için faydalıdır.
- Saçılma çizgileri bir değişkenin diğeri tarafından nasıl etkilendiğini gösterir.
- İki değişken arasındaki ilişki onların korelasyonu olarak isimlendirilir.
Bir önceki veri madenciliği konusu için tıklayınız — Veri Önişleme
Paylaşım , Takip İçin