Ekim 19, 2021
11 11 11 ÖÖ
TCP nedir ? Aktarım Katmanı 2
Aktarım Katmanı Tcp Nedir
Yönlendirme Nedir 2 ?
Yönlendirme Nedir ?
Ağ Katmanı Nedir 2 ?
Ağ Katmanı Nedir ?
Veri Bağı Katmanı Nedir 2 ?
Android Studio Nasıl Kurulur ?
Veri Bağı Katmanı Nedir ?
Fiziksel Katman Nedir ?
Son Yazılar
TCP nedir ? Aktarım Katmanı 2 Aktarım Katmanı Tcp Nedir Yönlendirme Nedir 2 ? Yönlendirme Nedir ? Ağ Katmanı Nedir 2 ? Ağ Katmanı Nedir ? Veri Bağı Katmanı Nedir 2 ? Android Studio Nasıl Kurulur ? Veri Bağı Katmanı Nedir ? Fiziksel Katman Nedir ?
örnek

Veri Keşfi Nedir ?

Paylaşım , Takip İçin

Veri Keşfi Nedir ?

  • Veri keşfi, veri karakteristiklerini daha iyi anlayabilmek için yapılmış çalışmalara verilen isimdir.

Veri Keşfinde Kullanılan Teknikler

  • Keşifsel veri analizi,
    • Görselleştirme üzerine odaklanmıştır
    • Kümeleme ve anormallik tespiti keşifsel teknikler olarak görülebilir
  • Veri keşfi konusunda odak noktası şu alanlar olacaktır
    • Özet istatistikler
    • Görselleştirme
    • Çevrimiçi analitik işlem (OLAP)

İris (Süsen Çiçeği) Data

  • Keşifsel veri analizi tekniklerinin bir çoğu iris (süsen çiçeği) veri seti ile açıklanır. İlgili veri setine UCI Machine Learning veri deposundan ulaşmak mümkündür.
  • Bu veri Douglas Fisher tarafından elde edilmiştir.
    • Çiçeğin üç sınıfı vardır:
      • Setosa | Virginica | Versicolour
    • Dört tane giriş niteliği vardır
      • Sepal genişliği | Sepal uzunluğu | Petal genişliği | Petal uzunluğu

Özet İstatistikler

  • Özet istatistikler veriyi özetlemeye yarayan ölçümlerdir.
    • Özetlenmiş özellikler; frekans, yerleşim ve yayılma ölçüleri içerir
      • Örnekler: yerleşimi sunan bir ölçüm – ortalama
        yayılımı sunan bir ölçüm – standart sapma
  • Birçok özet istatistik veri üzerinden tek bir geçiş ile elde edilebilir.

Frekans ve Mod

  • Bir nitelik değerinin frekansı; veri seti içerisinde o değerin kaç kez tekrarlandığını sunar.
  • Örneğin, istenen nitelik değeri ‘cinsiyet’ olsun, bununla ilgili sunum şöyle olur “temsil edici bir popülasyonda cinsiyeti ‘bayan’ olanların frekansı %50 civarındadır”.
  • Bir nitelik için mod değeri, veri setinde en sık yer tekrar eden nitelik değeridir.
  • Frekans ve mod tipik olarak kategorik veri ile birlikte kullanılır.

Frekans ve mod örneği

Veri keşfi

Mod değeri BB’dir. Çünkü en çok BB görülmüştür.

Yer Ölçüleri: Ortalama ve Medyan (Ortanca)

  • Ortalama, bir nokta kümesinin yeriyle ilgili en genel ölçümü sunar.
  • Ortalama değeri taşmalara karşı aşırı duyarlıdır. Taşmalardan kötü şekilde etkilenir.
  • Bu yüzden, genellikle medyan veya kırpılmış ortalama kullanılır.

Ortalama ve medyan örneği

Veri keşfi
  • Toplam=592
  • Eleman sayısı (m)=8
  • Mean=Toplam/m=592/8=74
  • m değeri çift olduğu için medyan;
  • medyan=1/2(74+74)=74

Yayılım Ölçüleri: Aralık ve Varyans

  • Aralık (range) en büyük değer ile en küçük değer arasındaki farktır.
  • Varyans veya standart sapma bir nokta kümesinin yayılımına ait en genel ölçümdür.
  • Standart sapma ölçümü de taşmalara karşı duyarlıdır ve sıklıkla diğer ölçümler kullanılır.

Varyans, aralık, AAD, MAD

  • m=8 ve m-1=7 olup
    • Varyans(x)=3168/7=452,571
  • m=8 olup
    • AAD(x)=110/8=13,75
  • range(x)=99-30=69
    • En yüksek ile en düşük puan arası
  • İnterqaurtile range(x) ise
    • x75=87,75 (ilk yarı ortalaması)
    • x25=60,25 (ikinci yarı ortalaması)
    • x75-x25=87,75-60,25=27,50
veri keşfi

MAD hesabı için öncelikle |x-xort| değerlerini sıraya dizmek zorundayız.

Görselleştirme

  • Görselleştirme, verinin karakteristikleri, veri elemanları veya öznitelikleri arasındaki ilişkilerin analiz edilebilmesi veya raporlanabilmesi için verinin görsel formata dönüşümüdür.

 

  • Verinin görselleştirilmesi veri keşfi için en güçlü ve en çekici tekniklerden biridir.
    • İnsanlar bilgiyi görsel olarak sunmakla çok büyük miktardaki veriyi analiz etme şansına sahip olmuşlardır.
    • Genel örüntü ve trend tespiti yapabilmişlerdir.
    • Görselleştirme sayesinde, taşmalar ve alışılmamış örüntülerin tespiti edilebilmiştir.

Örnek: Deniz Yüzeyi Sıcaklığı

  • Aşağıda 1982 temmuzu için deniz yüzeyi sıcaklığı görülmektedir.
  • On binlerce veri noktası tek bir şekille özetlenmiştir.
örnek

Sunum

  • Veriler, onların nitelikleri ve veriler arasındaki ilişkiler; noktalar, satırlar, şekiller ve renkler gibi grafiksel elemanlara dönüştürülebilir.
  • Örnek:
    • Nesneler sıklıkla noktalarla sunulur
    • Onların özellikleri noktaların karakteristikleri (renk, boyut ve şekil gibi) veya pozisyonu ile sunulabilir.
    • Eğer pozisyon bilgisi kullanılırsa taşmalar ve grup içinde kalmalar rahatça izlenebilir ve kolaylıkla taşma tespiti algılanabilir.

Düzenleme

  • Heterojen halde anlaşılmasında zorluk yaşanan veri homojen hale getirilir. Buna düzenleme adı verilir. Bu sayede; veriyi anlama daha kolay hale getirilebilir.
heterojen

Görselleştirme teknikleri : Histograms

  • Histogram
    • Genellikle bir değişkenin değerlere dayalı dağılımını gösterir
    • Değerleri kutulara böler ve her bir kutuda bir çubuk işaretler.
    • Her bir çubuğun yüksekliği nesnelerin sayısını gösterir
    • Histogramın şekli kutuların sayısına bağlıdır

İki boyutlu Histogramlar

  • İki özniteliğin değerlerinin kesişim dağılımını gösterir

Görselleştirme Teknikleri : Kutu Çizgileri

  • Kutu çizgileri (Box Plots)
    • Tukey tarafından bulunmuştur
    • Veri dağılımı ile ilgili bir diğer gösterim yöntemidir.
    • 5 özet istatistik göstergesinin bir arada gösterildiği ve mukayese imkanı veren grafik

Görselleştirme Teknikleri : Saçılma Çizgileri

  • Saçılma çizgileri
    • Öznitelik değerleri pozisyonu belirler,
    • İki boyutlu saçılma çizgileri en sık kullanılan olup üç boyutlu olanları da vardır,
    • Sıklıkla, ek öznitelikler; nesneleri sunan işaretlerin boyut, şekil, ve renkleri kullanılarak gösterilebilir.
    • Saçılma çizgilerinin dizilere sahip olması özniteliklerin birkaç çifti arasındaki ilişkileri karmaşık olarak özetleyebilmek için faydalıdır.
    • Saçılma çizgileri bir değişkenin diğeri tarafından nasıl etkilendiğini gösterir.
    • İki değişken arasındaki ilişki onların korelasyonu olarak isimlendirilir.

Bir önceki veri madenciliği konusu için tıklayınız — Veri Önişleme


Paylaşım , Takip İçin
5 1 vote
Article Rating

Bir Cevap Yazın

0 Yorum
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
HAYALİNDEKİ YAZILIM
%d blogcu bunu beğendi: