Ekim 19, 2021
11 11 11 ÖÖ
TCP nedir ? Aktarım Katmanı 2
Aktarım Katmanı Tcp Nedir
Yönlendirme Nedir 2 ?
Yönlendirme Nedir ?
Ağ Katmanı Nedir 2 ?
Ağ Katmanı Nedir ?
Veri Bağı Katmanı Nedir 2 ?
Android Studio Nasıl Kurulur ?
Veri Bağı Katmanı Nedir ?
Fiziksel Katman Nedir ?
Son Yazılar
TCP nedir ? Aktarım Katmanı 2 Aktarım Katmanı Tcp Nedir Yönlendirme Nedir 2 ? Yönlendirme Nedir ? Ağ Katmanı Nedir 2 ? Ağ Katmanı Nedir ? Veri Bağı Katmanı Nedir 2 ? Android Studio Nasıl Kurulur ? Veri Bağı Katmanı Nedir ? Fiziksel Katman Nedir ?
veri ön işleme

Veri Önişleme Nedir ?

Paylaşım , Takip İçin

Veri Ön İşleme

  • Bir araya getirme (Aggregation)
  • Örnekleme (Sampling)
  • Boyut Düşürme (Dimensionality Reduction)
  • Altküme özellikleri seçimi (Feature subset selection)
  • Özellik oluşturma (Feature creation)
  • Ayrıklaştırma ve ikili hale getirme (Discretization and Binarization)
  • Öznitelik dönüşümü (Attribute Transformation)

1-Bir araya getirme

  • İki veya daha fazla öznitelik veya nesnenin tek bir öznitelik veya nesne halinde birleştirilmesidir.

Amaç

  • Veri azaltma (öznitelikler veya nesnelerin sayısının azaltılması)
  • Ölçeğin değiştirilmesi (şehirler; bölgeler, eyaletler, ülkeler v.b. halinde bir araya getirilir)
  • Daha dayanıklı veri (bir araya toplanan veri daha az değişkenliğe sahip olacaktır) elde edilmesi

2-Örnekleme

  • Örnekleme veri seçimi için üzerinde çalışılan en temel tekniktir.
    • Örnekleme, sıklıkla hem başlangıç araştırmaları için ve hem de final veri analizleri için kullanılır.
  • Verinin tamamı ile ilgilenmek oldukça masraflı bir iş olduğu için istatistikçiler ve veri madencileri verinin bir kısmını elde etmeye çalışırlar.

Etkili örnekleme için anahtar prensip şöyledir:

  • Eğer örnek temsil edici nitelikte ise örnek ile çalışmak bütün veri seti ile çalışmak kadar iyi sonuç verecektir.
  • Eğer örnek verisi orijinal veri ile yaklaşık olarak aynı özelliğe sahip ise o veri temsil edici veridir.
    • Popülasyon ortalaması ile örneklem ortalaması yakınsa ayrıca popülasyon varyansı ile örneklem varyansı yakınsa temsil edici veri elde edilmiştir.

3-Boyut Düşürme

  • Amaç:
    • Boyut fazlalığı problemlerini çözmek,
    • Veri madenciliği algoritmaları tarafından ihtiyaç duyulan bellek ve zaman miktarını azaltmak,
    • Veriyi görselleştirmeye uygun hale getirmek (Örn. çok boyutlu uzay daha az boyuta düşürülerek görselleştirme araçları ile veriler görselleştirilebilir)
    • İlişkisiz özellikleri elemeye veya gürültüyü azaltmaya yardımcı olmak (belli bir eşiğin altında kalan olasılığa sahip veriler dikkate alınmaz)

4-Özellik alt kümesi seçimi

  • Veri boyutu azaltma için bir diğer yol özellik alt kümesi seçimidir.

 

  • Gereksiz özellikler
    • Çok fazla ikileme veya bilginin tamamının bir veya daha çok öznitelikte tekrar etmesi.
      • Örnek : bir ürünün ödeme fiyatı ve ödeme taksitleri bilgisinin yer alması gibi.
  • İlişkisiz özellikler
    • Veri madenciliği görevi için faydalı hiçbir bilgi içermeyen özelliklerdir.
      • Örnek : öğrencilerin notunu hesaplamada öğrenci numarasının hiçbir katkısı yoktur.

5-Özellik oluşturma

  • Orijinal öz niteliklerden daha etkin olarak bir veri kümesindeki önemli bilgiyi yakalayabilmek için yeni öz nitelikler oluşturulur.

 

  • Üç genel metodoloji vardır:
    • Özellik çıkarma (feature extraction)
    • Verinin yeni uzaya eşleştirilmesi
    • Özellik inşa edilmesi (özelliklerin birleştirilmesi)

6-Öznitelik Dönüşümü

  • Bir fonksiyon bütün veri setindeki değerleri yeni değerlere dönüştürürken ilgili öz niteliklerin yer değiştirmesini, eşleşmesini yapar.

 

  • Basit fonksiyonlar: log(x), ex, |x|
  • Standardizasyon ve Normalizasyon

Benzerlik ve Benzemezlik

  • Benzerlik
    • İki veri nesnesinin birbirine ne kadar benzer olduğunun sayısal ölçümüdür.
    • Sıklıkla benzerlik bilgisi [0,1] aralığında yer alır.
  • Benzemezlik
    • İki veri nesnesinin birbirinden ne kadar farklı olduğunun sayısal ölçümüdür.
    • Nesneler daha benzer olduğunda değeri düşüktür
    • İki veri nesnesi birbirinin aynı ise benzemezli değeri 0’dır. (benzerliğin tersi)

Basit Öznitelikler için Benzerlik

p ve q iki veri nesnesi için öznitelik değerleridir

veri önişleme

Öklidyen uzaklık

veri önişleme

burada, n boyutların sayısıdır ve pk ile qk ise p ve q veri nesnelerinin kth özniteliklerinin değerini verir.

  • Eğer ölçek farklı ise standardizasyon gereklidir.

Minkowski uzaklığı

Minkowski uzaklığı öklidyen uzaklığının genelleştirilmesi ile elde edilir.

minkonwski

Burada r bir parametredir, n boyutların sayısıdır ve pk ile qk ise p ve q nesnelerinin kth öznitelik değerleridir.

 

Örnekler

  • r = 1. City block (Manhattan, L1 norm) uzaklık.
    • Bunun genel bir örneği Hamming uzaklığıdır, hamming uzaklığı iki ikili vektör arasındaki birbirinden farklı bitlerin sayısıdır.

 

  • r = 2. öklidyen uzaklık

 

  • r -> ∞. “supremum” (Lmax norm, L∞ norm) uzaklığı.
    • Bu vektörlerin herhangi bir bileşeni arasındaki maksimum farktır.

 

  • n ile r yi karıştırmamak lazım, bütün bu uzaklıklar boyutların bütün sayıları için tanımlanırlar.

İkili vektörler arasındaki benzerlik

  • p ve q ikili vektörler olduğunda aşağıdaki kurallar geçerlidir.

  M01 = p değeri 0 ve q değeri 1 olan öz niteliklerin sayısı

  M10 = p değeri 1 ve q değeri 0 olan öz niteliklerin sayısı

  M00 = p değeri 0 ve q değeri 0 olan öz niteliklerin sayısı

  M11 = p değeri 1 ve q değeri 1 olan öz niteliklerin sayısı

Basit eşleştirme ve Jaccard katsayıları

  SMC =  eşlemlerin sayısı / öz niteliklerin sayısı

            =  (M11 + M00) / (M01 + M10 + M11 + M00)

  J = 11 eşleşmelerinin sayısı / ikisi birlikte 0 olmayan özniteliklerin sayısı

        = (M11) / (M01 + M10 + M11)

SMC ve Jaccard: Örnek

p =  1 0 0 0 0 0 0 0 0 0       

q =  0 0 0 0 0 0 1 0 0 1

M01 = 2   (p=0, q=1)

M10 = 1   (p=1, q=0)

M00 = 7   (p=0, q=0)

M11 = 0   (p=1, q=1)

 

SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7

J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0

Kosinüs Benzerliği

  • eğer d1 ve d2 iki doküman vektörü ise, o zaman

             cos( d1, d2 ) =  (d1 · d2) / ||d1|| ||d2|| ,

   burada · sembolü nokta çarpım manasına gelir, || d || ise d vektörünün boyudur. 

  • örnek:

    d1 =  3 2 0 5 0 0 0 2 0 0  

     d2 =  1 0 0 0 0 0 0 1 0 2

    d1 · d2=  3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5

   ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 =  (42) 0.5 = 6.481

    ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245

      cos( d1, d2 ) = .3150

Korelasyon

  • Korelasyon, nesneler arasındaki doğrusal ilişkileri ölçer.
  • Korelasyonu karşılaştırmak için , veri nesnelerini standardize ederiz, p ve q, ve daha sonra onların nokta çarpımlarını alırız.
korelasyon

Bir önceki veri madenciliği konusu için tıklayınız — Veri ve Özellikleri


Paylaşım , Takip İçin
5 1 vote
Article Rating

Bir Cevap Yazın

0 Yorum
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
HAYALİNDEKİ YAZILIM
%d blogcu bunu beğendi: