Veri Ön İşleme
- Bir araya getirme (Aggregation)
- Örnekleme (Sampling)
- Boyut Düşürme (Dimensionality Reduction)
- Altküme özellikleri seçimi (Feature subset selection)
- Özellik oluşturma (Feature creation)
- Ayrıklaştırma ve ikili hale getirme (Discretization and Binarization)
- Öznitelik dönüşümü (Attribute Transformation)
1-Bir araya getirme
- İki veya daha fazla öznitelik veya nesnenin tek bir öznitelik veya nesne halinde birleştirilmesidir.
Amaç
- Veri azaltma (öznitelikler veya nesnelerin sayısının azaltılması)
- Ölçeğin değiştirilmesi (şehirler; bölgeler, eyaletler, ülkeler v.b. halinde bir araya getirilir)
- Daha dayanıklı veri (bir araya toplanan veri daha az değişkenliğe sahip olacaktır) elde edilmesi
2-Örnekleme
- Örnekleme veri seçimi için üzerinde çalışılan en temel tekniktir.
- Örnekleme, sıklıkla hem başlangıç araştırmaları için ve hem de final veri analizleri için kullanılır.
- Verinin tamamı ile ilgilenmek oldukça masraflı bir iş olduğu için istatistikçiler ve veri madencileri verinin bir kısmını elde etmeye çalışırlar.
Etkili örnekleme için anahtar prensip şöyledir:
- Eğer örnek temsil edici nitelikte ise örnek ile çalışmak bütün veri seti ile çalışmak kadar iyi sonuç verecektir.
- Eğer örnek verisi orijinal veri ile yaklaşık olarak aynı özelliğe sahip ise o veri temsil edici veridir.
- Popülasyon ortalaması ile örneklem ortalaması yakınsa ayrıca popülasyon varyansı ile örneklem varyansı yakınsa temsil edici veri elde edilmiştir.
3-Boyut Düşürme
- Amaç:
- Boyut fazlalığı problemlerini çözmek,
- Veri madenciliği algoritmaları tarafından ihtiyaç duyulan bellek ve zaman miktarını azaltmak,
- Veriyi görselleştirmeye uygun hale getirmek (Örn. çok boyutlu uzay daha az boyuta düşürülerek görselleştirme araçları ile veriler görselleştirilebilir)
- İlişkisiz özellikleri elemeye veya gürültüyü azaltmaya yardımcı olmak (belli bir eşiğin altında kalan olasılığa sahip veriler dikkate alınmaz)
4-Özellik alt kümesi seçimi
- Veri boyutu azaltma için bir diğer yol özellik alt kümesi seçimidir.
- Gereksiz özellikler
- Çok fazla ikileme veya bilginin tamamının bir veya daha çok öznitelikte tekrar etmesi.
- Örnek : bir ürünün ödeme fiyatı ve ödeme taksitleri bilgisinin yer alması gibi.
- Çok fazla ikileme veya bilginin tamamının bir veya daha çok öznitelikte tekrar etmesi.
- İlişkisiz özellikler
- Veri madenciliği görevi için faydalı hiçbir bilgi içermeyen özelliklerdir.
- Örnek : öğrencilerin notunu hesaplamada öğrenci numarasının hiçbir katkısı yoktur.
- Veri madenciliği görevi için faydalı hiçbir bilgi içermeyen özelliklerdir.
5-Özellik oluşturma
- Orijinal öz niteliklerden daha etkin olarak bir veri kümesindeki önemli bilgiyi yakalayabilmek için yeni öz nitelikler oluşturulur.
- Üç genel metodoloji vardır:
- Özellik çıkarma (feature extraction)
- Verinin yeni uzaya eşleştirilmesi
- Özellik inşa edilmesi (özelliklerin birleştirilmesi)
6-Öznitelik Dönüşümü
- Bir fonksiyon bütün veri setindeki değerleri yeni değerlere dönüştürürken ilgili öz niteliklerin yer değiştirmesini, eşleşmesini yapar.
- Basit fonksiyonlar: log(x), ex, |x|
- Standardizasyon ve Normalizasyon
Benzerlik ve Benzemezlik
- Benzerlik
- İki veri nesnesinin birbirine ne kadar benzer olduğunun sayısal ölçümüdür.
- Sıklıkla benzerlik bilgisi [0,1] aralığında yer alır.
- Benzemezlik
- İki veri nesnesinin birbirinden ne kadar farklı olduğunun sayısal ölçümüdür.
- Nesneler daha benzer olduğunda değeri düşüktür
- İki veri nesnesi birbirinin aynı ise benzemezli değeri 0’dır. (benzerliğin tersi)
Basit Öznitelikler için Benzerlik
p ve q iki veri nesnesi için öznitelik değerleridir

Öklidyen uzaklık

burada, n boyutların sayısıdır ve pk ile qk ise p ve q veri nesnelerinin kth özniteliklerinin değerini verir.
- Eğer ölçek farklı ise standardizasyon gereklidir.
Minkowski uzaklığı
Minkowski uzaklığı öklidyen uzaklığının genelleştirilmesi ile elde edilir.

Burada r bir parametredir, n boyutların sayısıdır ve pk ile qk ise p ve q nesnelerinin kth öznitelik değerleridir.
Örnekler
- r = 1. City block (Manhattan, L1 norm) uzaklık.
- Bunun genel bir örneği Hamming uzaklığıdır, hamming uzaklığı iki ikili vektör arasındaki birbirinden farklı bitlerin sayısıdır.
- r = 2. öklidyen uzaklık
- r -> ∞. “supremum” (Lmax norm, L∞ norm) uzaklığı.
- Bu vektörlerin herhangi bir bileşeni arasındaki maksimum farktır.
- n ile r yi karıştırmamak lazım, bütün bu uzaklıklar boyutların bütün sayıları için tanımlanırlar.
İkili vektörler arasındaki benzerlik
- p ve q ikili vektörler olduğunda aşağıdaki kurallar geçerlidir.
M01 = p değeri 0 ve q değeri 1 olan öz niteliklerin sayısı
M10 = p değeri 1 ve q değeri 0 olan öz niteliklerin sayısı
M00 = p değeri 0 ve q değeri 0 olan öz niteliklerin sayısı
M11 = p değeri 1 ve q değeri 1 olan öz niteliklerin sayısı
Basit eşleştirme ve Jaccard katsayıları
SMC = eşlemlerin sayısı / öz niteliklerin sayısı
= (M11 + M00) / (M01 + M10 + M11 + M00)
J = 11 eşleşmelerinin sayısı / ikisi birlikte 0 olmayan özniteliklerin sayısı
= (M11) / (M01 + M10 + M11)
SMC ve Jaccard: Örnek
p = 1 0 0 0 0 0 0 0 0 0
q = 0 0 0 0 0 0 1 0 0 1
M01 = 2 (p=0, q=1)
M10 = 1 (p=1, q=0)
M00 = 7 (p=0, q=0)
M11 = 0 (p=1, q=1)
SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7
J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0
Kosinüs Benzerliği
- eğer d1 ve d2 iki doküman vektörü ise, o zaman
cos( d1, d2 ) = (d1 · d2) / ||d1|| ||d2|| ,
burada · sembolü nokta çarpım manasına gelir, || d || ise d vektörünün boyudur.
- örnek:
d1 = 3 2 0 5 0 0 0 2 0 0
d2 = 1 0 0 0 0 0 0 1 0 2
d1 · d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481
||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245
cos( d1, d2 ) = .3150
Korelasyon
- Korelasyon, nesneler arasındaki doğrusal ilişkileri ölçer.
- Korelasyonu karşılaştırmak için , veri nesnelerini standardize ederiz, p ve q, ve daha sonra onların nokta çarpımlarını alırız.
