Paylaşım , Takip İçin
Veri nedir?
- Veri , olguları, gerçekleri veya ölçüm sonuçlarını sunan, sayısal veya mantıksal her tür değer bir veridir.
- Gözlenen ve kaydedilen her şey bir veridir.
- İşlenmemiş ham bilgi veridir.
Veri tipleri
- Verilerin farklı tipleri vardır, bunlar aynı zamanda ölçüm seviyelerini verirler.
- Nominal
- Sayısal büyüklük ifade etmeyen veri tipidir. Kategorik veri olarak ta bilinir. (ID numaraları, göz rengi, posta kodu…)
- Ordinal
- Verilerin belli bir ölçüte göre büyükten küçüğe veya küçükten büyüğe sıralandığı veri tipidir. (rütbe, dereceler…)
- Interval
- Bir aralık içerisindeki değerleri sunmak için kullanılan veri tipidir (tarih aralıkları, yaş aralıkları…)
- Ratio
- Gözlemlerin aldığı değerlerin, oransal olarak karşılaştırılabildiği veri tipidir. (sıcaklık, boyut…)
Sürekli ve süreksiz veri
- Sürekli veri
- Özellik değerleri reel sayılar içerir, analog sinyaller gibidir.
- Örnekler: sıcaklık, yükseklik veya genişlik.
- Sürekli öznitelikler tipik olarak kayan noktalı değişkenlerle sunulurlar.
- Özellik değerleri reel sayılar içerir, analog sinyaller gibidir.
- Ayrık veya süreksiz öznitelik
- Özellik değerleri tam sayılar içerir
- Örnekler: posta kodları, sayılar veya dokümanların bir koleksiyonundaki kelimelerin kümesi.
- Sıklıkla tamsayı değişkenlerle sunulurlar.
- Not: ikili öznitelikler ayrık özniteliklerin özel bir durumunu meydana getirir.
- Özellik değerleri tam sayılar içerir
Veri kümelerinin tipleri
- Kayıt verisi
- Veri matrisi, Doküman verisi, İşlem (Transaction) verisi
- Grafik verisi
- World Wide Web verisi, Molekül yapıları
- Sıralı veri
- Uzaysal veri, Geçici veri, Ardışık veri, Genetik dizi verisi
Kayıt verisi
- Her bir nesnenin özniteliklere dayalı olarak sunulduğu veri türüdür.

Veri matrisi
- m adet satır ve n adet sütun ile sunulan ve içerisinde sadece sayısal değerler bulunan matrise veri matrisi adı verilir. Her bir nesne için n adet sütun ve bir adet satır bulunur.

Doküman verisi
- Her bir doküman bir terim vektörü haline gelir,
- Her bir terim, vektörün bir bileşenidir (öznitelik),
- Her bir bileşenin değeri, ilgili terimin doküman içerisinde kaç kez tekrarlandığı ile ilgilidir.

İşlem verisi
- Kayıt verisinin özel bir tipidir,
- Her bir işlem (transaction), elemanların bir kümesini içermektedir.
- Örneğin, her bir alışverişte sepette yer alan ürünler bir işlem verisini meydana getirir.
1-Bira,cips,kuruyemiş
2-Bira,patates
3-Kuruyemiş,ekmek,cips
Sıralı veri
İşlemlerin sırasının önemli olduğu veri setleridir.
Veri kalitesi
- Veri kalitesi problemleri hangi çeşitlerdedir?
- Bu problemlerle ilgili olarak ne yapabiliriz?
- Veri kalitesi ile ilgili problemler:
- Gürültü ve taşmalar
- Kayıp değerler
- Veri tekrarı
Gürültü
- Gürültü orijinal değerlerin değiştirilmesi anlamına gelir.
- Örnekler: düşük kaliteli bir telefonda konuşurken kişinin sesinin bozuk olarak iletilmesi veya televizyon ekranlarındaki görüntü bozukluğu bunun örnekleridir.
Taşmalar
- Bazı veri nesneleri kümelerden uzakta ve tek başlarına yer alırlar. Bunlara taşma (outlier) adı verilir. Genellikle elenmeleri ile veri kalitesi artırılır.
Kayıp değerler
- Kayıp değerler için çeşitli sebepler vardır:
- Bilgi toplanamaması
(örn., insanlar yaşları ve kiloları ile ilgili bilgi vermek istemezler) - Öznitelikler bütün durumlar için uygun olmayabilir
(örn., yıllık gelir çocuklar için uygun değildir)
- Bilgi toplanamaması
- Kayıp değerlerle mücadele
- Veri nesnelerinin elenmesi
- Kayıp değerlerin tahmin edilmesi
- Bütün olası değerlerle yer değiştirilmesi (onların olasılıkları ile ağırlık verilmesi)
Tekrar eden veri
- Veri seti tekrar eden kayıtlar içerebilir, veya bazı kayıtlar hemen hemen tamamen diğerine eşittir
- Bu durum genellikle heterojen kaynaklardan gelen veriler birleştirildiğinde meydana gelir.
- Örnekler:
- Aynı kişiye ait birden fazla mail adresinin bulunması
- Veri temizleme
- Tekrar eden verilerden birisi bırakılır diğerleri silinir.
Bir önceki veri madenciliği konusu için tıklayınız — Veri madenciliği nedir ?
Paylaşım , Takip İçin