Paylaşım , Takip İçin
Veri Madenciliği Bakış Açıları
Finansal
- Veri toplama ve saklama hızı artmıştır
- Uydular üzerindeki algılayıcılar
- Gökyüzünü tarayan teleskoplar
- Genleri açıklamak için üretilen mikro diziler
- Bilimsel simülasyonlar tarafından üretilen terabyte’lar seviyesinde veri
- Geleneksel teknikler ham veri için yeterli değildir
- Veri madenciliği bilimsel çalışmalara şu konularda yardımcı olur
- Veriyi sınıflandırma ve parçalara bölme
- Hipotez oluşturma
Bilimsel
- Analiz edilebilecek veri miktarı artmıştır:
- Web verisi (web data),
- Ödeme verileri (market/dükkan)
- Banka/Kredi kartı işlem verileri
- Bilgisayar yedekleme birimlerinin maliyeti düşmüş ve işlem birimlerinin gücü artmıştır.
- Rekabetçi baskı güçlüdür
- Rekabet üstünlüğü için CRM ve CRM için veri madenciliği bir ihtiyaçtır.
Veri Madenciliği Nedir?
- Dolaylı anlatılan, önceden bilinmeyen ve potansiyel olarak faydalı bilginin veriden önemsiz olmayan yöntemlerle keşfi
- Anlamlı örüntülerin keşfedilmesi için büyük miktardaki verinin, otomatik veya yarı otomatik olarak keşfi & analiz edilmesidir
Örnek
Bazı isimlere bazı yörelerde diğerlerinden daha yaygın olarak rastlanma durumu (Berke , Burak , Ali gibi isimlerin İstanbul bölgesinde daha sık olması gibi)
Kapsamlarına göre benzer dokümanların bir arada gruplanması (Ankara Anıtkabir ile, Ankara.com gibi)

Veri Madenciliğinin Kökeni
- Makine öğrenmesi
- Örüntü tanıma
- Olasılık ve İstatistik
- Yapay Zeka
- Veri tabanı sistemleri
- Görselleştirme araçları
Veri Madenciliği Görevleri
- Tahmin (Prediction) Metotları
- Değeri bilinen değişkenler yardımıyla değeri bilinmeyen değişkenlerin elde edilmesinde veya değişkenlerin geçmiş değerleri yardımıyla gelecek değerlerini hesap etmede kullanılan metotlardır.
- Tanımlama (Description) Metotları
- Verileri sahip oldukları özellikler yardımıyla açıklamakta kullanılan metotlardır.
Görev – teknik eşleşmesi
- Sınıflandırma (Classification) [Predictive]
- Kümeleme (Clustering) [Descriptive]
- Birliktelik Kuralları Keşfi (Association Rule Discovery) [Descriptive]
- Sıralı Örüntü Keşfi (Sequential Pattern Discovery) [Descriptive]
- Regresyon (Regression) [Predictive]
- Sapma Bulma (Deviation Detection) [Predictive]
Sınıflandırma Nedir ?
- Kayıtların bir koleksiyonu yardımıyla (training set)
- Her bir kayıt niteliklerin bir kümesini içerir (attributes), bu niteliklerden birisi sınıf niteliğidir (class)
- Sınıf niteliğinin değerini hesap edecek bir model bulma işlemidir.
- y=f(x1,x2,…,xn)
- Hedef: önceden görülmeyen kayıtların olabildiği kadar doğru bir şekilde bir sınıfa atanması.
- Bir test set modelin doğruluğunu belirlemek için kullanılır.
- Genellikle, verilen veri seti eğitim ve test veri setlerine bölünür, eğitim veri seti ile model kurulur, test veri seti ile de model doğrulanır.
Sınıflandırma Örnek 1
- Doğrudan Pazarlama
- Hedef: Yeni çıkmış bir cep telefonunu ürününü almaya meyilli müşterilerin bir kümesini hedefleyen mail gönderimi için maliyeti azaltmak.
- Yaklaşım:
- Önceden tanıtımı yapılmış benzer bir ürün için elde edilen veriler eğitim için kullanılır.
- Müşterilerin ürünü almak veya almamak yönündeki kararı sınıf niteliğinin {buy, don’t buy} değerleri şeklinde sunulur.
- Böylesi bütün müşteriler için çeşitli demografik, yaşam stili, şirket bağlantıları ile ilgili bilgileri toplanır.
- Müşterinin işi, nerede ikamet ettiği, ayda ne kadar kazandığı, v.s.
- Bu bilgi bir sınıflayıcı modelini öğrenmek için kullanılır
Örnek 2
- İstisna Tespiti
- Hedef: Kredi kartı işlemlerinde istisna durumların tahmin edilmesi.
- Yaklaşım:
- Kredi kartı işlemleri ve kredi kartında tutulan bilgiler nitelikler olarak kullanılır.
- Müşteri ne zaman (gün, saat) alışveriş yapar, ne alır, ne sıklıkta vaktinde ödeme yapar, vs
- Geçmiş işlemleri dürüst (fair) ve istisna (fraud) olarak etiketle.
- Fair ve fraud sınıf nitelikleri olsun.
- İşlemlerden sınıf için bir model öğrenilir.
- Bir model aracılığıyla bir hesap üzerindeki kredi kartı işlemleri gözlemlenerek istisna tespit edilir.
Kümeleme Nedir ?
- Elimizde, verileri sunan noktalar ve bu noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü varken, kümelemenin amacı; aşağıdaki özellikleri sağlayan kümeleri bulmaktır:
- Birbirine daha çok benzeyen noktalar aynı kümede,
- Birbirine benzemeyen noktalar ise farklı kümelerdedir
- Benzerlik Ölçümleri:
- Eğer öznitelikler sürekli değerler ise o zaman Euclidean Distance.
- Diğerlerinde probleme uygun ölçümler kullanılır.
Kümeleme Örnek 1
- Pazar Bölümlemesi:
- Amaç: Her biri ayrı bir pazarlama stratejisi için uygun olabilecek farklı müşteri alt gruplarını bulmak.
- Yaklaşım:
- Müşterilerin coğrafi ve yaşam stillerine dayalı farklı öznitelikleri toplanır
- Benzer müşterilerin kümeleri bulunur.
- Aynı kümedeki müşteri örüntüleri gözlemlenip diğer kümelerle karşılaştırma yapılarak kümeleme kalitesi ölçülür
Örnek 2
- Doküman Kümeleme:
- Hedef: İçerisinde geçen önemli terimlere dayalı olarak benzer dokümanların gruplarını bulmak.
- Yaklaşım: Her bir dokümanda kullanılan terimlerin frekansları belirlenir. Terimlerin frekanslarına dayalı olarak bir benzerlik bulunur. Bu bilgi kümeleme için kullanılır.
Birliktelik Kuralı Keşfi Nedir ?
- Verilen bir koleksiyondan bazı elemanları içeren kayıtların bir kümesi verilmiş olsun;
- Bir elemanın tekrar adedini, diğer elemanların tekrar adetlerini kullanarak tahmin edecek kurallar üretilir.
Birliktelik Kuralı Örnek 1
- Supermarketin kendi kendine yönetimi
- Hedef: Birçok müşteri tarafından birlikte satın alınan elemanların belirlenmesi.
- Yaklaşım: Elemanlar arasındaki bağlantıları bulmak için barkod tarayıcılar ile toplanan satış noktası verileri işlenir.
- Bir klasik kural —
- Eğer bir müşteri bez ve süt satın almışsa, büyük ihtimalle bira da alır.
- Böylece, bez, süt ve bira yakın raflara konmalıdır
Örnek 2
- Envanter Yönetimi:
- Hedef: Bir müşteri araç bakım şirketi onun müşterilerine ait ürünlerin olası onarımlarını tahmin ederek ona uygun şekilde araç ekipmanlarını elde tutmak istemektedir.
- Yaklaşım: farklı müşteri yerleşimlerinde önceki onarımlarda ihtiyaç duyulan parça ve araçlar hakkındaki veri işlenir ve örüntüler arasındaki tekrarlar keşfedilir.
Sıralı Örüntü Keşfi Nedir ?
- Zamana bağlı olarak birlikte gelişen olayların tespit edilmesidir. Meydana gelen bir veya birden fazla olay ondan sonra gelecek yeni bir olayın habercisidir.
- Kurallar zaman bilgisi ile sunulmaktadır.
- Birliktelik kurallarının özel bir uygulamasıdır.
(A B) (C) –> (D E)
Sıralı Örüntü Örnek 1
- Satış noktası için işlem dizileri,
- Bilgisayar Yazılımcısı:
(Penetrasyon Testi’ne Giriş) (Yeni Başlayanlar için Pentest ) –> (Siber Güvenlik)
- Spor giyim dükkanı:
(Ayakkabılar) (Tenis, Tenis Topu) –> (Spor Kıyafeti)
- Telekomünikasyon alarm loglarında,
- (Ters Çevirme Problemi, Aşırı Akım)
(Doğrultucu Alarmı) –> (Yangın Alarmı)
Regresyon
- Diğer değişkenlerin değerlerine dayalı olarak bir sürekli değerli hedef değişkenin tahmin edilmesidir. Hedef değişken ile giriş değişkenler arasında doğrusal veya doğrusal olmayan bir ilişki varsayılabilir.
- İstatistik ve yapay sinir ağları sahalarında çalışılmıştır
- Örnekler:
- Yeni bir ürün için satış miktarlarının tahmini.
- Rüzgar hızlarını sıcaklık, nem oranı ve hava basıncının bir fonksiyonu olarak tahmin vs.
- Stok market indekslerinin zaman serileri şeklinde tahmini
Sapma/Anormallik Tespiti
- Normal davranıştan önemli sapmaların tespiti
- Uygulamalar:
- Kredi kartı istisna saptaması
- Ağ nüfuz tespiti
Bir sonraki veri madenciliği konusu için tıklayınız — Veri ve Özellikleri nedir ?
Paylaşım , Takip İçin