Kümeleme de anahtar kelimeler “similarity” ve “dissimilarity” olarak bilinir.
Çok sayıda mesafe fonksiyonu vardır
Verinin farklı türleri
Numeric data
Nominal data
Farklı özellikte uygulamalar
Sayısal nitelikler için mesafe fonksiyonları
Sıklıkla aşağıdaki fonksiyonlar kullanılır
Euclidean distance
Manhattan (city block) distance
Mesafeyi şununla ifade ediyoruz: dist(xi, xj), burada; xi ve xj veri noktalarıdır (vektörler)
Bu iki ölçüm Minkowski distance formları olarak bilinir. h pozitif bir değer olmak üzere Minkowski distance aşağıdaki gibi sunulur.
Euclidean distance ve Manhattan distance
İkili ve nominal nitelikler için mesafe fonksiyonları
İkili özellik: iki değeri veya durumu bulunur, sıra ilişkisi içermez
Cinsiyet: male ve female.
Mesafe fonksiyonları/ölçümleri için bir konfüzyon (confusion) matris kullanılır.
ith ve jth veri noktaları xi ve xj vektörleri olmak üzere
Konfüzyon matrisi
Simetrik ikili özellikler
İkili bir özellik, her iki durumu da (0 ve 1) eşit öneme sahipse ve aynı ağırlıkları taşıyorsa simetriktir, örneğin, Cinsiyet niteliğinin erkek ve dişi
Mesafe fonksiyonu: Simple Matching Coefficient, değerlerin uyumsuzluk oranını verir.
Asimetrik ikili özellikler
Asymmetric: durumlardan biri diğerinden daha önemli veya daha değerli ise.
Geleneksel olarak, durum 1, tipik olarak nadir veya seyrek olan durum olan daha önemli durumu temsil eder.
Jaccard coefficient bu konudaki popüler bir ölçümdür
Nominal özellikler
Nominal attributes: ikiden fazla değer veya durum içerir.
yaygın olarak kullanılan mesafe ölçüsü de basit eşleştirme yöntemine dayanmaktadır.
R adet özellik ile sunulan iki vektörde birbiriyle eşleşen özellik adedi q olmak üzere ikisi arasındaki mesafe:
Metin dokümanlar için mesafe fonksiyonu
Bir metin belgesi bir dizi cümleden oluşur ve her cümle bir dizi kelimeden oluşur.
Basitleştirmek için: Bir belge genellikle belge kümelemede bir kelime “çantası” olarak kabul edilir.
Sequence and position of words are ignored.
Bir belge, normal bir veri noktası gibi bir vektörle temsil edilir.
Mesafe yerine iki belgeyi karşılaştırmak için benzerlik kullanmak yaygındır.
En yaygın kullanılan benzerlik işlevi kosinüs benzerliğidir.