BİLDİRİ DETAY

Tuğba TUĞ KAROĞLU, Hayrettin OKUT
BOOTSTRAP ÖRNEKLEME YÖNTEMİ KULLANILARAK YAPILAN KÜMELEME ANALİZİ
 
Kümeleme, en basit tanımıyla benzer özellik gösteren veri elemanlarının kendi aralarında gruplara ayrılmasıdır. Hiyerarşik kümeleme yöntemleri, kümelerin bir ana küme olarak ele alınması ve sonra aşamalı olarak içerdiği alt kümelere ayrılması veya ayrı ayrı ele alınan kümelerin aşamalı olarak bir küme biçiminde birleştirilmesi esasına dayanır (Özkan, 2008). Bootstrap ve Aggregation'ın kısaltılmış hali olan Bagging, orijinal veri setlerinden yeniden örneklendirilerek ortaya çıkarılan ve bootstrap tarafından farklı eğitim veri setleri tarafından eğitilen sınıflandırıcıları, en son elde edilen sonuçlar olarak bir araya getirir ve optimizasyon işlemi kullanılarak bagging algoritmasının sadeleştirilmesiyle elde edilen en uygun bir ensemble modeli elde edilir. Optimizasyon işlemi ile temel sınıflandırıcıların doğruluğu ve çeşitliliğine göre en uygun (optimum) sınıflandırıcıların nasıl seçileceği vurgulanır (Zeng ve ark. 2010). Çalışmada kullanılan veri seti 2010- 2013 yılları arasında TÜİK(Türkiye İstatistik Kurumu) ve ÖSYM(Öğrenci Seçme ve Yerleştirme Merkezi) arşivinden alınmıştır. R paket programı kullanılarak (pvclust kütüphanesi) yıllara göre hiyerarşik kümeleme analizi ile değerlendirme yapılmıştır. Hiyerarşik kümeleme içerisindeki her küme için çoklu-ölçekleme yoluyla, bootstrap örneklemesi için kullanılan bir p- değeri hesaplanmıştır. Hesaplanan p- değeri, kümelemenin eldeki verilen tarafından nasıl desteklendiğini belirtir. Kullanılan pvclust kütüphanesi iki farklı p değeri verir ve bu değerleri, kümeleme grafikleri üzerinde kırmızı ve yeşil renklerle belirtilir. Kırmızı renk ile verilen p değeri yaklaşık sapmasızlık(Approximately Unbiased- AU), yeşil renkte verilen p değeri ise bootstrap olasılığı(Bootstrap Probability- BP) anlamına gelmektedir. Hiyerarşik kümelemede inceleme yapıldığında öncelikle iki kümenin oluştuğu ve bunların da kendi arasında alt kümeler oluşturduğu görülmektedir. İlk bakışta alt kümelerde yaklaşık sapmasızlık değerlerinin çok yüksek olduğu, sonrasında değerin daha düştüğü görülmektedir.

Anahtar Kelimeler: Bagging, Bootstrap, Hiyerarşik Kümeleme, Kümeleme Analizi



 


Keywords: