SUBMISSION DETAIL

Ertuğrul GÜMÜŞSU, Naci MURAT
 


Keywords:



METİN MADENCİLİĞİ YÖNTEMLERİ İLE OTEL MÜŞTERİ YORUMLARININ SINIFLANDIRILMASI
 
İnternetin hızla gelişmesi ve yaygınlaşması ile birlikte internet kullanıcıları online ortamlarda etkileşim halinde bulunmaktadır. Bu online ortamlarda kullanıcılar bir ürün veya hizmet hakkında duygu ve düşüncelerini kolaylıkla paylaşabilmektedir. Özellikle sosyal medya gibi platformlar sayesinde müşteriler bir ürün hakkındaki düşüncelerini ve deneyimlerini ortaya koyabilmekte ve ürün hakkında puanlandırma yapabilmektedir. Bu ortamlarda paylaşılan metinsel içerikler yapısal olmayan verilerdir. Bu verilerden anlamlı ve faydalı bilgilerin elde edilebilmesi için yapısal forma dönüştürülmesi gerekmektedir. Yapısal hale dönüştürülmeden yapılan işlemlerde yanlış sonuçlar elde edilme olasılığı yüksektir. Müşterilerin otellerle ilgili düşünce ve deneyimleri paylaştıkları ve puan verdikleri tripadvisor.com.tr sitesinde, Türkiye’deki bir şirkete ait 13 farklı şubesiyle ilgili yapılan yorumlar veri kaynağı olarak kullanılmıştır. Müşterilerin ‘mükemmel’, ‘iyi’, ‘ortalama’, ‘kötü’ ve ‘berbat’ olarak puanlandırdıkları toplam 3026 yorum toplanmıştır. Bu beş puanlandırma başlığı altında toplanan veriler, metin madenciliği yöntemleri kullanılarak yapısal hale dönüştürülmüş ve bu puanlandırma başlıkları altında yorumlar sınıflandırılmıştır. Terim ağırlıklandırma yöntemleri olarak terim frekansı (TF), TF-IDF (Terim frekansı-Ters metin frekansı) ve binary ağırlıklandırma yöntemleri kullanılmıştır. Sınıflandırma algoritmaları olarak Naive Bayes, K-En Yakın Komşu, Rastgele Orman, SMO ve J48 algoritmaları uygulanmıştır. Her puanlandırma sınıfına ait ikili ve üzeri kelime kullanımlarını bulmak amacıyla birliktelik analizi yapılmıştır. Birliktelik algoritması olarak Apriori algoritması kullanılmıştır. Kelime sıklıklarına göre sınıflara ait kelime bulutları oluşturulmuştur. Sınıflandırma algoritmalarının veri setine uygulanması sonucunda en iyi sınıflandırma başarı oranı Rastgele Orman algoritması ile %60,495 olarak tespit edilmiştir. Sınıflara ait veri sayıları farklı olduğu için terim ağırlıkları normalize edilmiştir. Normalize sonucunda en iyi sınıflandırma başarı oranı J48 algoritması ile %95,867 olarak bulunmuştur.

Anahtar Kelimeler: Metin Madenciliği, Metin Sınıflandırma, Birliktelik Analizi, Apriori Algoritması, Kelime Bulutu