Kitle Fonlaması Projelerinin Karar Ağacı ve Rastgele Orman Algoritmalarıyla Sınıflandırılması

Murat Kılınç

Journal of Information Systems and Management Research Bilişim Sistemleri ve Yönetim Araştırmaları Dergisi http://dergipark.gov.tr/jismar Araştırma Makalesi / Research Article Kitle Fonlaması Projelerinin Karar Ağacı ve Rastgele Orman Algoritmalarıyla Sınıflandırılması Murat KILINÇ *,a, a,* b Çiğdem TARHAN b, Can AYDIN b Manisa Celal Bayar Üniversitesi, Bilgisayar Araştırma ve Uygulama Merkezi, MANİSA, 45140, TÜRKİYE Dokuz Eylül Üniversitesi, Yönetim Bilişim Sistemleri Bölümü, İZMİR, 35160, TÜRKİYE MAKALE BİLGİSİ ÖZET Alınma: 15.12.2020 Kabul: 30.12.2020 Kitle fonlaması platformları, internet üzerinden iş fikirlerini hayata geçirme ya da destek alabilme noktasında büyük olanaklar sağlayabilmektedir. Bu platformlarda destek beklenen projelerin başarısı, alınan finansal destek ile doğru orantılı bir şekilde artmaktadır. Fakat finansal destek alabilmek için projenin destekçilere iyi bir şekilde sunulması gerekir. Günümüzde bu platformlar iyi tasarlanmamış projelerle dolu olduğu için başarı oranı oldukça düşüş göstermiştir. Bu sebeple, finansal destek alınabilmesi için projelerin başarı anlamında test edilmesi ve başarısız olarak sınıflandırılan projelerin eksiklerini gidererek destekçilere yeniden sunulması gerekmektedir. Bu kapsamda, ortaya koyduğumuz çalışmada birçok kategorideki Kickstarter projesi makine öğrenmesi yöntemleriyle sınıflandırılarak web arayüzünde son kullanıcıya sunulmuştur. Projelerin sınıflandırılması için, dağınık veri setlerinde iyi sınıflandırma yapabilen Decision Tree ve Random Forest algoritmaları kullanılmıştır. Algoritmalar, sırasıyla %72.75 ve %81.55 oranında sınıflandırma yapabilmektedir. Ayrıca, yapılan sınıflandırmalar değerlendirme metrikleriyle de test edilerek ne kadar doğru sınıflandırma yapılabildiği ölçülmüştür. Bu sayede, kitle fonlaması platformlarına projelerini ekleyen veya ekleyecek olan girişimciler, finansal bir destek aramadan önce projelerini başarı anlamında test ederek eksiklerini görebileceklerdir. Anahtar Kelimeler: Makine Öğrenmesi, Web Uygulamaları, Yönetim Bilişim Sistemleri * Sorumlu Yazar e-posta: kilinc.murat@cbu.edu.tr Classification of Crowdfunding Projects by Decision Tree and Random Forest Algorithms ARTICLE INFO ABSTRACT Received: 15.12.2020 Accepted: 30.12.2020 Crowdfunding platforms can provide great opportunities to implement business ideas or get support over the internet. The success of projects that are expected to support these platforms increases in direct proportion to the financial support received. But in order to receive financial support, the project must be well presented to backers. Today, the success rate has declined considerably because these platforms are full of poorly designed projects. For this reason, in order to receive financial support, projects must be tested in terms of success and re-presented to supporters by eliminating the deficiencies of projects classified as unsuccessful. In this context, in our study, many categories of Kickstarter projects are classified by machine learning methods and presented to the end user in the web interface. For the classification of projects, decision Tree and Random Forest algorithms that can classify well in scattered data sets were used. Algorithms can classify by 73% and 81%, respectively. In addition, the classifications made were also tested with evaluation metrics and measured how accurate the classification can be made. In this way, entrepreneurs who add or will add their projects to crowdfunding platforms will be able to see their shortcomings by testing their projects for success before receiving financial support. Keywords: Machine Learning, Web Applications, Management Information Systems * Corresponding Authors e-mail: kilinc.murat@cbu.edu.tr Kılınç, M., Tarhan, Ç., Aydın, C. / Bilişim Sistemleri ve Yönetim Araştırmaları Dergisi 2 (2). (2020) 16-25 1. GİRİŞ (INTRODUCTION) Veri kavramının öneminin giderek artmasıyla birlikte geçmişten günümüze süregelen birçok süreç, sektör ve kavram büyük bir değişim geçirmiştir. Özellikle verimliliğin esas olduğu zamanlarda bu durum kendini iyiden iyiye göstermektedir. Bu sebeple, değişimin temelinin oluşturan verinin günümüzde çok iyi yorumlanması ve anlaşılır hale getirilmesi gerekir. Çünkü bir veri kümesinin nasıl depolandığının, düzenlendiğinin ve yönetildiğinin, söz konusu örgüt yetkinliği üzerinde büyük bir etkisi vardır [1]. Bu doğrultuda büyük veriyi işleyiş süreçleri bakımından incelendiğimizde, bu veri kümelerini insan eliyle düzenleyerek yorumlamak, görselleştirmek ya da anlaşılır hale getirerek raporlamak oldukça fazla zaman maliyeti anlamına gelmektedir. Çünkü veri sayısı sürekli artmış ve insan eliyle analizi zor bir hale gelmiştir. Bilgi teknolojileri tam da bu noktada büyük bir kolaylık sağlamaktadır. Bilgi teknolojilerinin gelişmesiyle birlikte 2000’li yılların başından itibaren birçok iş akışı daha hızlı ve verimli bir şekilde yapılabilmektedir. Bu gelişim, aynı zamanda bilgi teknolojilerinin değişerek, geçmişte ortaya koyulan kuralların değişmesine zemin hazırlamış bir şekilde, günümüze uyumlu hale gelmiştir [2]. Bu uyum içerisinde ortaya koyulan her teknolojinin fayda sağladığı farklı alanlar bulunmaktadır. Fayda sağlanan alanların temeli veri yapılarının işlenmesiyle ve yorumlanmasıyla oluşur. İş analitiği ve makine öğrenmesi yöntemleri de ortaya koyulan verinin işlenerek anlamlı hale getirilmesi sürecinde bilgi teknolojilerinin içerisinde kendisine yer bulmaktadır. Diğer taraftan, startup metodolojisine sahip girişimlerin popülaritesi geçtiğimiz yıllar içerisinde giderek artmaktadır [3]. Web 2.0 ile birlikte gelen teknolojilerin olgunluğu ve kaynak kullanımlarının başarısıyla birlikte girişimleri internet üzerinden finanse etme süreci olan kitle fonlaması büyük bir önem kazanmıştır [4]. Çoğunlukla mentorluk desteği verilen girişimler için günümüzde birçok platform geliştirilmiştir. Kickstarter gibi platformların popüler hale gelmesiyle birlikte proje geliştiricileri, her yıl yüz milyonlarca dolar destek toplayabilmektedir [5]. Yani bu mantıkla tasarlanmış platformlarda girişimciler fikirleri ve projeleri için destek arayışına girmektedirler. Platform üzerinden sağlanan finansal ve taktiksel desteklerden sonra ise, girişimcilerin fikirleri destekçiler, melek yatırımcılar ve sermaye fonları sayesinde hayata geçmektedir [6]. Beğenilmeyen ya da yeterli desteği bulamayan fikirler ise yeterli desteği bulamadığından dolayı başarısız olabilmektedir. Bu sebeple girişim fikri ekosisteminde yeterli desteği alabilmek, o fikri hayata geçirmek açısından oldukça önemlidir. Dolayısıyla, girişim fikrinin ya da projenin başarılı olup olmayacağı konusunda, projeyi destekçilere sunmadan önce bir öngörü sağlamak pozitif anlamda bir etki 17 sağlamaktadır. Bu öngörü, kitle fonlaması platformlarında destekçilerin ilgisini çekebilmek için kullanılabilir. Proje profilindeki bilgiler, içerik, metinler, kullanılan resimler gibi projenin dinamiklerini oluşturan etmenler, destekçilerin ilgisiyle doğrudan alakalıdır [7]. 1.1 Literatür Taraması (Literature Review) Kitle fonlama platformları, araştırmanın yöntem kısmını oluşturan iş analitiği ve makine öğrenmesi ile başarı tahminlemesi kapsamında incelendiğinde, birçok farklı çalışmaya rastlanılmıştır. 2013 yılında Chen tarafından bir Kickstarter projesinin önceden başarılı olup olmayacağını tahmin etmek amacıyla sistem geliştirme çalışmasında, destek vektör makinesi yöntemi kullanılmıştır. Çalışma ile, projelerin başlangıçtaki özellikleri kullanılarak %67 doğruluk oranıyla başarı tahminlemesi yapılması sağlanmıştır [8]. 2019’da Kindler tarafından yürütülen araştırmada da kitlesel fonlama platformları olan Kickstarter, Indiegogo ve Sellaband gibi oluşumlar üzerindeki yayılım mekanizmaları araştırılmıştır. Çünkü projenin yayılımı, viralite ve başarıyla doğrudan alakalıdır [9]. Chung tarafından ortaya koyulan araştırmada ise Kickstarter veri setleri, destekçi-kampanya grafikleri ile birlikte Naive Bayes, Random Forest ve Adaboost sınıflandırma yöntemleri kullanılmıştır. En yüksek değeri veren Adaboost sınıflandırma yöntemi incelenen veri setine göre %76 oranında bir doğruluk oranıyla başarı tahminlemesi yapmıştır [10]. Rao ve ekibi tarafından 2014 yılında ortaya koyulan çalışmada ise kitle fonlamasına sahip projelerin başarı oranının %50’den az olduğu vurgulanmıştır. Ayrıca çalışma kapsamında karar ağaçları yöntemi kullanılarak verilen para taahhüdü ile kampanya başarısı arasındaki ilişki incelenmiştir. İncelemeye göre kampanya sürelerinin proje başarısında önemli bir etkiye sahip olduğu tespit edilmiştir. Ek olarak, kampanyalarda tohum para olarak kabul edilebilecek ilk %15’lik para girişini kullanılmasının, projelerin başarısının %84 oranında tahmin edilmesini sağladığı ortaya koyulmuştur [11]. Jensen ve Özkil’in 2018 yılında ortaya koyduğu çalışmada ise kitle fonlaması platformlarında başarısızlığa sebep olabilecek etmenler incelenmiştir. İncelemeye göre kampanya başlatıcıların ürün özellikleriyle ilgili vaatlerde bulunma yeteneği ve bu kapsamda oluşturulan proje özellikleri, projenin başarısı için önemli rol oynamaktadır. Ayrıca çalışma, kitle fonlaması platformlarının bir araştırma içerisinde nasıl kullanılabileceğini de hem veri kütüphaneleriyle hem de ürün geliştirme vakaları ile göstermektedir [12]. Qianzhou ve ekibinin yaptığı araştırma ise temel olarak projelerin kategori ve hedef gibi temel noktalarına odaklanmaktadır. Bu kapsamda da Kickstarter üzerinden elde edilen büyük bir veri kümesi kullanılmıştır. Araştırma sonucuna göre proje açıklamalarında sağlanan bilgiler ile elde edilen 18 Kılınç, M., Tarhan, Ç., Aydın, C. / Bilişim Sistemleri ve Yönetim Araştırmaları Dergisi 2 (2). (2020) 16-25 finansal destek arasında bir doğru orantı vardır. Ortaya koyulan model projenin finansal başarısını %73 doğruluk oranıyla tahmin edebilmektedir. Ayrıca araştırma, tahminleme doğruluk oranının daha da artması için Destek Vektör Makinesi (SVM) sınıflandırma yöntemini önermektedir [13]. Sheng Bi ve ekibinin 2016’da ortaya koyduğu bir başka çalışmada da ayrıntılı bir olasılık modeline dayanarak, girişimlerdeki çevrimiçi bilgilerin yatırımcıların kararlarını nasıl etkilediği araştırılmıştır. Çin’de faaliyet gösteren kitle fonlaması web sitelerinin verileriyle gerçekleştirilen araştırmada, daha yüksek beğeni sayısının, online geri bildirimin, daha ayrıntılı proje açıklamasının ve projenin video ile tanıltılmasının fon yatırım kararlarında olumlu bir etki yaptığı ortaya koyulmuştur. Çalışma içerisindeki veri analizi ile de, farklı proje kategorilerinin farklı perspektifler ile değerlendirilmesi gerektiği vurgulanmıştır [14]. Son olarak, Mortensen ve ekibinin yaptığı araştırmada da makine öğrenmesi yöntemleriyle başarı faktörünü tanımlama ve tahminleme çalışması yapılmıştır. Araştırmada, Fortune 500 listesindeki bir ambalaj şirketinin başarısını neyin yönlendirdiği incelenmiş ve bu doğrultuda bir model ortaya koyulmuştur. İstatistiksel modelleme teknikleri kullanılmasının satış döngülerinin kısalmasına, satış maliyetlerinin azalmasına etki ederek hem gelir hem de kar hasılatını iyileştirdiği çalışma içerisinde görülmektedir. Makine öğrenmesi yöntemlerinden decision tree, gradient boost ve random forest algoritmalarının kullanılmasıyla en iyi model; accuracy %80, precision %86, recall %77 sonuçlarını vermiştir [15]. İncelenen çalışmalar özetlenecek olursa kullanılan yöntemler; sistem geliştirme yaşam döngüsü (SDLC), veri madenciliği için endüstriler arası standart süreç (CRISP-DM), ve Örnekleme-Keşfetme-DüzenlemeModelleme-Değerlendirme (SEMMA) ekseninden oluşmaktadır. SEMMA, CRISP-DM yönteminin aksine problem tanımını içermediği için kitle fonlaması projelerini sınıflandırma noktasında yetersiz kalabilmektedir. Yine çalışmalar kapsamında, kitle fonlamasındaki başarı oranının bir düşüş eğiliminde olduğu göze çarpmaktadır. Bunun temel sebeplerinden birisi, kitle fonlamasına olan ilginin artması ve kitle fonlaması platformlarına yüklenen projelerin özensiz hazırlanması olarak nitelendirilebilir. Diğer taraftan, kitle fonlaması projeleriyle ilgili yapılan başarı sınıflandırma sonuçları yıllar geçtikçe bir artış göstermektedir. Çünkü özellikle 2018 ve sonrasında, birlikte kullanıldığında daha iyi sonuçlar verebilen (ensemble) makine öğrenmesi algoritmaları daha çok kullanılmaya başlanılmıştır. Örneğin, Mortensen ve ekibinin yaptığı araştırmada; decision tree, gradient boost ve random forest algoritmaları birlikte kullanılarak %80’lik bir doğruluk oranı elde edilip, değerlendirme metrikleriyle değerlendirilmiştir [15]. İyi bir sınıflandırma yapılabilmesi için algoritmaları birlikte kullanmanın yanı sıra veri setine uygun algoritmayı seçip kullanmak da uygun bir çözümdür. Çünkü sınıflandırma kapsamında daha iyi sonuçlar alınabilmesi, veri setinin özellikleriyle de ilgili bir durumdur. Bu sebeple, veri setine uygun algoritma seçimleriyle daha iyi sınıflandırma yapılabileceği durumu göze çarpmaktadır. Kickstarter projelerine başarı anlamında bir öngörü sağlayan çalışmamızda da, problemin tanımının yapılabildiği için CRISP-DM yöntemi kullanılarak bir ortam geliştirilmiş ve akabinde kitle fonlaması kullanıcılarının projesinin başarısı hakkında bir öngörüye sahip olabilmesi amaçlanmıştır. Bu doğrultuda, kitle fonlaması kullanıcısından projesinin özellikleri alınarak makine öğrenmesi yöntemleriyle başarı tahminlemesi yapılmış ve bu sürecin web ortamında gösterilmesi sağlanmıştır. Böylece kitle fonlaması ekosistemine girmeden önce veya sonra projeler test edilebilir hale gelerek bir karar destek yapısı oluşturulmuştur. Çalışmamız ayrıca, dağınık veri seti için sınıflandırmaya uygun algoritmaların seçilerek uygulanması kapsamında literatüre bir katkı sağlamaktadır. 2. MATERYAL VE YÖNTEM (MATERIALS and METHODS) 2.1. Veri Seti (Data Set) Kaggle tarafından sağlanan ve 300.000’den fazla Kickstarter girişimini çeşitli özellikleriyle beraber konu edinen büyük veri dosyaları, 2017 ve sonrasında oluşan verilerle filtrelenerek, yaklaşık 50 bin veri civarına indirgenmiştir [16]. Araştırmanın en güncel girişim proje verileriyle yapılabilmesi amacıyla bu filtreleme yapılmıştır. Belirtilen özelliklerde araştırmanın yapılabilmesi için, veri madenciliği proje döngüsü (CRISP-DM) kullanılmış ve döngü içerisindeki 6 aşama sırasıyla gerçekleştirilmiştir. Bu aşamalar; işin anlaşılması, verinin anlaşılması, verinin hazırlanması, modelleme, değerlendirme, konuşlandırma ve kontrol adımlarından oluşmaktadır [17][18]. Ayrıca, Veri Madenciliği proje döngüsü (CRISP-DM) oldukça esnek ve döngüsel bir model olarak kabul edilir. Veri bilimi projelerinde sıklıkla kullanılan model üzerindeki bu özellik sayesinde bir önceki adıma gitmek ve değişiklik yapmak mümkündür. Çünkü ihtiyaçlarda veya veri yapısında bir değişiklik olabilir. Bu sebeple, benzer durumlarla karşılaşıldığında ana çerçerveyi bozmadan modelin değerlendirilmesi gerekmektedir. CRISP-DM uygulanırken, ilk aşamada muhtemel problemler değerlendirildikten sonra, literatür taraması yapılmış ve hangi yazılım kütüphanelerinin kullanılacağı belirlenmiştir (Tablo 1). İkinci aşamada ise verinin kalitesi, ulaşılabilirliği ve sürdürülebilirliği Kılınç, M., Tarhan, Ç., Aydın, C. / Bilişim Sistemleri ve Yönetim Araştırmaları Dergisi 2 (2). (2020) 16-25 tartışılmıştır. Üçüncü aşamada ise ön işlemeden geçen veri seti, modelleme aşamasında verilerin izleyeceği yol ve analiz yapıları bakımından bir model üzerinde uygulanmıştır. Tablo 1. Kullanılan Yazılım Kütüphaneleri (Software Libraries Used) Web Makine Öğrenmesi Veri Ön İşleme Python Kütüphane ve Yapıları Flask Framework Sklearn Kütüphanesi Pandas, Numpy Nesne Tabanlı Programlama Dilleri PHP, Javascript, Python (VS Code ile derlenmiştir.) Python (Spyder VS Code ile derlenmiştir.) Python (Jupyter ile derlenmiştir) Diğer Araç ve Kütüphaneler HTML, CSS, Bootstrap, Chart.js Google Colab Weka Değerlendirme aşamasında makine öğrenmesi yöntemlerinden alınan sınıflandırma algoritmalarının sonuçları, değerlendirme metrikleriyle test edilerek çalışma içerisine eklenilmiştir. Böylelikle konuşlandırma süreci için, geliştirilen web ortamında gösterilecek olan alanların hazırlanması sağlanmıştır. Bu noktada amaç, hangi sınıflandırma algoritmasının hangi sonucu verdiğini son kullanıcıya analiz ederek göstermektir. Dolayısıyla, konuşlandırma sürecinde de modelin web ortamında hayata geçmesi sağlanmıştır. Tablo 2. Projelerin Özellikleri ve Açıklaması (Features and Description of the Projects) Proje Özellik Adı Açıklama name Proje isimleri category Projelerin alt kategorileri main category Alt kategorilerin daha genel olarak sunulduğu ana kategoriler currency Projeyi desteklemek için kullanılan para birimi deadline Projenin kitle fonlaması için son tarihi goal Bir proje oluşturucunun projesinin tamamlamak için ihtiyaç duyduğu para miktarı launched Projenin başlatıldığı tarih pledged Proje için taahhüt edilen miktar state Projenin içinde bulunduğu mevcut durum backers Projeye destek sağlayan kişi sayısı country Projenin ortaya koyulduğu ülke 2.2. Veri Ön İşleme (Data Preprocessing) 11 sütundan oluşan veri setinde, name, category, main category, currency, deadline, goal, launched, pledged, state, backers, country gibi sütunlar bulunmaktadır (Tablo 2). Sağlıklı bir analiz için içeriği eksik olan veri kümeleri, veri setinin içerisinden temizlenerek, bir veri ön işleme yapılmıştır. Ayrıca string değerde olan sütunlar yine veri ön işlemede nümerik bir hale çevirilerek, veri ön işleme adımları tamamlanmıştır. Ön işleme sonucunda makine öğrenmesi yöntemleri için normalizasyonu yapılmış, nümerik veriler oluşturulmuştur. Veri ön işleme aşaması tamamlandıktan sonra Kickstarter veri seti analize ve makine öğrenmesi yöntemlerinin uygulanmasına hazır bir hale getirilmiştir. Ayrıca veri seti içerisindeki özelliklerin birbirlerini minimum düzeyde etkilemeleri için ölçeklendirme işlemleri gerçekleştirilmiştir. Böylelikle sınıflandırma aşamasında ortaya çıkabilecek aşırı öğrenme ya da eksik öğrenme gibi problemlerin önüne geçilebilmesi amaçlanmış ve web uygulamasındaki son kullanıcının karşısına daha anlamlı sınıflandırma sonuçları koyulmuştur. 19 2.3. Modelleme (Modelling) Modelleme süreci, geliştirilmek istenen iş yapısına en uygun ögelerin dahil edilmesiyle oluşturulan bir karar destek sürecini ifade etmektedir. Bu kapsamda geliştirilen web uygulaması için makine öğrenmesi yöntemlerinden hangi algoritmaların kullanılacağı ve nasıl bir yol izlenileceği bu aşamada belirlenmektedir (Şekil 1). Modellemeye göre, girişimini sistem üzerinde test etmek isteyen kullanıcı, girdiği proje özellikleriyle birlikte sisteme dahil olmaktadır. Yaklaşık 50 bin veriden oluşan Kickstarter veriseti Python’ın Pandas ve Numpy kütüphaneleriyle bir ön işlemeden geçirildikten sonra web uygulamasının veritabanı oluşturulmuştur. Veritabanında nümerik olarak tutulan veriler, makine öğrenmesi algoritmalarıyla test edilerek yöntemlere göre doğruluk oranlarıyla beraber web arayüzünde gösterilmektedir.Bu sayede, makine öğrenmesi yöntemlerinin sınıflandırma yeteneğiyle oluşan web platformu kullanıcıya çıkarımlar sağlamaktadır. 20 Kılınç, M., Tarhan, Ç., Aydın, C. / Bilişim Sistemleri ve Yönetim Araştırmaları Dergisi 2 (2). (2020) 16-25 çarpmaktadır. Algoritma, her sınıflandırıcının girdi vektöründen bağımsız bir şekilde karar ağaçlarından oluşur. Akış içerisindeki her bir ağaç giriş vektörünü sınıflandırmak için birim oyu verir [21]. Ayrıca geleneksel yöntemlerden biri olarak kabul edilen Decision Tree’nin en büyük problemlerinden birisi overfitting (aşırı öğrenme) olarak bilinmektedir. Rastgele Orman Algoritması’nda bu problem, öznitelik setinden rassal olarak birçok alt setin seçilmesiyle aşılmaktadır. Seçilen alt setlerin ürettiği sonuçlar arasında en fazla birim oyunu alan değer, Rastgele Orman Algoritmasının sonucunu oluşturur. Bu sınıflandırma yöntemi, dengesiz bir dağılım gösteren veri setlerinde ve kategorik değişkenlerde daha iyi sonuç vermektedir. Uygulama geliştirilirken kullanılan veri seti kategoriksel olarak birçok alana sahip olup dengesiz bir dağılım gösterdiğinden dolayı bu yöntem tercih edilmiştir. 2.5. Değerlendirme (Evaluation) (Modeling the Application) 2.4. Makine Öğrenmesi (Machine Learning) Çalışma kapsamında geliştirilen web uygulamasında gözetimli öğrenme yöntemlerinden karar ağacı ve rastgele orman sınıflandırıcısı kullanılmıştır. Karar ağacı algoritması içerisinde öncelikle hiyerarşik bir ağaç yapısı oluşturulmaktadır [19]. Ağacın yaprak seviyesinden itibaren oluşturulan yapı ile sınıfların entropi değerlerine göre ağaç üzerine dizilimi gerçekleştirilir. Daha sonrasında ise kontrol edilmek istenen değerler kök yapısından başlayarak dallara doğru ilerlenerek sınıflandırma sonucuna ulaşılır. Bu sayede test için ayrılan veriler ile modelin doğruluğu kontrol edilir. Ayrıca yeni gelecek olan gerçek değerler de bu sayede sınıflandırılır. Ayrıca karar ağaçları, temel sınıflandırma algoritmalarından biri olup, birden fazla karar ağacı biraraya gelerek Random Forest algoritmasını oluşturur [20]. Algoritmanın en büyük problemlerinden birisi olan overfitting (aşırı öğrenme) olduğu durumlarda ise, Random Forest yöntemi içerisinde karar ağacı sayısını belirleyerek ortaya çıkan sonuçlara da bakılması gerekir. Random Forest Classification (Rastgele Orman Sınıflandırıcısı), en çok kullanılan başarılı sınıflandırma yöntemlerinden birisi olarak göze Tablo 3. Karmaşıklık Matrisi (Confusion Matrix) Gerçek Değerler Tahmin Edilen Değerler Şekil 1. Uygulamanın Modellenmesi Veri madenciliği için endüstriler arası standart sürecin 5. kısmını oluşturan değerlendirme aşamasında, araştırmada kullanılan yöntemler, çıktıları ve performansları ele alınmıştır. Girişimcilerin projelerini başarı anlamında test edecekleri web platformu, makine öğrenmesi yöntemleriyle geliştirilmiştir. Veri setinin uyumluluğu sebebiyle makine öğrenmesi sınıflandırma yöntemlerinden olan Decision Tree ve Random Forest Algoritmaları tercih edilmiştir. Uygulama içerisindeki verilerin %70’i eğitim için, %30 ise test içi ayırılmıştır. Gerçek değerlerle sonuç elde etme aşamasında ise girişimcilerden alının proje özellikleriyle projenin başarı durumu tahminlenmiş ve sonuçları Flask Framework ile kullanıcı arayüzüne tekrar geri döndürülmüştür. Pozitif (1) Negatif (0) Pozitif (1) TP FP Negatif (0) FN TN TP : True Positive (Doğru Pozitif) → Algoritma evet sonucunu verdi, asıl sonuç da evet FP : False Positive (Yanlış Pozitif) → Algoritma evet sonucunu verdi, ama asıl sonuç hayır FN: False Negative (Yanlış Negatif) → Algoritma hayır sonucunu verdi, asıl sonuç da evet TN: True Negative (Doğru Negatif) → Algoritma hayır sonucunu verdi, ama asıl sonuç hayır Kılınç, M., Tarhan, Ç., Aydın, C. / Bilişim Sistemleri ve Yönetim Araştırmaları Dergisi 2 (2). (2020) 16-25 Bu noktada, kullanılan bu sınıflandırma yöntemlerinin ne kadar doğrulukla sınıflandırma yapabildiğinin ölçülmesi gerekir. Sınıflandırma yöntemlerinin test edilebilmesi amacıyla karmaşıklık matrisi kullanılmıştır (Tablo 3). Karmaşıklık matrisinin özellikleri, makine öğrenmesi sınıflandırma yöntemlerine entegrasyon açısından uyumlu bir durumdadır ve daha fazla anlamsal açıklama sağlar [22]. Ayrıca karmaşıklık matrisi gerçek değerlerin bilindiği bir test verisi üzerinde sınıflandırma yönteminin performansını tanımlamak amacıyla kullanılır. Bu doğrultuda 5 sınıf içeren veri setinin Decision Tree ve Random Forest algoritmalarıyla analizi yapılmıştır. Sonrasında ise sıcaklık haritasıyla analizler görselleştirilerek karmaşıklık matrisleri ortaya çıkmıştır (Şekil 2). 21 Doğruluk oranından sonra, karmaşıklık matrisi kullanılarak yapılan hesaplamalardan diğer ikisi Recall (Geri Çağırma) ve Precision (Hassasiyet) ölçümleridir. Bu doğrultuda, doğru sınıflandırılan pozitif örneklem sayısının, doğru sınıflandırılmış toplam pozitif tahmin edilen örnek ile yanlış sınıflandırılmış negatif örnek sayısının toplamına oranına duyarlılık ölçümü denilir (2). Ölçüm, pozitif olarak tahmin edilmesi gereken değerlerin, ne kadarının pozitif olarak tahmin edildiğini gösteren bir metrik olarak değerlendirilir. Özellikle yanlış negatif tahminlemenin maliyetinin yüksek olduğu durumlarda kullanılmaktadır. 𝑅𝑒𝑐𝑎𝑙𝑙 (𝐷𝑢𝑦𝑎𝑟𝑙𝚤𝑙𝚤𝑘) = TP TP + FN (2) Karmaşıklık matrisinden elde edilen sonuçlar baz alındığında hassasiyet ölçümü, doğru bir şekilde sınıflandırılan pozitif örneklem sayısının, toplam pozitif örneklere oranı olarak hesaplanmaktadır (3). Diğer bir deyişle, pozitif olarak tahmin edilen değerlerin gerçekten kaç adedinin pozitif olduğunu gösteren bir ölçüm parametresidir. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 (𝐾𝑒𝑠𝑖𝑛𝑙𝑖𝑘) = TP TP + FP (3) F1 Skoru, uç durumların göz ardı edilmediği bir sınıflandırma yöntemi değerlendirme metriğidir. Metriğin ölçümü precision ve recall değerlerinin harmonik ortalamasıyla elde edilir (4). Sınıflandırma yöntem seçimlerinde doğruluk oranı yerine F1 skor değerine daha önce bakılmasının temel nedeni eşit dağılmamış olan veri kümelerinde yanlış bir model seçimi yapmamaktır. Kickstarter veri seti de eşit dağılmamış örneklemlerden oluştuğu için kullanılan 2 sınıflandırma yönteminin de F1 skoru belirlenmiştir. 𝐹1 𝑆𝑐𝑜𝑟𝑒 = Şekil 2. Sınıflandırma Problemlerinin Karmaşıklık Matrisleri (Confusion Matrix for Classification Problem) Karmaşıklık matrislerinin ortaya koyulmasından sonra sınıflandırma metriklerinin değerlendirilmesi gerekmektedir. Bu doğrultuda, ilk olarak ortaya koyulan modelden çıkan sonuçların ne kadarının doğru tahmin edildiğinin belirtilmesi gerekir. Bunun için de sınıflandırma yöntemleri için en çok doğruluk oran ölçümü kullanılmaktadır [23]. Doğruluk oranı, doğru bir şekilde sınıflandırılan verinin tüm verilere oranlamasıyla elde edilir (1). 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 (𝐷𝑜ğ𝑟𝑢𝑙𝑢𝑘 𝑂𝑟𝑎𝑛𝚤) = TP + TN (1) TP + FP + FN + TN 2 × Recall × Precision Recall + Precision (4) Karmaşıklık matrisinden ayrı tutularak, Cohen’in Kappa katsayısı (κ) ise iki farklı değerleyici arasındaki uyuşmayı ölçen bir istatistik metriktir [24]. Ortaya çıkan ölçüm değeri -1 ile +1 arasında bulunmaktadır. κ değeri +1 değerine ne kadar yaklaşırsa iki farklı değerleyici arasındaki uyumluluk o derecede iyidir. 𝐾𝑎𝑝𝑝𝑎 𝑆𝑐𝑜𝑟𝑒 (κ) = (𝑃0 − 𝑃𝑐 ) (1 − 𝑃0 ) (5) Benzer şekilde κ değeri -1 değerine ne kadar yakınsa iki değerleyici arasındaki uyumsuzluk yüksek seviyededir ve güvenilirlik açısından bir anlam taşımamaktadır. κ = 0 durumunda ise iki değerleyici arasında uyumun şansa bağlı olabileceği belirtilir. Kılınç, M., Tarhan, Ç., Aydın, C. / Bilişim Sistemleri ve Yönetim Araştırmaları Dergisi 2 (2). (2020) 16-25 22 Tablo 4. Kappa Değerinin Değerlendirilmesi (Evaluation of the Kappa Score) κ (Kappa Score) 𝛋<0 𝛋 > 0.0 ve 𝛋 ≤ 0.20 Tablo 6. Decision Tree Algoritması Sınıflandırma Raporu (Decision Tree Algorithm Classification Report) Evaluation Hiç Uyuşma Olmaması Proje Durumu Precision Recall F1 Score Support Önemsiz Uyuşma Olması Başarısız 0.77 0.76 0.76 7465 İptal Edilen 0.23 0.22 0.22 1772 𝛋 ≥ 0.21 ve 𝛋 ≤ 0.40 Orta Derecede Uyuşma Olması 𝛋 ≥ 0.61 ve 𝛋 ≤ 0.80 𝛋 ≥ 0.41 ve 𝛋 ≤ 0.60 Çoğunlukla Uyumlu Olması Başarılı 0.95 0.94 0.95 5483 Önemli Derecede Uyuşma Olması Devam Eden 0.08 0.09 0.08 850 κ ≥ 0.81 ve 𝛋 ≤ 1 Mükemmel Uyuşma olması Askıya Alınan 0.02 0.03 0.03 86 Avg / Total 0.73 0.72 0.73 15656 κ Kappa değeri, 𝑃0 = 𝐾𝑎𝑏𝑢𝑙 𝐸𝑑𝑖𝑙𝑒𝑛 𝑂𝑟𝑎𝑛, 𝑃𝑐 = 𝐵𝑒𝑘𝑙𝑒𝑛𝑒𝑛 𝑂𝑟𝑎𝑛 olmak üzere yukarıdaki denklem ile bulunur (5). κ ≥ 0.4 olması uygun bir değer olarak görülmektedir (Tablo 4). Model değerlendirme metriklerinin Kickstarter girişimleri için kullanılan sınıflandırma yöntemlerini test etmede kullanılmasıyla Python programlama dili aracılığıyla sınıflandırma raporları elde edilmiştir. Tablo 5. Random Forest Algoritması Sınıflandırma Raporu (Random Forest Algorithm Classification Report) Proje Durumu Precision Recall F1 Score Support Başarısız 0.76 0.95 0.85 7539 İptal Edilen 0.32 0.08 0.13 1758 Başarılı 0.95 1.00 0.97 5423 Devam Eden 0.16 0.01 0.03 839 Askıya Alınan 0.11 0.01 0.02 97 Avg / Total 0.75 0.82 0.77 15656 Rapor içerisinde 5 farklı proje durum sınıfının elde ettiği precision, recall, F1 Score değerleri listelenmektedir. Buna göre Random Forest sınıflandırma yönteminin elde ettiği değerler doğruluk oranları %81 iken precision ortalaması %75, recall %82 ve F1 Score %77 olarak sıralanmaktadır (Tablo 5). Karar ağaçlarında ise %73 oranında bir doğruluk oranı elde edilirken, precision ölçüm ortalaması %73, recall ortalaması %72, F1 değer ortalaması %77 olarak bulunmuştur (Tablo 6). Değerlendirilen sınıflandırma yöntemleri, ölçümleri ile birlikte karşılaştırılmıştır (Tablo 7). Precision, Recall ve F1 skorlarındaki micro parametresi, toplam gerçek pozitifleri, yanlış negatifleri ve yanlış pozitifleri sayarak metrikleri global olarak hesaplamaktadır. Macro parametresi, her bir etiket için metrikleri hesaplayarak ağırlıksız ortalamayı bulan bir parametredir. Weighted parametresi ise, her bir etiket için metrikleri hesaplar ve ortalamalarını her bir etiket için gerçek örnek sayısını alarak destekler. Bu parametre etiket dengesizliğini hesaba katmak için macro parametresini değiştirir. Dolayısıyla precision ve recall arasında olmayan bir F1 skoru ortaya çıkarabilir. Ayrıca sınıflandırma yöntemlerinin kappa skorları gözlemciler arası ilişki bazında Random Forest için 0.681 (önemli derecede uyuşma), Decision Tree için 0.576 (çoğunlukla uyumlu olma durumu) olarak bulunmuştur (Tablo 3, Tablo 7). Random Forest ve Decision Tree sınıflandırma algoritmaları değerlendirildiğinde sırasıyla %81 ve %73 oranında sınıflandırma yapabilmektedirler. Flask Framework’ü ile web ortamında girişimcilerden alınan proje verileri başarı tahminlemesi için sorgulanabilir bir duruma gelmiştir. Uygulama üzerinde veri artışı sağlandıkça ortaya çıkan değerler de değişiklik gösterecektir. Bu değişiklik yine web arayüzünde yüzdesel olarak kullanıcı tarafında değerlendirilir. Kılınç, M., Tarhan, Ç., Aydın, C. / Bilişim Sistemleri ve Yönetim Araştırmaları Dergisi 2 (2). (2020) 16-25 23 Tablo 7. Sınıflandırma Yöntemlerinin Değerlendirme Metriklerine Göre Sonuçlarının Karşılaştırılması (Comparison of the Results of Classification Methods According to Evaluation Metrics) Sınıflandırma Yöntemleri Doğruluk Değeri Random Forest Decision Tree Kesinlik Değeri Duyarlılık Değeri F1 Skoru Kappa Macro Micro Weighted Macro Micro Weighted Macro Micro Weighted Skoru 0.81 0.462 0.815 0.741 0.411 0.815 0.815 0.400 0.815 0.764 0.681 0.73 0.411 0.731 0.732 0.410 0.731 0.731 0.410 0.731 0.731 0.576 2.5. Konuşlandırma ve Kontrol (Deployment and Control) Veri madenciliği proje döngüsünün konuşlandırma sürecinde uygulama kullanıma hazır bir şekilde hayata geçirilmektedir. Bu kapsamda, kullanılan makine öğrenmesi sınıflandırma yöntemleri Flask Framework’ü kullanılarak web arayüzünde gösterilmiştir (Şekil 3). Ortaya çıkan sonuçlar proje özellikleri değiştikçe değişmekte ve projenin başarı durumu için önceki veriler göz önüne alınarak varsayımsal bir tahmin yapılmaktadır. Dolayısıyla, makine öğrenmesinin yöntemlerinin iş zekasına katkısının örnekleri görülmüştür [25]. Karar desteğinin etkileştirilmesi için web ortamında kullanıcı arayüzü oluşturma kapsamında karmaşık problemlere de çözüm sağlandığı görülmektedir [26]. Öyle ki dağınık özelliklere sahip olan Kickstarter veri seti eğitilerek sınıflandırma için hazır bir şekilde web ortamında kullanılmıştır. Şekil 3. Flask ile Sınıflandırma Yöntemlerinin Kullanıcı Arayüzünde Gösterilmesi (Showing Classification Methods with Flask on User Interface) 3. TARTIŞMA ve SONUÇ (DISCUSSION and CONCLUSION) Makine öğrenmesi yöntemleriyle kitle fonlaması projelerinin sınıflandırılmasıyla ilgili zamanla daha iyi doğruluk değerleri üreten çalışmalar yapılmış ve gözlemlenmiştir. Yapılan çalışmalarda, birlikte kullanılan algoritmalar ile yapılan sınıflandırmalarda başarı oranının arttığı gözlemlenebilmektedir. Fakat veri setine uygun algoritmanın tespit edilerek sınıflandırma yapılabilmesi, algoritmaların birlikte kullanımı yerine daha iyi sonuçlar ortaya koyabilmektedir. Nitekim çalışmamızda da %81.55 ile literatürdeki çalışmalardan daha iyi bir sonuç elde edilmiş ve değerlendirme metrikleriyle bu sonucun sınıflandırma yetenekleri test edilmiştir. Yani, veri setine uygun algoritma seçimi yapıldığında birlikte algoritma kullanımına gerek kalmadığı sonucu ortaya çıkmaktadır. Bu yüzden makine öğrenmesi yöntemleriyle yapılacak çalışmalarda veri setine uygun algoritmanın bulunması büyük önem teşkil eder. Ayrıca çalışmamızın çıktılarından bir diğeri de ortaya koyulan sınıflandırma sonuçlarının son kullanıcıya sunulmasıdır. Böylelikle dinamik bir yapı kurulmuştur. Kullanıcı sistem üzerinde sorgulama yaptıkça proje özellikleri sisteme dahil olabilecektir. Dolayısıyla öğrenme yeteneği artabilen bir yapı ortaya çıkmaktadır. Sonuç olarak, gözetimli öğrenme kapsamındaki sınıflandırma yöntemlerinin bir araya gelmesiyle geliştirilen web ortamında, Kickstarter üzerinde projeleri için destek bekleyen girişimciler için bir karar destek yapısı oluşturulmuştur. Oluşturulan yapı girişimcilerin projelerinin özelliklerine odaklanmış ve çalışmanın temeli bu olmuştur. Proje özelliklerine dayaranarak yapılan sınıflandırma işlemleri, Random Forest için %81.55, Decision Tree için ise %72.75 24 Kılınç, M., Tarhan, Ç., Aydın, C. / Bilişim Sistemleri ve Yönetim Araştırmaları Dergisi 2 (2). (2020) 16-25 sonuçlarını vermiştir. Sonuçlar karmaşıklık matrisi ile test edilerek F1 skoru, Kesinlik ve Duyarlılık skorlarıyla değerlendirilmiştir. Ayrıca değişkenler arasındaki ilişkilerinde ortaya koyulabilmesi için de Kappa değeri kullanılmış, çok yüksek ve önemli derecede uyuşmalar ile anlamlı sonuçlar üretilmiştir. Ortaya koyulan platformun daha da işlevsel olabilmesi için gelecek çalışmalarda kullanıcı karar desteğinin arttırılması gerekmektedir. Bu gereksinim yapay sinir ağlarının sağlayabileceği olanakların son kullanıcı tarafına aktarılmasıyla mümkün olabilir. Bu sebeple benzer çalışmaların titizlikle gerçekleştirilerek yeni yöntemlerin uygulanması literatüre büyük bir katkı sağlayacaktır. Kickstarter Campaigns: Is the Success due to Virality? Palgrave Communications, 5(1), 1-6. 4. KAYNAKLAR (REFERENCES) [12] Jensen, L. S., & Özkil, A. G. (2018). Identifying challenges in crowdfunded product development: a review of Kickstarter projects. Design Science, 4. [1] Laudon, K. C. (2007). Management information systems: Managing the digital firm. Pearson Education India. [2] Theis, T. N., & Wong, H. S. P. (2017). The end of moore's law: A new beginning for information technology. Computing in Science & Engineering, 19(2), 41. [3] Mansoori, Y., Karlsson, T., & Lundqvist, M. (2019). The influence of the lean startup methodology on entrepreneur-coach relationships in the context of a startup accelerator. Technovation, 84, 37-47. [4] Zvilichovsky, D., Inbar, Y., & Barzilay, O. (2015). Playing both sides of the market: Success and reciprocity on crowdfunding platforms. Available at SSRN 2304101. [5] Etter, V., Grossglauser, M., & Thiran, P. (2013, October). Launch hard or go home! Predicting the success of Kickstarter campaigns. In Proceedings of the first ACM conference on Online social networks (pp. 177-182). [6] Kuppuswamy, V., & Bayus, B. L. (2018). Crowdfunding creative ideas: The dynamics of project backers. In The economics of crowdfunding (pp. 151182). Palgrave Macmillan, Cham. [7] Cheng, C., Tan, F., Hou, X., & Wei, Z. (2019, August). Success prediction on crowdfunding with multimodal deep learning. In Proceedings of the 28th International Joint Conference on Artificial Intelligence, Macao, China (pp. 10-16). [8] Chen, K., Jones, B., Kim, I., & Schlamp, B. (2013). Kickpredict: Predicting Kickstarter Success. Technical report, California Institute of Technology. [9] Kindler, A., Golosovsky, M., & Solomon, S. (2019). Early Prediction of the Outcome of [10] Chung, J., & Lee, K. (2015, August). A long-term study of a crowdfunding platform: Predicting project success and fundraising amount. In Proceedings of the 26th ACM Conference on Hypertext & Social Media (pp. 211-220). [11] Rao, H., Xu, A., Yang, X., & Fu, W. T. (2014, April). Emerging dynamics in crowdfunding campaigns. In International Conference on Social Computing, Behavioral-Cultural Modeling, and Prediction (pp. 333-340). Springer, Cham. [13] Du, Q., Fan, W., Qiao, Z., Wang, G., Zhang, X., & Zhou, M. (2015). Money talks: a predictive model on crowdfunding success using project description. [14] Bi, S., Liu, Z., & Usman, K. (2017). The influence of online information on investing decisions of reward-based crowdfunding. Journal of Business Research, 71, 10-18. [15] Mortensen, S., Christison, M., Li, B., Z hu, A., & Venkatesan, R. (2019, April). Predicting and Defining B2B Sales Success with Machine Learning. In 2019 Systems and Information Engineering Design Symposium (SIEDS) (pp. 1-5). IEEE. [16] Mouillé, M. (2018). Kickstarter Projects Dataset, Kaggle. More than 300,000 kickstarter projects (Version 7). Access address: https://www.kaggle.com/kemical/kickstarter-projects [17] Huber, S., Wiemer, H., Schneider, D., & Ihlenfeldt, S. (2019). DMME: Data mining methodology for engineering applications–a holistic extension to the CRISP-DM model. Procedia CIRP, 79, 403-408. [18] Fahmy, A. F., Mohamed, H. K., & Yousef, A. H. (2017). A data mining experimentation framework to improve six sigma projects. In 2017 13th International Computer Engineering Conference (ICENCO) (pp. 243-249). IEEE. [19] Berhane, T. M., Lane, C. R., Wu, Q., Autrey, B. C., Anenkhonov, O. A., Chepinoga, V. V., & Liu, H. (2018). Decision-tree, rule-based, and random forest classification of high-resolution multispectral imagery for wetland mapping and inventory. Remote sensing, 10(4), 580. Kılınç, M., Tarhan, Ç., Aydın, C. / Bilişim Sistemleri ve Yönetim Araştırmaları Dergisi 2 (2). (2020) 16-25 [20] Leiva, R. G., Anta, A. F., Mancuso, V., & Casari, P. (2019). A Novel Hyperparameter-Free Approach to Decision Tree Construction That Avoids Overfitting by Design. IEEE Access, 7, 99978-99987. [21] Pal, M. (2005). Random forest classifier for remote sensing classification. International Journal of Remote Sensing, 26(1), 217-222. [22] Xu, J., Zhang, Y., & Miao, D. (2020). Three-way confusion matrix for classification: a measure driven view. Information Sciences, 507, 772-794. [23] Yang, T. L., Lin, C. H., Chen, W. L., Lin, H. Y., Su, C. S., & Liang, C. K. (2019). Hash Transformation and Machine Learning-based Decision-Making Classifier Improved the Accuracy Rate of Automated Parkinson’s Disease Screening. IEEE Transactions on Neural Systems and Rehabilitation Engineering. [24] Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and psychological measurement, 20(1), 37-46. [25] Wang, J., Wu, X., & Zhang, C. (2005). Support vector machines based on K-means clustering for realtime business intelligence systems. International Journal of Business Intelligence and Data Mining, 1(1), 54-64. [26] Cook, A., Wu, P., & Mengersen, K. (2015). Machine learning and visual analytics for consulting business decision support. In 2015 Big Data Visual Analytics (BDVA) (pp. 1-2). IEEE. 25

RELATED PAPERS

RELATED TOPICS

Log In

Kitle Fonlaması Projelerinin Karar Ağacı ve Rastgele Orman Algoritmalarıyla Sınıflandırılması

Kitle Fonlaması Projelerinin Karar Ağacı ve Rastgele Orman Algoritmalarıyla Sınıflandırılması

Related Papers

RELATED PAPERS

RELATED TOPICS