Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Karar Ağaçlarıyla Öğrenci Verilerinin Sınıflandırılması

2014, Atatürk Üniversitesi İktisadi ve İdari Bilimler Dergisi

Atatürk Üniversitesi İktisadi ve İdari Bilimler Dergisi, Cilt: 28, Sayı: 4, 2014 101 Karar Ağaçlarıyla Öğrenci Verilerinin Sınıflandırılması Mehmet Ali ALAN Özet: Bu çalışmada, karar ağaçları yöntemiyle Cumhuriyet Üniversitesi İktisadi ve İdari Bilimler Fakültesi öğrencilerine ait veriler kullanılarak veri madenciliği yapılmıştır. Öğrencilere ait verilerden yararlanarak, hem bu verileri en başarılı sınıflandıran karar ağaçlarına ait algoritma, hem de bu algoritmanın üreteceği sınıflar tespit edilmeye çalışılmıştır. Çalışmanın sonucunda LADTree algoritmasının öğrenci verilerini sınıflandırmada en başarılı algoritma olduğu ve ondokuz değişik sınıf ürettiği anlaşılmıştır. Anahtar kelimeler: Veri Madenciliği, Sınıflandırma, Karar Ağaçları Classification of Students’ Data by Decision Trees Abstract: In this study, a data mining application was conducted using the data from students of Faculty of Economics and Administrative Sciences in Cumhuriyet University. Both decision tree algorithm which classifies the data best and classes produced by this algorithm were tried to determine by benefiting from the students’ data. As a result of the study, it is explored that LADTree algorithm was the best algorithm which classifies the students’ data and nineteen classes were produced by this algorithm. Key Words: Data Mining, Classification Analysis, Decision Trees I. Giriş Veritabanları, rasyonel karar almayı sağlayacak gizli bilgiler bakımından zengindir. Sınıflandırma ve tahmin, gelecek veri trendlerinin tahmini veya önemli veri sınıflarının açıklanmasında kullanılan iki önemli veri analiz tekniğidir. Bu analizler büyük miktarlardaki verilerin daha iyi anlaşılmasında kullanışlı olabilmektedir (Han and Kamber, 2006:285). Veritabanlarındaki veriler üzerinde farklı disiplinler, farklı amaçlarla istatistiksel ya da matematiksel analizler yapmaktadırlar. Söz konusu analiz tekniklerinden biri de veri madenciliği yöntemidir. Günümüzde kurumlar büyük miktarlarda veri üretmekte, ancak bu veriler içinde anlamlı ve yararlı bilgiyi ortaya çıkarmakta zorluklar yaşamaktadırlar. Geleneksel istatistik yöntemlerle büyük boyuttaki veriyi çözümlemek kolay değildir. Bu nedenle verileri işlemek ve çözümlemek için özel yöntemlere gereksinim duyulmuştur. Veri madenciliği yöntemleri bu gereksinimi karşılamak üzere ortaya çıkmıştır (Özkan, 2008:4). Bu çalışmanın amacı, veri madenciliği tekniğini kullanarak, Cumhuriyet Üniversitesi İktisadi ve İdari Bilimler Fakültesi öğrencilerine ait veriler yardımıyla sınıflandırma analizi yapmaktır. Bu amaçla adı geçen fakültedeki mevcut kayıtlı olan öğrencilere ait veriler ele alınarak, veri madenciliğinin en yaygın kullanılan tekniklerinden “Karar Ağaçları” yöntemi kullanılmıştır.  Yrd. Doç. Dr. Cumhuriyet Üniversitesi, İİBF Yönetim Bilişim Sistemleri Bölümü. 102 Mehmet Ali ALAN Çalışma üç bölümden oluşmaktadır. Birinci bölümde sınıflandırma, Veri madenciliği ve Karar Ağaçları ile ilgili tanımlayıcı açıklamalar yer almaktadır. İkinci bölümde konuyla ilgili yapılmış çalışmalar gözden geçirilmektedir. Üçüncü bölümde ise Cumhuriyet Üniversitesi İktisadi ve İdari Bilimler Fakültesi öğrencilerine ait veriler üzerinde veri madenciliği yapılmıştır. II. Veri Madenciliği, Sınıflandırma ve Karar Ağaçları Veri madenciliği, hem yararlı hem de anlaşılabilir verilerle, alışılmamış yollarla, verileri özetleyen ve gizli ilişkileri ortaya koyan bir analiz yöntemidir (Larose, 2006). Bu yöntem, öncelikle bilinmeyen desenlerin ortaya konması amacıyla bilimsel ve teknik veri araştıran, veritabanındaki bilgi keşfi süreçlerinden biridir (Rokach and Maimon, 2005:2). Disiplinler arası nitelik taşıyan veri madenciliğini en yaygın kullanan bilim dalları; veritabanı sistemleri, istatistik, matematik, makine öğrenmesi, görselleme ve bilişim bilimleridir (Han and Kamber, 2006:29). Veri madenciliği, verinin bütününü kullanması bakımından diğer istatistiksel verilerden ayrılmaktadır. Bu yöntemle, geleneksel yollarla elde edilmiş küçük verilerle çalışma yerine daha kolay değerlendirme yapabilecek, yeni bağımsız veriler tercih edilebilmektedir (Weiss and Zhang, 2003:426). Gartner Group’a göre veri madenciliği, istatistiksel ve matematiksel yöntemler kadar desen tanıma teknolojilerinin kullanılmasıyla, muazzam miktarlardaki depolanmış verilerin elenmesi ile yeni anlamlı birliktelikler, desenler ve trendler keşfetme sürecidir (Larose, 2005:2). Veri madenciliği, reklamcılık, biyoinformatik, veritabanı pazarlama, dolandırıcılık tespiti, e-ticaret, sağlık, güvenlik gibi alanların içinde olduğu, farklı alanlarda uygulanabilen, değişik bakış açısı ve çalışması ile veri analizinden bilgi keşfetme süreci olarak bilinir( Jain, 2011). Birliktelik kuralları, kümeleme, karar ağaçları, diskriminant analizi, yapay sinir ağları, genetik algoritmalar vb. birçok veri madenciliği algoritması vardır. Bu algoritmalar sıradan bilgiyi bulup çıkarmak ve bir yöneticinin kararlarını yönlendirebilen özel bilgiye ulaşmak için çeşitli alanlardan elde edilen verileri işlemek amacıyla kullanılır (Wu and Li, 2003). En yaygın veri madenciliği algoritmaları ve modelleri içinde karar ağaçları, sınıflandırma ağaçları olarak ta adlandırılır (Bramer, 2007:6); birliktelik kuralları, kümeleme, sınıflandırma, çoklu lineer regresyon, sıralı örüntüler ve zaman serileri tahmini, örüntü tanıma ve özelliklerinin belirlenmesi sayılabilir. Sınıflandırma, regresyon ve zaman serisi analizleri gizli örüntülerin ortaya çıkarılmasında ve şekillendirilmesinde uygun iken, birliktelik kuralları, kümeleme ve sırasal keşif yaklaşımları, hava tahmini ve şiddeti araştırmak ve tanımlamak için yararlı araçlar olabilir (Tadesse 2009). Sınıflandırma, günlük yaşamda çok sıklıkla başvurulan bir işlemdir. Sınıflandırma ile nesneler bölünerek ayrıştırılır, yani karşılıklı olarak özel ya da genel kategorilerden her biri bir sınıf olarak atanabilir. Pek çok pratik karar Atatürk Üniversitesi İktisadi ve İdari Bilimler Dergisi, Cilt: 28, Sayı: 4, 2014 103 verme işlemi, bir sınıflandırma problemi olarak formüle edilebilir. Örneğin kişiler ya da nesneler birçok kategoriden biri olabilir (Bramer, 2007:23). Sınıflandırma, farklı sınıflardaki, değişik öğeleri ayırma sürecidir. Bu sınıflar, iş kuralları, sınıf sınırları veya bazı matematiksel fonksiyonlar olabilir. Sınıflandırma işlemi, sınıflandırılmış olan ögenin, bilinen bir sınıf değeri ile özellikleri arasındaki bir ilişki üzerine bina edilebilir. Bu sınıflandırma tipi, “denetimli öğrenme” olarak isimlendirilir. Eğer bir sınıfın bilinen örnekleri yoksa bu sınıflandırma denetimsizdir. En yaygın denetimsiz sınıflandırma yaklaşımı “kümeleme”dir. Kümeleme teknolojisinin en yaygın uygulamaları, perakende ürünlerde birliktelik analizi (market sepet analizi) ve dolandırıcılık tespitidir (Nisbet, et al., 2009: 235). Veri madenciliğinde denetimli öğrenme kavramı, bir sınıflandırma ile bilinen veriler temelinde bir sınıflandırma fonksiyonu öğretmek ya da bir sınıflandırma modeli inşa etmektir. Bu fonksiyon ya da model, veri tabanındaki verileri hedef niteliklere dönüştürür, dolayısıyla yeni veriler sınıf tahmininde kullanılabilir (Dong-Peng, at al.,2008:36). Karar ağacı algoritması, veri madenciliği sınıflandırma algoritmalarından biridir ve bilgi teorisi ilkelerine dayanmaktadır. Bir karar ağacı algoritması kullanıcıların, gürültülü ve bilinmeyen verilerin üstesinden gelmesini ve kolayca yorumlanmasını sağlayan otomatik olarak dağıtabilen modeller oluşturur. Bir karar ağacı, karar ağaçlarının yapısını temsil eden düğümleri dallar ve yaprak düğümlerinden oluşur. Ağacın üst düğümü kök düğüm olarak adlandırılır; içindeki düğümler değişkenlerin değerleri üzerine ifa edilmiş olan testleri temsil ederler; dallar testler üzerindeki farklı sonuçları ve yaprak düğümleri örneklerin sınıfını temsil eder (Dong-Peng vd., 2008). Karar ağaçları, sınıflandırma ve tahmin açısından güçlü ve popüler araçlardır. Bu yöntemin çekici tarafı, yapay sinir ağlarının aksine, karar ağaçlarının kuralları temsil etmesidir. Başka bir deyişle bunları yorumlamak daha kolaydır (Nisbet et al. 2009:465). 1970’lerin sonu ve 1980’lerin başlarında bir makine öğrenme araştırmacısı olan J. Ross Quinlan, ID3 (Iterative Dichotomiser) olarak bilinen bir karar ağacı algoritması geliştirdi. Bu çalışma ile daha önce E. B. Hunt, J. Marin ve P. T. Stone tarafından tanımlanmış olan kavram öğrenme sistemleri genişletilmiş oldu. Quinlan daha sonra ID3’ün bir devamı olan C4.5’i oluşturdu. Bu, daha yeni öğrenme algoritmaları için genellikle bir benchmark görevi görmektedir. 1984’de bir grup istatistikçi (L. Breiman, J. Friedman, R. Olshen ve C. Stone), ikili karar ağaçlarının oluşumunu açıklayan “Sınıflandırma ve Regresyon Ağaçları” (CART) adlı kitabı yayınladılar. ID3 ve CART aynı zamanda birbirinden bağımsız olarak ortaya çıktılar. Ancak eğitim değişkenlerinden (demetlerinden) öğrenme karar ağaçları için benzer bir yaklaşım ortaya koydular. Bu iki köşe taşı algoritma karar ağacı indüksiyonu ile ilgili çok sayıda çalışmaya kaynaklık etti (Han and Kamber, 2006:292). 104 Mehmet Ali ALAN Veri madenciliğinde bir karar ağacı, hem sınıflandırıcıları, hem de regresyon modellerini temsil edecek şekilde kullanılabilir. Diğer yandan operasyonel araştırmalarda karar ağaçları, hiyerarşik kararlar modeli ve onların sonuçları ile ilişkili bilgiler ortaya koyar. Karar vericiler olması en fazla muhtemel hedefine ulaşacak şekilde strateji geliştirmek için karar ağaçlarını kullanır. Bir karar ağacı sınıflandırma amacıyla kullanıldığı zaman, genellikle “sınıflandırma ağacı”, regresyon amacıyla kullanıldığında ise “regresyon ağacı” olarak adlandırılır (Rokach and Maimon:2008:5). Karar ağaçları hâlihazırdaki kullanımıyla en popüler tüme varım metodudur. Karar ağaçları genellikle iki aşamada oluşturulurlar. Büyüme olduğu zaman bu algoritma her bir düğümde sınıflar arasındaki en iyi özellik ayırt ediciyi (veri alt seti) ortaya çıkarır ve daha sonra o özelliğe dayalı olarak bu verileri iki yeni düğüm halinde bölümlere ayırır. Bu, her bir tabaka için bir sınıf tahsis edilinceye kadar ortaya çıkan veri alt setine tekrar tekrar uygulanır. İndirgemenin ikinci aşaması en iyi dengeye erişebilmek için ağacın en az yararlı dallarını kesmek suretiyle işletilir. Daha basit bir model genellikle daha sağlamdır. Yani yeni veriler hakkında daha doğru sonuçlar ortaya çıkarır. Nihai ağaç etiketlenmiş birkaç bölgedeki bu özel alanı bölümlere ayırır (Nisbet et al. 2009:300). Karar ağacı yöntemlerinde parametrik istatistiksel varsayımlar yapılmaz. Öngörüler terminal düğümlerde birkaç mantıksal if-then şartıyla sunulabilirler. Normal bir veri dağılımında veya değişkenler ve tepki değişkeni arasındaki lineer ilişkilerde örtülü varsayımlar yoktur. Karar ağacı yöntemleri, değişkenlerin öngörü sağlayabildikleri zamanın ötesini analistlerin bilmedikleri yerlerde veri madenciliği için oldukça uygundurlar. Bu nedenle karar ağacı yöntemleri ilişkileri açığa çıkarabilir ve onları daha fazla bilişimsel yoğun yöntemlerin gözden kaçırdığı birkaç karar kuralı halinde ifadelendirebilirler (Nisbet et al. 2009:278-279). Bir karar ağacı, öz nitelikler değeri üzerine bölünme olarak bilinen bir işlem tarafından oluşturulur yani outlook gibi bir öznitelik testi ve ardından olası değerlerin herbiri için bir dal oluşturmadır. Sürekli öznitelikli test durumunda normal olarak değer “daha az ya da eşit” ya da “daha büyük” bölünmüş değer olarak bilinen bir değer verir. Herbir dal, sadece bir sınıflandırma ile etikletli oluncaya kadar bölünme işlemi devam eder ( Bramer, 2007:43-44). Çekici bir sınıflandırma yöntemi olan karar ağacı, kök düğümden aşağı doğru yaprak düğümlerinde sonlanıncaya kadar uzayan, dallar tarafından bağlantıları sağlanmış, karar düğümlerinin bir koleksiyonunu içerir. Karar ağacı diyagramının en üstüne yerleştirilmiş olan kök düğümden başlayarak, dalın her bir olası sonucu ile karar düğümleri test edilir. Herbir dal daha sonra diğer bir karar düğmesi ya da sonlandırma yaprak düğmesine yol açar (Larose, 2005:107). Atatürk Üniversitesi İktisadi ve İdari Bilimler Dergisi, Cilt: 28, Sayı: 4, 2014 105 Verilerinden sınıflandırıcılar üretmek için özellikle etkili bir yöntem, bir karar ağacı üretmektir. Karar ağacı betimlemesi en yaygın olarak kullanılan mantık yöntemidir. Öncelikli olarak makine öğrenmesi ve uygulamalı istatistik literatüründe açıklanan çok sayıda karar ağacı ortaya çıkaran algoritmalar bulunmaktadır. Onlar girdi-çıktı örnekleri kümesinden oluşan karar ağaçları gibi öğrenme yöntemleri denetlenmektedir. Tipik bir karar ağacı öğrenme sistemi yukarıdan aşağıya bir stratejiyi benimser. O basit ama en basit olmayı gerektirmeyen bir ağacın bulunacağını garanti eder. Bir karar ağacı düğümlerden oluşur. Bir düğümün giden dalları, düğümde testin tüm olası sonuçlarına karşılık gelmektedir. X ve Y gibi iki giriş özellikli/öznitelikli sınıflandırma örnekleri için basit bir karar ağacı aşağıda verilmiştir. (Kantardzic, 2003:140) İki giriş özelliklerini X ve Y ile numunelerin sınıflandırılması için basit bir karar ağacı aşağıdaki şekilde verilebilir: X>1 Yes No Y=? Y=A Sınıf1 Y=B Sınıf2 Y=C Sınıf3 Sınıf4 Şekil 1: Basit Bir Karar Ağacı III. Literatür Özeti Konuyla ilgili literatürde farklı veri setleri üzerinden yapılmış çok sayıda çalışma bulunmaktadır. Bunlardan DIMIĆ et al. (2011), Moodle elektronik öğrenme materyallerini kullanarak öğrenci verilerini toplamış ve bu veriler ile hem sınıflandırma, hem kümeleme, hem de birliktelik kuralları teknikleri ile analiz yapmışlardır. Dener ve Diğerleri (2005), lisansüstü öğrencilerine ait verileri kullanarak çeşitli algoritmalarla sınıflandırmalar yapmış ve açık kaynak kodlu yazılımların başarım derecelerini karşılaştırmışlardır. Albayrak ve Yılmaz (2009), İMKB verilerinden yararlanarak karar ağaçları ile sınıflandırma analizi metoduyla veri madenciliği yapmışlardır. Dolgun vd. (2009), bir telekomünikasyon kurumuna ait verileri 106 Mehmet Ali ALAN kullanarak karar ağaçları algoritmalarından yararlanarak terk eden müşteriye ait profil modeli oluşturmuşlardır. Ayık vd. (2007), Atatürk Üniversitesi öğrencilerine ait veritabanındaki tüm verileri kullanarak sınıfladırma analizi yapmışlardır. Kaya vd. (2012), Epileptik EEG işaretlerini karar ağaçları ve karar kurallarını kullanarak sınıflandırmış ve tanı performanslarının oldukça yüksek olduğunu tespit etmişlerdir. IV. Veri Seti ve Yöntem Bu çalışmada Cumhuriyet Üniversitesi İktisadi ve İdari Bilimler Fakültesi öğrencilerine ait veriler kullanılmıştır. Fakültede 8 bölüm bulunmakta ve hepsinde de ikili öğretim yapılmaktadır. Veriler hem birinci öğretim öğrencilerine, hem de ikinci öğretim öğrencilerine aittir. Bu bağlamda 4106 öğrenciye ait 53378 veri girişi yapılmıştır. 2012 sonu ve 2013 yılı başı itibariyle kayıtlı olan öğrencilere ait veriler Cumhuriyet Üniversitesi Bilgi İşlem Daire Başkanlığından Excel formatında alınmıştır. Excel makroları kullanılarak veri ambarı hazırlanmıştır. Veri madenciliğine ait Karar Ağaçlarından yararlanılarak sınıflandırma analizi yapılmıştır. Gerekli dönüşümler yapıldıktan sonra veriler “veriset.arff” adlı metin dosyasına yazdırılmıştır. Verilerde bölümler; CEEI, IKTISAT, ISLETME, KAMU, MALIYE, YBS, EKONOMETRI ve UTL olarak tanımlanmıştır. Sınıf sütunu, 1’den 4’e kadar sınıfları, cinsiyet, “Erkek ve Bayan” değerlerini almaktadır. Gelir sütunu “600 TL’den Az”, “601-1200”, “1201-1800”, “1801-2400”, “2400 Üzeri” olmak üzere 5 grupta tanımlanmıştır. Ancak analizlerin kolaylığı açısından bu değerler için sınıfladırma öncesi her bir grup için sırasıyla 1’den 5’e kadar değerler atanmıştır. Baba Sağ mı, Baba Çalışıyor mu, Anne çalışıyormu, Katkı kredisi alıyor mu, Öğrenim kredisi alıyor mu sütunları “Evet/Hayir” değerlerini içermektedir. Kardeş sayısı ve okuyan kardeş sayısı, kayıt yılı nümerik değer olarak tanımlanmıştır. Kayıt yılı ise 2007 ve öncesi 2007, diğerleri ise 2008, 2009, 2010, 2011, 2012 ve 2013 şeklinde değerler almaktadır. Sınıflar ise “Burs_Aliyor”, “Burs_Almiyor” şeklinde tanımlanmıştır. Verilerin tüm alanlarında herhangi bir değer tanımı olmayan ya da “Bilinmiyor” biçiminde yer alan değerler için “?” değeri kullanılmıştır. V. Uygulama Yapılan çalışmada Waikato Üniversitesinde geliştirilmiş olan WEKA Programının (Waikato Environment for Knowledge Analysis) 3.6.9 sürümü kullanılmıştır. WEKA Programı, açık kaynak kodlu bir yazılımdır. Bu program pek çok sınıflandırma, kümeleme ve birliktelik kurallarına ait algoritmayı desteklemektedir. WEKA, metin tabanlı arff, arff.gz, names, data, csv, c45, libsvm, dat, bsi, xrff, xrff.gz dosya tiplerinin yanı sıra, veritabanlarını ve verilerin olduğu URL adreslerini de desteklemektedir. Mevcut veriseti ile yapılan uygulama sonucunda izleyen tablodaki sonuçlar algoritmaların performans derecelerine göre sıralanarak sunulmuştur: Atatürk Üniversitesi İktisadi ve İdari Bilimler Dergisi, Cilt: 28, Sayı: 4, 2014 107 Tablo 1. Karar Ağaçları Analizine Ait Bazı Algoritmaların Başarım Dereceleri Algoritmalar Doğru Kappa Ortalama Ortalama sınıflandı İstatistiği Mutlak Hata Hata Karekök rılan Örnek Göreli Mutlak Hata % Göreli Hata Karekök % TP Oranı FP Oranı F-Ölçütü LADTree 4049 0.8485 0.0299 0.1131 30.0898 50.7753 0.986 0.203 0.986 ADTree 4043 0.8349 0.0874 0.1437 87.8594 64.5106 0.985 0.203 0.984 LMT 4039 0.8219 0.0279 0.1216 28.0478 54.5937 0.984 0.225 0.983 SimpleCART 4038 0.8205 0.0292 0.1227 29.3201 55.0979 0.983 0.221 0.983 FT 4037 0.8208 0.0217 0.1259 21.8482 56.5276 0.983 0.207 0.983 NBTree 4036 0.8098 0.022 0.122 22.157 54.7567 0.983 0.251 0.982 BFTree 4034 0.8063 0.0272 0.1261 27.3738 56.6262 0.982 0.247 0.982 J48 4034 0.8005 0.031 0.1295 31.1889 58.1485 0.982 0.273 0.981 REPTree 4030 0.7915 0.0327 0.1329 32.8823 59.659 0.981 0.273 0.98 J48Graft 4027 0.7773 0.0326 0.1358 32.7751 60.9767 0.981 0.304 0.979 RandomForest 4027 0.789 0.0316 0.1326 31.8013 59.5396 0.981 0.256 0.98 RandomTree 3996 0.7176 0.0292 0.1587 29.4083 71.2549 0.973 0.287 0.973 DecisionStump 3995 0.6397 0.0526 0.1622 52.8582 72.7931 0.973 0.489 0.968 Yapılan uygulama çalışmasında karar ağaçlarına ait pek çok algoritma denenmiş, başarım dereceleri tabloda verilmiştir. Bu çalışmada karar ağaçlarına ait; LADTree, ADTree, LMT, SimpleCart, FT, NBTree, BFTree, J48, REPTree, J48Graft, RandomForest, RandomTree ve DecisionStump algoritmaları kullanılarak modeller oluşturulmuş ve oluşturulan modellerin başarım dereceleri karşılaştırılmıştır. LADTree algoritması, 4049 doğru sınıflandırılmış örnek derecesiyle en başarılı algoritma olarak gözükmektedir. Bu algoritmanın, sınıflararası uyumu veren kappa istatistiği 0.8485, birinci sınıftaki doğru olarak sınıflandırılmış kayıtların sayını veren TP (True Positive) oranı 0.986, birinci sınıfta sınıflandırılmış, ikinci sınıftaki kayıtların sayısını veren FP (False Positive) oranı 0.203 olarak elde edilmiştir. Kesinlik ve duyarlılığın harmonik ortalaması olan F-ölçütü (Coşkun ve Baykal) ise 0.986 olarak bulunmuştur. LADTree algoritmasını, ADTree algoritması 4043 doğru örnek sınıflandırmasıyla takip etmektedir. Bu algoritmaların kappa istatistiği 0.8349, TP oranı 0.985, FP oranı, 0.203 ve F-Ölçütü 0.984 olarak bulunmuştur. Daha sonra ise diğer algoritmalar gelmektedir. F-ölçütü aşağıdaki formülle elde edilmektedir: F - Ölçütü = 2 × Duyarlılık × Kesinlik Duyarlılık + Kesinlik 108 Mehmet Ali ALAN Formülde kullanılan kesinlik ve duyarlık ise aşağıdaki şekilde hesaplanmaktadır: Kesinlik  TP TP  FP Duyarlılık = TP TP + FN Sınıflandırma başarısı en iyi olarak çıkan LADTree algoritmasının ürettiği sınıflar ise aşağıda verilen şekildeki gibidir: Şekil 2: LADTree Algoritmasının Ürettiği Sınıflar Tam eğitimli set kullanılarak LADTRee algoritması ile üretilen karar ağacı 28 dal ve 19 yapraktan (sınıf) oluşmuştur: 1. Öğrenim Kredisi alanlar bir sınıfta toplanmıştır. 2.Öğrenim Kredisi almayanlar bir sınıfta toplanmıştır. 3.Öğrenim kredisi almayan, kayıt yılı 2007 ve öncesine ait olanların sınıfı. 4. Öğrenim kredisi almayan ve kayıt yılı 2007’den sonra olanların sınıfı. 5. Öğrenim kredisi almayan, kayıt yılı 2007’den sonra ve kardeş sayısı sıfırdan farklı olanların sınıfı. Atatürk Üniversitesi İktisadi ve İdari Bilimler Dergisi, Cilt: 28, Sayı: 4, 2014 109 6. Öğrenim kredisi almayan, kayıt yılı 2007’den sonra ve kardeş sayısı sıfır olanların sınıfı. 7. Öğrenim kredisi almayan, kayıt yılı 2007’den sonra, kardeş sayısı sıfır olan ve babası sağ olanların sınıfı. 8. Öğrenim kredisi almayan, kayıt yılı 2007’den sonra, kardeş sayısı sıfır olan ve babası sağ olmayanların sınıfı. 9. Öğrenim kredisi almayan, kayıt yılı 2007’den sonra, kardeş sayısı sıfır olan, babası sağ olmayan ve gelir durumu 650 TL’den az olanların sınıfı. 10. Öğrenim kredisi almayan, kayıt yılı 2007’den sonra, kardeş sayısı sıfır olan, babası sağ olmayan ve gelir durumu 650 TL’den farklı olanların sınıfı. 11. Sınıfı 1 (bir) olanlar bir sınıfta toplanmıştır. 12. Sınıfı 1 (bir) olanlar ve babsı sağ olanların sınıfı. 13. Sınıfı 1 (bir) olanlar ve babsı sağ olmayanların sınıfı. 14. Sınıfı 1 (bir)den farklı olanlar bir sınıfta toplanmıştır. 15. Sınıfı 1 (bir)den farklı olan ve kayıt yılı 2012 olanların sınıfı. 16. Sınıfı 1 (bir)den farklı olanve kayıt yılı 2012 den farklı olanların sınıfı (0.037). 17. Sınıfı 1 (bir)den farklı olan ve kayıt yılı 2012 den farklı olan ve bölümü İşletme olanların sınıfı. 18. Sınıfı 1 (bir)den farklı olan, kayıt yılı 2012 den farklı olan, bölümü İşletmeden farklı olanların sınıfı. 19. Burs alanlar ve burs almayanlar şeklindeki ana sınıf. Satırların sonundaki değerler ise o sınıfın hangi aralıktaki değerleri aldığını göstemeketedir. LADTree algoritmasının görsel ağacı ise aşağıdaki gibi oluşmuştur. 110 Mehmet Ali ALAN Şekil 3. LADTree Algoritması ile üretilen Görsel Ağaç LADTree algoritmasının sunduğu görsel ağaç yapısından da anlaşılacağı gibi herbir dikdörtgen bir sınfı temsil etmektedir. Şekilde ana sınıf tanımında yer alan (Burs_Aliyor, Burs_Almiyor) ile birlikte 19 sınıf oluşmuştur. Elips biçimli şekiller ise koşulları ifade etmektedir. VI. Sonuç ve Değerlendirme Bu çalışmada, sınıflandırma yöntemlerinden karar ağaçları kullanılarak öğrencilere ait verilerle analiz yapılmıştır. Veri madenciliği, gizli, önemli, önceden bilinmeyen, yararlı bilgileri ortaya koyan bir veri analiz tekniğidir. Bu yöntemle, alışılagelmiş analiz tekniklerinden farklı olarak, yalnızca sayısal verilerle değil, sayısal olmayan veriler ile de analizler yapılabilmekte ve gizli örüntüler ortaya çıkarılabilmektedir. Veri madenciliği, veri kümesinden rastgele örnek seçmek yerine, mevcut verilerin tümünü kullanması bakımından da pek çok analiz tekniğinden ayrılır. Karar ağaçları, veri madenciliğinin yalnızca sınıflandırma türünde kullanılan analiz tekniklerden biridir. Karar ağaçları ile üretilen sonuçları yorumlamak, görsel özelliğinden dolayı oldukça kolaydır. Bu çalışmada, mevcut verilerle karar ağaçlarına ait pek çok algoritma denenmiş ve 4049 doğru sınıflanılan örnek sayısı ile en başarılı algoritma olarak LADTree algoritması bulunmuştur. En çok doğru sınıflandırma yapan bu algoritma, Atatürk Üniversitesi İktisadi ve İdari Bilimler Dergisi, Cilt: 28, Sayı: 4, 2014 111 toplam 19 sınıf üretmiştir. Bu analizler sonucunda, öğrencilere ait verilerden yararlanılarak hangi sınıfa düşecekleri tahmin edilebilmektedir. Kaynaklar Albayrak, A.Sait ve Yılmaz, Şebnem (2009), Veri Madenciliği: Karar Ağacı Algoritmaları Ve İMKB Verileri Üzerine Bir Uygulama Süleyman Demirel Üniversitesi, İktisadi ve İdari Bilimler Fakültesi Dergisi, Cilt.14, Sayı.1, ss.31–52 Ayık, Y. Ziya, Özdemir, Abdülkadir ve Yavuz Uğur (2007), Lise Türü Ve Lise Mezuniyet Başarısının, Kazanılan Fakülte İle İlişkisinin Veri Madenciliği Tekniği İle Analizi,. Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, Cilt 10, Sayı 2, ss.441–454 Baykal, Abdullah ve Coşkun Cengiz (2011), Veri Madenciliğinde Sınıflandırma Algoritmalarının Bir Örnek Üzerinde Karşılaştırılması, http://ab.org.tr/ab11/bildiri/67.pdf, 18.01.2013 Bose, I., Chun, L. A.,Yue, L. V. W., Ines, L. H. W. and Helen, W. O. L., (2009), Business Data Warehouse: The Case of Wal-Mart, Data Mining Applications for Empowering Knowledge Societies, Ed. Hakikur Rahman, Information Science Reference, pp.189-198 Bramer, Max (2007), Principles of Data Mining, Springer, London Dener, Murat, Dörerler Murat ve Orman Abdullah, (2009), Açık Kaynak Kodlu Veri Madenciliği Programları: WEKA’da Örnek Uygulama, ab.org.tr/ab09/bildiri/42.pdf, 18.01.2013 Dolgun ve Diğerleri (2009, Veri Madenciliğinde Yapısal Olmayan Verilerin Analizi: Metin ve Web Madenciliği, İstatistikçiler Dergisi 2, ss.48-58 Dong-Peng Yang, Li Jin-Lin, Lun Ran and Chao Zhou, (2008), Applications of Data Mining Methods in the Evaluation of Client Credibility, Applications of Data Mining in E-Business and Finance C. Soares et al. (Eds.), IOS Press, Amsterdam, pp.35-43 Giudici, Paolo and Figini, Silvia, (2009), Applied Data Mining For Business and Industry, Second Edition, Wiley Publicition, West Sussex Han, Jiawei and Kamber, Micheline, (2006), Data Mining: Concepts and Techniques, Second Edition, Morgan Kaufmann Publications, San Francisco Ivancsy, Renata and Vajk, Istvan, (2005), “Fast Discovery Of Frequent Itemsets: A Cubic Structure-Based Approach”, Informatica 29, pp.71– 78 Jain, Y. K., Yadav, V. K. and Panday, G. S., (2011), “An Efficient Association Rule Hiding Algorithm for Privacy Preserving Data Mining”, International Journal On Computer Science And Engineering, Vol. 3 No. 7, pp. 2792-2798. 112 Mehmet Ali ALAN Kantardzic, Mehmed , (2003). Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons J. B. Speed Scientific School, University of Louisville IEEE Computer Society Kaya Yılmaz, Ertuğrul Ö. Faruk ve Tekin Ramazan (2012), Batman University International participated Science and Culture Symposium, Batman University Journal of Life Sciences, Volume 1, Number 2, ss.403-413 Larose, Daniel T., (2005), Discovering Knowledge In Data, Wiley Publication, New Jersey. Larose, Daniel T., (2006), Data Mining Methods and Models, A John Wiley & Sons, Inc., Publication, New Jersey Nisbet, R., Elder, J., and Miner, G., (2009), Handbook of Statistical Analysis and Data Mining Applications, Elsevier Inc, Burlington. Özkan, Yalçın (2008), Veri Madenciliği Yöntemleri, Papatya Yayınları, İstanbul Rokach, Lior and Maimon, Oded (2008), Data Mining with Decision Trees, World Scientific, New Jersey Tadesse, T., Wardlow, B. And Hayes, M.J. (2009), The Application of Data Mining for Drought Monitoring and Prediction, Data Mining Applications for Empowering Knowledge Societies, Edited by Hakikur Rahman, Information Science Reference, New York, pp.280-291 Silahtaroğlu, Gökhan (2008), Veri Madenciliği, Papatya Yayınları, İstanbul Wang, Chien-Hua and Lee, Wei-Hsuan & Pang, Chin-Tzong, (2010). “Applying Fuzzy FP-Growth To Mine Fuzzy Association Rules”, World Academy of Science, Engineering And Technology, 65, pp. 956-962 Wu, Tong and Li Xiangyang (2003), Data Storage and Management, The Handbook of Data Mining, Edited by. Nong Ye, Lawrence Erlbaum Associates Publishers. London, pp.393-407 Weiss, Sholom M. And Zhang, Tong (2003), Performance Analysis and Evaluation, The Handbook of Data Mining, Edited by. Nong Ye, Lawrence Erlbaum Associates Publishers. London, pp.436-439