MANAS Sosyal Araştırmalar Dergisi
2020
Cilt: 9
Sayı: 3
2020
Volume: 9
No: 3
MANAS Journal of Social Studies
ISSN: 1694-7215
Research Paper / Araştırma Makalesi
Metin Madenciliği ile Shakespeare Külliyatının İncelenmesi
Sadullah ÇELİK1
Öz
Metin madenciliği, doğal dil metninde yer alan yapılandırılmamış (metin) verilerin çeşitli yöntem, araç ve tekniklerin
kullanılarak analiz edilmesidir. Bugün, kurum ve kuruluşların çoğu, veri ambarlarında ve bulut platformlarında büyük
miktarda veri toplamakta ve depolamaktadır. Bu veriler, birden fazla kaynaktan gelen yeni verilerin gelmesiyle birlikte,
üssel olarak artmaya devam etmektedir. Şirketlerin ve kuruluşların geleneksel araçlarla büyük miktardaki metin
verilerini depolaması, işlemesi ve analiz etmesi zordur. Bugün, gelişen Tableau gibi yazılımlar sayesinde bu problemler
ortadan kalkmıştır. Bu çalışmanın amacı; metin madenciliği yöntemi ile Shakespeare eserlerindeki kahramanları ve
olay örgülerini istatistiksel olarak saptamak ve edebiyat alanında çalışanlara bazı öngörüler sağlamaktır. Bu amaçla
çalışmada, Tableau yazılımı kullanılarak Google BigQuery’nin alt yapısında bulunan Shakespeare veri setine kelime
frekansları, görselleştirme ve kümeleme analiz yöntemi uygulanmıştır. Kümeleme analizi sonucunda “Hamlet”
kelimesinin tüm eserlerin merkezinde yer aldığı ve Hamlet’in Shakespeare’in en önemli eseri olduğu bulunmuştur.
Ayrıca, “Romeo ve Juliet” eserinde sırasıyla; “Romeo”, “Juliet” ve “Love” en çok kullanılan kelimeler olarak
bulunmuştur. Elde edilen bu bulgulardan eserin ana karakterlerinin “Romeo” ve “Juliet”, konusunun ise “aşk” olduğu
sonucuna varılmıştır.
Anahtar Kelimeler: Metin madenciliği, Tableau, kelime frekansları, Görselleştirme, K-means kümeleme
The Investigation of Shakespeare Corpus with Text Mining
Abstract
Text mining is the analysis of unstructured (text) data in natural language by using various methods, tools and
techniques. Today, the most institutions and organizations collect and store large amounts of data in data
warehouses and cloud platforms. These data continue to increase exponentially with the arrival of new data from
multiple sources. It is difficult for companies and organizations to store, process and analyze large amounts of text
data with traditional tools. Today, these problems have disappeared thanks to software like Tableau. The aim of this
study is; to determine the characters and plot patterns in Shakespeare dataset by using text mining method and to
give some predictions to the literature researchers. In this study, word frequencies, visualization and clustering
analysis method was applied to Shakespeare dataset which is in Google BigQuery infrastructure by using Tableau
software. As a result of the clustering analysis, it was found that “Hamlet” was at the center of all the works and
Hamlet was the most important work of Shakespeare. In addition, in the work of “Romeo and Juliet” respectively;
“Romeo”, “Juliet” and “Love” were found to be the most commonly used words. It is concluded that the main
characters of the work are “Romeo” and “Juliet” and “love” is the subject.
Key Words: Text mining, Tableau, Word frequencies, Visualization, K-means clustering
Atıf İçin / Please Cite As:
Çelik, S. (2020). Metin madenciliği ile Shakespeare külliyatının incelenmesi. Manas Sosyal Araştırmalar Dergisi, 9(3),
1343-1357.
Geliş Tarihi / Received Date: 08.05.2019
1
Kabul Tarihi / Accepted Date: 03.02.2020
Dr. Arş. Gör. - Aydın Adnan Menderes Üniversitesi Nazilli İktisadi ve İdari Bilimler Fakültesi,
sadullah.celik@adu.edu.tr - ORCID: 0000-0001-5468-475X
ÇELİK
Metin Madenciliği İle Shakespeare Külliyatının İncelenmesi
Giriş
Yirmi birinci yüzyılda bilişim ve bulut teknolojilerinde görülen gelişmeler, üretilen verinin miktarında,
yapısında ve hızında büyük artışa sebep oldu. Hemen hemen her tür kurum, kuruluş ve iş sektöründe,
verilerin çoğu metin formatında olup elektronik veri tabanlarında depolanmaktadır. İnternet üzerinden
dijital kütüphaneler, depolar ve bloglar, sosyal medya ağı ve e-postalar gibi büyük miktarda metin verisi
vardır (Sagayam vd., 2012, s. 1443). Bu büyük hacimli verilerden değerli bilgiler elde etmek için uygun
modelleri ve eğilimleri belirlemek oldukça zordur (Padhy vd., 2012). Geleneksel veri madenciliği araçları ile
bilgi toplamak çok fazla zaman ve çaba gerektirdiğinden, bu araçlar metinsel verileri işlemede yetersiz
kalmaktadır (Talib vd., 2016, s. 414). Bugün gelişen Hadoop, Spark, R, Python ve Tableau gibi yazılımlar
sayesinde bu sorun büyük ölçüde ortadan kalkmıştır.
Günümüzde bilgi, çağdaş iş ortamındaki en önemli kaynaklardan birisidir. Müşterileri, çalışanları ve
diğer paydaşları hakkında yeterli bilgiye sahip olmadan herhangi bir şirketin başarılı olması zordur. Her
gün, şirketler anket sonuçları, tweet’ler, çağrı merkezi notları, telefon kayıtları, çevrimiçi müşteri yorumları,
e-postalar, sosyal ağ paylaşımları, tıbbi kayıtlar ve diğer belgeler gibi çeşitli kaynaklardan yapılandırılmış ve
yapılandırılmamış metinler almaktadır. Bu kaynakların, doğru metin analizi araçları kullanmadan anlaşılması
kolay değildir. Metin analizini elle gerçekleştirmek mümkündür, ancak manuel işlem etkisiz kalmaktadır.
Geleneksel sistemler anahtar kelimeleri kullanır ve e-postalarda, tweet’lerde, web sayfalarında ve metin
belgelerindeki dili okuyamaz ve anlayamaz. Bu nedenle şirketler, büyük hacimli metin verilerini analiz
etmek için metin analizi yazılımlarını kullanmaktadır. Bu yazılımlar kullanıcıların uygun şekilde
davranabilmeleri için metin verilerinden bilgi edinmelerine yardımcı olmaktadır. Bugün, metin madenciliği
yetenekleri arasına; şirketlerin pazarlama, satış ve müşteri hizmetleri operasyonlarına otomatik yanıtlar
vermek için kullandığı Yapay Zekâ sohbet robotları ve sanal aracılar da girdi.
Metin madenciliği, doğal dil metninden anlamlı bilgiler elde etmeye çalışan yeni bir alandır. Metin
madenciliği, anahtar kavramları ve temaları yakalamak için veri analizi süreci olarak tanımlamakta ve
yazarların bu kavramları ifade etmek için kullandıkları belirli kelimeler veya terimler hakkında önceden bilgi
sahibi olmadan gizli ilişkileri ve eğilimleri ortaya çıkarmaktadır (Bose, 2018). Metin madenciliği, yarı
yapılandırılmış ve yapılandırılmamış formatta saklanan doğal dil metni ile ilgilenmektedir (Weiss vd., 2010).
Metin veri madenciliği olarak da bilinen metin madenciliği, veri madenciliği, makine öğrenimi, istatistik ve
doğal dil işleme algoritmalarını içermektedir. Bu algoritmalar sayesinde yapılandırılmamış verilerden yüksek
kaliteli, yararlı bilgiler çıkarmaya çalışılmaktadır. Metin analizleri ile sıklıkla kullanılan metin madenciliği,
yapılandırılmamış verilerin makine kullanımı için işlendiği bir araçtır (Bose, 2018). Metin madenciliği, veri
madenciliğinin veya (yapılandırılmış) veri tabanlarından bilgi keşfinin bir uzantısı olarak da görülmektedir.
Metin madenciliği, verilerdeki kavramları, kalıpları, konuları, anahtar kelimeleri ve diğer nitelikleri
tanımlayabilen
yazılım
tarafından
desteklenen büyük
miktarda yapılandırılmamış
metin
verilerinin araştırılması ve analiz edilmesi sürecidir. Metin analizi, veri kümeleri arasında sıralama yapmak
için metin madenciliği tekniklerinin kullanılmasıyla etkinleştirilen bir uygulamadır (Rouse, 2018).
Günümüzde metin madenciliği, büyük veri platformları ve büyük yapılandırılmamış veri kümelerini analiz
edebilen derin öğrenme algoritmaları sayesinde veri bilimciler ve diğer kullanıcılar için çok kullanışlı hale
gelmiştir (Linguamatics, 2018).
Günümüzde metin madenciliği birçok alanda yoğun olarak kullanılmakta ve bu kullanım her geçen
gün daha da artmaktadır. Delibaş (2008), doğal dil işleme tekniklerini kullanarak Türkçenin biçimsel
yapısını çözümlemeye çalışmıştır. Çalışmada, girilen bir Türkçe metnin yazım yanlışlarının bulunup bu
yanlışların ayıklanması ve düzeltilmesi amaçlanmıştır. Çalışmadan elde edilen sonuçlar, daha önceki
çalışmalara göre başarı oranının yüksek olduğunu göstermiştir. İlhan vd. (2008) doğal dil işleme ve metin
madenciliği tekniklerinden yararlanarak kullanıcıdan alınan soruya en iyi yanıtı içeren metni bulmaya
çalışmışlardır. Kullanıcıdan alınan soru, veri madenciliğindeki ön işleme aşamasından geçirilerek anahtar
kelimeler belirlenmiş ve anahtar kelimenin metin içerisindeki önemine uygun cevap bulunmaya
çalışılmıştır. Yapılan sorgulamalar sonucunda, veritabanında hazır bulunan anahtar kelimeler ile vektör
uzayında gösterilen sorgu karşılaştırılmıştır. Elde edilen bulgulardan, veritabanında anahtar sözcüklerin
hazır bulundurulmasının performansı arttırdığı sonucuna varılmıştır. Kaşıkçı ve Gökçen (2014)
kullanıcılara e-ticaret sitelerinin bulunmasını kolaylaştırmak amacıyla yapmışlardır. Bu çalışmada kullanıcı
tarafından belirtilen internet sitelerinin içeriği analiz edilmiş ve metin madenciliği kullanılarak bu sayfaların
e-ticaret sitesi olup olmadığına karar veren bir uygulama geliştirilmiştir. Bu uygulama kullanıcıların e-ticaret
sitelerinin bulunmasını kolaylaştırmayı hedeflemektedir. Naive Bayes ve k-En Yakın Komşu (KNN)
sınıflandırma algoritmaları kullanılarak elde edilen bulgular karşılaştırılmıştır. Elde edilen sonuçlardan
1344
MANAS Sosyal Araştırmalar Dergisi - MANAS Journal of Social Studies
Naive Bayes algoritmasının KNN algoritmasına göre daha iyi sonuç verdiği görülmüştür. Kılınç vd. (2016),
KNN algoritmasının kullanarak akademik makalelerin kategorilere ayrılarak tasnif etme başarısını
ölçmüşlerdir. Bunun için Research Gate üzerinde bulunan belirli akademik yayınların özetleri, R yazılımı
kullanılarak elde edilmiş ve bu özetlerden bir veri seti oluşturulmuştur. Elde edilen sonuçlardan %96,67
oranında doğruluk değeri bulunarak makalelerin hangi kategorilere ait olduğu saptanmıştır. Arslan vd.
(2017), personelin kurumsal e-posta hesaplarına gelen mesajlar incelenmiştir. Metin madenciliği ve
sınıflandırma teknikleri kullanılarak yapılan çalışmada, e-posta sistemlerinin kurumsal uygulama ve iş
süreçlerine dâhil edilmesi için yeni bir yöntem önerilmektedir.
Bu çalışmanın ikinci bölümünde, metin madenciliği hakkında bilgi verilerek metin madenciliğinde
verinin işlenme aşamaları ve metin madenciliği uygulamaları hakkında bilgi verilmiştir. Üçüncü bölümde,
çalışmada kullanılan; Shakespeare veri seti, kelime frekansları analizi, görselleştirme ve K-means kümeleme
analizi yöntemi hakkında bilgi verilmiştir. Daha sonra, Tableau yazılımı kullanılarak Google BigQuery’nin
alt yapısında bulunana Shakespeare veri setine bağlanılarak, kelime frekans analizi, görselleştirme ve
kümeleme analizi yapılmıştır. Yapılan analizler sonucunda elde edilen sonçlar grafikler ve tablolar şeklinde
verilmiştir. Sonuç bölümünde ise üçüncü bölümde elde edilen analiz sonuçları yorumlanmış ve metin
madenciliğinin önemi hakkında bilgi verilmiştir.
Metin Madenciliği
Metin madenciliği aslında veri madenciliğine benzemektedir. Ancak metin madenciliğinde
yapılandırılmış veri yerine metin verisi ile çalışılmaktadır. Metin madenciliğindeki ilk adım verileri
düzenlemek ve yapılandırmaktır. Bu sayede veriler hem nitel hem de nicel analizlere tabi tutulabilmektedir.
Metin madenciliğinde amaç, metni kategorize etmek, kümelemek ve etiketlemek; veri kümelerini
özetlemek; taksonomiler yaratmak ve kelime frekansları ve veri varlıkları arasındaki ilişkiler hakkında bilgi
elde etmektir. Metin madenciliğinde analitik modeller, iş stratejilerini ve operasyonel eylemleri
yönlendirmeye yardımcı olabilecek bulguları üretmek için kullanılmaktadır (Rouse, 2018). Bu bulguları elde
etmek için ileri düzeyde matematik, istatistik, doğrusal cebir, optimizasyon, modelleme teknikleri ve
gelişmiş yazılım araçlarını kullanabilme becerisine sahip olmak gerekmektedir.
Geçmişte, Doğal Dil İşleme algoritmaları temel olarak veri kümelerinde neleri arayacağımıza dair yön
gösteren istatistiksel veya kural tabanlı modellere dayanıyordu. 2010'ların ortalarında ise daha az
denetlenerek çalışan derin öğrenme modelleri, metin analizi ve diğer gelişmiş analitik uygulamalar için
alternatif bir yaklaşım olarak ortaya çıkmıştır. Derin öğrenme, geleneksel makine öğrenimini
desteklediğinden daha esnek ve sezgisel olan yinelemeli bir yöntem kullanarak verileri analiz
etmek için sinir ağlarını kullanmaktadır (Rouse, 2018).
Günümüz de metin madenciliği, Google gibi bir arama motorundan bir metin içindeki öğeleri ve
fikirleri anlamaya daha fazla imkân sağlamaktadır. Metin madenciliği, çok zor ya da zaman alıcı olan çok
sayıda metin içerisinde bulunan kalıpları ve ilişkileri tanımlamayı sağlamaktadır.
Şekil 1’de görüldüğü üzere metin madenciliği; bilgi alma, bilgi çıkarımı ve veri madenciliği olmak
üzere üç aşamadan oluşmaktadır.
Bilgi Alma
Bilgi Çıkarımı
Veri Madenciliği
Şekil 1. Metin Madenciliği Aşamaları (Port, 2018)
1. Aşama: Bilgi Alma: Metin veya veri madenciliğinin ilk aşaması bilgiyi almaktır. Bu aşama,
önceden sayısallaştırılmış bir metinler kümesini tanımlamak için bir arama motorunun kullanılmasını veya
yayınlarda ve makalelerde fiziksel metinlerin sayısallaştırılmasını gerektirebilmektedir. Bu da külliyat
(corpus)’ın yararlı bir biçimde bir araya getirilmesini gerektirmektedir (Port, 2018).
2. Aşama: Bilgi Çıkarımı: İkinci aşama, anlamı tanımlamak için metnin işaretlenmesidir. Çoğu
durumda bu, metin hakkında meta veriyi bir veritabanına (örneğin, yazar, başlık, tarih, baskı vb.)
kaydetmeyi içerirken, bazı durumlarda ise metin içinde belirtilen tüm kişi adlarında veya konumlarda
1345
ÇELİK
Metin Madenciliği İle Shakespeare Külliyatının İncelenmesi
anahtarlama içerebilmektedir. Bu süreç, arama motorlarının meta verileri oluşturanların önyargılarına
dayanarak bilgi ve metinler arasındaki ilişkileri tespit etmelerini sağlamaktadır (Port, 2018).
3. Aşama: Veri Madenciliği: Veri madenciliği, yani veri kalıplarını çıkarmak için akıllı yöntemlerin
uygulandığı önemli bir süreçtir. Bu son aşamada amaç, anlamı ortaya çıkaran ve araştırmacıların,
keşfedilmesi zor olan yeni bilgileri keşfetmelerini sağlayan bilgi parçaları arasındaki ilişkiyi bulmaktır (Port,
2018).
Metin madenciliği, araştırmayı hızlandırabilen ve yeni sorular sormamıza ya da eskileri test etmemize
imkan sağlayan bir araçtır (Port, 2018). Metin madenciliği, Tablo 1’dekine benzer ayırt edici görevleri
içermektedir.
Tablo 1. Metin Madenciliği Görevleri (Port, 2018)
Görev
Metin kategorizasyonu
Metin kümeleme
Kavram/varlık çıkarma
Granüler taksonomiler
Duygu analizi
Belge özetlemesi
Varlık ilişki modellemesi
Anlam
Metinleri kategorilere ayırma
Otomatik olarak alınan metin gruplarını anlamlı kategoriler listesine ayırma
Metin içindeki öğeleri kişilere, kuruluşlara, konumlara, parasal değerlere vb. gibi
önceden tanımlanmış kategorilere yerleştirme ve sınıflandırma
Birtakım nesneler olarak bilgilerin organizasyonu veya sınıflandırılması ve bir
taksonomi olarak gösterilmesi
Kaynak materyallerde subjektif bilgilerin tanımlanması ve çıkarılması (örneğin, duygu,
inançlar)
En önemli öğeleri içeren bir metnin kısaltılmış bir sürümünü oluşturma
Veri türleri arasındaki ilişkilerin otomatik olarak öğrenilmesi
Sonuç olarak, veri madencileri bir projenin başlangıcında neleri bulabileceklerini iyi bilmese de, metin
madenciliği araçları sayesinde artık metin verisinin altında yatan benzerlikleri ve ilişkileri ortaya çıkarmak
mümkündür. Örneğin, denetlenmeyen bir model, bir analistin yönlendirmesi olmaksızın metin
belgelerinden veya e-postalardan bir grup konuya göre veriyi düzenleyebilmektedir.
Metin Madenciliği Uygulamaları
Metin analitiği sektörü son birkaç yılda yüksek bir büyüme ve gelişme kaydetti ve gelecek yıllarda da
önemli bir büyüme ve gelişme kaydetmesi beklenmektedir. Metin analitiğinin bu kadar çok
benimsenmesinin en önemli sebeplerinden biri, işletmelerde rekabetin doğasını arttırmak ve şirketleri
katma değerli çözümler aramaya zorlamaktır. Rekabetin artması ve tüketici bakış açılarının değişmesi ile
birlikte organizasyonlar, rekabet gücünü artırmak için müşteri ve rakip verilerini analiz edebilecek
çözümlere önemli yatırımlar yapmaktadır. Ana veri kaynağı, e-ticaret platformları, sosyal medya, anket,
kişisel blog, yayınlanan makaleler vb. kaynaklardır. Üretilen bu verilerin büyük kısmı yapılandırılmamış
formattadır, bu da şirketlerin bireylerin yardımıyla bu verileri analiz etmelerini zorlaştırmakta ve maliyeti
arttırmaktadır. Veri üretimindeki hızlı büyüme ile birlikte bu zorluk, yalnızca büyük hacimli metin verilerini
işleyebilen değil aynı zamanda daha iyi karar vermede yardımcı olan analitik araçların geliştirilmesine de yol
açmaktadır. Metin analizi yazılımı, kullanıcının farklı kaynaklardan edinilen büyük hacimli veri
kümelerinden anlam çıkarmasını sağlamaktadır (Mane, 2018).
Metin madenciliği, işletme sorularını yanıtlamak ve günlük operasyonel verimliliklerini optimize
etmek ve otomotiv, sağlık ve finans sektöründe uzun vadeli stratejik kararları iyileştirmek için
kullanılmaktadır. Sınıflandırma, varlık çıkarma ve duyarlılık analizi gibi teknikler, büyük hacimli
yapılandırılmamış verilerdeki öngörüleri, kalıpları ve eğilimleri tanımlamak için kullanılmaktadır.
Bugün dünya genelinde kullanılan birkaç metin madenciliği uygulaması vardır. Bu uygulamalar
aşağıdaki gibidir.
Risk Yönetimi: İş sektöründeki başarısızlığın ana nedenlerinden biri, uygun veya yeterli risk analizinin
olmamasıdır (Rai, 2018). Ancak, metin madenciliği risk analizi sorununun doğru çözülmesine yardımcı
olmaktadır. Finans sektöründe, metin madenciliği teknolojisine dayalı Risk Yönetimi Yazılımı, büyük
veritabanlarının eksiksiz bir şekilde yönetilmesini sağlamaktadır (Bose, 2018). Metin madenciliği
teknolojileri binlerce metin veri kaynağından ilgili bilgileri toplayabildiğinden ve elde edilen bilgiler arasında
ilişkiler oluşturabildiğinden, şirketlerin doğru bilgilere doğru zamanda erişmelerini sağlayarak tüm risk
yönetimi sürecini geliştirmektedir (Rai, 2018).
Bilgi Yönetimi: Büyük veri hacimlerini yönetmek çoğu zaman kısa sürede özel bilgileri bulmayı
zorlaştırmaktadır. Sağlık sektörü bu konunun klasik bir örneğidir. Sağlık sektöründeki uzmanlar yeni
1346
MANAS Sosyal Araştırmalar Dergisi - MANAS Journal of Social Studies
ürünleri geliştirmek için çok büyük miktardaki bilgi ile (örneğin genomik ve moleküler tekniklere, örneğin
klinik hasta verilerinin hacimlerine) araştırma yapmak zorundadırlar. Burada, metin madenciliğine dayanan
bilgi yönetimi yazılımı “aşırı bilgi” sorunu için açık ve güvenilir bir çözüm sunmaktadır (Bose, 2018).
Dolandırıcılık Tespiti: Metin madenciliği teknolojilerinin desteklediği metin analizleri, metin biçimindeki
verilerin çoğunluğunu toplayan alanlar için büyük fırsatlar yaratmaktadır. Sigorta ve finans şirketleri bu
fırsatları değerlendirmektedir. Bu şirketler metin analizlerinin sonuçlarını ilgili yapılandırılmış verilerle
birleştirerek, talepleri hızlı bir şekilde işleme koyabilmekte ve sahtekârlıkları tespit edip önleyebilmektedir
(Rai, 2018).
Müşteri Hizmetleri Servisi: Metin madenciliği ve Doğal Dil İşleme, müşteri hizmetleri uygulamaları için
yaygın olarak kullanılmaktadır (Bose, 2018). Şirketler, anket, müşteri geri bildirimi ve müşteri çağrıları gibi
çeşitli kaynaklardan gelen metinsel verilere erişerek genel müşteri deneyimini geliştirmek için metin analizi
yazılımlarına yatırım yapmaktadır. Metin analizi, şirketin yanıt süresini azaltmayı ve şikayetlerin ele
alınmasına yardımcı olmayı amaçlamaktadır. Metin analizi ayrıca daha hızlı ve otomatik müşteri tepkisi için
kullanılmakta ve çağrı merkezi işlemlerine olan bağımlılığı önemli ölçüde azalmaktadır (Rai, 2018).
Sosyal Medya Analizi: Sosyal medya platformlarının performansını analiz etmek için özel olarak
tasarlanmış birçok metin madenciliği yazılım paketi bulunmaktadır. Bu paketler haberlerden, bloglardan, epostalardan, vb. çevrimiçi olarak oluşturulan metinleri izlemeye ve yorumlamaya yardımcı olmaktadır.
Ayrıca, metin madenciliği araçları, markanızın sosyal medyadaki yayınlarını, beğenilerini ve takipçilerinin
sayısını analiz ederek, markanız ve çevrimiçi içeriğinizle etkileşime giren kişilerin tepkisini anlamanıza
imkân sağlamaktadır. Bu analiz, hedef kitlesi için "neyin sıcak olduğunu ve neyin olmadığını" anlamayı
sağlamaktadır (Rai, 2018).
Spam Filtreleme: E-postalar çoğu kurumda hala en resmi iletişim yolu olarak kabul edilmektedir. Ama
sadece yirmi birinci yüzyıl spam’ında artan karanlık bir yan vardır. Posta kutusundaki her on e-postadan en
az dokuzu spam’dır. Spam’lar yalnızca boşluk doldurmakla kalmaz, aynı zamanda virüsler ve dolandırıcılık
için bir giriş noktası görevi görmektedir. Şirketler, daha önce kullanılan anahtar kelime eşleştirmelerine
kıyasla akıllı metin analizi kullanarak, daha fazla spam e-postasını filtrelemek ve kullanıcıya daha sağlıklı bir
deneyim sunmak için giderek daha fazla spam filtrelemeyi kullanıyor (Williams, 2018).
Veri Seti ve Yöntem
Bu çalışmada yeni nesil programlardan olan Tableau programı kullanılarak Google’ın altyapısında
bulunan BigQuery’e bağlanılarak buradaki Shakespeare veri setine kelime frekansları, görselleştirme ve
kümeleme analizi yöntemi uygulanmıştır. Bu teknikler sayesinde büyük miktardaki karmaşık
verilerin basit grafik/tablo veya resimler şeklinde kolay anlaşılır hale getirilebileceği gösterilmiş ve
Shakespeare eserlerindeki ana karakterler ile olay örgüleri saptanmıştır.
Veri Seti (Shakespeare)
Shakespeare veri seti, Google’ın alt yapısında bulunan BigQuery (Büyük Sorgulama) de
bulunmaktadır. Bu veri seti, William Shakespeare'in eserlerinden oluşmaktadır. Bu veri seti Shakespeare’in
eserlerinde geçen her bir kelimenin kaç kez kullanıldığını gösteren bir kelime dizinini içermektedir. Ayrıca
bu veri seti, 164656 (6.13 MB) satırdan oluşmakta ve her satır, kelime, kelimenin kullanım sayısı ve
kelimenin kullanıldığı eser gibi değişkenleri içermektedir.
Kelime Frekansları (Word Frequencies)
Kelime frekansları, veri setinde kelimelerin kaç kez kullanıldığını göstermektedir. Kelime frekansları,
veri setinde en sık kullanılan kelimelerden en az kullanılana kadar matris terimlerinden derleme kullanılarak
gösterilir (Maria, 2018).
Bir kelime vektörü, ilgili kelimeyi anlamsal olarak temsil eden yüksek boyutlu bir uzayda bir
konumdur. Bu konumda, benzer anlamları olan kelimeler birbirine daha yakındır. Dolayısıyla, eşanlamlı
kelimeler neredeyse aynı vektöre sahiptir ve birbirine yakındır. Aynı kavram cümlelere uygulanabilirken,
benzer cümleler yüksek boyutlu bir uzayda birbirine daha yakındır.
Metin analizinde ham kelime frekansını hesaplamak (wf) için aşağıdaki Log-Frekanslar dönüşümü
kullanılmaktadır.
1347
ÇELİK
Metin Madenciliği İle Shakespeare Külliyatının İncelenmesi
(
)
(
)
(
)
Bu dönüşüm ham frekansların ve daha sonra yapılacak olan hesaplamaları etkilemektedir.
( )
Bir kelimenin bir dokümanda kullanılıp kullanılmadığını belirlemek için ikili (binary) frekanslar
dönüşümü kullanılmaktadır.
Bu matris dönüşümünde dokümanda eğer kelime varsa 1 yoksa 0 değeri girilmektedir.
( )
Terim frekansı (Term Frequency-TF), bir terimin bir doküman içerisindeki tekrar sıklığıdır. Her
belgenin uzunluğu farklı olduğundan, bir belgenin uzun belgelerde daha kısa olanlardan çok daha fazla
görünmesi muhtemeldir. Bu nedenle, TF genellikle belge uzunluğuna (yani, belgedeki toplam terim
sayısına) normalizasyon yöntemi olarak bölünür. TF değerini hesaplamak için (3) formülü kullanılır.
(
( )
)
Ters doküman frekansı (Invers Document Frequency-IDF) bir terimin tüm doküman koleksiyonu (D)
içindeki önemidir (Coursehero, 2019). IDF’ye göre, terimin önemi, belge içerisindeki terimin kullanılma
sıklığıyla doğru orantılıyken; tüm belge havuzu içerisindeki terimin kullanılma sayısıyla ters orantılıdır. Bir
D belgesinde bulunan i teriminin ağırlığı (4) denklemindeki gibi hesaplanılır (Coursehero, 2019).
( )
( )
Düşük frekanslı terimlerin IDF skoru yüksek, yüksek frekanslı terimlerin IDF skoru düşüktür. Terim
frekansı – ters metin frekansı (TF-IDF) değeri, az miktarda doküman içerisinde terim çok fazla geçiyor ise
yüksek değer almaktadır. Eğer terim tüm dokümanlarda kullanılıyorsa TF-IDF değeri en düşük değerini
almaktadır (Coursehero, 2019).
Metinde bulunan her bir kelime için TF ve IDF değerleri hesaplandıktan sonra (5) denklemindeki
formül kullanılarak her bir kelimenin ağırlığı hesaplanır.
(
)
(
)
( )
( )
Yukarıdaki işlemler yapıldıktan sonra Doküman Terim Matrisi (Document Term Matrix-DTM) (6)
denkelemi gibi oluşturulur.
Yukarıda verilen doküman terim matrisindeki D veri setinin içerisinde bulunan dokümanları,
dokümanlarda bulunan terimleri, ise bu terimlerin ağırlıklarını göstermektedir (Bozyiğit, 2015).
Görselleştirme (Visualization)
Metin madenciliğinde görselleştirme yöntemi, ilgili bilgilerin keşfedilmesini iyileştirmekte ve
basitleştirmektedir. Bireysel belgeleri veya belge gruplarını temsil etmek için, metin bayrakları belge
gruplarını ve yoğunluk renklerini göstermek için kullanılmaktadır. Görsel metin madenciliği, büyük metin
kaynaklarını görsel bir hiyerarşiye koymaktadır. Kullanıcılar, yakınlaştırıp ölçeklendirerek belge ile
etkileşime girebilmektedir. Bilgi görselleştirme, terörist ağları tanımlamak veya suçlarla ilgili bilgi bulmak
için hükümetler tarafından yoğun olarak kullanılmaktadır. Aşağıdaki Şekil 2, görselleştirme işleminde yer
alan adımları göstermektedir (Gaikwad vd., 2014).
1348
MANAS Sosyal Araştırmalar Dergisi - MANAS Journal of Social Studies
Şekil 2. Görselleştirme (Gaikwad vd., 2014)
Bilgi görselleştirme süreci üç aşamadan oluşmaktadır (Gaikwad vd., 2014):
1) Veri hazırlama aşaması, orijinal görselleştirme verilerinin ve orijinal veri kaynağının kararlaştırılması
aşamasını içermektedir.
2) Veri analizi ve ayıklama aşaması, orijinal (kaynak) verilerden ihtiyaç duyulan görselleştirme
verilerini analiz etme ve ayıklama aşamasıdır.
3) Görselleştirme haritalama aşaması, görselleştirme veri alanını görselleştirme hedefine eşlemek için
belirli bir haritalama algoritması kullanılmaktadır.
Görselleştirme oluşturmak, verileri "görmenin" bir yoludur. Metin madenciliği görselleştirme,
araştırmacıların belirli kavramlar arasındaki ilişkileri görmelerine yardımcı olabilmektedir. Veri
görselleştirmesine örnek olarak, kelime bulutları, grafikleri ve haritaları vermek mümkündür.
Uzun bir metni okumak veya çok sayıda belgeye göz atmak, uzun zaman gerektirmektedir. Bunun
yerine, sezgisel ve etkileşimli veri görselleştirmesi karar vericilerin analizin ortaya çıkardıklarını hemen
anlamalarını ve daha sonra en çok ilgi çeken alanlara odaklanmalarını sağlamaktadır.
Metin madenciliği ve görselleştirme araçları, dokümanları, elektronik tabloları, raporları vb. açık
tablolara veya grafiklere dönüştürerek analistlerin veri ve içeriğini kolayca keşfedip çalışmasına imkân
sağlamaktadır.
Kümeleme (K-means)
Bölümlemeli kümeleme algoritmaların da giriş parametresi alınarak tane nesne tane kümeye
bölünür. Bu yöntem de iç içe geçmiş kümeler yerine tek-seviyeli kümeleri bulan işlemler yapılmaktadır
(Jain vd., 1999). Bölünmeli kümeleme algoritmaları küme merkez noktasının kümeyi temsil etmesi esasına
dayanmaktadır. Bu algoritmalar kolay uygulanabilir ve verimli olmasından dolayı iyi sonuçlar vermektedir
(Işık, 2006:76).
, en çok kullanılan denetimsiz öğrenme yöntemlerinden birisidir. Bu yöntemde
her verinin sadece bir kümeye ait olmasına izin verilir (Evans, 2005).
algoritması,
tane elemandan oluşan bir veri setini, giriş parametresi olarak alınan
tane kümeye
bölümlemektedir. Burada amaç, bölümleme işlemi sonucunda elde edilen kümelerin, küme içi
benzerliklerinin maksimum, kümeler arası benzerliklerin
ise minimum olmasıdır. Bu çalışmada (7) denklemindeki Öklit uzaklığı formülü kullanılarak
kümeleme yapılmıştır (Dinçer, 2006, s. 101).
√∑(
)
( )
yönteminde küme merkezlerinin mutlaka bir başlangıcının olması gerekmektedir. Bu
yöntemde rassal olarak seçilen
(küme sayısı) adet merkez nokta ile başlanılır. Bu yöntemde veri
kümesinde bulunan her bir nokta kendisine en yakın olan merkez noktasının kümesine atanmaktadır.
Bu çalışmanın analizi Tableau programı kullanılarak yapılmıştır.
yönteminde her küme,
o kümedeki tüm noktaların ortalama değeri olan bir merkeze (centroid) sahiptir. Tableau'da, istenilen
1349
ÇELİK
Metin Madenciliği İle Shakespeare Külliyatının İncelenmesi
sayıda küme sayısını bulmak için farklı değerleri test edilmektedir. Bu işlem küme merkezlerinin değerleri
sabit kalıncaya kadar devam edilir (Tableau, 2018).
Tableau, her bir için
kümelemesini hesaplamak için Lloyd’un algoritmasını kare Öklid
uzaklıkları (squared Euclidean distances) ile kullanmaktadır. Her bir
için başlangıç merkezlerini
belirlemek için ayırma işlemi kullanılmaktadır. Elde edilen kümelenme sadece küme sayısına bağlıdır ve
sonuç olarak deterministiktir (Tableau, 2018).
Tableau, küme kalitesini değerlendirmek için Calinski-Harabasz kriterini kullanmaktadır. CalinskiHarabasz kriteri şöyle tanımlanır:
(
(
)
)
( )
kümeler arası toplam varyansı,
kümeler içi toplam varyansı, kümelerin sayısını
Buradaki
ve
toplam gözlem sayısını belirtmektedir. Ayrıca, (8) denklemindeki değer arttıkça, kümeler birbirine
daha yakındır (küme içi varyans düşüktür) ve bireysel kümeler (küme arası varyans yüksek) daha
belirgindir.
Bulgular
Metin madenciliği ve doğal dil işlemede temel soru, bir belgenin ne hakkında olduğunu ölçmektir.
Bunu, belgeyi oluşturan kelimeleri analiz ederek yorum yapmak mümkündür. Bir kelimenin ne kadar önemli
olabileceğini anlamak için terim sıklığına bakmak gerekmektedir. Bu amaçla çalışmada, öncelikle verilerin ön
işleme aşaması yapılmıştır. Daha sonra doküman-kelime ve kelime-doküman matrisleri oluşturulmuştur.
Elde edilen bu matrisler yardımıyla Shakespeare’in tüm eserlerinin kaçar kelime ve kelime çeşidinden
oluştuğu Şekil 3’teki gibi bulunmuştur.
Şekil 3. Shakespeare Eserlerinde Kullanıla Toplam Kelime Sayısı (Mavi) ve Kelime Çeşidi (Yeşil)
Şekil 3’teki analiz sonuçlarına göre; Shakespeare’in en uzun eseri 32.446 kelime ile “Hamlet” tir. Yine
en çok 5.318 farklı kelime kullanılan eser de “Hamlet”tir. Bir eserin kalitesinin ölçüsünü eserde kullanılan
kelime çeşidi sayısı belirlemektedir. Bu bağlamda Hamlet, Shakespeare’in en çok kelime çeşidi kullandığı
1350
MANAS Sosyal Araştırmalar Dergisi - MANAS Journal of Social Studies
eseri olduğundan hareketle yazarın söz varlığını (kelime hazinesi) yansıtan en önemli eseri olduğu
söylenebilir.
Shakespeare’in tüm eserleri birlikte dikkate alındığında; yüksek frekanslı kelimelerin meydana getirdiği
kelime bulutu Şekil 4’teki gibi bulunmuştur.
Şekil 4. Shakespeare Eserlerinin Kelime Bulutu
Şekil 4’teki her renk bir kümeyi göstermektedir. Şekil 4’te görüldüğü üzere “HAMLET” kelimesi 407
kez kullanılmış ve bu kelime Shakespeare’in tüm eserlerinin merkezinde konumlanmıştır. Bu bağlamda
Shakespeare’in en iyi eserinin “HAMLET” olduğu söylenebilir.
Kümeleme analizi sonucunda elde edilen kümelerin eleman sayıları ve merkezilik ölçüleri Tablo 2’de
verilmiştir.
Tablo 2. Kümelerin Merkezilik Ölçüleri
Kümeler
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Cluster 6
Cluster 7
Cluster 8
Cluster 9
Eleman Sayısı
22704
186
88
38
1
3
9
16
3
Merkezilik Ölçüsü
0.00047907
0.064754
0.16743
0.2922
1.0
0.72496
0.49535
0.40687
0.5936
1351
ÇELİK
Metin Madenciliği İle Shakespeare Külliyatının İncelenmesi
Tablo 2’deki sonuçlara göre; kümeleme analizi sonucunda toplam 9 küme bulunmuştur. Tablo 2
sonuçlarından en büyük kümenin 22775 kelimeden oluşan Cluster 1 ve en küçük kümenin 1 kelimeden
(Hamlet) oluşan Cluster 5 kümesi olduğu bulunmuştur. Ayrıca merkezilik ölçüleri dikkate alındığında 1.0
merkeziliğe sahip olan Cluster 5 kümesinin tüm kümelerin merkezinde olduğu bulunmuştur.
Hamlet eserinde kullanılan kelimelerin meydana getirdiği kelime bulutu Şekil 5’teki gibi elde
edilmiştir.
Şekil 5. Hamlet Kelime Bulutu
Şekil 5’e göre; kelime bulutunda en yüksek frekanslı kelime 407 kez tekrar eden “HAMLET”
kelimesidir. Bu nedenle Hamlet’in eserde en baskın karakter olduğu söylenebilir. Aynı mantıkla eserin
yardımcı karakterleri ve en çok geçen kelimelerden hareketle olay örgüsü belirlenerek eserin kurgusu,
matematiksel ölçütlerle de saptanabilir. Ayrıca, Şekil 5’te görüldüğü üzere; kümeleme analizi sonucunda 7
farklı küme bulunmuş ve bu kümelerin her biri farklı renklerle gösterilmiştir.
Kümeleme analizi sonucunda elde edilen kümelerin; eleman sayıları ve merkezilik ölçüleri Tablo 3’te
verilmiştir.
Tablo 3. Kümelerin Merkezilik Ölçüleri
Kümeler
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Cluster 6
Cluster 7
Eleman Sayısı
4820
315
45
19
4
1
1
Merkezilik Ölçüsü
0.0019597
0.033466
0.09595
0.17617
0.29618
1.0
0.50739
1352
MANAS Sosyal Araştırmalar Dergisi - MANAS Journal of Social Studies
Tablo 3’teki sonuçlara göre; kümeleme analizi sonucunda 7 küme bulunmuştur. Cluster 6 kümesinin
merkezilik ölçüsü 1.0 çıktığından tüm kümelerin merkezinde yer almaktadır. Buradan “HAMLET”
kelimesinin eserdeki ana karakter olduğu ve tüm olayların onun etrafında geçtiği söylenebilir.
Shakespeare’in “Rome And Juliet” eseri için kelime bulutu aşağıdaki gibi bulunmuştur.
Şekil 6. Romeo And Juliet Kelime Bulutu
Şekil 6, 7 farklı renkten oluşmakta ve bu renklerin her biri farklı bir kümeyi göstermektedir. Şekil
6’daki analiz sonuçlarına göre; Shakespeare’in “Romeo And Juliet” eserinde en çok kullanılan kelimeler
sırasıyla Romeo (322) ve Juliet (203) dir. Şekil 6’ya göre “love” (134) kelimesi de eserde yoğun geçen
kelimelerden birisidir. Bu bağlamda sadece bu analizden hareketle eserde olayların Romeo (322) ve Juliet’in
(203) çevresinde geliştiği ve ana olayın “aşk” olduğu söylenebilir.
Kümeleme analizi sonucunda elde edilen kelime sayıları ve merkezilik ölçüleri aşağıdaki Tablo 4’te
verilmiştir.
Tablo 4. Kümelerin Merkezilik Ölçüleri
Kümeler
Cluster 1
Cluster 2
Cluster 3
Cluster 4
Cluster 5
Cluster 6
Cluster 7
Eleman Sayısı
3723
298
90
9
23
3
1
Merkezilik Ölçüsü
0.0039961
0.055089
0.13633
0.53377
0.30158
0.71078
1.0
1353
ÇELİK
Metin Madenciliği İle Shakespeare Külliyatının İncelenmesi
Tablo 4’teki sonuçlara göre; kümeleme analizi sonucunda toplam 7 küme bulunmuştur. Tablo 4’e
göre; en büyük küme 22775 kelimeden oluşan Cluster 1 ve en küçük küme 1 kelimeden oluşan Cluster 7
kümesidir. Merkezilik ölçüleri dikkate alındığında ise yarıçapı 1.0 olan Cluster 7 kümesinin tüm kümelerin
merkezinde olduğu bulunmuştur.
Sonuç ve Tartışma
Metin madenciliği, yeni bir bilgisayar bilimi alanı olup bugün birçok farklı alanda kullanılmaktadır.
Metin madenciliği, yapılandırılmamış verilerin hem ilişkisel hem de niceliksel olarak katlanarak artmasından
dolayı giderek daha fazla kullanılmaktadır. Metin madenciliği, büyük miktardaki yapılandırılmamış veriyi
erişilebilir ve kullanışlı hale getirmek için kullanılmaktadır. Böylece yalnızca bir katma değer üretmek için
kullanılmaz, aynı zamanda Risk Yönetimi Yazılımı ve Siber Suç uygulamaları için de kullanılmaktadır.
Metin madenciliği sınıflandırma, varlık çıkarma, duygu analizi ve görselleştirme gibi teknikler sayesinde
metin içerisinde saklı olan yararlı bilgiyi ortaya çıkarmaktadır. Özellikle iş dünyası, büyük hacimli
yapılandırılmamış verilerdeki içgörüleri, kalıpları ve eğilimleri ortaya çıkarabilmek için metin madenciliği
yöntemini çok sık kullanmaktadır.
Metin madenciliği, mevcut bilginin çok daha verimli bir şekilde analiz edilmesini sağlamaktadır. Bilgi
alma kabiliyeti, literatür taraması sürecinde alan bilgisinin kapsamını sağlamak için harcanan zamanı
otomatik olarak azaltmaktadır. Örneğin, bugün biyomedikal alanlardaki bilimsel yayınların hacmi büyük
olduğundan, bir araştırmacının, belirli bir problem için tüm ilgili kaynakları tanımlamak için külliyat
(corpus)’ı analiz etmesi birkaç yıl gibi uzun bir süreyi alabilmektedir. İlgili materyali tanımlamak için metin
madenciliğinin kullanılması ise gereken süreyi büyük ölçüde azaltmaktadır. Ayrıca, eğer metin metnindeki
belgeler çıkarılan semantik bilgilerle eklenmiş ve daha sonra yeniden kullanıma hazır hale getirilmişse,
anahtar kaynaklar daha çabuk bulunabilmektedir. Bu verimlilik tasarrufu, araştırmalarda kullanılan çok
çeşitli elektronik araştırmalar için de geçerlidir.
Bu çalışmada öncelikle, yeni nesil programlardan Tableau yazılımı kullanılarak Google BigQuery’nin
altyapısında bulunan Shakespeare veri setine bağlanmıştır. Daha sonra Shakespeare’in tüm eserlerinde
kullanılan toplam kelime sayısı ve kelime çeşidi sayısı analiz edilerek sonuçlar grafikler şeklinde
sunulmuştur. Analiz sonucunda Hamlet’in Shakespeare’in en uzun (32.446) ve en çok kelime çeşidinin
(5.318) kullanıldığı eseri olduğu bulunmuştur. Yine tüm eserlere birlikte kümeleme analizi uygulandığında
ve görselleştirildiğinde “Hamlet” kelimesinin merkezde olduğu ve merkezilik ölçüsü 1.0 bulunmuştur. Elde
edilen bu sonuçlardan Hamlet’in Shakespeare’in en iyi eseri olduğu sonucuna varılmıştır. Yine Hamlet
eserine tek başına kümeleme analizi yapılıp görselleştirildiğinde “Hamlet” (407) kelimesinin en çok
kullanıldığı ve merkezde yer aldığı bulunmuştur. Elde edilen bu sonuçlardan eserin olay kurgusunun
“Hamlet” etrafında geçtiği sonucuna varılmıştır. Son olarak “Romeo and Juliet” için kümeleme ve
görselleştirme teknikleri kullanıldığında eserde en çok kullanılan kelimelerin sırasıyla “Romeo” (322),
“Juliet” (203) ve “love” (134) olduğu bulunmuştur. Bu sonuçlardan hareketle eserdeki olayların “Romeo”
ve “Juliet” çerçevesinde geliştiği ve eserin ana konusunun “aşk” olduğu sonucuna varılmıştır.
Bu çalışmada metin madenciliği yönteminin hemen her alanda hatta matematiğe en uzak alan gibi
görülen edebiyatta da kullanılabileceği ve buradan hareketle bestseller olarak nitelenen romanların
kahramanları ve olay örgüleri saptanarak bu eserlerin oluşturulduğu matematiksel ilişkilerin tespiti ile
edebiyat alanında çalışanlara türlü öngörüler sağlanabileceği gösterilmiştir. Metin madenciliği sayesinde
yazarın seçtiği kelimeler ve hangi kelimelerin birbiriyle kullandığı gibi karakteristik özellikleri saptayarak
yazarlar arasında kıyaslama yapmakta mümkündür. Bununla birlikte Tableau gibi yeni nesil gelişmiş
yazılımlar sayesinde büyük metin verilerinin kolayca analiz edilerek metin hakkında genel bilgilere
ulaşmakta mümkündür. Bu yazılımlar sayesinde büyük metinler üzerinde çalışanlar zamandan tasarruf
sağlamaktadırlar. Ayrıca bu yazılımlar sayesinde büyük metinler görselleştirilerek okuyucular tarafından
görülemeyen karmaşık ilişki ve desenler kolayca saptanabilmektedir. Çalışmanın bir başka sonucu ise metin
madenciliğinin hemen hemen her alana uygulanabileceğini göstermektedir. Her ne kadar bu çalışmada bir
edebi metin analizi yapılmış olsa da aslında metin madenciliği bugün hemen hemen her alanda
kullanılmaya başlandı. Nitekim bugün sosyal medya platformlarında üretilen veriler metin madenciliği
sayesinde analiz edilmektedir. Bu veriler satış tahmininde, pazarlamada ve film reytinglerini saptamada gibi
birçok alanda kullanılmaktadır. Şirketler bu sayede kar oranlarını büyük oranlarda arttırmaktadırlar.
1354
MANAS Sosyal Araştırmalar Dergisi - MANAS Journal of Social Studies
Etik Beyan
“Metin Madenciliği İle Shakespeare Külliyatının İncelenmesi” başlıklı çalışmanın yazım sürecinde bilimsel, etik ve
alıntı kurallarına uyulmuş; toplanan veriler üzerinde herhangi bir tahrifat yapılmamış ve bu çalışma
herhangi başka bir akademik yayın ortamına değerlendirme için gönderilmemiştir.
Kaynakça
Arslan, H., Kaynar, O. ve Yüksek, A. G. (2015). Kurumsal kolektif süreçler için e-posta iletilerinden görev keşfi ve
gerçek zamanlı görev yönetim sisteminin geliştirilmesi. Bilişim Teknolojileri Dergisi, 10(4), 381-388.
Azzalini, A. ve Scarpa, B. (2012). Data analysis and data mining: An introduction. OUP USA.
Bose, B. (2018). Techniques and Aplications of Text Mining. https://www.digitalvidya.com/blog/techniquesapplications-text-mining/, (Erişim Tarihi: 10.06.2018).
Bozyiğit, F. (2015). Analyzing source code and detecting similarities (M.Sc Thesis). Dokuz Eylül University, Izmir.
Coursehero (2019). Terim frekanı tf bir doküman içerisinde bir. https://www.coursehero.com/file/p14lar0/TerimFrekans, (Erişim Tarihi: 20.01.2019).
Delibaş, A. (2008). Doğal dil işleme ile Türkçe yazım hatalarının denetlenmesi (Yüksek Lisans Tezi). İstanbul Teknik
Üniversitesi, İstanbul, Türkiye.
Dinçer, E. (2006). Veri madenciliğinde K-means algoritması ve tıp alanında uygulanması (Yüksek Lisans Tezi). Kocaeli
Üniversitesi, Fen Bilimleri Enstitüsü, Kocaeli, 101s.
Dolgun, M. Ö., Özdemir, T. G. ve Oğuz, D. (2009). Veri madenciliğinde yapısal olmayan verinin analizi: Metin ve
web madenciliği. İstatistikçiler Dergisi: İstatistik ve Aktüerya, 2(2), 48-58.
Evans, S., Lioyd, J., Stoddard, G., Nekeber, J. ve Samone, M. 2005. Risk factors for adverse drug events. The Annals
of Pharmacotherapy, 39, 1161-1168.
Gaikwad, S. V., Chaugule, A. ve Patil, P. (2014). Text mining methods and techniques. International Journal of Computer
Applications, 85(17).
Hotho, A., Nürnberger, A. ve Paaß, G. (2005, May). A brief survey of text mining. In Ldv Forum, 20(1), 19-62.
Işık, M. (2006). Bölünmeli kümeleme yöntemleri ile veri madenciliği uygulamaları (Yüksek Lisans Tezi). Fen Bilimleri
Enstitüsü, Marmara Üniversitesi, İstanbul.
İlhan, S., Duru, N., Karagöz, Ş. ve Sağır, M. (2008). Metin madenciliği ile soru cevaplama sistemi. Elektronik ve
Bilgisayar Mühendisliği Sempozyumu (ELECO), Bursa, 26-30.
Jain, A. K., Murty, M. N. ve Flynni, P. J. (1999). Data clustering: a review. ACM computing surveys (CSUR), 31(3), 264323.
Kaşıkçı, T. ve Gökçen, H. (2014). Metin madenciliği ile e-ticaret sitelerinin belirlenmesi. Bilişim Teknolojileri
Dergisi, 7(1).
Kılınç, D., Borandağ, E., Yücalar, F., Tunalı, V., Şimşek, M. ve Özçift, A. (2016). KNN algoritması ve r dili ile metin
madenciliği kullanılarak bilimsel makale tasnifi. DOI: 10.7240/mufbed.69674
Linguamatics (2018). What is NLP Text Mining?. https://www.linguamatics.com/what-is-text-mining-nlp-machinelearning, (Erişim Tarihi: 20.12.2018).
Mane, S. (2018). What are the application of text mining?. https://www.quora.com/What-are-the-applications-oftext-mining/answer/Sayali-Mane-16, (Erişim Tarihi: 23.04.2018).
Maria, L. (2018). Understanding and Writing your first Text Mining Script with R.
https://towardsdatascience.com/understanding-and-writing-your-first-text-mining-script-with-r-c74a7efbe30f,
(Erişim Tarihi: 11.01.2018).
Padhy, N., Mishra, D. ve Panigrahi, R. (2012). The survey of data mining applications and feature scope. arXiv
preprint arXiv:1211.5723.
Port (2018). An introduction to text mining. https://port.sas.ac.uk/mod/book/view.php?id=554&chapterid=325,
(Erişim Tarihi: 22.12.2018).
Rouse, M. (2018). Text mining (text Analytics). https://searchbusinessanalytics.techtarget.com/definition/textmining, (Erişim Tarihi: 20.12.2018).
Rai, A. (2018). What is Text Mining: Techniques and Applications. https://www.upgrad.com/blog/what-is-textmining-techniques-and-applications/, (Erişim Tarihi: 13.06.2018).
Seker, S. E., Mert, C., Al-Naami, K., Ozalp, N. ve Ayan, U. (2013). Correlation between the economy news and stock
market in Turkey. International Journal of Business Intelligence Research (IJBIR), 4(4), 1-21.
Seker, S. E. (2015). Metin Madenciliği (Text Mining). YBS Ansiklopedi, 2(3), 30-32.
Sagayam, R., Sriniyasan, S. ve Roshni, S. (2012). A survey of text mining: Retrieval, extraction and indexing
techniques. International Journal of Computational Engineering Research, 2(5), 1443.
Tableau
(2018).
Find
Cluster
in
Data.
https://onlinehelp.tableau.com/v2018.3/pro/desktop/enus/clustering.htm#HowItWorks, (Erişim Tarihi: 25.12.2018).
Talib, R., Hanif, M. K., Ayesha, S. ve Fatima, F. (2016). Text mining: techniques, applications and issues. International
Journal of Advanced Computer Science and Applications, 7(11), 414-418.
Weiss, S. M., Indurkhya, N., Zhang, T. ve Damerau, F. (2010). Text mining: predictive methods for analyzing unstructured
information. Springer Science & Business Media.
1355
ÇELİK
Metin Madenciliği İle Shakespeare Külliyatının İncelenmesi
Williams,
J.
(2018).
9
Best
Applications
of
Text
Data
Mining
and
Analysisis.
https://www.promptcloud.com/blog/9-best-examples-of-text-mining-analysis, (Erişim Tarihi: 06.08.2018).
EXTENDED ABSTRACT
Nowadays, the rapid development of internet technologies has led to the rapid increase in the
number of shares made online and the creation of big data sets (Dolgun et al., 2009). A significant number
of these data sets contain unprocessed and un-analyzed data in unstructured form. Texts, photos, videos,
audio files are some of these data. Machine learning methods have been developed for processing
unstructured data. These methods are used in various fields such as bioinformatics, system identification,
high energy physics, market analysis, image processing (Kılınç et al., 2016).
Text mining can be defined as the process of generating structured texts containing information from
unstructured texts. In order to obtain meaningful information by processing the texts, some steps, such as
data preprocessing and feature extraction, must be performed. After these steps, the unstructured data can
be converted into a structural format processed by text mining and processed by computers (Hotho et al.,
2005). In this way, valuable information in large amounts of data is discovered (Azzalini, & Scarpa, 2012).
By using the meaningful information produced, various results can be accessed by the institutions or
organizations. There are mathematical and statistical methods on the basis of text mining methods. Text
mining is also used in different fields such as author recognition, text classification, idea mining, emotion
analysis, keyword subtraction, caption (Kılınç et al., 2016).
Text mining is a data mining study that considers the text as a data source. In other words, it aims to
obtain structured data via text. For example, it aims at studies such as the classification, segmentation,
exclusion of texts, the production of class particles, emotional analysis, text summarization, and entity
relationship modeling (Seker, 2015, p. 30). In order to achieve these objectives, information mining
methods such as information retrieval, syllable analysis, word frequency distribution, pattern recognition,
labeling, information extraction, data mining and even visualization are used to achieve these objectives
(Seker et al., 2013).
Text mining studies are often text-based and work together with natural language processing. Natural
language processing studies mainly involve studies based on linguistics knowledge under artificial
intelligence. Text mining studies aim to reach more statistical results. During text mining studies, feature
extraction is often done by using natural language processing (Seker, 2015).
In this study, using the Tableau program, which is one of the new generation programs, connected to
BigQuery in Google's infrastructure, the word frequency, visualization and K-means clustering analysis
method was applied to Shakespeare data set. These techniques have shown that large amounts of complex
data can be made simple in the form of simple graphs/tables or pictures.
The study is primarily linked to the Shakespeare data set, which is included in the Google BigQuery's
infrastructure, using the Tableau software from next generation programs. Then, the total number of
words and the number of words used in all of Shakespeare's works were analyzed and presented in graphs.
The results of the analysis were found to be Hamlet, using Shakespeare's longest (32.446) and most
vocabulary (5.318). Again, when all clustering analysis is performed and visualized together, the word
“Hamlet” is in the center and the centrality measure is 1.0. It is concluded that Hamlet was the best work
of Shakespeare. It was also found that “Hamlet” (407) was the most used and centralized method when
the clustering analysis was performed and visualized by Hamlet alone. It is concluded from this result that
the plot of the work is passed around Hamlet. Finally, when clustering and visualization techniques were
used for “Romeo and Juliet”, it was concluded that the most commonly used words were “Romeo” (322),
“Juliet” (203) and “love” (134), respectively. Based on these results, it was concluded that the events in the
work developed within the framework of “Romeo” and “Juliet” and the main event in the work was
“love”.
In this study, it has been shown that the text mining method can be used in almost every field, even
in the literature which is seen as the most distant area to mathematics, and the protagonists and the lattices
of the novels which are known as bestseller are determined by determining the mathematical relations in
which these works are created and thus, it can be provided to the employees in the field of literature.
However, it is shown that thanks to the new generation of advanced software such as Tableau, large text
data can be easily analyzed and general information about the text can be obtained. Thanks to this
software, those who work on large texts will be able to access more information in less time. In addition,
thanks to the developing technological software, large texts have been visualized and it has been shown
1356
MANAS Sosyal Araştırmalar Dergisi - MANAS Journal of Social Studies
that complex relationship structures cannot be easily seen by the readers. Another result of the study
shows that text mining can be applied to almost every field. Although a literary text analysis was
conducted in this study, it is possible to use the text mining method in almost every field today. Therefore,
the analysis of such text data is of great importance not only for those working in literature but also for
those working in many sectors. Thanks to the use of developing technological software in this context, it
will be inevitable that new changes will be experienced in many business areas and sectors in the coming
period.
1357