7 - Yusuf
7 - Yusuf
7 - Yusuf
e-ISSN : 2722-4368
Implementasi Algortima C-Means dan Algoritma Mixture dalam Pengclusteran
Data Mahasiswa Drop Out
Jhoanne Fredricka1 , Lena Elfianty2, Jusuf Wahyudi*3
1,2,3
Universitas Dehasen Bengkulu, Jalan Meranti Raya No. 32 Sawah Lebar, Bengkulu, Indonesia
Email : Jusuf.wahyudi@unived.ac.id
Abstrak. Clustering merupakan salah satu metode machine learning dan termasuk dalam unsupervised learning.
Tujuan dari clustering yaitu mencari pola data yang mirip sehingga memiliki kemungkinan dalam
mengelompokan data data yang mirip. Banyak Algoritma yang dapat digunakan untuk melakukan proses
clustering data. Algoritma C-Means dan algoritma Mixture merupakan bentuk algoritma yang dapat digunakan
dalam melakukan proses clustering data. Algoritma C-Means adalah suatu tehnik pengklusteran data yang mana
keberadaan tiap – tiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Sedangkan Algoritma
Mixture merupakan salah satu jenis data clustering dimana dalam permodelannya, data dalam satu kelompok
diasumsikan terdistribusi sesuai dengan salah satu jenis distribusi statistik yang ada. Pada penelitian ini akan
dilakukan perbandingan antara Algoritma C-Means dan Algoritma Mixture dalam hal klasterisasi data
mahasiswa drop out, dengan melihat hasil performance vector yang di hasilkan pada metode c-means yaitu
avg.within centroid distance pada setiap cluster , Sedangkan pada algoritma mixture melihat hasil performance
vector dan jumlah number of clusters.
Abstract. Clustering is one of the machine learning methods and is included in unsupervised learning. The
purpose of clustering is to look for similar data patterns so that it has the possibility of identical grouping data.
Many algorithms can be used to process data clustering. The C-Means algorithm and the Mixture algorithm are
forms of algorithms that can be used in carrying out the data clustering process. The C-Means algorithm is a
data clustering technique in which the existence of each data point in a cluster is determined by the degree of
membership. Meanwhile, the Mixture Algorithm is a type of data clustering. In its modeling, data in one group is
assumed to be distributed according to one of the existing types of statistical distributions. In this study, a
comparison will be made between C-Means Algorithm and Mixture Algorithm in terms of clustering dropout
student data by looking at the results of the performance vector produced in the c-means method, namely avg.
Within the centroid distance in each cluster, the mixture algorithm looks at the result performance vector and
number of sets.
PENDAHULUAN
Pendidikan merupakan suatu kebutuhan primer yang sejak dini hingga dewasa hendaknya dirasakan oleh
seluruh masyarakat. Hal ini sesuai dengan amanat UUD Negara Kita, anjuran agama dan menjadi penentu
kemajuan suatu bangsa. Pendidikan juga merupakan variabel vital untuk pembangunan suatu bangsa. Suatu
bangsa bisa maju dengan cepat dibandingkan dengan negara lain karena penyebaran pengetahuan (knowledge)
yang merata keseluruh lapisan masyarakatnya. Institusi yang paling bertanggung jawab untuk penyebaran
pengetahuan adalah institusi pendidikan.
Pada zaman sekarang ini pendidikan dimulai dari sejak anak berusia dini sampai ke jenjang yang paling
tinggi, dari pendidikan Paud untuk anak usia dini hingga ke bangku kuliah baik itu untuk meraih gelar S1, S2, dan
S3. Perguruan tinggi merupakan suatu institusi yang sudah pasti memiliki data yang tidak kecil volumenya.
Database pada suatu perguruan tinggi menyimpan berbagai data, misalnya data akademik, data administrasi dan
juga data mahasiswa. Dari data – data tersebut jika digali dengan tepat maka dapat diketahui pengetahuan baru
yang dapat dikembangkan untuk diterapkan pada perguruan tinggi tersebut, diantaranya mengenai data
mahasiswa drop out.
Pemahaman informasi mahasiswa yang berpotensi terkena drop out ini penting untuk diketahui dan dipahami.
Pemahaman tersebut dapat dilakukan dengan menggali data – data yang dimiliki dan kemudian dilakukan
pengelompokan terhadap hasil penggalian data tersebut sehingga memunculkan suatu pola atau kelompok
mahasiswa yang berpotensi terkena drop out. Terdapat banyak alasan mengapa seorang mahasiswa bisa di drop
out dari kampusnya antara lain mahasiswa tersebut tidak mengikuti aturan yang ada, terlalu lama masa
Implementasi Algortima C-Means dan Algoritma Mixture dalam Pengclusteran Data
Mahasiswa Drop Out 135
Oleh : Jhoanne Fredricka, Lena Elfianty, Jusuf Wahyudi
JUKI : Jurnal Komputer dan Informatika Volume 4 Nomor 2 November 2022
e-ISSN : 2722-4368
penyelesaian kuliah sehingga sudah melewati rentang waktu yang seharusnya, mahasiswa terlalu aktif dalam
berkomunitas/UKM, kuliah sambil bekerja, bermasalah dengan kehidupan di kampus, masalah keuangan, nilai
yang tidak memuaskan, melakukan pengajuan cuti dua semester berturut - turut dan lainnya. Pencegahan
kegagalan adalah sangat penting bagi manajemen perguruan tinggi. Pengetahuan ini dapat digunakan dalam
membantu pihak perguruan tinggi untuk lebih mengenal situasi para mahasiswanya dan dapat dijadikan sebagai
pengetahuan dini dalam proses pengambilan keputusan untuk tindakan preventif dalam hal mengantisipasi
mahasiswa drop out, untuk meningkatkan prestasi mahasiswa, untuk meningkatkan kurikulum, meningkatkan
proses kegiatan belajar dan mengajar dan banyak lagi keuntungan lain yang bisa diperoleh dari hasil
penambangan data tersebut.
Proses penclusteran data sangat membantu dalam pengerjaan komputerisasi sehingga mempermudah pihak
akademik untuk menarik data jika diperlukan suatu saat untuk melihat seberapa banyak jumlah mahasiswa yang
drop out setiap tahunnya beserta dengan alasannya. Sehingga data – data tersebut bisa menjadi pemicu pihak
akademik untuk mencari antisipasi mengurangi jumlah mahasiswa yang drop out. Pengelompokan data tersebut
akan dilakukan menggunakan dua metode algoritma yaitu algoritma C-Means dan algoritma Mixture, karena
algoritma C-means merupakan metode yang paling sederhana dan umum yang mempunyai kemampuan
mengelompokan data dalam jumlah yang cukup besar dengan waktu komputasi yang cepat dan efisien, sedangkan
algoritma Mixture dapat melakukan pengelompokan data – data didalam suatu dataset menjadi kelompok –
kelompok data yang sebelumnya tidak terdefinisikan.
Penelitian ini bertujuan untuk melakukan pengelompokan data mahasiswa drop out menggunakan algortima
C-Means dan Algoritma Mixture serta mengevaluasi performasi Algoritma C-Means dan Algoritma Mixture
dalam menghasilkan tingkat keakuratan alasan mengapa mahasiswa di drop out pada universitas.
METODOLOGI PENELITIAN
Logika fuzzy pertama kali diperkenalkan oleh Lothi Zadeh (UC Barkeley) pada tahun 1965, sebagai
suatu cara matematis untuk menyatakan keadaan yang tidak menentu (samara) dalam kehidupan sehari –
hari. Ide ini didasarkana pada kenyataan bahwa di dunia ini suatu kondisi sering di interpretasikan
dengan ketidakpastian atau tidak memiliki ketetapan secara kuantitatif, misalnya : panas, dingin dan
cepat. Dengan logika fuzzy, kita dapat menyatakan infomasi – informasi yang samara tersebut (kurang
spesifik), kemudian memanipulasinya dan menarik suatu kesimpulan dari informasi tersebut. Logika
fuzzy telah banyak diterapkan dalam proses pengendalian suatu sistem, hal itu karena fuzzy dapat
menyimpan dan mengaplikasikan pengetahuan – pengetahuan tentang suatu masalah. Pengetahun –
pengetahuan ini terdapat pada aturan – aturan logika fuzzy. Aturan – aturan inilah yang dijadikan tempat
menyimpan pengetahuan tersebut, dan juga berfungsi sebagai domain dalam sistem pengambilan
keputusan. Ada beberapa alasan mengapa orang menggunakan logika fuzzy, antara lain:
a. Konsep logika fuzzy mudah dimengerti. Konsep matematis yang mendasari penalaran fuzzy sangat
sederhana dan mudah dimengerti.
b. Logika fuzzy sangat fleksibel.
c. Logika fuzzy mampu memodelkan fungsi-fungsi non linier yang sangat kompleks.
d. Logika fuzzy dapat membangun dan mengaplikasikan pengalaman–pengalaman para pakar secara
langsung tanpa harus melalui proses pelatihan.
e. Logika fuzzy memiliki toleransi terhadap data – data yang tidak tepat.
f. Logika fuzzy didasarkan pada bahasa alami.
1. Algoritma C-Means
Fuzzy C-Means (FCM) adalah suatu tehnik pengklusteran data yang mana keberadaan tiap – tiap
titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Konsep dasar FCM pertama kali
adalah menentukan pusat cluster yang akan menandai lokasi rata – rata untuk tiap – tiap cluster. Dalam
algoritma C-Means terdapat beberapa langkah yang harus dilakukan yaitu:
1. Masukan data yang akan di cluster X, berupa matriks berukuran n x m (n = jumlah sample data, m =
atribut setiap data). Xik = data sample ke – i (i = 1,2,...n), atribut ke k ( k = 1,2,...,m).
2. Menentukan :
a. Jumlah cluster = c
b. Pangkat = w
........................................................................................................ (2)
4. Menghitung pusat vektor tiap – tiap klaster untuk matriks partisi yaitu:
........................................................................................................ (3)
5. Menghitung fungsi objektif pada iterasi ke – t:
............................................................................................ (4)
6. Menghitung perubahan matriks partisi:
........................................................................................... (5)
dengan i = 1,2,...n; dan k = 1,2, ...c.
7. Cek kondisi berhenti:
- Jika ( | Pt-Pt-1 | < ξ) atau(t > MaxIter) maka berhenti
- Jika tidak: t=t+1, mengulang langkah ke-4.
2. Algoritma Mixture
Algoritma Mixture merupakan salah satu jenis data clustering dimana dalam permodelannya, data
dalam satu kelompok diasumsikan terdistribusi sesuai dengan salah satu jenis distribusi statistik yang
ada. Mixture model juga mengasumsikan bahwa data merupakan suatu campuran bilangan yang
terdistribusi secara statistik (Hermawati, 2013). Algoritma Mixture merupakan metode yang mempunyai
optimasi yang sama dengan algoritma C-Means melalui proses optimazation dan maximization. Berbeda
dengan algoritma Hard C-Means dan Fuzzy C-Means, perbandingan jumlah data yang tercakup didalam
masing – masing cluster juga mempengaruhi hasil akhir dari suatu proses data clustering.
Distribusi statistik yang paling sering digunakan dalam data clustering menggunakan metode
mixture adalah distribusi Gaussiannormal. Disamping karena kemudahan penurunan berbagai rumus
yang diperlukan, kecenderungan umum yang ada pada saat melakukan observasi adalah bahwa data
yang di dapatkan umumnya dalam keadaan terdistribusi secara normal.
1. Analisa Sistem
Analisa sistem pengclusteran data mahasiswa drop out pada Universitas Dehasen yaitu melalui
penguraian dari suatu sistem utuh kedalam bagian komponen – komponen dengan maksud agar dapat
mengidentifikasi dan melakukan evaluasi terhadap masalah – masalah dan hambatan – hambatan yang
terjadi. Data yang digunakan adalah data mahasiswa yang telah di drop out pada Universitas Dehasen
berdasarkan tahun angkatan yaitu dari tahun angkata 2014 sampai dengan tahun angkatan 2016.
Pengclusteran data mahasiswa drop out dalam menggunakan Algoritma C-Means dan Algoritma
Mixture ini akan dilakukan pengujian data dengan menggunakan masing – masing algoritma, dengan
memperoleh hasil yang dapat dibandingkan sehingga didapat sebuah algoritma yang baik digunakan
dalam pengclusteran data mahasiswa drop out pada di Universitas Dehasen Bengkulu. Aplikasi yang
digunakan dalam pengclusteran data mahasiswa drop out menggunakan metode Algoritma C-Means
Implementasi Algortima C-Means dan Algoritma Mixture dalam Pengclusteran Data
Mahasiswa Drop Out 137
Oleh : Jhoanne Fredricka, Lena Elfianty, Jusuf Wahyudi
JUKI : Jurnal Komputer dan Informatika Volume 4 Nomor 2 November 2022
e-ISSN : 2722-4368
dan Algoritma Mixture adalah Rapidminer Studio 7.6, dimana dalam program rapidminer ini terdapat
panel Fuzzy Cluster yang mempunyai kemampuan dalam mengelompokan data sesuai dengan kelompok
data yang telah ditentukan. Sedangkan kriteria yang akan digunakan pada kedua metode ini adalah
jumlah cluster, banyaknya iterasi, toleransi dan bobot.
Hasil statistik setelah dataset berhasil ter-upload didapatkan hasil yang ditetapkan sebagai penerima
sebanyak 50 examples dengan 3 special attributes dan 5 reguler attributes. Detail statistik dapat dilihat
pada gambar 2 di bawah ini:
Adapun Hasil grafik dari pengclusteran data mahasiswa drop out menggunakan algoritma C-Means
dapat dilihat pada gambar 6, dimana pada grafik tersebut dapat dilihat bahwa mahasiswa yang drop out
lebih dominan pada fakultas ekonomi dan selanjutnya diikuti oleh fakultas ilmu komputer.
Dari gambar 7 di atas dapat dijelaskan bahwa konfigurasi dimulai dengan mengimport data dari exel ke
rapid miner dengan melakukan import configuration agar dapat di baca sistem. Kemudian dilakukan
cluster count performance terhadap clustering model mixture untuk melihat hasil pengclusterannya.
Adapun hasil cluster model dapat dilihat pada gambar 8.
Dari gambar 8 dapat dilihat bahwa pada cluster model terdapat 3 cluster dimana terdiri dari cluster 0
ada 17 items, cluster 1 ada 29 items dan cluster 2 ada 4 items. Ketiga cluster tersebut memiliki jumlah
cluster probabilities, cluster means dan cluster standard deviations yang berbeda – beda. Adapun
performance vector yang dihasil pada model mixture yaitu tingkat number of cluster sebesar 3.000 dan
tingkat cluster number index nya sebesar 0.940, hasil performance vector dapat dilihat pada gambar 9.
Bentuk grafik pengclusteran data mahasiswa drop out menggunakan algoritma Mixture dapat dilihat
pada gambar 10, dimana pada grafik tersebut hanya terlihat berapa besar jumlah pengelompokan
alasannya saja berdasarkan root set yang telah di tentukan.
Dari hasil performance yang telah dilakukan terhadap masing – masing model diperoleh hasil
yang berbeda - beda sesuai dengan performance yang di gunakan, dan hasil pengclusterannya pun
berbeda antara menggunakan metode c-means dan metode mixture. Pada metode c-means setelah di
lakukan pengclusteran dapat di analisa bahwa faktor yang lebih dominan dapat terlihat dari faktor nilai
sedangkan pada metode mixture di analisa terdapat faktor keuangan yang lebih dominan mempengaruhi
terjadinya drop out.
Sehingga dapat dilihat perbandingan melakukan pengclusteran data menggunakan algoritma c-
means dan algoritma mixture yaitu dari waktu pengerjaan, hasil cluster dan hasil performance vector
yang diberikan. Pada pengclusteran menggunakan algoritma c-means hanya menghasilkan hasil
clusternya saja tanpa menunjukan nilai probalitas, means dan standart deviationsnya dan menampilkan
nilai performance vector dengan jumlah hasil centroid distance dari masing – masing cluster, sedangkan
pada pengclusteran dengan algoritma mixture menghasilkan jumlah cluster data dengan menampilkan
nilai probalitas, means dan nilai standart deviations dari masing – masing cluster, pada performance
vectornya hanya menunjukan no cluster dan no index cluster.
KESIMPULAN
Dari hasil pengujian dan pembahasan yang telah dijelaskan maka dapat di ambil kesimpulan
antara lain:
1. Performance vector yang di hasilkan pada metode c-means yaitu avg.within centroid distance : -
127236923080,016, avg. Within centroid distance cluster 0 : -126025000002,745, avg.within
centroid distance cluster 1: - 221875000005,812 dan avg.within centroid distance cluster 2: -
113609467458,563 dengan besar davies bouldin : - 0,349, dimana terdapat faktor nilai yang lebih
dominan dalam pengelompok. Sedangkan hasil performance vector pada metode mixture yaitu
dengan jumlah number of clusters sebesar 3.000 dan cluster number index sebesar 0,940, terdapat
faktor keuangan yang lebih dominan dalam pengelompokan.
2. Dari hasil pengelompokan yang telah dilakukan maka dapat di analisa bahwa yang menjadi faktor
penyebab terjadinya mahasiswa drop out yaitu adanya perbedaan asal sekolah, penghasilan orang tua,
pekerjaan orang tua dan juga faktor nilai.
DAFTAR PUSTAKA
[1]. Adnyana, B, M, I., 2015, Segmentasi Citra Berbasis Clustering Menggunakan AlgoritmaFuzzy
C-Means dan CAT Swarm Optimization, Thesis, Magister Tehnik Elektro, Universitas Udayana,
Denpasar
[2]. Afifah, N., dkk., 2016, Pengklasteran Lahan Sawah Di Indonesia Sebagai Evaluasi Ketersediaan
Produksi Pangan Menggunakan Fuzzy C-Means, Jurnal Matematika “MANTIK”, ISSN: 2527-
3159, E-ISSN: 2527-3167, Vol. 02, No. 01, Oktober 2016
[3]. Agusta, Y, 2007, K-Means Penerapan, Permasalahan dan Metode Terkait, Journal Sistem dan
Informatika Vol. 3, Februari 2007
[4]. Gupta, S., Vinay, B., 2015, GMMC: Gaussian Mixture Model Based Clustering Hierarchy
Protocol In Wireless Sensor Network, International Journal Of Scientific Engineering And
Research (IJSER), ISSN: 2347-3878, Impact Factor (2014): 3.05, Vol. 3, Issue 7, July 2015
[5]. Hermawati, F.A.,2013, Data Mining, Andi Yogya, Yogyakarta
[6]. Khoirunnisak, M., Iriawan, N., Pemodelan Faktor – Faktor Yang Mempengaruhi Mahasiswa
Berhenti Studi (Drop Out) Di Institut Teknologi Sepuluh November Menggunakan Analisis
Bayesian Mixture Survival, Paper, StatistikaFMIPA-ITS
[7]. Kusrini,. Emha, 2009, Algoritma Data Mining , Andi Yogya, Yogyakarta
[8]. Kusumadewi, S,.Purnomo, H,.2004, Aplikasi Logika Fuzzy Untuk Pendukung Keputusan, Graha
Ilmu, Yogyakarta