Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Analisis Algoritma K-Medoids Clustering Dalam Pengelompokan Penyebaran Covid-19 Di Indonesia

Download as pdf or txt
Download as pdf or txt
You are on page 1of 8

(Jurnal Teknologi Informasi) Vol.4, No.

1, 2020 P-ISSN 2580-7927| E-ISSN 2615-2738

ANALISIS ALGORITMA K-MEDOIDS CLUSTERING DALAM


PENGELOMPOKAN PENYEBARAN COVID-19 DI INDONESIA

Sukma Sindi, Weni Ratnasari Orktapia Ningse, Irma Agustika Sihombing, P.P.P.A.N.W
Fikrul Ilmi R.H.Zer, Dedy Hartama
Program Studi Teknik Informatika, STIKOM Tunas Bangsa Pematangsiantar,
Jl. Jend. Sudirman Blok A No.1,2 dan 3, Kota Pematangsiantar 21111 - Indonesia
skmsindi@gmail.com, weni.oktapia21@gmail.com, Irmasihombibg006@gmail.com,
fikrulilmizer@gmail.com, dedyhartama@amiktunasbangsa.ac.id

Abstract - At the beginning of March Indonesia was entering the corona outbreak virus (COVID) Every day the case of
Covid-19 distribution in Indonesia continued to increase. the community is issued to conduct social distance to cut the
distribution of COVID-19 distribution distributed in various regions. In Indonesia, therefore, the data that has been
accommodated is certainly a lot, from the data it can be seen patterns - selection patterns of distribution of COVID-19
distribution are based on test scores, This study uses the K-Medoids method so that the distribution patterns of COVID-19
distribution can be used for the community. K-Medoids is a method of grouping Analytical sections that aim to get a set of k-
clusters among the data that most require an object in the collection of data. The results of the new COVID-19 research
grouping show the community produced from various regions in Indonesia. Characteristics with a body temperature above
36.9 ◦ c and with fever and cough resolution supported by one of the characteristics of COVID-19 symptoms.
Kata Kunci - K-Medoids Algorithm, Clustering, Data Mining, COVID-19, Data Grouping

Abstrak - Pada awal maret Indonesia sedang di landa masuknya wabah virus corona (covid) Setiap hari kasus penyebaran
covid-19 di indonesia terus meningkat. masyarakat diminta untuk melakukan social distancing guna mamutus rantai
penyebaran covid-19 yang tersebar diberbagai wilayah.di Indonesia. Oleh karena itu, data yang telah ditampung pastinya
banyak sekali, dari data tersebut dapat dilihat pola – pola penentuan pengelompokan penyebaran covid-19 dilakukan
berdasarkan nilai tes, Penelitian ini menggunakan metode K-Medoids agar dapat diketahui pola pemilihan penentuan
pengelompokan penyebaran covid-19 bagi masyarakat. K-Medoids merupakan metode Analitis partisional clustering yang
bertujuan untuk mendapatkan suatu set k-cluster di antara data yang paling mendekati suatu objek dalam pengelmpokan suatu
data.. Hasil penelitian pengelompokan penyebaran covid-19 baru menunjukkan bahwa masyarakat yang berasal dari berbagai
wilayah di Indonesia. Cirri-ciri dengan suhu badan di atas 36,9◦ c dan dengan disertai demam dan batuk berkelanjutan
menunjukkan salah satu ciri-ciri gejalah covid-19
Kata Kunci - Algoritma K-Medoids, Clustering, Data Mining, Covid-19, Pengelompokan Data

I. PENDAHULUAN Penerapan K-Medoids agar dapat diketahui pola


pemilihan penentuan pengelompokan penyebaran
Diawal maret 2020 Indonesia sedang covid-19 di berbagai wilayah di indinesia. K-Medoids
dilanda pandemi covid-19, virus ini pertama kali merupakan metode partisional clustering dimana
muncul di wilayah wuhan-tiongkok ditemukan pada bertujuan untuk menemukan satu set k-cluster di
akhir desember 2019. pemerintah dan masyarakat antara data yang paling mencirikan objek dalam
sedang melakukan social distancing guna memutus kumpulan suatu data.
rantai penyebaran covid-19 yang terus meningkat
setiap harinya. Penularan Covid-19 hanya bisa dicegah A. Data Mining
dengan kedisiplinan untuk tetap berada di rumah. Data mining adalah sebuah proses pencarian
Risiko penularan pun bisa terhindarkan dan masalah secara otomatis informasi yang berguna dalam tempat
Covid-19 di Indonesia bisa segera diatasi kebijakan penyimpanan data berukuran besars. Data mining
yang paling baik. Total keseluruhan penyebaran covid- adalah analisa terhadap data untuk menemukan
19 di Indonesia saat ini mencapai 14,265 jiwa untuk hubungan yang jelas serta menyimpulkannya yang
kasus penyebaran sembuh covid-19 di Indonesia
belum diketahui sebelumnya dengan cara terkini
mencapai 2.881 jiwa dan angka kematian mencapai
dipahami dan berguna bagi pemilik data tersebut[1].
991 jiwa. Penelitian ini menggunakan metode

166
(Jurnal Teknologi Informasi) Vol.4, No.1, 2020 P-ISSN 2580-7927| E-ISSN 2615-2738

Descriptive mining, yaitu proses untuk Jika S<0, maka ganti objek dengan data cluster
menemukan karakteristik penting dari data dalam satu untuk memperoleh sekelompok k objek yang
basis data. Teknik data mining yang termasuk baru sebagai medoids.
descriptive mining adalah clustering, asosiation, dan 6. Ulangi tahap ke 3 sampai 5 hingga tidak terjadi
sequential mining [2]. perubahan medoid, sehingga didapatkan cluster
beserta anggota cluster masing-masing.
B. Clustering Kemudian untuk mendapatkan nilai k di sebuah
data yang ada di clustering K-Medoid dilakukan
Clustering merupakan suatu proses
di dalam proses clustering dapat dipilih dengan
pengelompokkan record suatu , observasi, atau bersasarkan nilai DBI (Davies Bouldin Index)
mengelompokkan kelas yang memiliki kesamaan terkecil.
objek. Perbedaan clustering dengan klasifikasi yaitu
tidak adanya variabel target dalam melakukan suatu
pengelompokan pada proses clustering. Clustering II. METODE PENELITIAN
sering dilakukan sebagai untuk langkah awal dalam
Dalam metode ini cara untuk memperoleh dan
proses data mining saat melakukkan suatu metode
mengumpulkan data-data ilmiah yang dibutuhkan
analisis. Terdapat banyak algoritma Clustering yang
dengan fungsi dan tujuan tertentu. Metode penelitian
telah digunakan oleh peneliti sebelumnya seperti K-
dapat dilihat pada gambar 1(Juninda and Andri, 2019)
Means, Improved K-Means, Fuzzy C-Means,
DBSCAN, K-Medoids (PAM), CLARANS dan Fuzzy
Substractive. Setiap algortima memiliki kelebihan dan
kekurangan masing-masing, namun prinsip algoritma
sama, yaitu mengelompokkan data sesuai dengan
karakteristik dan mengukur jarak kemiripan antar data
dalam satu kelompok [3].
C. Algoritma K-Medoids
K-Medoids merupakan suatu algoritma yang
digunakan untuk menemukan medoids didalam sebuah
kelompok (cluster) yang merupakan titik pusat dari
suatu kelompok (cluster). Algoritma K-Medoids lebih
baik dibandingkan dengan K-Means karena pada K-
Medoids kita menemukan k sebagai objek yang
representatif untuk meminimalkan jumlah
ketidaksamaan objek data, sedangkan pada K-Means
menggunakan jumlah jarak euclidean distances untuk
objek data[4]. Langkah-langkah algoritma K-Medoids
sebagai berikut: Gambar 1. Metode Penelitian
1. Inisialisasi pusat cluster sebanyak k (jumlah
cluster).
2. Alokasikan setiap data (objek) ke cluster terdekat A. Identifikasi Masalah
menggunakan ukuran jarak Euclidean Distance Dalam penelitian ini, identifikkasi masalah
dengan persamaan: x bertujuan untuk mengetahui seberapa banyak
n


pengelompokan pada masalah kasus covid-1 di
(¿¿ i  yi )2 ;1, 2,3,  . nd Indonesia menggunakan metode K-Medoids
i 1
Clustering . Dan mencari akar masal dengan table data
( x , y)  ¿ x  y  ¿   ¿ ..........(1) yang kita punya dengan table yang kita miliki tersebut
3. Pilih secara acak objek pada masing-masing melonjaknya angka penyebaran wabah menjadi akar
cluster sebagai kandidat medoid baru. pokok permasalahan ini.
4. Hitung jarak setiap objek yang berada pada setiap B. Pengumpulan Data
masing-masing cluster dengan menempuh
medoids baru. Pada pengumpulan Data dilakukan dari objek
5. Hitung total simpangan (S) dengan menghitung yang kita telitih dimana data yang kita peroleh dari
nilai total distance baru – total distance lama. Kementrian Kesehatan Indonesia. Data yang

167
(Jurnal Teknologi Informasi) Vol.4, No.1, 2020 P-ISSN 2580-7927| E-ISSN 2615-2738

digunakan menggunakan 3 variabel yaitu, kasus 7. Jika menetapkan dari perhitung nilai lowest
positif, kasus sembuh, dan kasus meninggal. average dissimilarity (bi). Perhitungan b(i)
menggunakan persamaan (4).
C. Pengolahan Data awal 8. Untuk menghitung nilai silhouette coefficient (si).
Dari data yang sudah kita miliki, kemudian Perhitungan s(i) melakukan persamaan untuk
akan kita olah dengan menggunakan metode K- mengenal mutu terbaik dari cluster.
Medoids Clustering. Untuk mengetahui
pengelompokan data sehingga data akan menampilkan
hasil akhir dari pengelompokan Clustering. III. HASIL DAN PEMBAHASAN

D. Penerapan Algoritma K-Medoids


A. Perancangan
Algoritma K-Medoids biasa disebut sebagai
partitioning around medoids, yang merupakan varian Pada proses perancangan yang akan
dari metode K-Means. Hal ini didasarkan pada dlakukan pada algoritma K-Medoids, dengan
penggunaan medoids bukan dari pengamatan mean memasukkan jumlah data yang dibutuhkan dalam
yang dimiliki setiap clulster, yang bertujuan untuk proses untuk menentukan jumlah clustering. Proses
mengurangi sensitivitas dari partisi yang dihasilkan selanjutnya perhitungan seluruh di jaringan K-
sehubungan dengan nilai-nilai ekstrim yang ada pada medoids. Pada hasil akhir akan menampilkan
dataset. Algoritma K-Medoids merupakan suatu grafik/plot view nya didalam sebuah hasil perhitungan
algoritma yang mengatasi kelemahan Algoritma di rapid miner 5.3.
KMeans yang sensitif terhadap outlier karena objek
dengan suatu nilai yang besar mungkin menyimpang
dari distribusi data. Untuk perhitungan menggunakan
algoritma K-Medoids dapat mengikuti langkah 1
sampai 6 seperti yang sudah dijelaskan sebelumnya.
Dengan melakukan percobaan tiga cluster (k=3),
sehingga didapatkan grafik perbandingan jumlah item
3 cluster.
Dalam Proses Perhitungan pada metode
KMedoids berikut langkah-langkahnya sebagai berikut
:
1. Melakukan normalisasi data yang akan
digunakan dalam proses perhitungan KMedoids.
Perhitungan normalisasi data menggunakan
persamaan (1)
2. Menginisialisasikan pusat cluster secara acak,
kemudian menghitung jarak data (objek) dengan
pusat cluster menggunaka suatu Euclidean
Distance. Dalam perhitungan Euclidean Distance
menggunakan persamaan (2).
3. Menghitung total distance dari keseluruhan data Gambar 2. Perancangan Perangkat Lunak
di dalam cluster.
4. Menginisialisasikan pusat cluster baru secara B. Data Awal
acak kemudian menghitung jarak data (objek) Data awal/sumber data yang digunakan dalam
dengan pusat cluster dengan Euclidean Distance. penelitian ini langsung dari kementrian kesehatan
Perhitungan Euclidean Distance menggunakan Indonesia. Data yang kami gunakan dalam penelitian
persamaan (2). yaitu alur grafik penyebaran covid-19 yang terjadi saat
5. Untuk menentukan atau menetapkan selisih total ini di Indonesia khususnya, dimana data ini
distance dengan mengurangi total distance baru – menggunakan 34 provinsi yang ada di Indonesia. akan
total distance lama. di kelompokkan di untuk menentukan clustering 1, 2,
6. Setelah itu untuk mendapatkan hasil cluster dan 3. Data penyebaran Covid-19 meliputi kasus
akhir, menghitung nilai average dissimilarity (ai) positif, sembuh, dan meninggal. Berikut yaitu cara
untuk penilaian (evaluasi) dengan metode menentukan data / pengelompokan data.
silhouette coefficient. Perhitungan a(i)
menggunakan persamaan (3)

168
(Jurnal Teknologi Informasi) Vol.4, No.1, 2020 P-ISSN 2580-7927| E-ISSN 2615-2738

Gambar 3. Data Covid-19


Pada data ini tingkat penyebaran yang Gambar 6. Diagram Kasus meninggal
terkonfirmasi positive covid ialah 14265 ribu jiwa,
sembuh dari covid ada 2881 jiwa dan meninggal ada Dibawah ini adalah titik penyebaran Covid-19 dimana
991 diupdate sampai tanggal 11 mei 2020. Dari awal da 34 provinsi diindonesia.
masuk corona virus (covid) ini di Indonesia
mengalami peningkatan sejak awal ter identifikasi
virus ini berbagai upaya pemerintahan Indonesia
untuk mencegah penyebaran virus ini namun, kita
juga harus patuh pada aturan pemerintah. Berikut
adalah grafik peningkatan covid-19 di Indonesia.

Gambar 7. Peta Penyebaran Covid di Indonesia

C. Hasil Analisa Pengujian


1. Masukan Proses Data
Pengumpulan input dataset excel di sejumlah
wilayah yang terjangkit positif oleh covid, dalam
Gambar 4. Diagram Kasus Positif proses data disini terdapat 2 tipe data masukan
yaitu jumlah data 34 provinsi yang
terjangkit/positive covid-19, dan jumlah cluster.
Jumlah cluster disini ada 3 Clustring. Dimana
jumlah setiap wilayah yang terpapar berbeda-
beda.

Gambar 5. Diagram Kasus Sembuh

169
(Jurnal Teknologi Informasi) Vol.4, No.1, 2020 P-ISSN 2580-7927| E-ISSN 2615-2738

Gambar 10. step 1 import data excel.


Gambar 8. Penyebaran di provinsi
Kemudian tampil seperti gambar dibawah ini, disini
Kemudian kita akan memproses dataset excel tadi tidak ada yang perlu di ubah klik next saja. Masih
mengunakan software Rapid Miner 5.3. untuk sama disini belum ada perubahan yang harus diubah,
mengetahui penelompokan jumlah cluster yang hanya saja variabelnya yang berubah. Perhatikan
didapat. klik new proses seperti tampilan dibawah ini. gambar dibawah ini kemudian di Next sampai proses
step ke 3 tidak ada perubahan yang harus diubah Next.

Gambar 9. proses pengolahan data


Lalu akan menampilkan tampilan proses seperti di
bawah ini. Kemudian masukkan data yang akan di Gambar 11. Step 3 Import Data Excel
diproses ke lembar kerja. Dibagian kiri paling bawah Perhatikan pada Gambar dibawah ini :
klik symbol segitiga kebawah warna hitam klik
(import excel sheet). Setelah kita klik import akan 1. di bagian integer khusus wilayah covid
muncul tampilan seperti dibawah ini data set yang (binominial) diubah menjadi (nominal)
akan kita import dengan atribut yang sudh kita buat 2. dan di bagian (atribut) juga diganti/ dipilih
untuk menegtahui titik clustering yang kita butuhkan. menjadi (id). Kenapa diganti menjadi, karna
klik data yang akan kita proses selanjutnya kemudian untuk nama wilayah atau daerah mempunyai
next. kunci tersendiri agar terindentifikasi nama
wilayah tersebut.
3. Untuk dibagian yang lain biarkan saja tanpa
ada perubahan sama sekali
4. Next

170
(Jurnal Teknologi Informasi) Vol.4, No.1, 2020 P-ISSN 2580-7927| E-ISSN 2615-2738

disini Data-Covid. Kemudian tarik Data-Covid


tersebut ke lembar kerja yang ada ditengah seperti
dibawah ini

Gambar 12. Step 4 Import Data Excel


Gambar 15. Input Data-Covid
Kemudian simpan Data yang sudah kita ubah tadi
perhatikan langkah-langkah pada gambar di bawah ini. Tahap berikutnya disini yang paling penting
1. di (data) menggunakan K-Medoids, karna penelitian ini
2. buat file name yang akan disimpan menggunakan K-Medoids.
3. finish 1. klik dibagian atas sebelah kiri cari/share
(Modelling, Clastering and segmentation, K-
Medoids)
2. di drag atau di tarik K-Medoids yang ada di
tengan lembar kerja
3. kemudian hubungkan garis tersebut dengan
benar.
4. Kemudian jalankan / run di atas dengan
symbol segitiga warna biru

Gambar 13. Step Import Data Wizard Selesai


Nah tampilan dibawah ini, tampilan dari Data View
yang sudah siap kita proses selanjutnya untuk
menerapkan K-Medoids.

Gambar 16. clustering (K-medoids)


Proses run akan berjalan dengan baik jika tampilan
data muncul pada saat run berhasil Data View seperti
gambar dibawah ini.

Gambar 14. Proses Import Berhasil


b. masukan penerapan Metode k-medoids
Disini kita akan menarik/drag data yang
sudah kita simpan tadi dibagian bawah sebelah kiri.
contoh filedata dalam penelitian yang digunakan

171
(Jurnal Teknologi Informasi) Vol.4, No.1, 2020 P-ISSN 2580-7927| E-ISSN 2615-2738

di atas, dapat disimpulkan bahwasanya Cluster 0,


terdiri dari 1 wilayah. dan cluster 1 terdiri dari 2
wilayah, kemudian cluster 2 terdiri dari 31 wilayah.
Dari pengumpulan yang di dapatkan oleh rapitminer
ini, dihitung dari cluster terkecil, menengah hingga
cluster dengan nilai tertinggi yaitu C1,C2 dan C3.
diketahui pola pemilihan penentuan pengelompokan
penyebaran covid-19 di berbagai wilayah di indinesia.
K-Medoids merupakan metode Analitis partisional
clustering yang bertujuan untuk mendapatkan suatu set
k-cluster di antara data yang paling mendekati suatu
objek dalam pengelmpokan suatu data.. Hasil
Gambar 17. Proses RUN penelitian pengelompokan penyebaran covid-19 baru
menunjukkan bahwa masyarakat yang berasal dari
Tampilan Meta Data, disini kita bisa melihat jumlah
berbagai wilayah di Indonesia.
dari cluster integer yang kita gunakan tadi di awal
masukan data.
IV. KESIMPULAN

Berdasarkan penelitian, implementasi dan pengujian,


maka didapat Berdasarkan perhitungan yang telah
dilakukan, algoritma K-Medoids dapat melakukan
pengelompokan data covid-19 mana saja wilayah yang
terinfeksi di wilayah masing-masing-masing dengan
pengklasteran terbaik dilakukan dengan 3 cluster. Dari
34 record diperoleh 1 record pada cluster pertama, 2
record pada cluster kedua, 31 record pada cluster
ketiga. Dan demikian untuk melakukan proses
implementasi pada sistem dan analisis dapat
menerapakan percobaan tersebut. Hasil dari percobaan
Gambar 18. Meta Data View juga dapat diimplementasikan dengan data yang besar
dan atribut yang kompleks.
Dibagian Plot View kita dapat melihat garis dimana
penentuan jumlah kelompok clustering yang ada di
setiap daerah. Untuk tampilan plot view disebelah
bagian kiri untuk x-Axis, y-Axis dan color custum DAFTAR PUSTAKA
pilihlah (cluster) semua yang akan terlihat pada
[1] Atmaja, E. H. S. ‘Implementation of k-Medoids
gambar di bawah ini. Pada Plot View kita dapat
Clustering Algorithm to Cluster Crime Patterns in
mengetahui bagian-bagian kelompok mana saja yang
Yogyakarta’, International Journal of Applied
mendapatkan posisi clustering tingkat 1, 2 dan 3
Sciences and Smart Technologies, 1(1), pp. 33–
44. doi: 10.24071/ijasst.v1i1.1859. 2019.
[2] Juninda, T. and Andri, E. ‘Penerapan Algoritma
K-Medoids untuk Pengelompokan Penyakit di
Pekanbaru Riau’, (November), pp. 42–49. 2019.
[3] Kementrian kesehatan Republik Indonesia
https.kementrian kesehatan.go.id/data covid-9.
[4] Marlina, D. et al. ‘Implementasi Algoritma K-
Medoids dan K-Means untuk Pengelompokkan
Wilayah Sebaran Cacat pada Anak’, Jurnal
CoreIT: Jurnal Hasil Penelitian Ilmu Komputer
dan Teknologi Informasi, 4(2), p. 64. doi:
10.24014/coreit.v4i2.4498. 2018.
Gambar 19. Plot View dan hasil akhir [5] Metisen, B. M. and Sari, H. L. ‘ANALISIS
Pada gambar diatas ini adalah tampilan akhir CLUSTERING MENGGUNAKAN METODE K-
dari penerapan K-Medoids untuk menentukan MEANS DALAM PENGELOMPOKKAN
pengelompokan data clustering. Dari hasil pengujian PENJUALAN PRODUK PADA SWALAYAN

172
(Jurnal Teknologi Informasi) Vol.4, No.1, 2020 P-ISSN 2580-7927| E-ISSN 2615-2738

FADHILA’, 11(2), pp. 110–118. 2015.


[6] Pramesti, D. F. et al. ‘Implementasi Metode K-
Medoids Clustering Untuk Pengelompokan Data’,
Jurnal Pengembangan Teknologi Informasi dan
Ilmu Komputer, 1(9), pp. 723–732. doi:
10.1109/EUMC.2008.4751704. 2017.
[7] Pulungan, N., Suhada, S. and Suhendro, D.
‘Penerapan Algoritma K-Medoids Untuk
Mengelompokkan Penduduk 15 Tahun Keatas
Menurut Lapangan Pekerjaan Utama’, KOMIK
(Konferensi Nasional Teknologi Informasi dan
Komputer), 3(1), pp. 329–334. doi:
10.30865/komik.v3i1.1609. 2019.
[8] Silitonga, D. A., Windarto, A. P. and Hartama, D.
‘Penerapan Metode K-Medoid pada
Pengelompokan Rumah Tangga Dalam Perlakuan
Memilah Sampah Menurut Provinsi’, Seminar
Nasional Sains & Teknologi Informasi (SENSASI)
SENSASI 2019 ISBN:, pp. 313–318. 2019.
[9] Wira, B., Budianto, A. E. and Wiguna, A. S.
‘Implementasi Metode K-Medoids Clustering
untuk Mengetahui Pola Pemilihan Program Studi’,
Jurnal Terapan Sains & Teknologi, 1(3), pp. 54–
69. 2019.
[10] Zayuka, H., Nasution, S. M. and Purwanto, Y.
‘Perancangan Dan Analisis Clustering Data
Menggunakan Metode K-Medoids Untuk Berita
Berbahasa Inggris Design and Analysis of Data
Clustering Using K-Medoids Method For English
News’, e-Proceeding of Engineering :, 4(2), pp.
2182–2190. 2017.

173

You might also like