Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% found this document useful (0 votes)
97 views54 pages

Lumira Unsoed Data Science Portfolio

Data analytics internship opportunity to meet you at the time is the warmest colour of dashboard it's blue and white colour scorpio

Uploaded by

rohtakiya124001
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
97 views54 pages

Lumira Unsoed Data Science Portfolio

Data analytics internship opportunity to meet you at the time is the warmest colour of dashboard it's blue and white colour scorpio

Uploaded by

rohtakiya124001
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd

DATA ANALYST AND

DATA SCIENCE
PROJECT PORTFOLIO

By Jihan Amalia Laelani 1


TABLE OF CONTENTS
1 WHO AM I? 8 OVERVIEW PROJECT DATA SCIENCE

2 SKILL AND TOOLS 9 DATA PREPARATION

3 OVERVIEW PROJECT DATA ANALYST 10 OBSERVATION QUESTIONS

4 DATA PREPARATION 11 MODELLING & EVALUATION

5 OBSERVATION QUESTIONS 12 DEPLOYMENT

6 CUSTOMER DASHBOARD 13 RECOMMENDATION

7 RECOMMENDATION
2
Jihan Amalia Laelani
🔭 I’m currently taking a 6-month Full Stack Data Science
Bootcamp Program with [Link]
Inspired by many jobs involving Data and Big Data teams, I finally
realized that data is very important for companies. That was when I
wanted to enhance my knowledge about Data Science and the skills
needed to become a data scientist. In this technology-based life
that continues to develop, it makes me more interested and
challenged to seek new knowledge and innovations about Data
Science.

🌍 I am based in Jakarta, Indonesia!

✉ You can contact me at Jihan.amalia02@[Link]

📫 Alternatively, you can reach me through my LinkedIn profile!


“Committed to use my technical
and analytical skills to provide
valuable insights and data-driven
solutions and adapt quickly to
industry changes”
Jihan Amalia Laelani
Data Science Enthusiast

4
EDUCATION
JENDERAL SOEDIRMAN UNIVERSITY (2015 - 2019)
Bachelor of Fisheries
● Relevant Coursework: Mathematics, Statistics, Basic of management, Entrepreneurship.
● Journal: Isolation and Detection of Aeromonas hydrophila in Milkfish (Chanos chanos) Cultivation
in Karangtalun Village, Cilacap Regency ([Link]

[Link] (Feb 2025 - present)


Full-Stack Data Analyst and Data Science Bootcamp
● Learn about Data Preprocessing such as cleaning, manipulation
data and Exploratory Data Analysis.
● Learn about Database Management (SQL Query, ETL, Web
Scraping) and Dashboarding such as Data Storytelling and We
Dashboard Development
● Exploring Tableau dan Power BI for making dashboard
● Exploring machine learning model to Understanding Business in
Data Analyst & Data Science
WORKING EXPERIENCES
KOINWORKS (2022 - Present) CIMB Niaga Bank (2020 - 2021)
Credit Admin Lumpsum Back Office Staff

● Checking borrower payment evidence, provided that it is ● Analyze the status of the credit card to be closed to
100% to the correct loan. ensure no additional charges will be incurred.
● Calculate every payment requested by the business team. ● Provide information & solutions for customers regarding
● Inputting payment data into the tracker/Google Sheets card closure.
● Creating JIRA for payments with differences or
discounts.
● Following up the payment process until the status is
clear/paid off/settled.
● Create daily and monthly recaps to monitor repayment
data, and also maintain a 100% accuracy reconciliation of
each repayment.
SKILL AND TOOLS
1 2 3
DATA ANALYSIS DATA PROCESSING DASHBOARDING
Experienced in exploring and Experienced in cleaning, processing, and Experienced to create
analyzing data to uncover trend handling large Visualization and making
and business insights. datasets using Python dashboard with large data
using PowerBI and Tableau
Experienced in descriptive Experienced in data manipulation
techniques using Pandas and SQL
statistics, and hypothesis testing.

Programming Language: Framework: Visualization: Tools:

7
OVERVIEW PROJECT
Final Project Data Analyst
Unveiling Hotel Booking Trends
Description:

These dataset contain the information of hotel bookings between in the year
of 2024 at Malaysia. The dataset contains 6,050 hotel transactions with 36
columns, covering various aspects of hotel bookings, customer details, sales
performance, and financial metrics

Methods: Customer Segmentation Analysis

Results: Categorizing customers based on their segments and gain


behavioral insights from each segment so the company can produce business
recommendations.
Objective Overview

OBJECTIVE OVERVIEW
To gain insights for further business development such as Sales, Customer
Preferences, Employee Performance, Hotel Performance, Customer
Satisfaction.
So these are the Key Business Questions:
1. Which hotels generate the most revenue over time?
2. Who are the top-performing sales staff and how does their role
impact results?
3. When are the peak booking periods (based on arrival dates)?
4. Do members (Gold, Platinum) spend more or show higher loyalty?
5. Which customer review category brings the highest sales?
6. Which customer category (Corporate, Family) are the most revenue
over time?
7. How many customers are there from each Segmentation?
8. What is the percentage of RFM Score by hotel?
DATA CLEANING AND MANIPULATION
Step 1 Step 2 Step 3 Step 4

Checking Missing Value


Converting data column Checking duplicate Checking Outlier

change " " with "_" Membership: 83 people with N/A No duplicate data found No extreme outliers found

Change column to lowercase

Delete space and underscore in the


end of line
DATA CLEANING AND MANIPULATION
Step 5 Step 6 Step 7 Step 8

Saving the final Create Dashboard


Observation Questions Create Visualizations
data for the dashboard with Power BI

Analyze questions and provide To provide an overview and make it Save file with CSV type for next Creating dashboard and customer
insights easier to understand the results analyze with Power BI segmentation in Power BI
OBSERVATION QUESTIONS When are the peak booking periods (based on arrival dates)?

Which hotels generate the most revenue over time?

March is the busiest month, indicating a peak period —


possibly due to spring break, early-year vacations, or
conferences. July is also a major peak, aligning with school
Lexis Suites, Penang generated the highest revenue with holidays and summer vacations in many countries. January
total sales nominal of 15,715,220, then The Hilton, Kuala
sees high activity, likely due to New Year’s travel or
Lumpur with a revenue of 15,540,230, and finally Le
Méridien, Sabah with a total revenue of 15,523,407. The top extended holiday vacations. Lowest booking month is April
performers are located in Penang (North). (373 bookings), suggesting a post-holiday and pre-summer
lull.
OBSERVATION QUESTIONS
Who are the top-performing sales staff and how does their role impact results?

Leo, the Sales Manager, is the most efficient in terms of generating sales revenue with total sales 16,323,433
Other insight provides information sales Executives dominate the top rankings, indicating that while the
Sales Manager is slightly more efficient, individual Sales Executives like Amy and Derek are very close in
performance.
OBSERVATION QUESTIONS Which customer review category brings the highest
sales?
Do members spend more or show higher loyalty?

The "Excellent" customer review category brings in the


Gold members spend more per booking than Platinum highest total sales, totaling 4.3 million. This indicates a
members. Gold members also generate higher total sales strong positive relationship between customer satisfaction
than Platinum members. and revenue.
OBSERVATION QUESTIONS
How many customers are there from each segment?

● Largest Segment: About To Sleep segment has the highest number of customers (2,459), indicating many
customers are at risk of churning.
● Potential Loyalist (1,292) and Average (1,281) are promising for conversion to loyal customers.
● Very few Champions (7), Recent Customers (3), and Cannot Lose Them (17), suggesting a need to improve
engagement strategies.
OBSERVATION QUESTIONS What is the percentage of RFM Score by hotel?

Which customer category are the most revenue over time?

The corporate category has the highest total sales, and the Even Distribution: RFM scores are almost equally
Family category has a slightly lower total revenue than distributed among the three hotels:
Corporate. The individual category generates the lowest
total revenue. ● Lexis Suites, Penang – 33.54%
● The Hilton, Kuala Lumpur – 33.23%
● Le Méridien, Sabah – 33.22%
OBSERVATION QUESTIONS
Which customer segment is the most dominant across all three hotels based on RFM scores, and what are the
implications for marketing strategy?

‘About To Sleep’ is the dominant segment in all three hotels. This segment includes customers who used to be active but haven’t engaged recently, indicating a
high risk of churn. Recommendation to use personalized emails or loyalty incentives to reactivate them.

Potential Loyalist’ is also a significant segment, they are engaged and interested. Recommendation offering loyalty programs, rewards, or exclusive member
benefits.

Very few ‘Champions’ or ‘Recent Customers’. There are very few high-value or newly acquired customers. indicates a need for enhanced engagement and retention
efforts.
RECOMMENDATIONS
1 Strengthen Engagement with At-Risk Customers
Launch reactivation campaigns with personalized emails and special offers.
Offer incentives for return visits, such as discounts or free upgrades.

2 Convert Potential Loyalists and Average Customers


Promote loyalty programs and exclusive benefits.
Use targeted promotions to encourage more frequent stays and larger bookings

3 Optimize Off-Peak Months


Run seasonal promotions or host special events to boost occupancy.
Offer bundle deals (e.g., spa + room, dining + stay) to increase average spend.
4 Enhance Value for Gold and Platinum Members
Offer exclusive perks to Gold members to retain and upgrade them.
Reassess Platinum member benefits to encourage higher spend.

5 Empower Top-Performing Sales Staff


Incentivize top performers with bonuses or recognition.
Use their methods as best practices for training new staff.

6 Focus on Corporate and Family Segments


Offer corporate packages (meeting rooms, long-stay discounts).
Develop family-friendly amenities (kids’ activities, adjoining rooms).
CUSTOMER
DASHBOARD
GITHUB AND
DEPLOYMENT
🏨 Hotel Customer Segmentation Dashboard Welcome to my Final Project as a Data Analyst,
built as part of a full-stack Data Science Bootcamp. This interactive Streamlite dashboard
applies RFM (Recency, Frequency, Monetary) analysis to segment hotel customers and derive
actionable business insights.

📌 Project Summary

● Dataset: Hotel Sales 2024 (Malaysia)


● Size: 6,050 transactions across 3 hotels
● Goal: Segment customers using RFM Analysis and generate business recommendations
● Tools: Google Colab, PowerBI, Visual Studio Code, Streamlit, Plotly, Pandas

📊 Features

● RFM segmentation with dynamic filters


● Interactive pie & bar charts 🔗 Github Project Data Analyst
● Customer distribution based on reviews
● Monthly sales and segment breakdown 🔗 Streamlit Live App
● Salesperson performance insights
● Business recommendations section
OVERVIEW PROJECT
Final Project Data Science
Uncovering Sentiment Patterns in Google
Play Store
Dataset ini didapatkan dari kaggle dengan judul Google Play Dataset App Metadata
Store Apps Dataset ini berisi informasi metadata aplikasi
L. Gupta, "Google Play Store Apps," Feb 2019. [Online]. Available: Google Play Android yang tersedia di Google Play Store. Total
Store Apps terdapat 10.841 aplikasi dan 13 kolom fitur.
Kumpulan data ini menyediakan informasi tentang aplikasi seluler di Google
Play Store, dan dibagi menjadi dua bagian:
Dataset User Reviews & Sentiment
Dataset ini mencakup 64.295 ulasan pengguna
untuk berbagai aplikasi di Play Store. Namun, hanya
sekitar 37.400 ulasan yang memiliki isi dan label
sentimen.
OBJECTIVE OVERVIEW
CRISP-DM Framework

Business Data Data


Understanding Understanding Preparation

Modeling Evaluation Deployment

2025
BUSINESS UNDERSTANDING
🧠 Latar Belakang:
Aplikasi mobile kini menjadi bagian penting dalam kehidupan digital. Rating dan review
sangat mempengaruhi kesuksesan aplikasi. Namun, opini publik bisa dipengaruhi viralitas
media sosial — review negatif/positif bisa muncul secara masif karena tren, bukan
pengalaman nyata. Oleh karena itu, dibutuhkan analisis sentimen yang sistematis untuk
membantu developer memahami umpan balik secara objektif dan cepat.

📊 Permasalahan:
- Volume review yang sangat besar dan bervariasi
- Bias akibat viralitas media sosial
- Tidak diketahui faktor-faktor utama yang mempengaruhi rating aplikasi
- Tidak adanya sistem otomatis untuk memantau sentimen pengguna secara real-time
- Minimnya pemanfaatan data ulasan untuk pengambilan keputusan strategis
BUSINESS UNDERSTANDING
💬 Tujuan:
Analisis ini bertujuan untuk menggali insight dari data aplikasi dan ulasan pengguna di Google Play
Store, serta membangun sistem klasifikasi sentimen yang dapat membantu developer memahami
persepsi pengguna secara efisien dan berbasis data, secara khusus tujuan ini untuk:
- Menganalisis persebaran sentimen pengguna terhadap aplikasi (positif, negatif, netral)
dalam skala besar.
- Mengidentifikasi faktor-faktor utama (rating, jumlah install, harga, kategori, dll.) yang
berhubungan dengan sentimen pengguna.
- Menggali pola sentimen berdasarkan kategori/genre aplikasi, untuk mengetahui jenis
aplikasi yang paling banyak disukai atau dikritik.
- Menganalisis hubungan antara jumlah review, polaritas, dan rating/popularitas aplikasi,
guna memahami dinamika performa aplikasi.
- Membangun model prediksi sentimen otomatis berdasarkan isi ulasan dan metadata
aplikasi, yang dapat digunakan dalam sistem monitoring atau rekomendasi bisnis.
BUSINESS UNDERSTANDING
⭐ Key Business Questions:
1. Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat
dengan persebaran sentimen (positif/negatif/netral) pengguna terhadap aplikasi di
Google Play Store?
2. Apakah terdapat pola sentimen berdasarkan kategori atau konten rating aplikasi
tertentu?
3. Apakah jumlah review dan polaritas memiliki hubungan kuat terhadap rating atau
popularitas aplikasi?
4. Dapatkah kita membangun model prediksi sentimen berdasarkan data review?
DATA UNDERSTANDING
Nama Kolom DatasetDeskripsi
App Metadata: Terdapat 10.841 aplikasi dan 13
Singkat
Dataset App Metadata: Terdapat kolom fitur.
10.841 aplikasi dan 13 kolom fitur.
App Nama aplikasi
Dataset User Reviews & Sentiment: Terdapat 64.295
Dataset User Reviews & ulasan dan(e.g.,
5 kolom fitur.
Category Kategori umum aplikasi TOOLS, GAME, EDUCATION)
Sentiment: Terdapat 64.295
ulasan dan 5 kolom fitur.
Rating Nilai rating rata-rata dari pengguna (1.0–5.0)

Converting data column: Reviews Jumlah ulasan pengguna


- Menghapus spasi di awal
dan diakhir kolom Size Ukuran aplikasi (dalam MB/KB atau “Varies”)
- Mengganti spasi dengan
underscore (_) Installs Jumlah unduhan (format teks: “1,000+”)
- Mengubah menjadi
Type Jenis aplikasi: Free atau Paid
lowercase
Price Harga aplikasi
Converting data type:
- Kolom Reviews dan install Translated_Review Isi teks ulasan pengguna
obj -> int
- Kolom Price menjadi Float Sentiment Label sentimen: Positive, Neutral, Negative
- Kolom last_update obj ->
datetime Sentiment_Polarity Skor numerik –1 (negatif) s.d. +1 (positif)

Sentiment_Subjectivity Skor subjektivitas review (0–1) 29


DATA
PREPARATION
Step 1 Step 2 Step 3 Step 4 Step 5

Checking Missing Checking Checking Outlier: Filtered sentiment Merge Data:


Value: Duplicated: data:
Outliers were Following data
Handling with Total of 483 duplicate detected in rating, Only 100%
cleaning, the App
median (Rating entries were found reviews, size, review-filled and
1474 and Size and dropped. installs, and price. unique entries (26,868 Metadata and User
1695) Instead of removing missing reviews, 7,735 Reviews & Sentiment
them, log duplicates removed) datasets were
Handling with transformation was combined for further
mode (Type 1, applied to reviews analysis (40414 clean
Current_ver 8, and installs to data)
Android_ver 2) reduce skewness.
DATA
PREPARATION
Step 6 Step 7 Step 8 Step 9 Step 10

Observation Feature Engineering: Modelling: Evaluasi: Deployment dan


Questions: Metrics yang Conclusion
Konversi dari teks Fitur (X): Hasil TF-IDF digunakan:
positive, neutral, vectorization dari
Exploratory Data negative menjadi Accuracy, Precision, Platform: Streamlit
text_clean
and provide 2,1,0 Recall, F1-Score
Target (y): Label
insights Ekstraksi fitur teks sentiment_label
Melakukan
menggunakan TF-IDF
(dan melakukan Model yang digunakan: pemilihan model
pembersihan kata Logistic Regression terbaik
hingga clean untuk K-Nearest Neighbors
pemodelan) Random Forest
Support Vector Machine
XGBoost
OBSERVATION QUESTIONS

Mayoritas Aplikasi Mendapat Rating Tinggi: Sebagian besar aplikasi memperoleh rating antara 4.0 hingga 4.5, yang
mengindikasikan bahwa pengguna cenderung memberikan ulasan yang positif terhadap aplikasi yang mereka gunakan.
OBSERVATION QUESTIONS

Berdasarkan analisis sentimen dari ulasan pengguna, terlihat bahwa sentimen positif mendominasi, menunjukkan
tingkat kepuasan yang cukup tinggi terhadap aplikasi-aplikasi yang tersedia.
OBSERVATION QUESTIONS

Dari seluruh kategori aplikasi yang tersedia, kategori Game dan Family menempati posisi teratas dalam hal jumlah
aplikasi dan pengguna, mengindikasikan tingginya minat terhadap aplikasi hiburan dan keluarga.
OBSERVATION QUESTIONS

Aplikasi yang ditujukan untuk semua kalangan (Everyone) memiliki jangkauan pengguna yang lebih besar, menunjukkan
bahwa semakin inklusif target audiens, semakin tinggi potensi adopsinya.
OBSERVATION QUESTIONS

Banyak review yang sangat objektif (subjectivity = 0). Puncak lainnya berada di sekitar nilai 0.5–0.6, yang artinya
mayoritas review bersifat semi-opini. Kurva menunjukkan distribusi cenderung menyebar rata dari objektif hingga
subjektif.
OBSERVATION QUESTIONS

Visualisasi distribusi menunjukkan bahwa pengguna yang memberikan rating positif (1) jauh lebih banyak
dibandingkan yang memberikan rating negatif (-1), memperkuat temuan bahwa secara umum aplikasi mendapat
tanggapan baik dari pengguna.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?

Popularitas aplikasi (diukur dari jumlah install)


berkorelasi positif dengan persepsi pengguna,
tetapi tidak secara mutlak. Semakin tinggi jumlah
install, semakin besar kemungkinan aplikasi tersebut
menerima lebih banyak sentimen positif. rating tinggi
tidak menjamin sentimen positif sepenuhnya.
Beberapa titik berwarna biru (negatif) dan oranye
(netral) tetap muncul di rating tinggi dan jumlah
install besar.

Insight:
Developer aplikasi sebaiknya tetap menjaga kualitas
meskipun aplikasi sudah populer, karena jumlah install
besar tetap bisa mendapatkan review negatif jika
kualitas menurun.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?

Harga aplikasi tidak terlalu berpengaruh signifikan


terhadap rating dan jumlah install. Penyebaran
sentimen juga tidak begitu banyak dan masih
didominasi oleh sentimen positif.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?

Tidak terlihat korelasi yang kuat antara ukuran


aplikasi dengan rating, aplikasi kecil maupun besar
bisa memiliki rating tinggi maupun rendah. Titik-titik
dengan sentimen positif (hijau) mendominasi semua
rentang ukuran, terutama di rating tinggi. Ukuran
aplikasi tidak secara langsung mempengaruhi
persepsi pengguna dalam bentuk rating atau
sentimen.

Insight:
Developer tidak harus khawatir soal ukuran aplikasi
selama performa dan fitur aplikasinya baik, karena
rating dan ulasan cenderung lebih dipengaruhi oleh
experience pengguna, bukan ukuran file.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?

Mayoritas aplikasi dengan rating tinggi (4.0–4.7)


memiliki jumlah review yang bervariasi, mulai dari
rendah hingga sangat tinggi. Aplikasi dengan jumlah
review yang tinggi (log > 12) cenderung memiliki
sentimen positif yang dominan, terlihat dari
banyaknya titik hijau di bagian atas kanan grafik.

Insight:
Jumlah review dapat menjadi indikator kepercayaan
dan popularitas pengguna. Semakin banyak review
yang diterima, semakin stabil rating dan persepsi
pengguna terhadap aplikasi.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?

Ada korelasi positif yang cukup kuat antara


sentiment review dengan rating.

Polarity negatif (-1.0 sampai 0) didominasi oleh rating


rendah hingga menengah (2.5–4.0). Polarity positif (0
sampai 1.0) didominasi oleh rating tinggi (4.0–5.0).
Titik hijau (positif) menumpuk di sebelah kanan,
bersamaan dengan rating tinggi.
Titik biru (negatif) terpusat di sebelah kiri dan
berasosiasi dengan rating rendah.

Insight:
Validasi bahwa analisis sentimen dari review (polarity)
secara umum selaras dengan rating pengguna. Ini
menunjukkan bahwa fitur sentiment polarity bisa
digunakan sebagai prediktor dalam model klasifikasi
sentimen maupun regresi rating.
OBSERVATION QUESTIONS
Apakah jumlah review dan install memiliki hubungan kuat terhadap rating atau popularitas aplikasi?

Fitur paling berkorelasi dengan sentimen polarity adalah


sentiment_subjectivity (0.24).
Artinya, review yang semakin subjektif (opini pribadi),
cenderung memiliki polaritas yang lebih positif.

Jumlah review dan install memiliki korelasi negatif ringan


terhadap polaritas
menunjukkan aplikasi yang populer cenderung menerima
review yang lebih beragam, termasuk yang negatif.

Korelasi dengan Rating


Jumlah review memiliki korelasi sedang terhadap rating
aplikasi (r = 0.36).
Sentiment polarity memiliki hubungan lemah terhadap rating
(r = 0.08).
Jumlah review sangat berkorelasi dengan popularitas aplikasi
(installs) (r = 0.92).
OBSERVATION QUESTIONS
Apakah terdapat pola sentimen berdasarkan kategori dan konten rating aplikasi tertentu?

Kategori Game dan Family mendominasi jumlah


aplikasi. Dan pola sentimen didominasi dengan
sentimen positif, namun didapatkan informasi
bahwa sentimen negatif juga meningkat sesuai
dengan popularitas dari aplikasi.
OBSERVATION QUESTIONS
Apakah terdapat pola sentimen berdasarkan kategori dan konten rating aplikasi tertentu?

Jumlah review tertinggi ada pada konten rating


(Everyone), dengan dominasi sentimen positif
yang sangat mencolok.
Sentimen negatif dan netral juga ada, namun jauh
lebih sedikit.
Menunjukkan bahwa Aplikasi dengan jangkauan
pengguna yang lebih luas (Everyone) cenderung
mendapat lebih banyak review dan lebih positif.
MODELLING AND EVALUATION
Untuk menjawab KBQ “Dapatkah kita membangun model prediksi sentimen berdasarkan data review?”

Membangun model klasifikasi untuk memprediksi sentimen


Modelling – Sentiment Classification:
pengguna (Negative, Neutral, Positive) berdasarkan teks review.

Target (y): sentiment_label (hasil Train-test split: 80% data untuk


konversi dari kolom Sentiment) training, 20% untuk testing

Fitur utama (X): text_clean hasil Vectorizer: TF-IDF untuk mengubah


preprocessing review teks menjadi representasi numerik

Logistic Regression
Metric yang digunakan
K-Nearest Neighbors (KNN) Accuracy
Random Forest 🌲 Precision (macro)
Recall (macro)
Support Vector Machine (SVM)
F1-score (macro)
XGBoost ⚡
Before Tuning
After Tuning
Random Forest (Terbaik)

● Akurasi tertinggi: 93%


● F1-score per kelas sangat baik dan
seimbang:
○ Negative (kelas 0): F1 = 0.88
○ Neutral (kelas 1): F1 = 0.87
○ Positive (kelas 2): F1 = 0.95
● Kesalahan klasifikasi paling minim di
semua kelas
● Mampu mengenali kelas minoritas
(neutral) lebih baik dibanding model
lain

📌 Kesimpulan: Cocok digunakan karena


konsisten, tahan outlier, dan akurat.

025
GITHUB AND DEPLOYMENT
📌 Ringkasan Proyek

● Dataset: Ulasan Aplikasi Google Play Store (sudah dibersihkan dan diproses)
● Ukuran Data: 100.000+ ulasan dengan rating, label sentimen, dan metadata
aplikasi
● Tujuan: Menganalisis pola sentimen pengguna dan membangun model klasifikasi
sentimen
● Tools: Google Colab, VS Code, Streamlit, Plotly, Scikit-learn, Random Forest

🤖 Aset Machine Learning

Karena keterbatasan ukuran file di GitHub dan Streamlit Cloud, file model disimpan di
Google Drive dan diunduh secara otomatis menggunakan gdown saat runtime:

● 📎 rf_sentiment_model.pkl (Download)
● 📎 tfidf_vectorizer.pkl (Download)

📊 Fitur Dashboard
- 📈 Eksplorasi Data (EDA) 🔗 Github Project Data Science
- 🔍 Prediksi Sentimen
- ☁ Visualisasi WordCloud
🔗 Streamlit Live App
CONCLUSION & RECOMMENDATION
CONCLUSION

Sentimen pengguna di Google Play Store mayoritas positif, namun aplikasi populer tetap
bisa menerima ulasan negatif.

Fitur yang paling mempengaruhi persepsi pengguna adalah rating, jumlah installs, dan
kategori aplikasi.

Analisis menunjukkan bahwa jumlah review dan rating tinggi memiliki hubungan kuat
dengan sentimen positif, tapi tidak selalu linier.

Random Forest memberikan performa terbaik dalam klasifikasi sentimen (akurasi 93%),
cocok digunakan untuk sistem monitoring review aplikasi
CONCLUSION & RECOMMENDATION
RECOMMENDATION

Developer sebaiknya tidak hanya fokus pada rating, tapi juga kualitas pengalaman
pengguna untuk menjaga sentimen positif.

Gunakan sentiment analysis secara otomatis sebagai alat bantu dalam strategi
pengembangan produk.

Pantau kategori dengan review negatif tinggi sebagai sinyal potensi perbaikan
aplikasi.

Terapkan model prediksi ini dalam proses Customer Feedback Monitoring untuk
merespons lebih cepat.
Please feel free to reach
out with any Questions,
compliments, or concerns.

Let’s collaborate and


connect!

THANK ➔ Linkedin: [Link]

YOU! ➔ Github: [Link]


➔ Email: jihan.amalia02@[Link]
➔ [Link]/+6282217802091

You might also like