Lumira Unsoed Data Science Portfolio
Lumira Unsoed Data Science Portfolio
DATA SCIENCE
PROJECT PORTFOLIO
7 RECOMMENDATION
2
Jihan Amalia Laelani
🔭 I’m currently taking a 6-month Full Stack Data Science
Bootcamp Program with [Link]
Inspired by many jobs involving Data and Big Data teams, I finally
realized that data is very important for companies. That was when I
wanted to enhance my knowledge about Data Science and the skills
needed to become a data scientist. In this technology-based life
that continues to develop, it makes me more interested and
challenged to seek new knowledge and innovations about Data
Science.
4
EDUCATION
JENDERAL SOEDIRMAN UNIVERSITY (2015 - 2019)
Bachelor of Fisheries
● Relevant Coursework: Mathematics, Statistics, Basic of management, Entrepreneurship.
● Journal: Isolation and Detection of Aeromonas hydrophila in Milkfish (Chanos chanos) Cultivation
in Karangtalun Village, Cilacap Regency ([Link]
● Checking borrower payment evidence, provided that it is ● Analyze the status of the credit card to be closed to
100% to the correct loan. ensure no additional charges will be incurred.
● Calculate every payment requested by the business team. ● Provide information & solutions for customers regarding
● Inputting payment data into the tracker/Google Sheets card closure.
● Creating JIRA for payments with differences or
discounts.
● Following up the payment process until the status is
clear/paid off/settled.
● Create daily and monthly recaps to monitor repayment
data, and also maintain a 100% accuracy reconciliation of
each repayment.
SKILL AND TOOLS
1 2 3
DATA ANALYSIS DATA PROCESSING DASHBOARDING
Experienced in exploring and Experienced in cleaning, processing, and Experienced to create
analyzing data to uncover trend handling large Visualization and making
and business insights. datasets using Python dashboard with large data
using PowerBI and Tableau
Experienced in descriptive Experienced in data manipulation
techniques using Pandas and SQL
statistics, and hypothesis testing.
7
OVERVIEW PROJECT
Final Project Data Analyst
Unveiling Hotel Booking Trends
Description:
These dataset contain the information of hotel bookings between in the year
of 2024 at Malaysia. The dataset contains 6,050 hotel transactions with 36
columns, covering various aspects of hotel bookings, customer details, sales
performance, and financial metrics
OBJECTIVE OVERVIEW
To gain insights for further business development such as Sales, Customer
Preferences, Employee Performance, Hotel Performance, Customer
Satisfaction.
So these are the Key Business Questions:
1. Which hotels generate the most revenue over time?
2. Who are the top-performing sales staff and how does their role
impact results?
3. When are the peak booking periods (based on arrival dates)?
4. Do members (Gold, Platinum) spend more or show higher loyalty?
5. Which customer review category brings the highest sales?
6. Which customer category (Corporate, Family) are the most revenue
over time?
7. How many customers are there from each Segmentation?
8. What is the percentage of RFM Score by hotel?
DATA CLEANING AND MANIPULATION
Step 1 Step 2 Step 3 Step 4
change " " with "_" Membership: 83 people with N/A No duplicate data found No extreme outliers found
Analyze questions and provide To provide an overview and make it Save file with CSV type for next Creating dashboard and customer
insights easier to understand the results analyze with Power BI segmentation in Power BI
OBSERVATION QUESTIONS When are the peak booking periods (based on arrival dates)?
Leo, the Sales Manager, is the most efficient in terms of generating sales revenue with total sales 16,323,433
Other insight provides information sales Executives dominate the top rankings, indicating that while the
Sales Manager is slightly more efficient, individual Sales Executives like Amy and Derek are very close in
performance.
OBSERVATION QUESTIONS Which customer review category brings the highest
sales?
Do members spend more or show higher loyalty?
● Largest Segment: About To Sleep segment has the highest number of customers (2,459), indicating many
customers are at risk of churning.
● Potential Loyalist (1,292) and Average (1,281) are promising for conversion to loyal customers.
● Very few Champions (7), Recent Customers (3), and Cannot Lose Them (17), suggesting a need to improve
engagement strategies.
OBSERVATION QUESTIONS What is the percentage of RFM Score by hotel?
The corporate category has the highest total sales, and the Even Distribution: RFM scores are almost equally
Family category has a slightly lower total revenue than distributed among the three hotels:
Corporate. The individual category generates the lowest
total revenue. ● Lexis Suites, Penang – 33.54%
● The Hilton, Kuala Lumpur – 33.23%
● Le Méridien, Sabah – 33.22%
OBSERVATION QUESTIONS
Which customer segment is the most dominant across all three hotels based on RFM scores, and what are the
implications for marketing strategy?
‘About To Sleep’ is the dominant segment in all three hotels. This segment includes customers who used to be active but haven’t engaged recently, indicating a
high risk of churn. Recommendation to use personalized emails or loyalty incentives to reactivate them.
Potential Loyalist’ is also a significant segment, they are engaged and interested. Recommendation offering loyalty programs, rewards, or exclusive member
benefits.
Very few ‘Champions’ or ‘Recent Customers’. There are very few high-value or newly acquired customers. indicates a need for enhanced engagement and retention
efforts.
RECOMMENDATIONS
1 Strengthen Engagement with At-Risk Customers
Launch reactivation campaigns with personalized emails and special offers.
Offer incentives for return visits, such as discounts or free upgrades.
📌 Project Summary
📊 Features
2025
BUSINESS UNDERSTANDING
🧠 Latar Belakang:
Aplikasi mobile kini menjadi bagian penting dalam kehidupan digital. Rating dan review
sangat mempengaruhi kesuksesan aplikasi. Namun, opini publik bisa dipengaruhi viralitas
media sosial — review negatif/positif bisa muncul secara masif karena tren, bukan
pengalaman nyata. Oleh karena itu, dibutuhkan analisis sentimen yang sistematis untuk
membantu developer memahami umpan balik secara objektif dan cepat.
📊 Permasalahan:
- Volume review yang sangat besar dan bervariasi
- Bias akibat viralitas media sosial
- Tidak diketahui faktor-faktor utama yang mempengaruhi rating aplikasi
- Tidak adanya sistem otomatis untuk memantau sentimen pengguna secara real-time
- Minimnya pemanfaatan data ulasan untuk pengambilan keputusan strategis
BUSINESS UNDERSTANDING
💬 Tujuan:
Analisis ini bertujuan untuk menggali insight dari data aplikasi dan ulasan pengguna di Google Play
Store, serta membangun sistem klasifikasi sentimen yang dapat membantu developer memahami
persepsi pengguna secara efisien dan berbasis data, secara khusus tujuan ini untuk:
- Menganalisis persebaran sentimen pengguna terhadap aplikasi (positif, negatif, netral)
dalam skala besar.
- Mengidentifikasi faktor-faktor utama (rating, jumlah install, harga, kategori, dll.) yang
berhubungan dengan sentimen pengguna.
- Menggali pola sentimen berdasarkan kategori/genre aplikasi, untuk mengetahui jenis
aplikasi yang paling banyak disukai atau dikritik.
- Menganalisis hubungan antara jumlah review, polaritas, dan rating/popularitas aplikasi,
guna memahami dinamika performa aplikasi.
- Membangun model prediksi sentimen otomatis berdasarkan isi ulasan dan metadata
aplikasi, yang dapat digunakan dalam sistem monitoring atau rekomendasi bisnis.
BUSINESS UNDERSTANDING
⭐ Key Business Questions:
1. Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat
dengan persebaran sentimen (positif/negatif/netral) pengguna terhadap aplikasi di
Google Play Store?
2. Apakah terdapat pola sentimen berdasarkan kategori atau konten rating aplikasi
tertentu?
3. Apakah jumlah review dan polaritas memiliki hubungan kuat terhadap rating atau
popularitas aplikasi?
4. Dapatkah kita membangun model prediksi sentimen berdasarkan data review?
DATA UNDERSTANDING
Nama Kolom DatasetDeskripsi
App Metadata: Terdapat 10.841 aplikasi dan 13
Singkat
Dataset App Metadata: Terdapat kolom fitur.
10.841 aplikasi dan 13 kolom fitur.
App Nama aplikasi
Dataset User Reviews & Sentiment: Terdapat 64.295
Dataset User Reviews & ulasan dan(e.g.,
5 kolom fitur.
Category Kategori umum aplikasi TOOLS, GAME, EDUCATION)
Sentiment: Terdapat 64.295
ulasan dan 5 kolom fitur.
Rating Nilai rating rata-rata dari pengguna (1.0–5.0)
Mayoritas Aplikasi Mendapat Rating Tinggi: Sebagian besar aplikasi memperoleh rating antara 4.0 hingga 4.5, yang
mengindikasikan bahwa pengguna cenderung memberikan ulasan yang positif terhadap aplikasi yang mereka gunakan.
OBSERVATION QUESTIONS
Berdasarkan analisis sentimen dari ulasan pengguna, terlihat bahwa sentimen positif mendominasi, menunjukkan
tingkat kepuasan yang cukup tinggi terhadap aplikasi-aplikasi yang tersedia.
OBSERVATION QUESTIONS
Dari seluruh kategori aplikasi yang tersedia, kategori Game dan Family menempati posisi teratas dalam hal jumlah
aplikasi dan pengguna, mengindikasikan tingginya minat terhadap aplikasi hiburan dan keluarga.
OBSERVATION QUESTIONS
Aplikasi yang ditujukan untuk semua kalangan (Everyone) memiliki jangkauan pengguna yang lebih besar, menunjukkan
bahwa semakin inklusif target audiens, semakin tinggi potensi adopsinya.
OBSERVATION QUESTIONS
Banyak review yang sangat objektif (subjectivity = 0). Puncak lainnya berada di sekitar nilai 0.5–0.6, yang artinya
mayoritas review bersifat semi-opini. Kurva menunjukkan distribusi cenderung menyebar rata dari objektif hingga
subjektif.
OBSERVATION QUESTIONS
Visualisasi distribusi menunjukkan bahwa pengguna yang memberikan rating positif (1) jauh lebih banyak
dibandingkan yang memberikan rating negatif (-1), memperkuat temuan bahwa secara umum aplikasi mendapat
tanggapan baik dari pengguna.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?
Insight:
Developer aplikasi sebaiknya tetap menjaga kualitas
meskipun aplikasi sudah populer, karena jumlah install
besar tetap bisa mendapatkan review negatif jika
kualitas menurun.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?
Insight:
Developer tidak harus khawatir soal ukuran aplikasi
selama performa dan fitur aplikasinya baik, karena
rating dan ulasan cenderung lebih dipengaruhi oleh
experience pengguna, bukan ukuran file.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?
Insight:
Jumlah review dapat menjadi indikator kepercayaan
dan popularitas pengguna. Semakin banyak review
yang diterima, semakin stabil rating dan persepsi
pengguna terhadap aplikasi.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?
Insight:
Validasi bahwa analisis sentimen dari review (polarity)
secara umum selaras dengan rating pengguna. Ini
menunjukkan bahwa fitur sentiment polarity bisa
digunakan sebagai prediktor dalam model klasifikasi
sentimen maupun regresi rating.
OBSERVATION QUESTIONS
Apakah jumlah review dan install memiliki hubungan kuat terhadap rating atau popularitas aplikasi?
Logistic Regression
Metric yang digunakan
K-Nearest Neighbors (KNN) Accuracy
Random Forest 🌲 Precision (macro)
Recall (macro)
Support Vector Machine (SVM)
F1-score (macro)
XGBoost ⚡
Before Tuning
After Tuning
Random Forest (Terbaik)
025
GITHUB AND DEPLOYMENT
📌 Ringkasan Proyek
● Dataset: Ulasan Aplikasi Google Play Store (sudah dibersihkan dan diproses)
● Ukuran Data: 100.000+ ulasan dengan rating, label sentimen, dan metadata
aplikasi
● Tujuan: Menganalisis pola sentimen pengguna dan membangun model klasifikasi
sentimen
● Tools: Google Colab, VS Code, Streamlit, Plotly, Scikit-learn, Random Forest
Karena keterbatasan ukuran file di GitHub dan Streamlit Cloud, file model disimpan di
Google Drive dan diunduh secara otomatis menggunakan gdown saat runtime:
● 📎 rf_sentiment_model.pkl (Download)
● 📎 tfidf_vectorizer.pkl (Download)
📊 Fitur Dashboard
- 📈 Eksplorasi Data (EDA) 🔗 Github Project Data Science
- 🔍 Prediksi Sentimen
- ☁ Visualisasi WordCloud
🔗 Streamlit Live App
CONCLUSION & RECOMMENDATION
CONCLUSION
Sentimen pengguna di Google Play Store mayoritas positif, namun aplikasi populer tetap
bisa menerima ulasan negatif.
Fitur yang paling mempengaruhi persepsi pengguna adalah rating, jumlah installs, dan
kategori aplikasi.
Analisis menunjukkan bahwa jumlah review dan rating tinggi memiliki hubungan kuat
dengan sentimen positif, tapi tidak selalu linier.
Random Forest memberikan performa terbaik dalam klasifikasi sentimen (akurasi 93%),
cocok digunakan untuk sistem monitoring review aplikasi
CONCLUSION & RECOMMENDATION
RECOMMENDATION
Developer sebaiknya tidak hanya fokus pada rating, tapi juga kualitas pengalaman
pengguna untuk menjaga sentimen positif.
Gunakan sentiment analysis secara otomatis sebagai alat bantu dalam strategi
pengembangan produk.
Pantau kategori dengan review negatif tinggi sebagai sinyal potensi perbaikan
aplikasi.
Terapkan model prediksi ini dalam proses Customer Feedback Monitoring untuk
merespons lebih cepat.
Please feel free to reach
out with any Questions,
compliments, or concerns.