0% found this document useful (0 votes)

97 views54 pages

Lumira Unsoed Data Science Portfolio

Data analytics internship opportunity to meet you at the time is the warmest colour of dashboard it's blue and white colour scorpio

Uploaded by

rohtakiya124001

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

97 views54 pages

Lumira Unsoed Data Science Portfolio

Data analytics internship opportunity to meet you at the time is the warmest colour of dashboard it's blue and white colour scorpio

Uploaded by

rohtakiya124001

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

DATA ANALYST AND

DATA SCIENCE
PROJECT PORTFOLIO

By Jihan Amalia Laelani 1

TABLE OF CONTENTS
1 WHO AM I? 8 OVERVIEW PROJECT DATA SCIENCE

2 SKILL AND TOOLS 9 DATA PREPARATION

3 OVERVIEW PROJECT DATA ANALYST 10 OBSERVATION QUESTIONS

4 DATA PREPARATION 11 MODELLING & EVALUATION

5 OBSERVATION QUESTIONS 12 DEPLOYMENT

6 CUSTOMER DASHBOARD 13 RECOMMENDATION

7 RECOMMENDATION
2
Jihan Amalia Laelani
🔭 I’m currently taking a 6-month Full Stack Data Science
Bootcamp Program with [Link]
Inspired by many jobs involving Data and Big Data teams, I ﬁnally
realized that data is very important for companies. That was when I
wanted to enhance my knowledge about Data Science and the skills
needed to become a data scientist. In this technology-based life
that continues to develop, it makes me more interested and
challenged to seek new knowledge and innovations about Data
Science.

🌍 I am based in Jakarta, Indonesia!

✉ You can contact me at Jihan.amalia02@[Link]

📫 Alternatively, you can reach me through my LinkedIn proﬁle!

“Committed to use my technical
and analytical skills to provide
valuable insights and data-driven
solutions and adapt quickly to
industry changes”
Jihan Amalia Laelani
Data Science Enthusiast

4
EDUCATION
JENDERAL SOEDIRMAN UNIVERSITY (2015 - 2019)
Bachelor of Fisheries
● Relevant Coursework: Mathematics, Statistics, Basic of management, Entrepreneurship.
● Journal: Isolation and Detection of Aeromonas hydrophila in Milkﬁsh (Chanos chanos) Cultivation
in Karangtalun Village, Cilacap Regency ([Link]

[Link] (Feb 2025 - present)

Full-Stack Data Analyst and Data Science Bootcamp
● Learn about Data Preprocessing such as cleaning, manipulation
data and Exploratory Data Analysis.
● Learn about Database Management (SQL Query, ETL, Web
Scraping) and Dashboarding such as Data Storytelling and We
Dashboard Development
● Exploring Tableau dan Power BI for making dashboard
● Exploring machine learning model to Understanding Business in
Data Analyst & Data Science
WORKING EXPERIENCES
KOINWORKS (2022 - Present) CIMB Niaga Bank (2020 - 2021)
Credit Admin Lumpsum Back Office Staff

● Checking borrower payment evidence, provided that it is ● Analyze the status of the credit card to be closed to
100% to the correct loan. ensure no additional charges will be incurred.
● Calculate every payment requested by the business team. ● Provide information & solutions for customers regarding
● Inputting payment data into the tracker/Google Sheets card closure.
● Creating JIRA for payments with differences or
discounts.
● Following up the payment process until the status is
clear/paid off/settled.
● Create daily and monthly recaps to monitor repayment
data, and also maintain a 100% accuracy reconciliation of
each repayment.
SKILL AND TOOLS
1 2 3
DATA ANALYSIS DATA PROCESSING DASHBOARDING
Experienced in exploring and Experienced in cleaning, processing, and Experienced to create
analyzing data to uncover trend handling large Visualization and making
and business insights. datasets using Python dashboard with large data
using PowerBI and Tableau
Experienced in descriptive Experienced in data manipulation
techniques using Pandas and SQL
statistics, and hypothesis testing.

Programming Language: Framework: Visualization: Tools:

7
OVERVIEW PROJECT
Final Project Data Analyst
Unveiling Hotel Booking Trends
Description:

These dataset contain the information of hotel bookings between in the year
of 2024 at Malaysia. The dataset contains 6,050 hotel transactions with 36
columns, covering various aspects of hotel bookings, customer details, sales
performance, and ﬁnancial metrics

Methods: Customer Segmentation Analysis

Results: Categorizing customers based on their segments and gain

behavioral insights from each segment so the company can produce business
recommendations.
Objective Overview

OBJECTIVE OVERVIEW
To gain insights for further business development such as Sales, Customer
Preferences, Employee Performance, Hotel Performance, Customer
Satisfaction.
So these are the Key Business Questions:
1. Which hotels generate the most revenue over time?
2. Who are the top-performing sales staff and how does their role
impact results?
3. When are the peak booking periods (based on arrival dates)?
4. Do members (Gold, Platinum) spend more or show higher loyalty?
5. Which customer review category brings the highest sales?
6. Which customer category (Corporate, Family) are the most revenue
over time?
7. How many customers are there from each Segmentation?
8. What is the percentage of RFM Score by hotel?
DATA CLEANING AND MANIPULATION
Step 1 Step 2 Step 3 Step 4

Checking Missing Value

Converting data column Checking duplicate Checking Outlier

change " " with "_" Membership: 83 people with N/A No duplicate data found No extreme outliers found

Change column to lowercase

Delete space and underscore in the

end of line
DATA CLEANING AND MANIPULATION
Step 5 Step 6 Step 7 Step 8

Saving the ﬁnal Create Dashboard

Observation Questions Create Visualizations
data for the dashboard with Power BI

Analyze questions and provide To provide an overview and make it Save ﬁle with CSV type for next Creating dashboard and customer
insights easier to understand the results analyze with Power BI segmentation in Power BI
OBSERVATION QUESTIONS When are the peak booking periods (based on arrival dates)?

Which hotels generate the most revenue over time?

March is the busiest month, indicating a peak period —

possibly due to spring break, early-year vacations, or
conferences. July is also a major peak, aligning with school
Lexis Suites, Penang generated the highest revenue with holidays and summer vacations in many countries. January
total sales nominal of 15,715,220, then The Hilton, Kuala
sees high activity, likely due to New Year’s travel or
Lumpur with a revenue of 15,540,230, and ﬁnally Le
Méridien, Sabah with a total revenue of 15,523,407. The top extended holiday vacations. Lowest booking month is April
performers are located in Penang (North). (373 bookings), suggesting a post-holiday and pre-summer
lull.
OBSERVATION QUESTIONS
Who are the top-performing sales staff and how does their role impact results?

Leo, the Sales Manager, is the most efficient in terms of generating sales revenue with total sales 16,323,433
Other insight provides information sales Executives dominate the top rankings, indicating that while the
Sales Manager is slightly more efficient, individual Sales Executives like Amy and Derek are very close in
performance.
OBSERVATION QUESTIONS Which customer review category brings the highest
sales?
Do members spend more or show higher loyalty?

The "Excellent" customer review category brings in the

Gold members spend more per booking than Platinum highest total sales, totaling 4.3 million. This indicates a
members. Gold members also generate higher total sales strong positive relationship between customer satisfaction
than Platinum members. and revenue.
OBSERVATION QUESTIONS
How many customers are there from each segment?

● Largest Segment: About To Sleep segment has the highest number of customers (2,459), indicating many
customers are at risk of churning.
● Potential Loyalist (1,292) and Average (1,281) are promising for conversion to loyal customers.
● Very few Champions (7), Recent Customers (3), and Cannot Lose Them (17), suggesting a need to improve
engagement strategies.
OBSERVATION QUESTIONS What is the percentage of RFM Score by hotel?

Which customer category are the most revenue over time?

The corporate category has the highest total sales, and the Even Distribution: RFM scores are almost equally
Family category has a slightly lower total revenue than distributed among the three hotels:
Corporate. The individual category generates the lowest
total revenue. ● Lexis Suites, Penang – 33.54%
● The Hilton, Kuala Lumpur – 33.23%
● Le Méridien, Sabah – 33.22%
OBSERVATION QUESTIONS
Which customer segment is the most dominant across all three hotels based on RFM scores, and what are the
implications for marketing strategy?

‘About To Sleep’ is the dominant segment in all three hotels. This segment includes customers who used to be active but haven’t engaged recently, indicating a
high risk of churn. Recommendation to use personalized emails or loyalty incentives to reactivate them.

Potential Loyalist’ is also a signiﬁcant segment, they are engaged and interested. Recommendation offering loyalty programs, rewards, or exclusive member
beneﬁts.

Very few ‘Champions’ or ‘Recent Customers’. There are very few high-value or newly acquired customers. indicates a need for enhanced engagement and retention
efforts.
RECOMMENDATIONS
1 Strengthen Engagement with At-Risk Customers
Launch reactivation campaigns with personalized emails and special offers.
Offer incentives for return visits, such as discounts or free upgrades.

2 Convert Potential Loyalists and Average Customers

Promote loyalty programs and exclusive beneﬁts.
Use targeted promotions to encourage more frequent stays and larger bookings

3 Optimize Off-Peak Months

Run seasonal promotions or host special events to boost occupancy.
Offer bundle deals (e.g., spa + room, dining + stay) to increase average spend.
4 Enhance Value for Gold and Platinum Members
Offer exclusive perks to Gold members to retain and upgrade them.
Reassess Platinum member beneﬁts to encourage higher spend.

5 Empower Top-Performing Sales Staff

Incentivize top performers with bonuses or recognition.
Use their methods as best practices for training new staff.

6 Focus on Corporate and Family Segments

Offer corporate packages (meeting rooms, long-stay discounts).
Develop family-friendly amenities (kids’ activities, adjoining rooms).
CUSTOMER
DASHBOARD
GITHUB AND
DEPLOYMENT
🏨 Hotel Customer Segmentation Dashboard Welcome to my Final Project as a Data Analyst,
built as part of a full-stack Data Science Bootcamp. This interactive Streamlite dashboard
applies RFM (Recency, Frequency, Monetary) analysis to segment hotel customers and derive
actionable business insights.

📌 Project Summary

● Dataset: Hotel Sales 2024 (Malaysia)

● Size: 6,050 transactions across 3 hotels
● Goal: Segment customers using RFM Analysis and generate business recommendations
● Tools: Google Colab, PowerBI, Visual Studio Code, Streamlit, Plotly, Pandas

📊 Features

● RFM segmentation with dynamic ﬁlters

● Interactive pie & bar charts 🔗 Github Project Data Analyst
● Customer distribution based on reviews
● Monthly sales and segment breakdown 🔗 Streamlit Live App
● Salesperson performance insights
● Business recommendations section
OVERVIEW PROJECT
Final Project Data Science
Uncovering Sentiment Patterns in Google
Play Store
Dataset ini didapatkan dari kaggle dengan judul Google Play Dataset App Metadata
Store Apps Dataset ini berisi informasi metadata aplikasi
L. Gupta, "Google Play Store Apps," Feb 2019. [Online]. Available: Google Play Android yang tersedia di Google Play Store. Total
Store Apps terdapat 10.841 aplikasi dan 13 kolom ﬁtur.
Kumpulan data ini menyediakan informasi tentang aplikasi seluler di Google
Play Store, dan dibagi menjadi dua bagian:
Dataset User Reviews & Sentiment
Dataset ini mencakup 64.295 ulasan pengguna
untuk berbagai aplikasi di Play Store. Namun, hanya
sekitar 37.400 ulasan yang memiliki isi dan label
sentimen.
OBJECTIVE OVERVIEW
CRISP-DM Framework

Business Data Data

Understanding Understanding Preparation

Modeling Evaluation Deployment

2025
BUSINESS UNDERSTANDING
🧠 Latar Belakang:
Aplikasi mobile kini menjadi bagian penting dalam kehidupan digital. Rating dan review
sangat mempengaruhi kesuksesan aplikasi. Namun, opini publik bisa dipengaruhi viralitas
media sosial — review negatif/positif bisa muncul secara masif karena tren, bukan
pengalaman nyata. Oleh karena itu, dibutuhkan analisis sentimen yang sistematis untuk
membantu developer memahami umpan balik secara objektif dan cepat.

📊 Permasalahan:
- Volume review yang sangat besar dan bervariasi
- Bias akibat viralitas media sosial
- Tidak diketahui faktor-faktor utama yang mempengaruhi rating aplikasi
- Tidak adanya sistem otomatis untuk memantau sentimen pengguna secara real-time
- Minimnya pemanfaatan data ulasan untuk pengambilan keputusan strategis
BUSINESS UNDERSTANDING
💬 Tujuan:
Analisis ini bertujuan untuk menggali insight dari data aplikasi dan ulasan pengguna di Google Play
Store, serta membangun sistem klasifikasi sentimen yang dapat membantu developer memahami
persepsi pengguna secara efisien dan berbasis data, secara khusus tujuan ini untuk:
- Menganalisis persebaran sentimen pengguna terhadap aplikasi (positif, negatif, netral)
dalam skala besar.
- Mengidentifikasi faktor-faktor utama (rating, jumlah install, harga, kategori, dll.) yang
berhubungan dengan sentimen pengguna.
- Menggali pola sentimen berdasarkan kategori/genre aplikasi, untuk mengetahui jenis
aplikasi yang paling banyak disukai atau dikritik.
- Menganalisis hubungan antara jumlah review, polaritas, dan rating/popularitas aplikasi,
guna memahami dinamika performa aplikasi.
- Membangun model prediksi sentimen otomatis berdasarkan isi ulasan dan metadata
aplikasi, yang dapat digunakan dalam sistem monitoring atau rekomendasi bisnis.
BUSINESS UNDERSTANDING
⭐ Key Business Questions:
1. Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat
dengan persebaran sentimen (positif/negatif/netral) pengguna terhadap aplikasi di
Google Play Store?
2. Apakah terdapat pola sentimen berdasarkan kategori atau konten rating aplikasi
tertentu?
3. Apakah jumlah review dan polaritas memiliki hubungan kuat terhadap rating atau
popularitas aplikasi?
4. Dapatkah kita membangun model prediksi sentimen berdasarkan data review?
DATA UNDERSTANDING
Nama Kolom DatasetDeskripsi
App Metadata: Terdapat 10.841 aplikasi dan 13
Singkat
Dataset App Metadata: Terdapat kolom fitur.
10.841 aplikasi dan 13 kolom fitur.
App Nama aplikasi
Dataset User Reviews & Sentiment: Terdapat 64.295
Dataset User Reviews & ulasan dan(e.g.,
5 kolom fitur.
Category Kategori umum aplikasi TOOLS, GAME, EDUCATION)
Sentiment: Terdapat 64.295
ulasan dan 5 kolom fitur.
Rating Nilai rating rata-rata dari pengguna (1.0–5.0)

Converting data column: Reviews Jumlah ulasan pengguna

- Menghapus spasi di awal
dan diakhir kolom Size Ukuran aplikasi (dalam MB/KB atau “Varies”)
- Mengganti spasi dengan
underscore (_) Installs Jumlah unduhan (format teks: “1,000+”)
- Mengubah menjadi
Type Jenis aplikasi: Free atau Paid
lowercase
Price Harga aplikasi
Converting data type:
- Kolom Reviews dan install Translated_Review Isi teks ulasan pengguna
obj -> int
- Kolom Price menjadi Float Sentiment Label sentimen: Positive, Neutral, Negative
- Kolom last_update obj ->
datetime Sentiment_Polarity Skor numerik –1 (negatif) s.d. +1 (positif)

Sentiment_Subjectivity Skor subjektivitas review (0–1) 29

DATA
PREPARATION
Step 1 Step 2 Step 3 Step 4 Step 5

Checking Missing Checking Checking Outlier: Filtered sentiment Merge Data:

Value: Duplicated: data:
Outliers were Following data
Handling with Total of 483 duplicate detected in rating, Only 100%
cleaning, the App
median (Rating entries were found reviews, size, review-ﬁlled and
1474 and Size and dropped. installs, and price. unique entries (26,868 Metadata and User
1695) Instead of removing missing reviews, 7,735 Reviews & Sentiment
them, log duplicates removed) datasets were
Handling with transformation was combined for further
mode (Type 1, applied to reviews analysis (40414 clean
Current_ver 8, and installs to data)
Android_ver 2) reduce skewness.
DATA
PREPARATION
Step 6 Step 7 Step 8 Step 9 Step 10

Observation Feature Engineering: Modelling: Evaluasi: Deployment dan

Questions: Metrics yang Conclusion
Konversi dari teks Fitur (X): Hasil TF-IDF digunakan:
positive, neutral, vectorization dari
Exploratory Data negative menjadi Accuracy, Precision, Platform: Streamlit
text_clean
and provide 2,1,0 Recall, F1-Score
Target (y): Label
insights Ekstraksi ﬁtur teks sentiment_label
Melakukan
menggunakan TF-IDF
(dan melakukan Model yang digunakan: pemilihan model
pembersihan kata Logistic Regression terbaik
hingga clean untuk K-Nearest Neighbors
pemodelan) Random Forest
Support Vector Machine
XGBoost
OBSERVATION QUESTIONS

Mayoritas Aplikasi Mendapat Rating Tinggi: Sebagian besar aplikasi memperoleh rating antara 4.0 hingga 4.5, yang
mengindikasikan bahwa pengguna cenderung memberikan ulasan yang positif terhadap aplikasi yang mereka gunakan.
OBSERVATION QUESTIONS

Berdasarkan analisis sentimen dari ulasan pengguna, terlihat bahwa sentimen positif mendominasi, menunjukkan
tingkat kepuasan yang cukup tinggi terhadap aplikasi-aplikasi yang tersedia.
OBSERVATION QUESTIONS

Dari seluruh kategori aplikasi yang tersedia, kategori Game dan Family menempati posisi teratas dalam hal jumlah
aplikasi dan pengguna, mengindikasikan tingginya minat terhadap aplikasi hiburan dan keluarga.
OBSERVATION QUESTIONS

Aplikasi yang ditujukan untuk semua kalangan (Everyone) memiliki jangkauan pengguna yang lebih besar, menunjukkan
bahwa semakin inklusif target audiens, semakin tinggi potensi adopsinya.
OBSERVATION QUESTIONS

Banyak review yang sangat objektif (subjectivity = 0). Puncak lainnya berada di sekitar nilai 0.5–0.6, yang artinya
mayoritas review bersifat semi-opini. Kurva menunjukkan distribusi cenderung menyebar rata dari objektif hingga
subjektif.
OBSERVATION QUESTIONS

Visualisasi distribusi menunjukkan bahwa pengguna yang memberikan rating positif (1) jauh lebih banyak
dibandingkan yang memberikan rating negatif (-1), memperkuat temuan bahwa secara umum aplikasi mendapat
tanggapan baik dari pengguna.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?

Popularitas aplikasi (diukur dari jumlah install)

berkorelasi positif dengan persepsi pengguna,
tetapi tidak secara mutlak. Semakin tinggi jumlah
install, semakin besar kemungkinan aplikasi tersebut
menerima lebih banyak sentimen positif. rating tinggi
tidak menjamin sentimen positif sepenuhnya.
Beberapa titik berwarna biru (negatif) dan oranye
(netral) tetap muncul di rating tinggi dan jumlah
install besar.

Insight:
Developer aplikasi sebaiknya tetap menjaga kualitas
meskipun aplikasi sudah populer, karena jumlah install
besar tetap bisa mendapatkan review negatif jika
kualitas menurun.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?

Harga aplikasi tidak terlalu berpengaruh signiﬁkan

terhadap rating dan jumlah install. Penyebaran
sentimen juga tidak begitu banyak dan masih
didominasi oleh sentimen positif.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?

Tidak terlihat korelasi yang kuat antara ukuran

aplikasi dengan rating, aplikasi kecil maupun besar
bisa memiliki rating tinggi maupun rendah. Titik-titik
dengan sentimen positif (hijau) mendominasi semua
rentang ukuran, terutama di rating tinggi. Ukuran
aplikasi tidak secara langsung mempengaruhi
persepsi pengguna dalam bentuk rating atau
sentimen.

Insight:
Developer tidak harus khawatir soal ukuran aplikasi
selama performa dan ﬁtur aplikasinya baik, karena
rating dan ulasan cenderung lebih dipengaruhi oleh
experience pengguna, bukan ukuran ﬁle.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?

Mayoritas aplikasi dengan rating tinggi (4.0–4.7)

memiliki jumlah review yang bervariasi, mulai dari
rendah hingga sangat tinggi. Aplikasi dengan jumlah
review yang tinggi (log > 12) cenderung memiliki
sentimen positif yang dominan, terlihat dari
banyaknya titik hijau di bagian atas kanan graﬁk.

Insight:
Jumlah review dapat menjadi indikator kepercayaan
dan popularitas pengguna. Semakin banyak review
yang diterima, semakin stabil rating dan persepsi
pengguna terhadap aplikasi.
OBSERVATION QUESTIONS
Faktor apa saja (rating, kategori, jumlah install, harga, dsb.) yang berhubungan kuat dengan persebaran
sentimen (positif/negatif/netral) pengguna terhadap aplikasi di Google Play Store?

Ada korelasi positif yang cukup kuat antara

sentiment review dengan rating.

Polarity negatif (-1.0 sampai 0) didominasi oleh rating

rendah hingga menengah (2.5–4.0). Polarity positif (0
sampai 1.0) didominasi oleh rating tinggi (4.0–5.0).
Titik hijau (positif) menumpuk di sebelah kanan,
bersamaan dengan rating tinggi.
Titik biru (negatif) terpusat di sebelah kiri dan
berasosiasi dengan rating rendah.

Insight:
Validasi bahwa analisis sentimen dari review (polarity)
secara umum selaras dengan rating pengguna. Ini
menunjukkan bahwa ﬁtur sentiment polarity bisa
digunakan sebagai prediktor dalam model klasiﬁkasi
sentimen maupun regresi rating.
OBSERVATION QUESTIONS
Apakah jumlah review dan install memiliki hubungan kuat terhadap rating atau popularitas aplikasi?

Fitur paling berkorelasi dengan sentimen polarity adalah

sentiment_subjectivity (0.24).
Artinya, review yang semakin subjektif (opini pribadi),
cenderung memiliki polaritas yang lebih positif.

Jumlah review dan install memiliki korelasi negatif ringan

terhadap polaritas
menunjukkan aplikasi yang populer cenderung menerima
review yang lebih beragam, termasuk yang negatif.

Korelasi dengan Rating

Jumlah review memiliki korelasi sedang terhadap rating
aplikasi (r = 0.36).
Sentiment polarity memiliki hubungan lemah terhadap rating
(r = 0.08).
Jumlah review sangat berkorelasi dengan popularitas aplikasi
(installs) (r = 0.92).
OBSERVATION QUESTIONS
Apakah terdapat pola sentimen berdasarkan kategori dan konten rating aplikasi tertentu?

Kategori Game dan Family mendominasi jumlah

aplikasi. Dan pola sentimen didominasi dengan
sentimen positif, namun didapatkan informasi
bahwa sentimen negatif juga meningkat sesuai
dengan popularitas dari aplikasi.
OBSERVATION QUESTIONS
Apakah terdapat pola sentimen berdasarkan kategori dan konten rating aplikasi tertentu?

Jumlah review tertinggi ada pada konten rating

(Everyone), dengan dominasi sentimen positif
yang sangat mencolok.
Sentimen negatif dan netral juga ada, namun jauh
lebih sedikit.
Menunjukkan bahwa Aplikasi dengan jangkauan
pengguna yang lebih luas (Everyone) cenderung
mendapat lebih banyak review dan lebih positif.
MODELLING AND EVALUATION
Untuk menjawab KBQ “Dapatkah kita membangun model prediksi sentimen berdasarkan data review?”

Membangun model klasiﬁkasi untuk memprediksi sentimen

Modelling – Sentiment Classification:
pengguna (Negative, Neutral, Positive) berdasarkan teks review.

Target (y): sentiment_label (hasil Train-test split: 80% data untuk

konversi dari kolom Sentiment) training, 20% untuk testing

Fitur utama (X): text_clean hasil Vectorizer: TF-IDF untuk mengubah

preprocessing review teks menjadi representasi numerik

Logistic Regression
Metric yang digunakan
K-Nearest Neighbors (KNN) Accuracy
Random Forest 🌲 Precision (macro)
Recall (macro)
Support Vector Machine (SVM)
F1-score (macro)
XGBoost ⚡
Before Tuning
After Tuning
Random Forest (Terbaik)

● Akurasi tertinggi: 93%

● F1-score per kelas sangat baik dan
seimbang:
○ Negative (kelas 0): F1 = 0.88
○ Neutral (kelas 1): F1 = 0.87
○ Positive (kelas 2): F1 = 0.95
● Kesalahan klasiﬁkasi paling minim di
semua kelas
● Mampu mengenali kelas minoritas
(neutral) lebih baik dibanding model
lain

📌 Kesimpulan: Cocok digunakan karena

konsisten, tahan outlier, dan akurat.

025
GITHUB AND DEPLOYMENT
📌 Ringkasan Proyek

● Dataset: Ulasan Aplikasi Google Play Store (sudah dibersihkan dan diproses)
● Ukuran Data: 100.000+ ulasan dengan rating, label sentimen, dan metadata
aplikasi
● Tujuan: Menganalisis pola sentimen pengguna dan membangun model klasiﬁkasi
sentimen
● Tools: Google Colab, VS Code, Streamlit, Plotly, Scikit-learn, Random Forest

🤖 Aset Machine Learning

Karena keterbatasan ukuran ﬁle di GitHub dan Streamlit Cloud, ﬁle model disimpan di
Google Drive dan diunduh secara otomatis menggunakan gdown saat runtime:

● 📎 rf_sentiment_model.pkl (Download)
● 📎 tﬁdf_vectorizer.pkl (Download)

📊 Fitur Dashboard
- 📈 Eksplorasi Data (EDA) 🔗 Github Project Data Science
- 🔍 Prediksi Sentimen
- ☁ Visualisasi WordCloud
🔗 Streamlit Live App
CONCLUSION & RECOMMENDATION
CONCLUSION

Sentimen pengguna di Google Play Store mayoritas positif, namun aplikasi populer tetap
bisa menerima ulasan negatif.

Fitur yang paling mempengaruhi persepsi pengguna adalah rating, jumlah installs, dan
kategori aplikasi.

Analisis menunjukkan bahwa jumlah review dan rating tinggi memiliki hubungan kuat
dengan sentimen positif, tapi tidak selalu linier.

Random Forest memberikan performa terbaik dalam klasiﬁkasi sentimen (akurasi 93%),
cocok digunakan untuk sistem monitoring review aplikasi
CONCLUSION & RECOMMENDATION
RECOMMENDATION

Developer sebaiknya tidak hanya fokus pada rating, tapi juga kualitas pengalaman
pengguna untuk menjaga sentimen positif.

Gunakan sentiment analysis secara otomatis sebagai alat bantu dalam strategi
pengembangan produk.

Pantau kategori dengan review negatif tinggi sebagai sinyal potensi perbaikan
aplikasi.

Terapkan model prediksi ini dalam proses Customer Feedback Monitoring untuk
merespons lebih cepat.
Please feel free to reach
out with any Questions,
compliments, or concerns.

Let’s collaborate and

connect!

THANK ➔ Linkedin: [Link]

YOU! ➔ Github: [Link]

➔ Email: jihan.amalia02@[Link]
➔ [Link]/+6282217802091

Data Analytics Terms for Hospitality
No ratings yet
Data Analytics Terms for Hospitality
4 pages
Data Analytics in Hospitality Industry
No ratings yet
Data Analytics in Hospitality Industry
30 pages
Top 1000 Customers Analysis Report
No ratings yet
Top 1000 Customers Analysis Report
19 pages
Interview Prep Guide for Coca-Cola Role
No ratings yet
Interview Prep Guide for Coca-Cola Role
6 pages
Sales Experience Overview in Hospitality
No ratings yet
Sales Experience Overview in Hospitality
3 pages
Data-Driven Marketing for Hotels
No ratings yet
Data-Driven Marketing for Hotels
4 pages
Internal Data Sources for Hotel Marketing
No ratings yet
Internal Data Sources for Hotel Marketing
18 pages
Hotel Booking Data Analysis EDA
No ratings yet
Hotel Booking Data Analysis EDA
20 pages
Top Data Analyst Interview Questions
No ratings yet
Top Data Analyst Interview Questions
5 pages
Hotel Booking Data EDA Insights
No ratings yet
Hotel Booking Data EDA Insights
20 pages
Banking Operations & Relationship Manager CV
100% (1)
Banking Operations & Relationship Manager CV
2 pages
Hotel Market Segmentation Strategies
No ratings yet
Hotel Market Segmentation Strategies
18 pages
Data Analytics in Hospitality Industry
No ratings yet
Data Analytics in Hospitality Industry
13 pages
Rezaul Alam: Business Development Profile
No ratings yet
Rezaul Alam: Business Development Profile
3 pages
Data Insights for Auto Parts Sales
No ratings yet
Data Insights for Auto Parts Sales
28 pages
Hotel Booking Data Analysis Insights
No ratings yet
Hotel Booking Data Analysis Insights
27 pages
Hotel Booking Data Analysis Insights
No ratings yet
Hotel Booking Data Analysis Insights
27 pages
Data Analytics in Hospitality Management
No ratings yet
Data Analytics in Hospitality Management
16 pages
Oberoi's CRM Strategy for Hospitality Excellence
No ratings yet
Oberoi's CRM Strategy for Hospitality Excellence
9 pages
Data Collection Strategies for Business Challenges
No ratings yet
Data Collection Strategies for Business Challenges
4 pages
Hospitality Professional Profile
No ratings yet
Hospitality Professional Profile
5 pages
Marketing Analytics Insights for Retail
No ratings yet
Marketing Analytics Insights for Retail
33 pages
CRM Strategies for Hospitality Excellence
No ratings yet
CRM Strategies for Hospitality Excellence
9 pages
Hotel Booking Data Analysis Insights
No ratings yet
Hotel Booking Data Analysis Insights
20 pages
Himanshu Shekhar Mishra: Career Overview
No ratings yet
Himanshu Shekhar Mishra: Career Overview
2 pages
Aifa Travel Agent Booking Database Design
0% (1)
Aifa Travel Agent Booking Database Design
33 pages
Strategies for Penang Mutiara Hotel Success
No ratings yet
Strategies for Penang Mutiara Hotel Success
13 pages
MRA Project: Sales & Customer Insights
67% (3)
MRA Project: Sales & Customer Insights
19 pages
Understanding Analytical CRM Systems
100% (1)
Understanding Analytical CRM Systems
29 pages
MRA Analysis for Auto Sales Insights
100% (8)
MRA Analysis for Auto Sales Insights
30 pages
CRM Strategies for Hotels
No ratings yet
CRM Strategies for Hotels
18 pages
Data Analyst Resume: Skills & Projects
No ratings yet
Data Analyst Resume: Skills & Projects
2 pages
Marketing Business Analytics Course Overview
No ratings yet
Marketing Business Analytics Course Overview
68 pages
Market Positioning for Kempinski Hotel
No ratings yet
Market Positioning for Kempinski Hotel
14 pages
Hospitality Industry Data Analysis Project
No ratings yet
Hospitality Industry Data Analysis Project
5 pages
RFM Analysis and Insights Dashboard
No ratings yet
RFM Analysis and Insights Dashboard
3 pages
RFM Analysis for Customer Segmentation
No ratings yet
RFM Analysis for Customer Segmentation
6 pages
Deep Learning Data Visualization Report
No ratings yet
Deep Learning Data Visualization Report
3 pages
Room Management Strategies for Hotels
No ratings yet
Room Management Strategies for Hotels
4 pages
Customer Analytics Course Overview
No ratings yet
Customer Analytics Course Overview
50 pages
Revenue Management Expertise Overview
No ratings yet
Revenue Management Expertise Overview
2 pages
Marketing Head Resume for Shabaj Shaikh
No ratings yet
Marketing Head Resume for Shabaj Shaikh
4 pages
Data Insights for Auto Parts Sales
100% (3)
Data Insights for Auto Parts Sales
29 pages
Hotel Booking Analysis by Rushikesh Mane
No ratings yet
Hotel Booking Analysis by Rushikesh Mane
22 pages
Key Metrics and Data Analysis Insights
No ratings yet
Key Metrics and Data Analysis Insights
1 page
Data Analysis Internships Overview
No ratings yet
Data Analysis Internships Overview
6 pages
Marketing Analytics for Auto Parts Sales
No ratings yet
Marketing Analytics for Auto Parts Sales
34 pages
Room Sales Management Strategies
100% (1)
Room Sales Management Strategies
32 pages
2018 Hotel Performance Analysis Report
No ratings yet
2018 Hotel Performance Analysis Report
36 pages
Customer Service Profiles for Hotels
No ratings yet
Customer Service Profiles for Hotels
42 pages
Hindustan Refines: Data-Driven Insights
No ratings yet
Hindustan Refines: Data-Driven Insights
22 pages
Diwali Sales Analysis Insights Report
No ratings yet
Diwali Sales Analysis Insights Report
9 pages
Credit Card Data Analytics Case Study
No ratings yet
Credit Card Data Analytics Case Study
4 pages
CRM Strategies and Tools Overview
No ratings yet
CRM Strategies and Tools Overview
11 pages
UITM Penang Hotel Management Analysis
100% (3)
UITM Penang Hotel Management Analysis
26 pages
ECE Department Timetable 2025-26
No ratings yet
ECE Department Timetable 2025-26
7 pages
Internship Updates for Batch-7 Students
No ratings yet
Internship Updates for Batch-7 Students
1 page
CSE Data Science Exam Questions 2020
No ratings yet
CSE Data Science Exam Questions 2020
2 pages
DCRUST Boys Hostel Registration Form
No ratings yet
DCRUST Boys Hostel Registration Form
1 page
Excel Conditional Formatting for Data Analysis
No ratings yet
Excel Conditional Formatting for Data Analysis
26 pages
RGW Auto Swap User Manual
No ratings yet
RGW Auto Swap User Manual
5 pages
ENCh 09
No ratings yet
ENCh 09
45 pages
Tableau Administrator Resume Summary
No ratings yet
Tableau Administrator Resume Summary
2 pages
Business Partner Configuration in SAP SD
100% (1)
Business Partner Configuration in SAP SD
7 pages
Senior Python Engineer Resume Summary
No ratings yet
Senior Python Engineer Resume Summary
6 pages
Understanding Java Introspection and JAR Files
No ratings yet
Understanding Java Introspection and JAR Files
22 pages
SQL Workshop Self-Test on Queries
100% (1)
SQL Workshop Self-Test on Queries
16 pages
Automation and Cybersecurity Overview
No ratings yet
Automation and Cybersecurity Overview
8 pages
Object Oriented Analysis and Design: Dr. Babasaheb Ambedkar Open University Ahmedabad
No ratings yet
Object Oriented Analysis and Design: Dr. Babasaheb Ambedkar Open University Ahmedabad
43 pages
Azure and Google Cloud MCQ Assignment
No ratings yet
Azure and Google Cloud MCQ Assignment
4 pages
SAP Query Reporting Guide
100% (1)
SAP Query Reporting Guide
9 pages
Implement The BADI To Download The Vendor Data in A Excel Sheet
No ratings yet
Implement The BADI To Download The Vendor Data in A Excel Sheet
8 pages
AIX 7 User Password Management Guide
No ratings yet
AIX 7 User Password Management Guide
4 pages
Understanding DBMS and Excel Functions
No ratings yet
Understanding DBMS and Excel Functions
29 pages
XAMPP Installation Guide for Developers
No ratings yet
XAMPP Installation Guide for Developers
67 pages
Web Programming Key Concepts and Questions
No ratings yet
Web Programming Key Concepts and Questions
8 pages
Barracuda Web App Firewall Administrator Guide PDF
No ratings yet
Barracuda Web App Firewall Administrator Guide PDF
258 pages
Ownership!
No ratings yet
Ownership!
2 pages
DoD Enterprise DevSecOps Reference Design
No ratings yet
DoD Enterprise DevSecOps Reference Design
31 pages
BDC Data Processing in ABAP Report
No ratings yet
BDC Data Processing in ABAP Report
2 pages
Customer Report on SQL Warehouse Analysis
No ratings yet
Customer Report on SQL Warehouse Analysis
148 pages
SQL Analytics and BI on Databricks
No ratings yet
SQL Analytics and BI on Databricks
93 pages
Database Assignment: Employee Tables
No ratings yet
Database Assignment: Employee Tables
18 pages
TPS Benefits in Management Information Systems
No ratings yet
TPS Benefits in Management Information Systems
7 pages
Cable Operator Management System Overview
No ratings yet
Cable Operator Management System Overview
8 pages
Kofax Web Capture: Developer's Guide
No ratings yet
Kofax Web Capture: Developer's Guide
194 pages
Full Stack Java Developer Resume
No ratings yet
Full Stack Java Developer Resume
7 pages
Information Security Case Study Overview
No ratings yet
Information Security Case Study Overview
6 pages
Average System Load Profile India 2024
No ratings yet
Average System Load Profile India 2024
36 pages
Creating Custom Modules in Data Crow
No ratings yet
Creating Custom Modules in Data Crow
15 pages

Lumira Unsoed Data Science Portfolio

Uploaded by

Lumira Unsoed Data Science Portfolio

Uploaded by

DATA ANALYST AND

By Jihan Amalia Laelani 1

2 SKILL AND TOOLS 9 DATA PREPARATION

3 OVERVIEW PROJECT DATA ANALYST 10 OBSERVATION QUESTIONS

4 DATA PREPARATION 11 MODELLING & EVALUATION

5 OBSERVATION QUESTIONS 12 DEPLOYMENT

6 CUSTOMER DASHBOARD 13 RECOMMENDATION

🌍 I am based in Jakarta, Indonesia!

✉ You can contact me at Jihan.amalia02@[Link]

📫 Alternatively, you can reach me through my LinkedIn proﬁle!

[Link] (Feb 2025 - present)

Programming Language: Framework: Visualization: Tools:

Methods: Customer Segmentation Analysis

Results: Categorizing customers based on their segments and gain

Checking Missing Value

Change column to lowercase

Delete space and underscore in the

Saving the ﬁnal Create Dashboard

Which hotels generate the most revenue over time?

March is the busiest month, indicating a peak period —

The "Excellent" customer review category brings in the

Which customer category are the most revenue over time?

2 Convert Potential Loyalists and Average Customers

3 Optimize Off-Peak Months

5 Empower Top-Performing Sales Staff

6 Focus on Corporate and Family Segments

● Dataset: Hotel Sales 2024 (Malaysia)

● RFM segmentation with dynamic ﬁlters

Business Data Data

Modeling Evaluation Deployment

Converting data column: Reviews Jumlah ulasan pengguna

Sentiment_Subjectivity Skor subjektivitas review (0–1) 29

Checking Missing Checking Checking Outlier: Filtered sentiment Merge Data:

Observation Feature Engineering: Modelling: Evaluasi: Deployment dan

Popularitas aplikasi (diukur dari jumlah install)

Harga aplikasi tidak terlalu berpengaruh signiﬁkan

Tidak terlihat korelasi yang kuat antara ukuran

Mayoritas aplikasi dengan rating tinggi (4.0–4.7)

Ada korelasi positif yang cukup kuat antara

Polarity negatif (-1.0 sampai 0) didominasi oleh rating

Fitur paling berkorelasi dengan sentimen polarity adalah

Jumlah review dan install memiliki korelasi negatif ringan

Korelasi dengan Rating

Kategori Game dan Family mendominasi jumlah

Jumlah review tertinggi ada pada konten rating

Membangun model klasiﬁkasi untuk memprediksi sentimen

Target (y): sentiment_label (hasil Train-test split: 80% data untuk

Fitur utama (X): text_clean hasil Vectorizer: TF-IDF untuk mengubah

● Akurasi tertinggi: 93%

📌 Kesimpulan: Cocok digunakan karena

🤖 Aset Machine Learning

Let’s collaborate and

THANK ➔ Linkedin: [Link]

YOU! ➔ Github: [Link]

You might also like