0% found this document useful (0 votes)

8 views

Descriptive Analytics2.Ipynb - Colab

The document is a Jupyter notebook focused on descriptive analytics using a dataset containing household income and expense information. It includes data loading, statistical analysis, outlier detection, and various visualizations using Python libraries like pandas and matplotlib. Key insights include average income, expenses, and the distribution of family members and earning members.

Uploaded by

lsivakum

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views

Descriptive Analytics2.Ipynb - Colab

Uploaded by

lsivakum

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

8/23/24, 11:48 AM descriptive analytics.

ipynb - Colab

Descriptive analytis

1. statistics module
2. pandas

pandas

load dataset

import pandas as pd
data = pd.read_csv('/content/sample_data/Inc_Exp_Data.csv')
print('Dataset dimension:',data.shape)
print('Columns :\n',data.columns)

Dataset dimension: (50, 7)

Columns :
Index(['Mthly_HH_Income', 'Mthly_HH_Expense', 'No_of_Fly_Members',
'Emi_or_Rent_Amt', 'Annual_HH_Income', 'Highest_Qualified_Member',
'No_of_Earning_Members'],
dtype='object')

data.head()

Mthly_HH_Income Mthly_HH_Expense No_of_Fly_Members Emi_or_Rent_Amt Annual_HH_I

0 5000 8000 3 2000

1 6000 7000 2 3000

2 10000 4500 2 0 1

3 10000 2000 1 0

4 12500 12000 2 3000 1

dataset contains 50 rows and 7 columns. 6 features are numeric and highetest-qualified feature
is string no null values

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 7 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Mthly_HH_Income 50 non-null int64
1 Mthly_HH_Expense 50 non-null int64
2 No_of_Fly_Members 50 non-null int64
3 Emi_or_Rent_Amt 50 non-null int64
https://colab.research.google.com/drive/1xk9I7-lnL2a6XcZmwsJ8BlsWA7Drd1do#scrollTo=MSxC8SClqcVL&printMode=true 1/9
8/23/24, 11:48 AM descriptive analytics.ipynb - Colab
4 Annual_HH_Income 50 non-null int64
5 Highest_Qualified_Member 50 non-null object
6 No_of_Earning_Members 50 non-null int64
dtypes: int64(6), object(1)
memory usage: 2.9+ KB

data.describe()

Mthly_HH_Income Mthly_HH_Expense No_of_Fly_Members Emi_or_Rent_Amt Annual_

count 50.000000 50.000000 50.000000 50.000000 5.0

mean 41558.000000 18818.000000 4.060000 3060.000000 4.9

std 26097.908979 12090.216824 1.517382 6241.434948 3.2

min 5000.000000 2000.000000 1.000000 0.000000 6.4

25% 23550.000000 10000.000000 3.000000 0.000000 2.5

50% 35000.000000 15500.000000 4.000000 0.000000 4.4

75% 50375.000000 25000.000000 5.000000 3500.000000 5.9

max 100000.000000 50000.000000 7.000000 35000.000000 1.4

visualize summary statistics

import matplotlib.pyplot as plt

bp = data[['Mthly_HH_Income', 'Mthly_HH_Expense','No_of_Fly_Members','No_of_Earning_Mem
plt.show()

https://colab.research.google.com/drive/1xk9I7-lnL2a6XcZmwsJ8BlsWA7Drd1do#scrollTo=MSxC8SClqcVL&printMode=true 2/9
8/23/24, 11:48 AM descriptive analytics.ipynb - Colab

monthly income, expenses and no_of_eraning_members have outliers

bp=plt.boxplot(data['Mthly_HH_Income'])
print(type(bp))
print(bp.keys())

<class 'dict'>
dict_keys(['whiskers', 'caps', 'boxes', 'medians', 'fliers', 'means'])
{'whiskers': [<matplotlib.lines.Line2D object at 0x7fb109d0e5c0>, <matplotlib.lines.L

remove outliers

mn, mx = [item.get_ydata()[1] for item in bp['caps']]

print('max:', mx,'min:', mn)

max: 90000 min: 5000

data.drop(data[data['Mthly_HH_Income']>mx].index, inplace=True)
plt.boxplot(data['Mthly_HH_Income'])

https://colab.research.google.com/drive/1xk9I7-lnL2a6XcZmwsJ8BlsWA7Drd1do#scrollTo=MSxC8SClqcVL&printMode=true 3/9
8/23/24, 11:48 AM descriptive analytics.ipynb - Colab

{'whiskers': [<matplotlib.lines.Line2D at 0x7fb109ec6020>,

<matplotlib.lines.Line2D at 0x7fb109ec62c0>],
'caps': [<matplotlib.lines.Line2D at 0x7fb109ec6560>,
<matplotlib.lines.Line2D at 0x7fb109ec6800>],
'boxes': [<matplotlib.lines.Line2D at 0x7fb109ec5d80>],
'medians': [<matplotlib.lines.Line2D at 0x7fb109ec6aa0>],
'fliers': [<matplotlib.lines.Line2D at 0x7fb109ec6d40>],
'means': []}

print('outliers in monthly income:\n',data[data['Mthly_HH_Income']>90000])

outliers in monthly income:

Mthly_HH_Income Mthly_HH_Expense No_of_Fly_Members Emi_or_Rent_Amt \
46 98000 25000 5 0
47 100000 30000 6 0
48 100000 50000 4 20000
49 100000 40000 6 10000

Annual_HH_Income Highest_Qualified_Member No_of_Earning_Members

46 1152480 Professional 2
47 1404000 Graduate 3
48 1032000 Professional 2
49 1320000 Post-Graduate 1

print('Average & SD on monthly income: ',data['Mthly_HH_Income'].mean(), round(data['Mthl

print('Average & SD on monthly expenses: ',data['Mthly_HH_Expense'].mean(),round(data['Mt
print('Average & SD on annual income: ',data['Annual_HH_Income'].mean(),round(data['Annu
print('Average earning members: ',data['No_of_Earning_Members'].mean())

Average & SD on monthly income: 41558.0 26097.91

Average & SD on monthly expenses: 18818.0 12090.22
Average & SD on annual income: 490019.04 320135.79

https://colab.research.google.com/drive/1xk9I7-lnL2a6XcZmwsJ8BlsWA7Drd1do#scrollTo=MSxC8SClqcVL&printMode=true 4/9
8/23/24, 11:48 AM descriptive analytics.ipynb - Colab
Average earning members: 1.46

print('max & min monthly income: ',data['Mthly_HH_Income'].max(),data['Mthly_HH_Income'].

print('max & min monthly expenses: ',data['Mthly_HH_Expense'].max(),data['Mthly_HH_Expens
print('max & min earning members: ',data['No_of_Earning_Members'].max(),data['No_of_Earni
print('max & min annual income: ',data['Annual_HH_Income'].max(),data['Annual_HH_Income']

max & min monthly income: 100000 5000

max & min monthly expenses: 50000 2000
max & min earning members: 4 1
max & min annual income: 1404000 64200

categorical fields

print('Most occuring value in highest qualified : ',data['Highest_Qualified_Member'].mode

print('Most occuring value in no. of earning members: ',data['No_of_Earning_Members'].mod

Most occuring value in highest qualified : 0 Graduate

Name: Highest_Qualified_Member, dtype: object
Most occuring value in no. of earning members: 0 1
Name: No_of_Earning_Members, dtype: int64

visualizations

import matplotlib.pyplot as plt

earn_members = data['No_of_Earning_Members'].unique()
earn_members

array([1, 2, 3, 4])

earn_members = data['No_of_Earning_Members'].unique()
plt.hist(data['No_of_Earning_Members'])
plt.title('Number of earning members in the families')
plt.xlabel('No. of earning members')
plt.ylabel('Count of families')
plt.xticks(earn_members )
#plt.yticks(range(1,len(data),3))
plt.show()

https://colab.research.google.com/drive/1xk9I7-lnL2a6XcZmwsJ8BlsWA7Drd1do#scrollTo=MSxC8SClqcVL&printMode=true 5/9
8/23/24, 11:48 AM descriptive analytics.ipynb - Colab

family_members = data['No_of_Fly_Members'].unique()
plt.hist(data['No_of_Fly_Members'])
plt.title('Number of Flamily Members in the families')
plt.xlabel('No. of family Members')
plt.ylabel('Count of families')
plt.xticks(family_members )
plt.show()

https://colab.research.google.com/drive/1xk9I7-lnL2a6XcZmwsJ8BlsWA7Drd1do#scrollTo=MSxC8SClqcVL&printMode=true 6/9
8/23/24, 11:48 AM descriptive analytics.ipynb - Colab

bar chart

x = range(len(data))
idx = [i+0.4 for i in x]
plt.bar(x,data['No_of_Fly_Members'], width=0.4, label='Family members')
plt.bar(idx,data['No_of_Earning_Members'], width=0.4,label='Earning members')
plt.title('No. of family members & earning members in each family')
plt.legend()
plt.xticks(range(0,51,5))
plt.ylabel('Count')
plt.show()

https://colab.research.google.com/drive/1xk9I7-lnL2a6XcZmwsJ8BlsWA7Drd1do#scrollTo=MSxC8SClqcVL&printMode=true 7/9
8/23/24, 11:48 AM descriptive analytics.ipynb - Colab

plt.plot(data['Mthly_HH_Income'], label='Income')
plt.plot(data['Mthly_HH_Expense'], label='Expenditure')
plt.legend()
plt.title('Family Income vs Expenditure')
plt.ylabel('Amount ')
plt.show()

https://colab.research.google.com/drive/1xk9I7-lnL2a6XcZmwsJ8BlsWA7Drd1do#scrollTo=MSxC8SClqcVL&printMode=true 8/9
8/23/24, 11:48 AM descriptive analytics.ipynb - Colab

x = data['No_of_Earning_Members'].value_counts()
print(x)
plt.pie(x,labels=x.index, autopct='%.0f%%' )
plt.title('Proportion of No. of Earning members in the families ')
plt.show()

1 33
2 12
3 4
4 1
Name: No_of_Earning_Members, dtype: int64

x = data['Highest_Qualified_Member'].value_counts()
print(x)
plt.pie(x,labels=x.index,autopct='%.0f%%' )
plt.title('Proportion of highest qualified in the families ')
plt.show()

Graduate 19
Under-Graduate 10
Professional 10
Post-Graduate 6
Illiterate 5
Name: Highest_Qualified_Member, dtype: int64

https://colab.research.google.com/drive/1xk9I7-lnL2a6XcZmwsJ8BlsWA7Drd1do#scrollTo=MSxC8SClqcVL&printMode=true 9/9

Tokyo Revengers, Chapter 218 - English Scans
No ratings yet
Tokyo Revengers, Chapter 218 - English Scans
1 page
Datascience With Answers
100% (1)
Datascience With Answers
36 pages
Unofficial TIBCO® Business Works™ Interview Questions, Answers, and Explanations: TIBCO Certification Review Questions
From Everand
Unofficial TIBCO® Business Works™ Interview Questions, Answers, and Explanations: TIBCO Certification Review Questions
equitypress
3.5/5 (2)
"Transmission Drive Pump Pressure Override Calibration": Illustration 1 g02500239 Cat ET Calibrations Menu
50% (2)
"Transmission Drive Pump Pressure Override Calibration": Illustration 1 g02500239 Cat ET Calibrations Menu
6 pages
Descriptive Analytics.ipynb - Colab
No ratings yet
Descriptive Analytics.ipynb - Colab
9 pages
Ads Exam 21c3
No ratings yet
Ads Exam 21c3
22 pages
Lab3
No ratings yet
Lab3
10 pages
SQL & Python Interview Q&A
No ratings yet
SQL & Python Interview Q&A
7 pages
Student Notebook HR Analysis
No ratings yet
Student Notebook HR Analysis
11 pages
Assignment Ds Midterm
No ratings yet
Assignment Ds Midterm
2 pages
Python Module 5
No ratings yet
Python Module 5
19 pages
ip file class 12
No ratings yet
ip file class 12
26 pages
SB Assignment 1 (Group 68)
No ratings yet
SB Assignment 1 (Group 68)
21 pages
Predictive+Modelling+-+Logistic+Regression+-+Student+Version-New2.3.ipynb - Colaboratory
No ratings yet
Predictive+Modelling+-+Logistic+Regression+-+Student+Version-New2.3.ipynb - Colaboratory
12 pages
Project paarth (1) (1)
No ratings yet
Project paarth (1) (1)
21 pages
Data Analysis Using Python
No ratings yet
Data Analysis Using Python
12 pages
Python
No ratings yet
Python
32 pages
prints
No ratings yet
prints
43 pages
Practical 2024 (1)
No ratings yet
Practical 2024 (1)
10 pages
Grade 12 Informatics Practical practice 2024-25
No ratings yet
Grade 12 Informatics Practical practice 2024-25
12 pages
22067515 Kushal Kadayat
No ratings yet
22067515 Kushal Kadayat
33 pages
Pract Person
No ratings yet
Pract Person
6 pages
Ip Kamalesh
No ratings yet
Ip Kamalesh
29 pages
Grade 12 - Practical..IP (10 To 15)
No ratings yet
Grade 12 - Practical..IP (10 To 15)
7 pages
Practical Questions
No ratings yet
Practical Questions
7 pages
DSBDA3 - Jupyter Notebook
No ratings yet
DSBDA3 - Jupyter Notebook
12 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
17 pages
SQL Problems
No ratings yet
SQL Problems
1 page
Answer Key for SET-1 TO 3
No ratings yet
Answer Key for SET-1 TO 3
7 pages
Machine Learning Engineer Nanodegree Supervised Learning Project: Finding Donors For CharityML
No ratings yet
Machine Learning Engineer Nanodegree Supervised Learning Project: Finding Donors For CharityML
16 pages
dav 2024 pyq
No ratings yet
dav 2024 pyq
7 pages
AIML LAB MANAUAL R23
100% (1)
AIML LAB MANAUAL R23
10 pages
Vertopal.com AML Project LearnerNotebook LowCode
No ratings yet
Vertopal.com AML Project LearnerNotebook LowCode
74 pages
Family Main
No ratings yet
Family Main
5 pages
L6 and 7-Data Preprocessing-coding
No ratings yet
L6 and 7-Data Preprocessing-coding
34 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
panda
No ratings yet
panda
39 pages
Python CheatSheet
No ratings yet
Python CheatSheet
2 pages
Ip Project Dineshh
No ratings yet
Ip Project Dineshh
30 pages
QP DAV 3rd Sem Dec 2023
No ratings yet
QP DAV 3rd Sem Dec 2023
12 pages
Data Preprocessing & Visualization1
No ratings yet
Data Preprocessing & Visualization1
2 pages
Report_1_AI17C_DBM302m_KhaiHoan_BaoChau_VanThu
No ratings yet
Report_1_AI17C_DBM302m_KhaiHoan_BaoChau_VanThu
6 pages
Mastering_Pandas_with_103_Practical_Questions_and_Solution_1731584558
No ratings yet
Mastering_Pandas_with_103_Practical_Questions_and_Solution_1731584558
48 pages
Python-for-Data-Analysis (Pandas
No ratings yet
Python-for-Data-Analysis (Pandas
31 pages
Chapter 4 - Python For Data Analysis
No ratings yet
Chapter 4 - Python For Data Analysis
47 pages
Ip Kamalesh
No ratings yet
Ip Kamalesh
30 pages
Salaries for San Francisco Employee _ ML _ FA _ DA projects
No ratings yet
Salaries for San Francisco Employee _ ML _ FA _ DA projects
33 pages
Maxbox Starter139 Top5 Data Diagram Types
No ratings yet
Maxbox Starter139 Top5 Data Diagram Types
4 pages
Employee Management Project
No ratings yet
Employee Management Project
33 pages
ML Lab Records
No ratings yet
ML Lab Records
101 pages
Unit 5 Fully
No ratings yet
Unit 5 Fully
29 pages
Python For DA
100% (2)
Python For DA
47 pages
Payroll Management System
No ratings yet
Payroll Management System
10 pages
IS5312 Mini Project-2
No ratings yet
IS5312 Mini Project-2
5 pages
Kunj Project 1
No ratings yet
Kunj Project 1
34 pages
Exercises 2
No ratings yet
Exercises 2
10 pages
Spark Walmart Data Analysis Project
No ratings yet
Spark Walmart Data Analysis Project
17 pages
Ip Project File
No ratings yet
Ip Project File
46 pages
profitanalysis
No ratings yet
profitanalysis
18 pages
Data Mining Models: Techniques and Applications
From Everand
Data Mining Models: Techniques and Applications
Ravi Deshpande
No ratings yet
Microsoft Visual Basic Interview Questions: Microsoft VB Certification Review
From Everand
Microsoft Visual Basic Interview Questions: Microsoft VB Certification Review
Equity Press
No ratings yet
The Data Science Workshop: A New, Interactive Approach to Learning Data Science
From Everand
The Data Science Workshop: A New, Interactive Approach to Learning Data Science
Anthony So
No ratings yet
TechLibrary - Juniper Networks
No ratings yet
TechLibrary - Juniper Networks
1 page
(Database Management System (DBMS) PDF
No ratings yet
(Database Management System (DBMS) PDF
136 pages
Wave Tech Network Copany Profile
No ratings yet
Wave Tech Network Copany Profile
11 pages
03 Compute Virtualization - Print
No ratings yet
03 Compute Virtualization - Print
9 pages
James W. Heisig - Remembering Simplified Hanzi 1 & 2 - AnkiWeb
No ratings yet
James W. Heisig - Remembering Simplified Hanzi 1 & 2 - AnkiWeb
1 page
The Forest
No ratings yet
The Forest
24 pages
User Manual: Product Type: Switching Power Supply Model Name: HG2, HP2, PSM, PSL
No ratings yet
User Manual: Product Type: Switching Power Supply Model Name: HG2, HP2, PSM, PSL
17 pages
CE212 Chapter1
No ratings yet
CE212 Chapter1
57 pages
Case - TS012798208
No ratings yet
Case - TS012798208
5 pages
The Relationship Between Cyber Security Among Mobile Banking User in Thailand
No ratings yet
The Relationship Between Cyber Security Among Mobile Banking User in Thailand
19 pages
Fnirsi Manual
No ratings yet
Fnirsi Manual
30 pages
DSY - SEM-III - Syllabus 2021-2022 - Comp - Engg
No ratings yet
DSY - SEM-III - Syllabus 2021-2022 - Comp - Engg
25 pages
DS Diskeeper18
No ratings yet
DS Diskeeper18
2 pages
What Is A Test Scenario - Write Atleast 15 Test Scenarios For Gmail
No ratings yet
What Is A Test Scenario - Write Atleast 15 Test Scenarios For Gmail
7 pages
Guidelines For Mini-Project
No ratings yet
Guidelines For Mini-Project
4 pages
Fpga Based Real Time Monitoring System For Agricultural Field
No ratings yet
Fpga Based Real Time Monitoring System For Agricultural Field
9 pages
Lab 6
No ratings yet
Lab 6
3 pages
Continous Deployment
No ratings yet
Continous Deployment
2 pages
1985 Peripheral Processor Interface Guide
No ratings yet
1985 Peripheral Processor Interface Guide
168 pages
2022 11 05.midterm
No ratings yet
2022 11 05.midterm
5 pages
Resume Harsh-Bansal For HARSH BANSAL
No ratings yet
Resume Harsh-Bansal For HARSH BANSAL
1 page
GM All Key Relearn Instructions
No ratings yet
GM All Key Relearn Instructions
3 pages
01 Unit 3 13 A Digital Portfolio Assignment 1 - Design Template l2
No ratings yet
01 Unit 3 13 A Digital Portfolio Assignment 1 - Design Template l2
8 pages
Account Statement From 1 Jul 2022 To 31 Dec 2022: TXN Date Value Date Description Ref No./Cheque No. Debit Credit Balance
No ratings yet
Account Statement From 1 Jul 2022 To 31 Dec 2022: TXN Date Value Date Description Ref No./Cheque No. Debit Credit Balance
10 pages
Piyush Didwania: Work Experience Skills
No ratings yet
Piyush Didwania: Work Experience Skills
1 page
HONOR X7a User Guide - (Magic UI 6.1 - 01, En)
No ratings yet
HONOR X7a User Guide - (Magic UI 6.1 - 01, En)
91 pages
TLE Reviewer Fundamental
No ratings yet
TLE Reviewer Fundamental
1 page
Mis PDF Lecture Notes 1 20
No ratings yet
Mis PDF Lecture Notes 1 20
187 pages