Clustering Documentation Python Code

The document describes performing hierarchical and k-means clustering on airline and crime datasets to determine the optimal number of clusters. For both datasets, it loads the data, normalizes the values, performs hierarchical clustering to visualize the dendrogram, then runs agglomerative clustering with 5 clusters and exports the results. Key libraries used include Pandas, Matplotlib, Scipy and Sklearn.

Uploaded by

nehal gundrapally

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

639 views

Clustering Documentation Python Code

Uploaded by

nehal gundrapally

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 8

1.

Perform clustering (Both hierarchical and K means clustering) for

the airlines data to obtain optimum number of clusters.
The data interface shows that crime data of their states
Importing libraries
import pandas as pd
import matplotlib.pylab as plt
=> Loading the data set
cdata = pd.read_csv("C:\\Users\\NEHAL RAJ\\Downloads\\crime_data.csv(5)\\crime_data.csv")
Describing the data set
cdata.describe()
Murder Assault UrbanPop Rape
count 50.00000 50.000000 50.000000 50.000000
mean 7.78800 170.760000 65.540000 21.232000
std 4.35551 83.337661 14.474763 9.366385
min 0.80000 45.000000 32.000000 7.300000
25% 4.07500 109.000000 54.500000 15.075000
50% 7.25000 159.000000 66.000000 20.100000
75% 11.25000 249.000000 77.750000 26.175000
max 17.40000 337.000000 91.000000 46.000000

data=cdata.drop(["Index"],axis=1)
=>Reducing the coloumn so that index coloumn is categorical data
def norm_func(i):
x=(i-i.min()) / (i.max()-i.min())
= return (x)
=df_norm=norm_func(data.iloc[:,:])
df_norm.describe()
Murder Assault UrbanPop Rape
count 50.000000 50.000000 50.000000 50.000000
mean 0.420964 0.430685 0.568475 0.360000
std 0.262380 0.285403 0.245335 0.242025
min 0.000000 0.000000 0.000000 0.000000
25% 0.197289 0.219178 0.381356 0.200904
50% 0.388554 0.390411 0.576271 0.330749
75% 0.629518 0.698630 0.775424 0.487726
max 1.000000 1.000000 1.000000 1.000000
=>Importing the linkage from scipy.cluster.hierarchy
from scipy.cluster.hirarchy import linkage
import scipy.cluster.hierarchy as sch
z = linkage(df_norm, method="complete",metrics="euclidean")
plt.figure(figsize=(20,5));plt.title("hierarchical clustering Dendrogram");
plt.xlable('index');plt.ylable('distance')

sch.dendrogram(z,
leaf_rotation = 90,
left_font_size= 10
)
plt.show
#algomerative clustering
=>from sklearn.cluster import AgglomerativeClustering

h_complete=AgglomerativeClustering(n_clusters=5 , linkage= 'complete' ,

affinity="euclidean").fit(df_norm)
h_complete.labels_

cluster_labels = pd.series(h_complete.labels_)
=>Adding the new coloumn to the data set
cdata['clust'] = cluster labels #creating new column
=>Changing the location of the coloumn
data=cdata.iloc[: ,[5,0,1,2,3,4,]]
data.head()
clust Index Murder Assault UrbanPop Rape
0 3 Alabama 13.2 236 58 21.2
1 4 Alaska 10.0 263 48 44.5
2 1 Arizona 8.1 294 80 31.0
3 0 Arkansas 8.8 190 50 19.5
4 1 California 9.0 276 91 40.6
=>Saving the data
data.iloc[: , 1:].groupby(data.clust).mean()
data.to_csv("crimedata.csv", encoding = "utf-8")

import os
os.getcwd()

Python libraries :
import pandas as pd
import mat plot lib. pylab as plt
import linkage from scipy.cluster.hierarchy
import scipy.cluster.hierarchy as sch
from sklearn.cluster import AgglomerativeClustering

2 . Perform clustering (Both hierarchical and K means clustering) for

the airlines data to obtain optimum number of clusters.
=>Importing the libraries
import pandas as pd
import matplotlib.pylab as plt
=>loading the data set
air = pd.read_excel("E:\\EastWestAirlines.xlsx",sheet_name="data")
air.describe()
ID# Balance ... Days_since_enroll Award?
count 3999.000000 3.999000e+03 ... 3999.00000 3999.000000
mean 2014.819455 7.360133e+04 ... 4118.55939 0.370343
std 1160.764358 1.007757e+05 ... 2065.13454 0.482957
min 1.000000 0.000000e+00 ... 2.00000 0.000000
25% 1010.500000 1.852750e+04 ... 2330.00000 0.000000
50% 2016.000000 4.309700e+04 ... 4096.00000 0.000000
75% 3020.500000 9.240400e+04 ... 5790.50000 1.000000
max 4021.000000 1.704838e+06 ... 8296.00000 1.000000
air1=air.drop(["ID#"],axis=1)
=>Droping the coloumn because it is categorical
def norm_func(y):
x = (y-y.min()) / (y.max()-y.min())
return (x)

df_norm=norm_func(air1.iloc[:,:])
=>Normalizing the data to reduce the values
df_norm.describe()
Balance Qual_miles ... Days_since_enroll Award?
count 3999.000000 3999.000000 ... 3999.000000 3999.000000
mean 0.043172 0.012927 ... 0.496330 0.370343
std 0.059112 0.069399 ... 0.248991 0.482957
min 0.000000 0.000000 ... 0.000000 0.000000
25% 0.010868 0.000000 ... 0.280685 0.000000
50% 0.025279 0.000000 ... 0.493610 0.000000
75% 0.054201 0.000000 ... 0.697914 1.000000
max 1.000000 1.000000 ... 1.000000 1.000000
from scipy.cluster.hierarchy import linkage

import scipy.cluster.hierarchy as sch

z = linkage(df_norm, method="complete",metrics="euclidean")
=> Figering the data to find the no of clusteres

plt.figure(figsize=(20,20));plt.title("hierarchical clustering
Dendrogram");plt.xlable('index');plt.ylable('distance')

sch.dendrogram(z,
leaf_rotation = 90,
left_font_size= 10

)
plt.show
#algomerative clustering
from sklearn.cluster import AgglomerativeClustering

=> Creating no of clusters based on the dendogram tree

h_complete=AgglomerativeClustering(n_clusters=5 , linkage= 'complete'

affinity="euclidean").fit(df_norm)
h_complete.labels_
cluster_labels = pd.series(h_complete.labels_)

=> Creating the column for numbering clust

air1['clust'] = cluster labels #creating new column
=> Changing the clust coloumn
air=air1.iloc[: ,[12,0,1,2,3,4,5,6,7,8,9,10,11]]
air.head()
ID# Balance Qual_miles ... Flight_trans_12 Days_since_enroll Award?
0 1 28143 0 ... 0 7000 0
1 2 19244 0 ... 0 6968 0
2 3 41354 0 ... 0 7034 0
3 4 14776 0 ... 0 6952 0
4 5 97752 0 ... 4 6935 1
air.iloc[: , 2:].groupby(air.clust).mean()
air.to_csv("airlines.csv", encoding = "utf-8")

import os
os.getcwd()

11 Network Analytics - Problem Statement
25% (4)
11 Network Analytics - Problem Statement
4 pages
Module-Preliminaries For Data Analysis - Data Science
100% (1)
Module-Preliminaries For Data Analysis - Data Science
5 pages
Association Rules Problem Statement
50% (2)
Association Rules Problem Statement
5 pages
Q1) Identify The Data Type For The Following
75% (8)
Q1) Identify The Data Type For The Following
3 pages
Q1) Identify The Data Type For The Following
75% (8)
Q1) Identify The Data Type For The Following
3 pages
2a EDA
50% (2)
2a EDA
11 pages
Power BI Basic Exercise
67% (6)
Power BI Basic Exercise
2 pages
Clustering Documentation R Code
100% (1)
Clustering Documentation R Code
9 pages
String Manipulation Problem Statement
No ratings yet
String Manipulation Problem Statement
6 pages
Basic Statistics (Module - 3)
No ratings yet
Basic Statistics (Module - 3)
9 pages
Business Uderstanding Solved1 - Module 1
No ratings yet
Business Uderstanding Solved1 - Module 1
11 pages
SAP Authorization Concept - Ifrahim
0% (1)
SAP Authorization Concept - Ifrahim
16 pages
13.exploratory Data Analysis
50% (2)
13.exploratory Data Analysis
8 pages
Data Assigment 1
100% (2)
Data Assigment 1
32 pages
DataPreparation - Outlier - Treatment ASSIGNMENT 1
100% (1)
DataPreparation - Outlier - Treatment ASSIGNMENT 1
7 pages
Topic: Dimension Reduction With PCA: Instructions
No ratings yet
Topic: Dimension Reduction With PCA: Instructions
8 pages
Basic Statistics (Module - 3)
100% (2)
Basic Statistics (Module - 3)
12 pages
Module 03 Assignment
100% (1)
Module 03 Assignment
13 pages
Discretization Problem Statement
No ratings yet
Discretization Problem Statement
4 pages
Zero Variance-Problem Statement
0% (1)
Zero Variance-Problem Statement
3 pages
Discretization Problem Statement
No ratings yet
Discretization Problem Statement
3 pages
CRISP ML (Q) Business Understanding
No ratings yet
CRISP ML (Q) Business Understanding
17 pages
Missing Values
No ratings yet
Missing Values
6 pages
Association Rules Ans
No ratings yet
Association Rules Ans
28 pages
8.dummy Variables
No ratings yet
8.dummy Variables
4 pages
Business Moments Graphic Assignmebt
No ratings yet
Business Moments Graphic Assignmebt
11 pages
06.discretization Problem Statement
50% (2)
06.discretization Problem Statement
2 pages
R - Assignment
No ratings yet
R - Assignment
2 pages
Duplication - Typecasting-Problem Statement
100% (1)
Duplication - Typecasting-Problem Statement
3 pages
CRISP DM Business Understanding Completed
No ratings yet
CRISP DM Business Understanding Completed
18 pages
Day10 Mathematical Foundations
No ratings yet
Day10 Mathematical Foundations
4 pages
Day02-Data Understanding Answer Asit 25082022
No ratings yet
Day02-Data Understanding Answer Asit 25082022
4 pages
Basic Statistics (Module - 3)
No ratings yet
Basic Statistics (Module - 3)
7 pages
Transformations Problem Statement
0% (1)
Transformations Problem Statement
7 pages
Day13 K Means Clustering
No ratings yet
Day13 K Means Clustering
4 pages
Text Mining Problem Statement
100% (1)
Text Mining Problem Statement
3 pages
Problem Statement - Mathematical Foundations
No ratings yet
Problem Statement - Mathematical Foundations
6 pages
Assignment 06
50% (2)
Assignment 06
2 pages
Assignment 05
No ratings yet
Assignment 05
8 pages
Multinomial Problem Statement
No ratings yet
Multinomial Problem Statement
28 pages
DataPreparation Outlier Treatment
No ratings yet
DataPreparation Outlier Treatment
5 pages
KNN - Problem Statement ANSWER
100% (1)
KNN - Problem Statement ANSWER
8 pages
Original
No ratings yet
Original
30 pages
Duplication - Typecasting-Problem Statement
No ratings yet
Duplication - Typecasting-Problem Statement
6 pages
Name:Silpa Batch Id: Analysis: WDEO 171220 Topic: Principal Component
100% (1)
Name:Silpa Batch Id: Analysis: WDEO 171220 Topic: Principal Component
7 pages
DataPreparation Outlier Treatment
100% (1)
DataPreparation Outlier Treatment
3 pages
1 - Write A Python Program To Check That A String Contains Only A Certain Set of Characters (In This Case A-Z, A-Z and 0-9)
No ratings yet
1 - Write A Python Program To Check That A String Contains Only A Certain Set of Characters (In This Case A-Z, A-Z and 0-9)
4 pages
Assignment 05 ANSWERS
100% (1)
Assignment 05 ANSWERS
5 pages
CRISP DM Business Understanding - Data Science
No ratings yet
CRISP DM Business Understanding - Data Science
15 pages
Assignment 2
No ratings yet
Assignment 2
7 pages
15 KNN - Problem Statement
0% (2)
15 KNN - Problem Statement
3 pages
Support Vector Machines Problem Statement
No ratings yet
Support Vector Machines Problem Statement
27 pages
Statistics and Probability
No ratings yet
Statistics and Probability
8 pages
Radhika PCA - Problem Statement
No ratings yet
Radhika PCA - Problem Statement
3 pages
13.exploratory Data Analysis
0% (1)
13.exploratory Data Analysis
10 pages
CRISP - ML (Q) - Business Understanding Assignment
No ratings yet
CRISP - ML (Q) - Business Understanding Assignment
11 pages
Assignment 07 Answers
100% (1)
Assignment 07 Answers
6 pages
Day13-K-Means Clustering
No ratings yet
Day13-K-Means Clustering
10 pages
D3 docs
No ratings yet
D3 docs
6 pages
Student - Linear Regression Example - Colaboratory
No ratings yet
Student - Linear Regression Example - Colaboratory
6 pages
Heart Disease Prediction! ❤️?
No ratings yet
Heart Disease Prediction! ❤️?
52 pages
DWDM Lab All
No ratings yet
DWDM Lab All
20 pages
Reading Data: #Importing Required Libraries
No ratings yet
Reading Data: #Importing Required Libraries
16 pages
Final Project Charter
No ratings yet
Final Project Charter
3 pages
Report Digital - Last Mile Delivery Challenge1
No ratings yet
Report Digital - Last Mile Delivery Challenge1
40 pages
Project Objective
No ratings yet
Project Objective
2 pages
Python Codes Arules
100% (1)
Python Codes Arules
17 pages
Minutes of Meeting: Attendees Absentees
No ratings yet
Minutes of Meeting: Attendees Absentees
2 pages
Split Data
No ratings yet
Split Data
5 pages
Books
No ratings yet
Books
6 pages
Assignment Module02
100% (1)
Assignment Module02
5 pages
Books
No ratings yet
Books
6 pages
Association Rules:: Books Data Set
No ratings yet
Association Rules:: Books Data Set
23 pages
Amazon Sentimental Analysis
No ratings yet
Amazon Sentimental Analysis
8 pages
Assignment Datatypes PDF
No ratings yet
Assignment Datatypes PDF
3 pages
Assignment Datatypes PDF
No ratings yet
Assignment Datatypes PDF
3 pages
WWW - Aaiclas.aero: Tentative Date of Interaction
No ratings yet
WWW - Aaiclas.aero: Tentative Date of Interaction
39 pages
SAS Notes
No ratings yet
SAS Notes
6 pages
Dynatrace Associate Demo
No ratings yet
Dynatrace Associate Demo
4 pages
Functional Dependencies & Normalization For Relational Dbs
No ratings yet
Functional Dependencies & Normalization For Relational Dbs
76 pages
Tablespace Error
No ratings yet
Tablespace Error
14 pages
Data Structures and Algorithms: Computer Science Department
No ratings yet
Data Structures and Algorithms: Computer Science Department
19 pages
The ICT Lounge: Section 7.7: Types of Processing
No ratings yet
The ICT Lounge: Section 7.7: Types of Processing
6 pages
Do SAS® Users Read Books? Using SAS Graphics To Enhance Survey Research
No ratings yet
Do SAS® Users Read Books? Using SAS Graphics To Enhance Survey Research
10 pages
Anbarasu R +91-9944841393: Curriculum Vitae
No ratings yet
Anbarasu R +91-9944841393: Curriculum Vitae
5 pages
Keysight Employee Data Privacy Statement (V. 4 - 5.25.18)
No ratings yet
Keysight Employee Data Privacy Statement (V. 4 - 5.25.18)
8 pages
CSL203 Manual
No ratings yet
CSL203 Manual
19 pages
High availability and Disaster Recovery in SAP HAN... - SAP Community
No ratings yet
High availability and Disaster Recovery in SAP HAN... - SAP Community
22 pages
READING Business Negotiation Based On Extenics
No ratings yet
READING Business Negotiation Based On Extenics
8 pages
List of NOSQL Database
No ratings yet
List of NOSQL Database
23 pages
21548-66661-1-ED (2) To Reviewer
No ratings yet
21548-66661-1-ED (2) To Reviewer
14 pages
Sybase SQL Troubleshooting
No ratings yet
Sybase SQL Troubleshooting
234 pages
E 14 Quick Start Guide
No ratings yet
E 14 Quick Start Guide
30 pages
More Than Machines
No ratings yet
More Than Machines
1 page
Cruise Travel Management Project Report
No ratings yet
Cruise Travel Management Project Report
20 pages
Pressman CH 9 Design Engineering
No ratings yet
Pressman CH 9 Design Engineering
26 pages
Berg 2015 Upgrade To BW 74 v11
No ratings yet
Berg 2015 Upgrade To BW 74 v11
54 pages
Mini Proposal of Linguistic Research Method (3rd Group)
No ratings yet
Mini Proposal of Linguistic Research Method (3rd Group)
22 pages
Lecture 5 - Data Transformation
No ratings yet
Lecture 5 - Data Transformation
7 pages
Intelligence Analyst Resume
100% (1)
Intelligence Analyst Resume
4 pages
Information Systems in Organization
No ratings yet
Information Systems in Organization
49 pages
CRM WRF
No ratings yet
CRM WRF
26 pages
Math 7 DLL
No ratings yet
Math 7 DLL
8 pages
Global High-Strength Concrete Market - Growth, Trends, and Forecast (2020 - 2025) PDF
No ratings yet
Global High-Strength Concrete Market - Growth, Trends, and Forecast (2020 - 2025) PDF
141 pages
Comp202Th Lecture 5 DBMS Architecture and Data Independence
No ratings yet
Comp202Th Lecture 5 DBMS Architecture and Data Independence
4 pages

Clustering Documentation Python Code

Uploaded by

Clustering Documentation Python Code

Uploaded by

1.

Perform clustering (Both hierarchical and K means clustering) for

h_complete=AgglomerativeClustering(n_clusters=5 , linkage= 'complete' ,

2 . Perform clustering (Both hierarchical and K means clustering) for

import scipy.cluster.hierarchy as sch

=> Creating no of clusters based on the dendogram tree

h_complete=AgglomerativeClustering(n_clusters=5 , linkage= 'complete'

=> Creating the column for numbering clust

You might also like