0% found this document useful (0 votes)

9 views

Data Reduction Using Pythonh

Uploaded by

hothyfa

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views

Data Reduction Using Pythonh

Uploaded by

hothyfa

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

25/10/2021, 20:02 Data Reduction Using Python - Jupyter Notebook

Import Dependencies
In [0]:

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
Dataset
In [0]:

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
# load dataset into Pandas DataFrame
df = pd.read_csv(url, names=['sepal length','sepal width','petal length','petal width','target
In [4]:

df.head()
Out[4]:

sepal length sepal width petal length petal width target

0 5.1 3.5 1.4 0.2 Iris-setosa

1 4.9 3.0 1.4 0.2 Iris-setosa

2 4.7 3.2 1.3 0.2 Iris-setosa

3 4.6 3.1 1.5 0.2 Iris-setosa

4 5.0 3.6 1.4 0.2 Iris-setosa

Standardize The Data

In [0]:

feature = ['sepal length', 'sepal width', 'petal length', 'petal width']

# separating features
x = df.loc[:,feature]
# separating target
y = df.loc[:,'target']
#Standardising features
x = StandardScaler().fit_transform(x)
localhost:8888/notebooks/Data-Science/Practical 3 Data Reduction/Data Reduction Using Python.ipynb 1/5
25/10/2021, 20:02 Data Reduction Using Python - Jupyter Notebook

PCA ( Principal Component Analysis )

In [0]:

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
pct = pca.fit_transform(x)
principal_df = pd.DataFrame(pct,columns=['pc1','pc2'])
finaldf= pd.concat([principal_df,df[['target']]],axis=1)
In [16]:

finaldf.head()
Out[16]:

pc1 pc2 target

0 -2.264542 0.505704 Iris-setosa

1 -2.086426 -0.655405 Iris-setosa

2 -2.367950 -0.318477 Iris-setosa

3 -2.304197 -0.575368 Iris-setosa

4 -2.388777 0.674767 Iris-setosa

Component Projection (2D)

localhost:8888/notebooks/Data-Science/Practical 3 Data Reduction/Data Reduction Using Python.ipynb 2/5

25/10/2021, 20:02 Data Reduction Using Python - Jupyter Notebook

In [20]:

fig = plt.figure(figsize = (8,8))

ax = fig.add_subplot(1,1,1)
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)
targets = ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']
colors = ['r', 'g', 'b']
for target, color in zip(targets,colors):
indicesToKeep = finaldf['target'] == target
ax.scatter(finaldf.loc[indicesToKeep, 'pc1']
, finaldf.loc[indicesToKeep, 'pc2']
, c = color
, s = 50)
ax.legend(targets)
ax.grid()

localhost:8888/notebooks/Data-Science/Practical 3 Data Reduction/Data Reduction Using Python.ipynb 3/5

25/10/2021, 20:02 Data Reduction Using Python - Jupyter Notebook

In [21]:

pca.explained_variance_ratio_
Out[21]:

array([0.72770452, 0.23030523])

Conclusion:
The explained variance tells you how much information (variance) can be attributed to each of the principal
components.
This is important as while you can convert 4 dimensional space to 2 dimensional space, you lose some of
the variance (information) when you do this.
By using the attribute explained_variance_ratio_, you can see that the first principal component contains
72.77% of the variance and the second principal component contains 23.03% of the variance.
Together, the two components contain 95.80% of the information.

Variance Threshold
In [1]:

from sklearn.feature_selection import VarianceThreshold

from sklearn import datasets
Load Data
In [2]:

# Load iris data

iris = datasets.load_iris()
# Create features and target
X = iris.data
y = iris.target
localhost:8888/notebooks/Data-Science/Practical 3 Data Reduction/Data Reduction Using Python.ipynb 4/5
25/10/2021, 20:02 Data Reduction Using Python - Jupyter Notebook

Conduct Variance Thresholding

In [3]:

# Create VarianceThreshold object with a variance with a threshold of 0.5

thresholder = VarianceThreshold(threshold=.5)
# Conduct variance thresholding
X_high_variance = thresholder.fit_transform(X)
View high variance features
In [4]:

# View first five rows with features with variances above threshold
X_high_variance[0:5]
Out[4]:

array([[5.1, 1.4, 0.2],

[4.9, 1.4, 0.2],
[4.7, 1.3, 0.2],
[4.6, 1.5, 0.2],
[5. , 1.4, 0.2]])

localhost:8888/notebooks/Data-Science/Practical 3 Data Reduction/Data Reduction Using Python.ipynb 5/5

Form One Integrated Science End of Year Exam
75% (4)
Form One Integrated Science End of Year Exam
10 pages
2019 Degree Results
33% (3)
2019 Degree Results
282 pages
English Examen 4A - StevenDiazZuñiga
No ratings yet
English Examen 4A - StevenDiazZuñiga
2 pages
Dimensionality - Reduction - Principal - Component - Analysis - Ipynb at Master Llsourcell - Dimensionality - Reduction GitHub
No ratings yet
Dimensionality - Reduction - Principal - Component - Analysis - Ipynb at Master Llsourcell - Dimensionality - Reduction GitHub
14 pages
Reduce Data Dimensionality Using PCA
No ratings yet
Reduce Data Dimensionality Using PCA
6 pages
Exp3a
No ratings yet
Exp3a
2 pages
Dimensionality Reduction: Motivation I: Data Compression
No ratings yet
Dimensionality Reduction: Motivation I: Data Compression
35 pages
PCA_Explained -
No ratings yet
PCA_Explained -
9 pages
Principal Component Analysis Notes : Info
No ratings yet
Principal Component Analysis Notes : Info
22 pages
Chapter 4
No ratings yet
Chapter 4
57 pages
ML Assignment 01 Code
No ratings yet
ML Assignment 01 Code
21 pages
3_Modeling.ipynb - Colaboratory
No ratings yet
3_Modeling.ipynb - Colaboratory
31 pages
PRACTICAL5
No ratings yet
PRACTICAL5
23 pages
ml lab
No ratings yet
ml lab
14 pages
Dvpd11 Merged Merged 27 83
No ratings yet
Dvpd11 Merged Merged 27 83
57 pages
vertopal.com_DAI_Amberish_LAB_ASSIGNMENT_3 (1)
No ratings yet
vertopal.com_DAI_Amberish_LAB_ASSIGNMENT_3 (1)
7 pages
ML Lab Manual Prgm 2&3
No ratings yet
ML Lab Manual Prgm 2&3
6 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
11 pages
Unit1 ML Programs
No ratings yet
Unit1 ML Programs
5 pages
Implementing PCA in Python With Scikit
No ratings yet
Implementing PCA in Python With Scikit
6 pages
mine5
No ratings yet
mine5
8 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
34 pages
1.variable Reduction 2.principal Component Analysis: Topic UNIT-4
No ratings yet
1.variable Reduction 2.principal Component Analysis: Topic UNIT-4
19 pages
Lab #3
No ratings yet
Lab #3
12 pages
Inbound 3415279694782152083
No ratings yet
Inbound 3415279694782152083
6 pages
Lec4 - Python with data analysis
No ratings yet
Lec4 - Python with data analysis
20 pages
DATA REDUCTION
No ratings yet
DATA REDUCTION
23 pages
PDSLabManualEXP7.docx (2)
No ratings yet
PDSLabManualEXP7.docx (2)
6 pages
U5@-Data Reduction
No ratings yet
U5@-Data Reduction
22 pages
ml_labmanual (3)
No ratings yet
ml_labmanual (3)
33 pages
Python
No ratings yet
Python
5 pages
AIML
No ratings yet
AIML
5 pages
program - 3
No ratings yet
program - 3
4 pages
Class8-9 DataPreprocessing DataReduction 30Sept-05Oct2020
No ratings yet
Class8-9 DataPreprocessing DataReduction 30Sept-05Oct2020
22 pages
LAB-3
No ratings yet
LAB-3
3 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
1 page
Principal Component Analysis For Data Science
No ratings yet
Principal Component Analysis For Data Science
4 pages
chapter3 (2)
No ratings yet
chapter3 (2)
36 pages
Assignment
No ratings yet
Assignment
24 pages
7034 1713335587607 Dimensionality - Reduction - Ipynb Colaboratory
No ratings yet
7034 1713335587607 Dimensionality - Reduction - Ipynb Colaboratory
4 pages
PCA Clearly Explained -When, Why, How To Use It and Feature Importance_ A Guide in Python _ by Serafeim Loukas _ Towards AI
No ratings yet
PCA Clearly Explained -When, Why, How To Use It and Feature Importance_ A Guide in Python _ by Serafeim Loukas _ Towards AI
19 pages
complete pdf
No ratings yet
complete pdf
28 pages
PCA Using Python
No ratings yet
PCA Using Python
18 pages
PHP Package Mastery: 100 Essential Tools in One Hour - 2024 Edition
From Everand
PHP Package Mastery: 100 Essential Tools in One Hour - 2024 Edition
Kanto
No ratings yet
Dimension Reduction
No ratings yet
Dimension Reduction
15 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Fem2063 Data Analytics - May 2020 Lab Practice 5 (Week 6)
No ratings yet
Fem2063 Data Analytics - May 2020 Lab Practice 5 (Week 6)
8 pages
Exp 3
No ratings yet
Exp 3
4 pages
PW6
No ratings yet
PW6
1 page
PCA - Jupyter Notebook
No ratings yet
PCA - Jupyter Notebook
5 pages
Module 3
No ratings yet
Module 3
41 pages
12 Dimensionality Reduction Techniqwues (with Python Codes)
No ratings yet
12 Dimensionality Reduction Techniqwues (with Python Codes)
20 pages
D3S2 _ Unsupervised - Dimensionality Reduction
No ratings yet
D3S2 _ Unsupervised - Dimensionality Reduction
81 pages
lec 13-14 PCA
No ratings yet
lec 13-14 PCA
53 pages
Unit 4 Dimenstionality Reduction
No ratings yet
Unit 4 Dimenstionality Reduction
104 pages
Module 3 ML
No ratings yet
Module 3 ML
19 pages
Lab-4 - Muhammad Ahmad - 282660 - BESE-10B
No ratings yet
Lab-4 - Muhammad Ahmad - 282660 - BESE-10B
6 pages
45B Ahmed Shaikh AIML Prac05
No ratings yet
45B Ahmed Shaikh AIML Prac05
4 pages
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
No ratings yet
Asset-V1 VIT+MBA109+2020+type@asset+block@Introductio To ML Using Python
7 pages
Week 4
No ratings yet
Week 4
5 pages
Lab 4
No ratings yet
Lab 4
2 pages
Chap5_wei.ipynb - Colab
No ratings yet
Chap5_wei.ipynb - Colab
29 pages
Learning Pandas 2.0: A Comprehensive Guide to Data Manipulation and Analysis for Data Scientists and Machine Learning Professionals
From Everand
Learning Pandas 2.0: A Comprehensive Guide to Data Manipulation and Analysis for Data Scientists and Machine Learning Professionals
Matthew Rosch
No ratings yet
Quantum Powers Guidebook
No ratings yet
Quantum Powers Guidebook
9 pages
Trees: Discrete Structures For Computing
No ratings yet
Trees: Discrete Structures For Computing
48 pages
Qbiss One Brochure HU
No ratings yet
Qbiss One Brochure HU
31 pages
Managerial Accounting 16th Edition Garrison Solutions Manual - 2025 Version Is Available With All Chapters
100% (7)
Managerial Accounting 16th Edition Garrison Solutions Manual - 2025 Version Is Available With All Chapters
55 pages
Humanitarian Logistics
No ratings yet
Humanitarian Logistics
23 pages
Blavatsky - The Theosophical Glossary
No ratings yet
Blavatsky - The Theosophical Glossary
0 pages
Lesson Exemplar Science 4
No ratings yet
Lesson Exemplar Science 4
6 pages
Simultaneous Sorting of Wavelengths and Spatial Modes Using Multi-Plane Light Conversion
No ratings yet
Simultaneous Sorting of Wavelengths and Spatial Modes Using Multi-Plane Light Conversion
6 pages
Eng Q4 M2
No ratings yet
Eng Q4 M2
7 pages
Topic 7 Basic Concepts of Urban Drainage: (Urban Stormwater Management Manual For Malaysia) Masma
No ratings yet
Topic 7 Basic Concepts of Urban Drainage: (Urban Stormwater Management Manual For Malaysia) Masma
29 pages
11 We'Ll Bite Your Tail, Geronimo by Stilton, Geronimo
No ratings yet
11 We'Ll Bite Your Tail, Geronimo by Stilton, Geronimo
133 pages
Heat transfer _Tutorial 6 2025
No ratings yet
Heat transfer _Tutorial 6 2025
15 pages
Statistical Actuarial Estimation of The Capitation
No ratings yet
Statistical Actuarial Estimation of The Capitation
21 pages
SOCIAL-JHS-3_1-2
No ratings yet
SOCIAL-JHS-3_1-2
5 pages
Microeconomics in Context 2e Student Stu
No ratings yet
Microeconomics in Context 2e Student Stu
230 pages
A Study On Green Banking in India - An: Commerce Original Research Paper
No ratings yet
A Study On Green Banking in India - An: Commerce Original Research Paper
3 pages
Sensation and Perception
No ratings yet
Sensation and Perception
20 pages
Safety Data Sheet: Glucose
No ratings yet
Safety Data Sheet: Glucose
9 pages
Dsa Lab 7,8,9
No ratings yet
Dsa Lab 7,8,9
23 pages
Geography of Migration
No ratings yet
Geography of Migration
4 pages
Forces in Engineering: Working
No ratings yet
Forces in Engineering: Working
5 pages
B. A. and M. A. Structure
No ratings yet
B. A. and M. A. Structure
7 pages
Sikaceram®-200 Ta Tilefix: Product Data Sheet
No ratings yet
Sikaceram®-200 Ta Tilefix: Product Data Sheet
3 pages
Mock Clat - 21 Answer and Explanation: Section-I: English
No ratings yet
Mock Clat - 21 Answer and Explanation: Section-I: English
24 pages
Topic 1 - Introduction of Production and Operation Management
No ratings yet
Topic 1 - Introduction of Production and Operation Management
16 pages
Science 7 Weekly Home Learning Plan
No ratings yet
Science 7 Weekly Home Learning Plan
6 pages
BUSS7902 Chapter 5 Lecture (Notes)
No ratings yet
BUSS7902 Chapter 5 Lecture (Notes)
89 pages