Data Preprocessing

- Data preprocessing involves cleaning, transforming, and reducing raw data to prepare it for machine learning algorithms. This includes handling missing data, encoding categorical variables, normalizing numeric features, and splitting the data into training and test sets. - The goals of data preprocessing are to clean dirty or inconsistent data, reduce data volume and dimensionality, handle missing values, and scale features for model training. This prepares the data for analysis and improves machine learning results. - Techniques like imputation, binning, clustering and regression can be used to clean noisy data. Data integration combines sources and resolves conflicts while transformation techniques include aggregation, generalization and normalization. Dimensionality reduction further compactly represents the data.

Uploaded by

Dinh Duy Hiep

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

199 views

Data Preprocessing

Uploaded by

Dinh Duy Hiep

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 22

DATA PREPROCESSING

Content
• Why preprocess the data?
• Data cleaning
• Data integration and transformation
• Data reduction
• Data Preprocessing for Machine learning
Why data preprocessing?
Data in the real world is dirty
o incomplete: lacking attribute values, lacking certain attributes of interest, or
containing only aggregate data
o noisy: containing errors or outliers
o inconsistent: containing discrepancies in codes or names
No quality data, no quality mining results!
o Quality decisions must be based on quality data
o Data warehouse needs consistent integration of quality data
A multi-dimensional measure of data quality
o A well-accepted multi-dimensional view:
accuracy, completeness, consistency, timeliness, believability, value added,
interpretability, accessibility
Broad categories
intrinsic, contextual, representational, and accessibility
Why data preprocessing?
Major Tasks of Data Preprocessing
• Data cleaning
o Fill in missing values, smooth noisy data, identify or remove outliers, and
resolve inconsistencies
• Data integration
o Integration of multiple databases, data cubes, files, or notes
• Data transformation
o Normalization (scaling to a specific range)
o Aggregation
• Data reduction
o Obtains reduced representation in volume but produces the same or similar
analytical results
o Data discretization: with particular importance, especially for numerical data
o Data aggregation, dimensionality reduction, data compression, generalization
Data cleaning
Importance
• “Data cleaning is one of the three biggest problems
in data warehousing”—Ralph Kimball
• “Data cleaning is the number one problem in data
warehousing”—DCI survey
Tasks of Data Cleaning
• Fill in missing values
• Identify outliers and smooth noisy data
• Correct inconsistent data
Data cleaning
Manage Missing Data
• Ignore the tuple: usually done when class label is missing
(assuming the task is classification—not effective in certain
cases)
• Fill in the missing value manually: tedious + infeasible?
• Use a global constant to fill in the missing value: e.g., “unknown”,
a new class?!
• Use the attribute mean to fill in the missing value
• Use the attribute mean for all samples of the same class to fill in
the missing value: smarter
• Use the most probable value to fill in the missing value: inference
based such as regression, Bayesian formula, decision tree
Data cleaning
Manage Noisy Data
Binning Method:
• first sort data and partition into (equal-depth) bins
• then one can smooth by bin means, smooth by bin median, smooth by
bin boundaries, etc…
Clustering:
• detect and remove outliers
Semi Automated
• Computer and Manual Intervention
Regression
• smooth by fitting the data into regression functions
Data cleaning
Inconsistent Data
Manual correction using external references
Semi-automatic using various tools
• To detect violation of known functional dependencies and
data constraints
• To correct redundant data
Data integration and transformation
Tasks of Data Integration and transformation
• Data integration:
• combines data from multiple sources into a coherent store
• Schema integration
• integrate metadata from different sources
• Entity identification problem:
• identify real world entities from multiple data sources, e.g., Bill
Clinton = William Clinton
• Detecting and resolving data value conflicts
• for the same real world entity, attribute values from different
sources are different
• possible reasons: different representations, different scales,
e.g., metric vs. British units, different currency
Data integration and transformation
Manage Data Integration
• Redundant data occur often when integration of multiple
databases
• Object identification: The same attribute or object may have
different names in different databases
• Derivable data: One attribute may be a “derived” attribute in
another table, e.g., annual revenue
• Redundant attributes may be able to be detected by
correlation analysis
• Careful integration of the data from multiple sources may
help reduce/avoid redundancies and inconsistencies and
improve mining speed and quality
Data integration and transformation
Manage Data Transformation
• Smoothing: remove noise from data (binning, clustering,
regression)
• Aggregation: summarization, data cube construction
• Generalization: concept hierarchy climbing
• Normalization: scaled to fall within a small, specified
range
• min-max normalization
• z-score normalization
• normalization by decimal scaling
• Attribute/feature construction
• New attributes constructed from the given ones
Data reduction
Why data reduction?
• A database/data warehouse may store terabytes of
data
• Complex data analysis/mining may take a very long
time to run on the complete data set
Data reduction strategies
• Data cube aggregation
• Dimensionality reduction e.g., remove unimportant
attributes
• Attribute subset selection
• Numerosity reduction e.g., fit data into models
• Discretization and concept hierarchy generation
Data Preprocessing for ML
• Get Dataset
• Importing the Libraries
• Importing the Dataset
• Missing data
• Categorical data
• Splitting the Dataset into the Training set and Test set
• Feature scaling
• Data Preprocessing template
Data Preprocessing
 Get Dataset
 Can download from Internet
 Create your own dataset
Data Preprocessing
 Importing the Libraries
 A tool that you can use to make a specific job

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
…
Data Preprocessing
 Importing Dataset

dataset = pd.read_csv('Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 3].values
…
Data Preprocessing
 Missing Data
 Happens quite a lot actually in real life so we have
to get the trick to handle this problem.
 Idea:
- Remove missing : quite dangerous (not use).
- Replace the missing data by the median or mean of the feature
column
- Replace the missing data by the most frequent value of the
feature column
Data Preprocessing
France Spain Germany

 Categorical Data France 1 0 0

 Machine learning models are Spain 0 1 0

based on mathematical Germany 0 0 1

equations so we must encode Spain 0 1 0
categorical data. Germany 0 0 1
France 1 0 0
Spain 0 1 0
France 1 0 0
Germany 0 0 1
France 1 0 0
Data Preprocessing
 Splitting the Dataset into the Training set and
Test set
 Training set: To build machine learning model
 Test set: To test the performance of machine
learning model.
Data Preprocessing
Feature scaling
Data Preprocessing
Feature scaling

Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
WS-BPEL 2.0 Beginner's Guide
From Everand
WS-BPEL 2.0 Beginner's Guide
Matjaz B. Juric
No ratings yet
Day-1-Google Cloud Platform - Infrastructure Lab PDF
No ratings yet
Day-1-Google Cloud Platform - Infrastructure Lab PDF
22 pages
Data Preprocessing
No ratings yet
Data Preprocessing
37 pages
Packages in Python
No ratings yet
Packages in Python
54 pages
Introduction To Distributed Database Presentation
100% (1)
Introduction To Distributed Database Presentation
67 pages
Processes: Process Concept Process Scheduling Operation On Processes Cooperating Processes Interprocess Communication
No ratings yet
Processes: Process Concept Process Scheduling Operation On Processes Cooperating Processes Interprocess Communication
27 pages
Operating System - Multi-Threading
No ratings yet
Operating System - Multi-Threading
7 pages
MCA - BigData Notes
No ratings yet
MCA - BigData Notes
136 pages
Unit - II R
No ratings yet
Unit - II R
61 pages
Data Warehousing Components - L3 - L4 - L5
No ratings yet
Data Warehousing Components - L3 - L4 - L5
26 pages
Uid-Graphical System Advatages
No ratings yet
Uid-Graphical System Advatages
21 pages
Data Preprocessing in Python - Handling Missing Data
No ratings yet
Data Preprocessing in Python - Handling Missing Data
8 pages
SOC Lab Manual
No ratings yet
SOC Lab Manual
11 pages
Cloud Computing Unit-5
No ratings yet
Cloud Computing Unit-5
11 pages
HDFS Concepts
No ratings yet
HDFS Concepts
10 pages
SKP Engineering College: A Course Material On
No ratings yet
SKP Engineering College: A Course Material On
212 pages
DWDM Lecturenotes PDF
No ratings yet
DWDM Lecturenotes PDF
133 pages
DBMS Notes
No ratings yet
DBMS Notes
141 pages
Sepm Unit 3.... Roshan
No ratings yet
Sepm Unit 3.... Roshan
16 pages
HBase
No ratings yet
HBase
31 pages
BD - Unit - IV - Hive and Pig
No ratings yet
BD - Unit - IV - Hive and Pig
41 pages
Layered Technology
No ratings yet
Layered Technology
57 pages
HTML Enhanced For Web Apps! Sagar Acharya
No ratings yet
HTML Enhanced For Web Apps! Sagar Acharya
26 pages
Concurrency Control in Distributed Transactions (1)
No ratings yet
Concurrency Control in Distributed Transactions (1)
17 pages
Chapter 5: Threads: Multithreading Models Thread Libraries Thread Pools
No ratings yet
Chapter 5: Threads: Multithreading Models Thread Libraries Thread Pools
20 pages
Spiral Model
No ratings yet
Spiral Model
2 pages
OS 04 Threads
No ratings yet
OS 04 Threads
67 pages
Grid Architecture
No ratings yet
Grid Architecture
19 pages
Version Control System
No ratings yet
Version Control System
28 pages
Identifying Use Cases - Object Analysis - Classification
No ratings yet
Identifying Use Cases - Object Analysis - Classification
147 pages
Database Development Lifecycle
No ratings yet
Database Development Lifecycle
68 pages
Enabling Technologies and Federated Cloud
100% (1)
Enabling Technologies and Federated Cloud
38 pages
OS Threads Unit 3 Copy 1
No ratings yet
OS Threads Unit 3 Copy 1
34 pages
Protection and Security Operating System
No ratings yet
Protection and Security Operating System
15 pages
CS3451 OS unit 5 notes
No ratings yet
CS3451 OS unit 5 notes
25 pages
File Allocation Methods
No ratings yet
File Allocation Methods
9 pages
Classical Analysis
No ratings yet
Classical Analysis
6 pages
Enterprise Information Architecture Component Model - Chapter 5
No ratings yet
Enterprise Information Architecture Component Model - Chapter 5
27 pages
Chapter 3 - Old PPT - Deadlock
100% (1)
Chapter 3 - Old PPT - Deadlock
40 pages
Introduction To Software Construction
No ratings yet
Introduction To Software Construction
28 pages
Ooad SDLC
No ratings yet
Ooad SDLC
32 pages
Se Module 2 PPT
No ratings yet
Se Module 2 PPT
86 pages
3.1 What Is Data Warehouse?: Unit Iii
No ratings yet
3.1 What Is Data Warehouse?: Unit Iii
33 pages
2.2 ML Session Bias Variance Tradeoffs
No ratings yet
2.2 ML Session Bias Variance Tradeoffs
38 pages
Data Mining All Summary
No ratings yet
Data Mining All Summary
47 pages
Distribution Design Issues
No ratings yet
Distribution Design Issues
2 pages
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
No ratings yet
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
55 pages
Module5 - Software Testing
No ratings yet
Module5 - Software Testing
279 pages
Note On Operating System and Kernel
No ratings yet
Note On Operating System and Kernel
3 pages
1.fundamentals of Agile
No ratings yet
1.fundamentals of Agile
42 pages
Distributed Database
No ratings yet
Distributed Database
22 pages
Software Testing Methodologcompletenotes
No ratings yet
Software Testing Methodologcompletenotes
147 pages
ML First Unit
No ratings yet
ML First Unit
70 pages
Cloud Computing Unit 1
No ratings yet
Cloud Computing Unit 1
23 pages
Page Replacement Algorithms
No ratings yet
Page Replacement Algorithms
22 pages
Distributed Shared Memory
No ratings yet
Distributed Shared Memory
30 pages
Data Mining: Concepts and Techniques: Jiawei Han and Micheline Kamber
No ratings yet
Data Mining: Concepts and Techniques: Jiawei Han and Micheline Kamber
46 pages
Optimizing Hadoop for MapReduce
From Everand
Optimizing Hadoop for MapReduce
Khaled Tannir
No ratings yet
The Datadog Handbook: A Guide to Monitoring, Metrics, and Tracing
From Everand
The Datadog Handbook: A Guide to Monitoring, Metrics, and Tracing
Robert Johnson
No ratings yet
AppDynamics Third Edition
From Everand
AppDynamics Third Edition
Gerardus Blokdyk
No ratings yet
CREATE EXTERNAL DATA SOURCE (Transact-SQL)
No ratings yet
CREATE EXTERNAL DATA SOURCE (Transact-SQL)
15 pages
HP Quicktest Professional
No ratings yet
HP Quicktest Professional
6 pages
Chapter 1-3 Edited
No ratings yet
Chapter 1-3 Edited
30 pages
JD Edwards Roadmap December 2023
No ratings yet
JD Edwards Roadmap December 2023
8 pages
Course Syllabus - Ranjith Krishnan
No ratings yet
Course Syllabus - Ranjith Krishnan
2 pages
Yabridge VST and VST3 On Linux Definitive Tool
No ratings yet
Yabridge VST and VST3 On Linux Definitive Tool
3 pages
Pki Card Offer Alotigier
No ratings yet
Pki Card Offer Alotigier
27 pages
Practical - 3 PDF
No ratings yet
Practical - 3 PDF
9 pages
Mysap Business Intelligence - Solution Consultant: Tbw10 5 Days
No ratings yet
Mysap Business Intelligence - Solution Consultant: Tbw10 5 Days
3 pages
Keysight Vision Orchestrator
No ratings yet
Keysight Vision Orchestrator
5 pages
Undo Retention and Retention Guarantee
No ratings yet
Undo Retention and Retention Guarantee
2 pages
OE CSE VI Information Storage Management Out
No ratings yet
OE CSE VI Information Storage Management Out
2 pages
Sample Plan For The Plan: Project Initiation Activities
No ratings yet
Sample Plan For The Plan: Project Initiation Activities
2 pages
Assertions Triggers
No ratings yet
Assertions Triggers
9 pages
4 TechnicalReadinessGuide CopilotforMicrosoft365
No ratings yet
4 TechnicalReadinessGuide CopilotforMicrosoft365
48 pages
Syllabus Copy-CSP-2025
No ratings yet
Syllabus Copy-CSP-2025
3 pages
Lookup in ODI 11g
No ratings yet
Lookup in ODI 11g
10 pages
10 Deadly Sins in Incident Handling
100% (1)
10 Deadly Sins in Incident Handling
8 pages
Appdynamics Apm Platform Documentation 22.11: Exported On 11/23/2022
No ratings yet
Appdynamics Apm Platform Documentation 22.11: Exported On 11/23/2022
4,368 pages
SoftwareTesting Lect 1.1
No ratings yet
SoftwareTesting Lect 1.1
188 pages
General Amazon RDS Concepts
No ratings yet
General Amazon RDS Concepts
9 pages
Online Hostel Management System
67% (3)
Online Hostel Management System
47 pages
190-801 Exam Syllabus
No ratings yet
190-801 Exam Syllabus
2 pages
FUNCTIONAL REQUIREMENTS and Non Functional RQ
100% (1)
FUNCTIONAL REQUIREMENTS and Non Functional RQ
2 pages
Enterprise Architect - Wipro Sweden
No ratings yet
Enterprise Architect - Wipro Sweden
2 pages
Mainframe KT Chennakesavan
No ratings yet
Mainframe KT Chennakesavan
10 pages
Ra CW TEMPLATE 23-24 - 7wcm2005-1
No ratings yet
Ra CW TEMPLATE 23-24 - 7wcm2005-1
90 pages
Enterprice Asset Maintenance
No ratings yet
Enterprice Asset Maintenance
2 pages
Entranceexamsystem
No ratings yet
Entranceexamsystem
15 pages