0% found this document useful (0 votes)

50 views

Data Preprocessing

The document provides an overview of data preprocessing techniques used in data mining. It discusses why preprocessing is important due to issues with real-world data being incomplete, noisy, and inconsistent. The key techniques covered are data cleaning, which involves filling in missing values, smoothing noise, and resolving inconsistencies; data integration, which combines data from multiple sources; data transformation such as normalization and attribute construction; and data reduction methods like aggregation and dimension reduction to reduce the overall data volume.

Uploaded by

maulidanqa123

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

50 views

Data Preprocessing

Uploaded by

maulidanqa123

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 37

3.

Data Preprocessing

Prodi Informatika 2021

Anna Baita, M. Kom.

Fakultas Ilmu Komputer

Outline

SCPMK 1683903: Mahasiswa dapat menerapkan teknik pre-processing [CPMK39]

The students can apply pre-processing techniques.

• Outline:
• What & Why preprocess the data?
• Data Cleaning
• Data Integration
• Data Transformation
• Data reduction

2
Data Preprocessing

It is a data mining technique that involves transforming

raw data into an understable format
Why PreProcess The data??
Why Preprocess the data?

Data in the real world is:

✓incomplete: lacking value, certain attributes of interest
✓noisy: containing error or outlier
✓inconsistent: lack of compatibility or similarity between two
or more fact

No quality data, No quality Mining result

✓Quality decisions must be based on quality data
✓Data warehouse needs consistent integration of quality data
Measure Of Data Quality

❑ Accuracy
❑ Completeness
❑ Consistency
❑ Timeliness
❑ Believability
❑ Value Added
❑ Interpretability
❑ Accessibility
Data Preprocessing Technique

1. Data Cleaning
2. Data Integration
3. Data Transformation
4. Data Reduction
Data Cleaning

Data Cleaning attempt to fill in

missing values, smooth out noise
while indentifying outliers and
correct inconsistensies in the
realworld data
Fill The Missing Value
Data Cleaning- Missing Value

1. Ignore The Tuple

• Ignore The Tuple

Data Cleaning- Missing Value

2. Fill the Missing Value Manually (Feasible)

3. Use a Global Constant
ex: “-”,
“unknown”
Data Cleaning- Missing Value

4. Use the Attribute Mean, or median Mean X2=66.1

Mean X4=0.22
Mean Y=69.44

66.1

69.44

66.1 0.22
Data Cleaning- Missing Value

3. Use The Most Probable Value

Predict using KNN, Regression,
Decission Tree, etc
14
smooth out noise
Data Cleaning- Noisy

Data Derau (Noise) : Adanya kesalahan kecil yang

random

Penyebab:
1. Kesalahan Instrumen
Pengumpul data
2. Masalah data Entri
3. Masalah transmisi data
4. Keterbatasan Teknologi
5. Tidak Konsisten dalam
penamaan.
Untuk mengatasinya harus
ex: “yogya” vs “jogja”
dilakukan smoothing
(dengan memperhatikan
nilai-nilai tetangga)
Data Cleaning- Noisy Data

✓ Binning
✓Clustering
✓Combined Computer and Human Inspection
Deteksi data yang mencurigakan tangani manusia
✓Regression
Data Cleaning- Noisy Data

Binning
Binning adalah sebuah proses untuk
mengelompokkan data ke dalam bagian-bagian
yang lebih kecil yang disebut bin berdasarkan
kriteria tertentu.

Langkah
1. Urutkan data
2. Partisi data tersebut ke dalam bin
3. Tentukan teknik Smoothing :
- by mean
- by boundaries
Data Cleaning- Noisy Data

1. Urutkan data
70,100,150,200,250,270,300,380,400

2. Misalnya jumlah bin 3

Bin 1 : 70,100,150
Bin 2 : 200,250,270
Bin 3 : 300,380,400
Data Cleaning- Noisy Data
Teknik Smoothing by Mean By mean :
Bin 1 : 70,100,150 Bin 1 : 107,107,107
Bin 2 : 200,250,270 Bin 2 : 240,240,240
Bin 3 : 300,380,400 Bin 3 : 360,360,360

In smoothing by bin means, each value

in a bin is replaced by the mean value
of the bin.
Data Cleaning- Noisy Data
Teknik Smoothing by Boundaries By boundaries :
Bin 1 : 70,100,150 Bin 1 : 70,70,150
Bin 2 : 200,250,270 Bin 2 : 200,270,270
Bin 3 : 300,380,400 Bin 3 : 300,400,400

In smoothing by bin boundaries, the

minimum and maximum values in a
given bin are identified as the bin
boundaries. Each bin value is then
replaced by the closest boundary
value.
Data Cleaning- Noisy Data

Clustering
Data pencilan : data yang menyimpang dari data
yang lainnya

Data pencilan dalam statistik disebut data

“outlier”

data pencilan boleh dibuang/diabaikan,

jumlah data pencilan umumnya tidak
banyak, hanya sekitar 2% dari jumlah data
Data Cleaning- Noisy Data

Regresi
correct inconsistensies
Data Cleaning- Inconsistent Data

• Manually, Using External References

• Knowledge Engineering tools
Data Integration

Data Integration implies combining of data

from multiple source into a coherent data
store (data warehouse)
Data Integration - Issue

• Entity Indentification problem

• Redudancy
• Tuple Duplication
• Detecting data value conflicts
Handling Redudant Data in Data Integration

• Redudant data occur often when integration of multiple databases

-the same attribute may have different names in different databases
-one attribute may be a "derived" attribute in another table.

• Redundant data may be able to be detected by correlation analysis

• Careful integration of multiple sources may help reduce/avoid redudancies
and inconsistencies and improve mining speed and quality
Data Integration

Data Source 1
Data Source 2

What Deferences??

Can the data be combined into one database?

Data Integration
Data Transformation

Transforming or consolidating data into mining suitable form is

known as data transformation
Smoothing

Agregation

Generalization

Normalization

Attribute Construction
Data Transformation

Smoothing: remove noise from data

Aggregation: Summarization, data cube construction
Generalization: Concept hierarchy climbing
Data Reduction

Data Reduction techniques are aplied to obtain a

reduce representation of the dataset that is much
smaller in volume, yet closely maintains the integrity
of base data
Data Reduction- Strategies

• Data cube aggregation

• Dimension Reduction
• Data Compression
• Numerosity Reduction
• Discretization and concept hierarchy generation
Text Pre processing???

35
Image Pre Processing??

36
Any Question

Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
Software Engineering - PPT - Unit 1 - Class 1
No ratings yet
Software Engineering - PPT - Unit 1 - Class 1
11 pages
Pset 5 - Fall2019 - Solutions PDF
No ratings yet
Pset 5 - Fall2019 - Solutions PDF
21 pages
Statistics - Probability - Q3 - Mod5 - Finding The Mean and Variance
83% (29)
Statistics - Probability - Q3 - Mod5 - Finding The Mean and Variance
32 pages
2.2 ML Session Bias Variance Tradeoffs
No ratings yet
2.2 ML Session Bias Variance Tradeoffs
38 pages
SOC Lab Manual
No ratings yet
SOC Lab Manual
11 pages
CS2055 - Software Quality Assurance
No ratings yet
CS2055 - Software Quality Assurance
15 pages
Unit 1
No ratings yet
Unit 1
139 pages
SQL Tutorials
100% (1)
SQL Tutorials
22 pages
DATA ANAYTICS Notes UNIT4
No ratings yet
DATA ANAYTICS Notes UNIT4
45 pages
Data Literacy Questions All Types
No ratings yet
Data Literacy Questions All Types
2 pages
Data Preprocessing in Python - Handling Missing Data
No ratings yet
Data Preprocessing in Python - Handling Missing Data
8 pages
Chapter2 UML
No ratings yet
Chapter2 UML
38 pages
Enabling Technologies and Federated Cloud
100% (1)
Enabling Technologies and Federated Cloud
38 pages
Cloud Computing Unit-5
No ratings yet
Cloud Computing Unit-5
11 pages
ML First Unit
No ratings yet
ML First Unit
70 pages
Module5 - Software Testing
No ratings yet
Module5 - Software Testing
279 pages
Data Science Techniques Classification Regression and Clustering
No ratings yet
Data Science Techniques Classification Regression and Clustering
5 pages
ISWA Unit1pptx 2023 08 28 19 47 11
No ratings yet
ISWA Unit1pptx 2023 08 28 19 47 11
47 pages
Lecture 3 Finetuning Part 1
No ratings yet
Lecture 3 Finetuning Part 1
85 pages
Chandigarh Group of Colleges College of Engineering Landran, Mohali
No ratings yet
Chandigarh Group of Colleges College of Engineering Landran, Mohali
47 pages
Feature Engg Pre Processing Python
No ratings yet
Feature Engg Pre Processing Python
68 pages
Unit V - AI
No ratings yet
Unit V - AI
41 pages
Chapter 13
No ratings yet
Chapter 13
21 pages
Identifying Use Cases - Object Analysis - Classification
No ratings yet
Identifying Use Cases - Object Analysis - Classification
147 pages
Gujarat Technological University: Computer Engineering Machine Learning SUBJECT CODE: 3710216
No ratings yet
Gujarat Technological University: Computer Engineering Machine Learning SUBJECT CODE: 3710216
2 pages
Question Bank Module-1: Department of Computer Applications 18mca53 - Machine Learning
No ratings yet
Question Bank Module-1: Department of Computer Applications 18mca53 - Machine Learning
7 pages
Enterprise Information Architecture Component Model - Chapter 5
No ratings yet
Enterprise Information Architecture Component Model - Chapter 5
27 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
SKP Engineering College: A Course Material On
No ratings yet
SKP Engineering College: A Course Material On
212 pages
Unit 2
No ratings yet
Unit 2
29 pages
DAA-2020-21 Final Updated Course File
No ratings yet
DAA-2020-21 Final Updated Course File
49 pages
ML 2
No ratings yet
ML 2
6 pages
Unit 1 MWS
No ratings yet
Unit 1 MWS
22 pages
Unit I R Data Structures
No ratings yet
Unit I R Data Structures
30 pages
Seminar Report Machine Learning
No ratings yet
Seminar Report Machine Learning
20 pages
Cybersecurity Essentials Syllabus
No ratings yet
Cybersecurity Essentials Syllabus
2 pages
ML Unit-Iv
No ratings yet
ML Unit-Iv
19 pages
Module-4 (PDFDrive)
No ratings yet
Module-4 (PDFDrive)
67 pages
Chapter 8 - Software Testing
No ratings yet
Chapter 8 - Software Testing
20 pages
Introduction To Data Engineering
No ratings yet
Introduction To Data Engineering
8 pages
Digital Notes: (Department of Computer Applications)
No ratings yet
Digital Notes: (Department of Computer Applications)
14 pages
Advice For Applying Machine Learning: Deciding What To Try Next
No ratings yet
Advice For Applying Machine Learning: Deciding What To Try Next
30 pages
The CAP Theorem
100% (1)
The CAP Theorem
3 pages
ALL UNITS PPTS Walker Royce
No ratings yet
ALL UNITS PPTS Walker Royce
122 pages
Unit 2 AI
No ratings yet
Unit 2 AI
22 pages
DBMS Notes
No ratings yet
DBMS Notes
141 pages
Evaluation Metrics in Machine Learning
No ratings yet
Evaluation Metrics in Machine Learning
14 pages
Se Module 2 PPT
No ratings yet
Se Module 2 PPT
86 pages
Transaction With Replicated Data PDF
No ratings yet
Transaction With Replicated Data PDF
3 pages
CCS355 Neural Networks and Deep Learning
No ratings yet
CCS355 Neural Networks and Deep Learning
142 pages
Notes - Unit 3 - Map Reduce Applications
No ratings yet
Notes - Unit 3 - Map Reduce Applications
11 pages
Tools Machine Learning
No ratings yet
Tools Machine Learning
9 pages
Introduction To Parallel Databases
No ratings yet
Introduction To Parallel Databases
24 pages
Se Unit2
No ratings yet
Se Unit2
115 pages
DSA RTU 2022 Paper
No ratings yet
DSA RTU 2022 Paper
15 pages
SPM-UNIT-1 Jntuh r18 Notes
No ratings yet
SPM-UNIT-1 Jntuh r18 Notes
38 pages
Version Control System
No ratings yet
Version Control System
28 pages
Machine Learning (15CS73) Question Bank: 6. Consider The Following Set of Training Examples
No ratings yet
Machine Learning (15CS73) Question Bank: 6. Consider The Following Set of Training Examples
2 pages
Univ - QP - DC - Case Study Based Questions
No ratings yet
Univ - QP - DC - Case Study Based Questions
6 pages
The Datadog Handbook: A Guide to Monitoring, Metrics, and Tracing
From Everand
The Datadog Handbook: A Guide to Monitoring, Metrics, and Tracing
Robert Johnson
No ratings yet
AppDynamics Third Edition
From Everand
AppDynamics Third Edition
Gerardus Blokdyk
No ratings yet
Sampling
No ratings yet
Sampling
27 pages
Customer Satisfaction With Public Transport
No ratings yet
Customer Satisfaction With Public Transport
17 pages
MCA Question Bank
No ratings yet
MCA Question Bank
33 pages
Synopsis
No ratings yet
Synopsis
12 pages
SIP REPORT Akashay (AutoRecovered)
No ratings yet
SIP REPORT Akashay (AutoRecovered)
67 pages
Psych Stats 4 Parametric Tests
No ratings yet
Psych Stats 4 Parametric Tests
133 pages
Kakatiya University Ba, BBM, B.com, B.SC, Ug Supplementary Examinations - 2017 Time Table
No ratings yet
Kakatiya University Ba, BBM, B.com, B.SC, Ug Supplementary Examinations - 2017 Time Table
13 pages
1-Quantitative Decision Making and Overview PDF
No ratings yet
1-Quantitative Decision Making and Overview PDF
14 pages
Exercise One - 01022023
No ratings yet
Exercise One - 01022023
3 pages
ERERER
No ratings yet
ERERER
1 page
Packag Technol Sci - 2022 - Berumen - Interactions of Fast Moving Consumer Goods in Cooking Insights From A Quantitative
No ratings yet
Packag Technol Sci - 2022 - Berumen - Interactions of Fast Moving Consumer Goods in Cooking Insights From A Quantitative
15 pages
Supervised Regression Notes
No ratings yet
Supervised Regression Notes
11 pages
PDF (Ebook) Statistical Detection and Surveillance of Geographic Clusters (Chapman & Hall CRC Interdisciplinary Statistics) by Peter Rogerson, Ikuho Yamada ISBN 1584889357 download
No ratings yet
PDF (Ebook) Statistical Detection and Surveillance of Geographic Clusters (Chapman & Hall CRC Interdisciplinary Statistics) by Peter Rogerson, Ikuho Yamada ISBN 1584889357 download
82 pages
Calculate Z Score
No ratings yet
Calculate Z Score
2 pages
RiskCommittee313 319
No ratings yet
RiskCommittee313 319
7 pages
Introduction of The Radial Basis Function (RBF) Networks: February 2001
No ratings yet
Introduction of The Radial Basis Function (RBF) Networks: February 2001
8 pages
Solution of MT4 PDF
No ratings yet
Solution of MT4 PDF
6 pages
Retrospective Protocol Template
100% (1)
Retrospective Protocol Template
6 pages
Conceptual Estimation of Cost Significant Model On Shop-Houses Construction
No ratings yet
Conceptual Estimation of Cost Significant Model On Shop-Houses Construction
9 pages
What Is Skill
100% (1)
What Is Skill
2 pages
7 QC Tools
No ratings yet
7 QC Tools
115 pages
KOM6115 Assignment 2 (GS65807)
No ratings yet
KOM6115 Assignment 2 (GS65807)
12 pages
CHAPTER All
No ratings yet
CHAPTER All
96 pages
Effects of Social Capital On Student Academic Performance
No ratings yet
Effects of Social Capital On Student Academic Performance
17 pages
Aproiri Qand A
No ratings yet
Aproiri Qand A
9 pages
Guidebook RBAC Season 3
No ratings yet
Guidebook RBAC Season 3
64 pages
Occupational Health and Safety Management in Manufacturing Industries
No ratings yet
Occupational Health and Safety Management in Manufacturing Industries
7 pages
2 - Probability and Queueing Theory
No ratings yet
2 - Probability and Queueing Theory
178 pages