Data Cleaning Data Transformation Data Reduction Discretization and Generating Concept Hierarchies

This document discusses data preprocessing for data mining. It covers the major tasks in data preprocessing which include data cleaning, data transformation, data reduction, and data discretization. The goals of preprocessing are to handle incomplete, noisy, and inconsistent data to improve data quality and efficiency. Techniques covered include data cleaning to handle missing data and errors, data discretization to reduce continuous attributes to discrete intervals, and data reduction through sampling to reduce data size. Preprocessing is an important step to transform raw data into a suitable format for data mining.

Uploaded by

Mik Clash

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

129 views

Data Cleaning Data Transformation Data Reduction Discretization and Generating Concept Hierarchies

Uploaded by

Mik Clash

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 25

Data Mining:- Knowledge discovery in databases

DATA PREPROCESSING
WEEK-3
CSE(5317) 4TH YEAR SEMESTER-1(ELECTIVE)

 Data cleaning
 Data transformation
 Data reduction
 Discretization and generating concept hierarchies
DATA MINING
STAGES
DATA PREPROCESSING
HOW DATA MINING WORKS?
TYPES OF DATASETS
TYPES OF DATASETS CONTD..
NEEDS OF DATA PREPROCESSING (WHY DATA
PREPROCESSING?)
(Data in Real World is Dirty!)
Incomplete: means lacking attribute values, lacking certain attributes of interest, or
containing only aggregate data.
e.g., occupation=“ ”
Noisy: unwanted information or containing errors or outliers)
e.g., salary=“-10”
Inconsistent: means containing incorportability(mismatch/discrepancies) in codes
or names.
e.g., Age=“42” Birthday=“03/07/1997”
e.g., Was rating “1,2,3”, now rating “A,B,C’’
used for cleaning the quality of data.
Clean data is vital for the success of the warehouse.
If there is No quality data, no quality mining results!
Quality decisions must be based on quality data.
e.g., duplicate or missing data may cause incorrect or even misleading
statistics.
Dw needs consistent integration of quality data.
Example
Seshadri, Sheshadri, Sesadri, Seshadri S., Srinivasan Seshadri, etc. are the same
person.
WHAT IS PREPROCESSING?
Definition:-It refers to a set of techniques implemented on
databases to remove, noisy, missing and inconsistent
data.
 It improves the efficiency of the data mining process.
 Improve the quality of selected data.

Data selection
 When you select from the data warehouse, it is assumed that the data
is already cleansed.
 Preprocessing could also involve enriching the selected data with
external data.
 In this preprocessing sub step, remove noisy data, that is, data
blatantly out or range. Also ensure that there are no missing values.
 Clearly, if the data mining is selected from the data warehouse, it is
again assumed that all necessary data transformations have already
been completed.
FORMS OF DATA
PREPROCESSING
DATA ERROR
DATA SOLUTION
MAJOR TASKS IN DATA
PREPROCESSING
 Data gathering/data collect from dw.
 Data cleaning
 Convert data into suitable format
 Normalization
DATA MINING BASIC
ARCHITECTURE

Preprocessing
MULTI-DIMENSIONAL MEASURE
OF DATA QUALITY
A well-accepted multidimensional view:
 Accuracy
 Completeness
 Consistency
 Timeliness
 Believability
 Value added
 Intepretability
 accessibility
PREPROCESSING
 Data aggregation(build data cube)
 Attribute subset selection(removing irrelevant
 Attribute by correlation analysis
 Dimensionality reducing(encoding
schemes:warelength)
 Numerosity reduction(replacing by clusters or
parametric models)
 Data discretization(automatic generation of
concept hierarchies from numerical data-
specially for numerical data) part of data
reduction.
DATA DISCRETIZATION
 It converts a large number of data values into
smaller once, so that data evaluation and data
management becomes very easy.
Example:
We have an attribute age with the following values.
Age 10,11,13,17,19,31,32,38,40,70,72,73,75
Table: Before discretization
Age 10,11,13,14,17,19,(Young)
30,31,32,38,40,42,(Mature) 70,72,73,75 (old)
Table: How to discretization
Age Young Mature Old
Table: After discretization
DISCRETIZATION PROCESS
 A normal discretization process specifically
consists of four steps
(i) sort all the continuous values of the
feature to be discretized
(ii) choose a cut point to split the continuous
values into intervals.
(iii) split or merge the intervals of continuous
values
(iv) choose the stopping criteria of the
discretization process
DATA CLEANING
MISSING DATA
HOW TO HANDLE MISSING DATA
NOISY DATA
DATA REDUCTION: TYPES OF
SAMPLING
SUMMARY
END
Thank You!

Deutz Manual bf4m1012
100% (2)
Deutz Manual bf4m1012
490 pages
Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
LAB Manual: Course: CSC271: Database Systems
No ratings yet
LAB Manual: Course: CSC271: Database Systems
55 pages
Anusha K Phone No: (929) 456-3121 Senior Data Engineer: Summary
No ratings yet
Anusha K Phone No: (929) 456-3121 Senior Data Engineer: Summary
7 pages
Final - Unit 3 Data Preprocessing - Phases
No ratings yet
Final - Unit 3 Data Preprocessing - Phases
42 pages
DataMining S
No ratings yet
DataMining S
103 pages
Lecture 3 - Variables, Datatypes and Operatiors in Python PDF
No ratings yet
Lecture 3 - Variables, Datatypes and Operatiors in Python PDF
45 pages
DM Chapter 3 Data Preprocessing
No ratings yet
DM Chapter 3 Data Preprocessing
76 pages
Lesson1 - Data Definitions
No ratings yet
Lesson1 - Data Definitions
57 pages
Lesson 6 Data Life Cycle Part 2
No ratings yet
Lesson 6 Data Life Cycle Part 2
30 pages
Bab 3 Data Preprocessing: Arif Djunaidy
No ratings yet
Bab 3 Data Preprocessing: Arif Djunaidy
54 pages
L05 - Advance Analytical Theory and Methods - Classification
No ratings yet
L05 - Advance Analytical Theory and Methods - Classification
34 pages
DBMS Module 1
No ratings yet
DBMS Module 1
56 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
19 pages
RDBMS
No ratings yet
RDBMS
155 pages
Final - DBMS UNIT-5
No ratings yet
Final - DBMS UNIT-5
181 pages
DBMS Module 2
No ratings yet
DBMS Module 2
125 pages
DBMS - Module 3 Ppts - Jan28th (Autosaved)
No ratings yet
DBMS - Module 3 Ppts - Jan28th (Autosaved)
104 pages
20IT503 - Big Data Analytics - Unit1
No ratings yet
20IT503 - Big Data Analytics - Unit1
59 pages
Chi Merge
No ratings yet
Chi Merge
5 pages
UNIT - 2 .DataScience 04.09.18
No ratings yet
UNIT - 2 .DataScience 04.09.18
53 pages
DBMS Module1 Part1
No ratings yet
DBMS Module1 Part1
66 pages
Big Data - S
No ratings yet
Big Data - S
79 pages
Data Mining Techniques Unit-1
No ratings yet
Data Mining Techniques Unit-1
122 pages
Module No 5 Relational Database Design
No ratings yet
Module No 5 Relational Database Design
160 pages
Time Series Analysis
No ratings yet
Time Series Analysis
3 pages
Classification and Prediction
No ratings yet
Classification and Prediction
143 pages
Data Distribution
No ratings yet
Data Distribution
18 pages
Data Structures & Its Application
No ratings yet
Data Structures & Its Application
138 pages
Data Mining
No ratings yet
Data Mining
87 pages
Lecture - 04 - Data Understanding and Preparation
No ratings yet
Lecture - 04 - Data Understanding and Preparation
59 pages
SQL
No ratings yet
SQL
101 pages
CH 5
No ratings yet
CH 5
80 pages
Dev Answer Key
100% (1)
Dev Answer Key
17 pages
Lesson Plan: Data Warehousing and Data Mining
No ratings yet
Lesson Plan: Data Warehousing and Data Mining
1 page
Data Preprocessing
100% (1)
Data Preprocessing
33 pages
Chapter 5: Advanced SQL: Database System Concepts, 6 Ed
No ratings yet
Chapter 5: Advanced SQL: Database System Concepts, 6 Ed
77 pages
20IT503 - Big Data Analytics - Unit2
No ratings yet
20IT503 - Big Data Analytics - Unit2
62 pages
SQL Basic
100% (1)
SQL Basic
53 pages
Perl Tutorial
No ratings yet
Perl Tutorial
32 pages
Unit 01
No ratings yet
Unit 01
32 pages
1.data Representation A Level
No ratings yet
1.data Representation A Level
128 pages
Training in R For Data Statistics
No ratings yet
Training in R For Data Statistics
113 pages
Data Mining KDD Process
No ratings yet
Data Mining KDD Process
22 pages
Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
5 pages
Dam301 Data Mining and Data Warehousing Summary 08024665051
No ratings yet
Dam301 Data Mining and Data Warehousing Summary 08024665051
48 pages
Normalization 1st To 5th NF With Example
No ratings yet
Normalization 1st To 5th NF With Example
33 pages
Chapter 3: Data Preprocessing
100% (1)
Chapter 3: Data Preprocessing
41 pages
Descriptive Statistics
No ratings yet
Descriptive Statistics
22 pages
Oop Assignment 1 Fa19-Bee-012
0% (1)
Oop Assignment 1 Fa19-Bee-012
11 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Relational Algebra and SQL
No ratings yet
Relational Algebra and SQL
68 pages
Unit-2 SQL Updated
No ratings yet
Unit-2 SQL Updated
102 pages
Structured Query Language (SQL)
No ratings yet
Structured Query Language (SQL)
145 pages
Module 4 SQL
No ratings yet
Module 4 SQL
151 pages
Relational Algebra
100% (1)
Relational Algebra
40 pages
Step1. Open The Data/bank Data - CSV Dataset
No ratings yet
Step1. Open The Data/bank Data - CSV Dataset
3 pages
Answers To Problems For Data Mining and Predictive Analytics (2nd Edition) by Larose
No ratings yet
Answers To Problems For Data Mining and Predictive Analytics (2nd Edition) by Larose
12 pages
Function and Recursion of Python
No ratings yet
Function and Recursion of Python
42 pages
Data Structure Unit 5 (Searching and Sorting Notes)
No ratings yet
Data Structure Unit 5 (Searching and Sorting Notes)
26 pages
Data Pre Processing
No ratings yet
Data Pre Processing
48 pages
Normalization
No ratings yet
Normalization
35 pages
Week-2-Data Warehouse and Olap
No ratings yet
Week-2-Data Warehouse and Olap
48 pages
Introduction To Data Mining-Week1
No ratings yet
Introduction To Data Mining-Week1
43 pages
Choosing The Right Software Development Life Cycle
No ratings yet
Choosing The Right Software Development Life Cycle
3 pages
Chapter-5-Inheritance and Polymorphism
No ratings yet
Chapter-5-Inheritance and Polymorphism
72 pages
Chapter - 1-OOP Concepts
No ratings yet
Chapter - 1-OOP Concepts
63 pages
File-System Interface: Silberschatz, Galvin and Gagne ©2018 Operating System Concepts - 10 Edition
No ratings yet
File-System Interface: Silberschatz, Galvin and Gagne ©2018 Operating System Concepts - 10 Edition
46 pages
Oracle 1z0-083 Exam - Questions and Answers p4 - CertLibrary.com
No ratings yet
Oracle 1z0-083 Exam - Questions and Answers p4 - CertLibrary.com
7 pages
4 - Leaderless Replication
No ratings yet
4 - Leaderless Replication
19 pages
6 JAVA MODULE5 Accessing Database
No ratings yet
6 JAVA MODULE5 Accessing Database
48 pages
Project
No ratings yet
Project
1 page
Chapter - 5 Algebra
No ratings yet
Chapter - 5 Algebra
18 pages
Tableau Lecture 1
No ratings yet
Tableau Lecture 1
9 pages
SQL MikeDane
No ratings yet
SQL MikeDane
7 pages
Goldengate On ASM Using DBLOGREADER
No ratings yet
Goldengate On ASM Using DBLOGREADER
5 pages
Data Analysis by Using Python
No ratings yet
Data Analysis by Using Python
15 pages
資料表清除
No ratings yet
資料表清除
6 pages
Ebraindumps Oracle 1z0 076 Exam Dumps by Edwards 24 05 2024 12qa
No ratings yet
Ebraindumps Oracle 1z0 076 Exam Dumps by Edwards 24 05 2024 12qa
26 pages
Resource Utilization Specifications.
No ratings yet
Resource Utilization Specifications.
7 pages
EER Exercises
No ratings yet
EER Exercises
4 pages
Fathan Mubina - 185150400111055 - Lat1
No ratings yet
Fathan Mubina - 185150400111055 - Lat1
5 pages
Firebird 1.5 Error Codes: From MSG - Gbak, Release Sources
No ratings yet
Firebird 1.5 Error Codes: From MSG - Gbak, Release Sources
26 pages
Unit 4
No ratings yet
Unit 4
37 pages
Databricks_Class_1_PPT
No ratings yet
Databricks_Class_1_PPT
8 pages
4 Data Warehousing & OLAP
No ratings yet
4 Data Warehousing & OLAP
62 pages
How To Create A Website
No ratings yet
How To Create A Website
12 pages
DBM S Project Railway
No ratings yet
DBM S Project Railway
24 pages
TRiggers
No ratings yet
TRiggers
15 pages
Developing Vietnamese Cadastral Data Standards Based On ISO 19100 (3576)
No ratings yet
Developing Vietnamese Cadastral Data Standards Based On ISO 19100 (3576)
12 pages
Computer Science: Chapter: 16 Relatonal Database
No ratings yet
Computer Science: Chapter: 16 Relatonal Database
10 pages
ETL Process in Data Warehouse: Click To Add Text Chirayu Poundarik
No ratings yet
ETL Process in Data Warehouse: Click To Add Text Chirayu Poundarik
37 pages
MySQL Cheat Sheet & Quick Reference
No ratings yet
MySQL Cheat Sheet & Quick Reference
20 pages
BDA Experiment 14 PDF
No ratings yet
BDA Experiment 14 PDF
77 pages
Dbms Batch 2
No ratings yet
Dbms Batch 2
26 pages

Data Cleaning Data Transformation Data Reduction Discretization and Generating Concept Hierarchies

Uploaded by

Data Cleaning Data Transformation Data Reduction Discretization and Generating Concept Hierarchies

Uploaded by

Data Mining:- Knowledge discovery in databases

You might also like