Data Preprocessing
Data Preprocessing
Data Preprocessing
• Outline:
• What & Why preprocess the data?
• Data Cleaning
• Data Integration
• Data Transformation
• Data reduction
2
Data Preprocessing
❑ Accuracy
❑ Completeness
❑ Consistency
❑ Timeliness
❑ Believability
❑ Value Added
❑ Interpretability
❑ Accessibility
Data Preprocessing Technique
1. Data Cleaning
2. Data Integration
3. Data Transformation
4. Data Reduction
Data Cleaning
66.1
69.44
66.1 0.22
Data Cleaning- Missing Value
Penyebab:
1. Kesalahan Instrumen
Pengumpul data
2. Masalah data Entri
3. Masalah transmisi data
4. Keterbatasan Teknologi
5. Tidak Konsisten dalam
penamaan.
Untuk mengatasinya harus
ex: “yogya” vs “jogja”
dilakukan smoothing
(dengan memperhatikan
nilai-nilai tetangga)
Data Cleaning- Noisy Data
✓ Binning
✓Clustering
✓Combined Computer and Human Inspection
Deteksi data yang mencurigakan tangani manusia
✓Regression
Data Cleaning- Noisy Data
Binning
Binning adalah sebuah proses untuk
mengelompokkan data ke dalam bagian-bagian
yang lebih kecil yang disebut bin berdasarkan
kriteria tertentu.
Langkah
1. Urutkan data
2. Partisi data tersebut ke dalam bin
3. Tentukan teknik Smoothing :
- by mean
- by boundaries
Data Cleaning- Noisy Data
1. Urutkan data
70,100,150,200,250,270,300,380,400
Clustering
Data pencilan : data yang menyimpang dari data
yang lainnya
Regresi
correct inconsistensies
Data Cleaning- Inconsistent Data
Data Source 1
Data Source 2
What Deferences??
Agregation
Generalization
Normalization
Attribute Construction
Data Transformation
35
Image Pre Processing??
36
Any Question