0% found this document useful (0 votes)

6 views

Handling Missing Values in Python

The document discusses handling missing values in Python, outlining reasons for missing data and various techniques for addressing it, including deletion and imputation methods. It categorizes missing data into three types: MCAR, MAR, and MNAR, and describes basic and advanced imputation techniques such as K-Nearest Neighbour and Multivariate Imputation by Chained Equations (MICE). Additionally, it notes that some algorithms, like XGBoost and LightGBM, can manage missing values without pre-processing.

Uploaded by

vm9545331377

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views

Handling Missing Values in Python

Uploaded by

vm9545331377

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

Handling Missing Values in Python

Real world data is messy and often contains a lot of missing values. There could be multiple reasons for the missing values but primarily the
reason for missing-ness can be attributed to

Either way we need to address this issue before we proceed with the modelling stuff. It is also important to note that some algorithms
like XGBoost and LightGBM can treat missing data without any pre-processing.

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Reasons for Missing Values
Before we start treating the missing values, it is important to understand the various reasons for the missing-ness in data. Broadly speaking, there
can be three possible reasons:

1. Missing Completely at Random (MCAR)

The missing values on a given variable (Y) are not associated with other variables in a given data set or with the variable (Y) itself. In other
words, there is no particular reason for the missing values.

2. Missing at Random (MAR)

MAR occurs when the missing-ness is not random, but where missing-ness can be fully accounted for by variables where there is complete
information.

3. Missing Not at Random (MNAR)

Missing-ness depends on unobserved data or the value of the missing data itself.
Deletions

Deletion means to delete the missing values from a dataset. This is however not recommended as it might result in loss of information from the
dataset. We should only delete the missing values from a dataset if their proportion is very small. Deletions are further of three types:
Syed Afroz Ali (Data Scientist)
https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Pairwise Deletion
Pairwise Deletion is used when values are missing completely at random i.e. MCAR. During Pairwise deletion, only the missing values are
deleted. All operations in pandas like mean, sum etc. intrinsically skips missing values.

List wise Deletion/ Dropping rows

During List wise deletion, complete rows (which contain the missing values) are deleted. As a result, it is also called Complete Case deletion.
Like Pairwise deletion, list wise deletions are also only used for MCAR values.

#Drop rows which contains any NaN or missing value for Age column
train_1.dropna(subset=['Age'],how='any',inplace=True)
train_1['Age'].isnull().sum()

The Age column doesn't have any missing values. A major disadvantage of List wise deletion is that a major chunk of data and hence a lot of
information is lost. Hence, it is advisable to use it only when the number of missing values is very small.

Dropping complete columns

If a column contains a lot of missing values, say more than 80%, and the feature is not significant, you might want to delete that feature.
However, again, it is not a good methodology to delete data.

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Imputations Techniques for non-Time Series Problems

Imputation refers to replacing missing data with substituted values. There are a lot of ways in which the missing values can be imputed
depending upon the nature of the problem and data. Depending upon the nature of the problem, imputation techniques can be broadly they can
be classified as follows:

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Basic Imputation Techniques
 Imputating with a constant value
 Imputation using the statistics (mean, median or most frequent) of each column in which the missing values are located

For this we shall use the The SimpleImputer class from sklearn.
# imputing with a constant
from sklearn.impute import SimpleImputer
train_constant = train.copy()
mean_imputer = SimpleImputer(strategy='constant')
train_constant.iloc[:,:] = mean_imputer.fit_transform(train_constant)
train_constant.isnull().sum()

from sklearn.impute import SimpleImputer

train_most_frequent = train.copy()
#setting strategy to 'mean' to impute by the mean
mean_imputer = SimpleImputer(strategy='most_frequent')#strategy can also be mean or median
train_most_frequent.iloc[:,:] = mean_imputer.fit_transform(train_most_frequent)
train_most_frequent.isnull().sum()

Imputations Techniques for Time Series Problems

Now let's look at ways to impute data in a typical time series problem. Tackling missing values in time Series problem is a bit different. The fillna() method is
used for imputing missing values in such problems.
 Basic Imputation Techniques

 'ffill' or 'pad' - Replace NaN s with last observed value

 'bfill' or 'backfill' - Replace NaN s with next observed value
 Linear interpolation method

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Time Series dataset
The dataset is called Air Quality Data in India (2015 - 2020) Tand it contains air quality data and AQI (Air Quality Index) at hourly and daily
level of various stations across multiple cities in India. The dataset has a lot of missing values and is a classic Time series problem.

city_day['Xylene'][50:64]

city_day.fillna(method='ffill',inplace=True)
city_day['Xylene'][50:65]

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Imputation using Linear Interpolation method
Time series data has a lot of variations against time. Hence, imputing using backfill and forward fill isn't the best possible solution to address the
missing value problem. A more apt alternative would be to use interpolation methods, where the values are filled with incrementing or
decrementing values.

Linear interpolation is an imputation technique that assumes a linear relationship between data points and utilises non-missing values from
adjacent data points to compute a value for a missing data point.

city_day1['Xylene'][50:65]

# Interpolate using the linear method

city_day1.interpolate(limit_direction="both",inplace=True)
city_day1['Xylene'][50:65]

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Advanced Imputation Techniques
Advanced imputation techniques uses machine learning algorithms to impute the missing values in a dataset unlike the previous techniques
where we used other column values to predict the missing values.

K-Nearest Neighbour Imputation

The KNN-Imputer class provides imputation for filling in missing values using the k-Nearest Neighbours approach. Each missing feature is
imputed using values from n_neighbors nearest neighbour’s that have a value for the feature. The feature of the neighbours are averaged
uniformly or weighted by distance to each neighbour.
train_knn = train.copy(deep=True)
from sklearn.impute import KNNImputer
train_knn = train.copy(deep=True)
knn_imputer = KNNImputer(n_neighbors=2, weights="uniform")
train_knn['Age'] = knn_imputer.fit_transform(train_knn[['Age']])
train_knn['Age'].isnull().sum()

Multivariate feature imputation - Multivariate imputation by chained equations (MICE)

A strategy for imputing missing, values by modelling each feature with missing values, as a function of other features in a round-robin fashion. It
performs multiple regressions over random sample of the data, then takes the average of the multiple regression values and uses that value to
impute the missing value. In sklearn, it is implemented as follows
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
train_mice = train.copy(deep=True)

mice_imputer = IterativeImputer()
train_mice['Age'] = mice_imputer.fit_transform(train_mice[['Age']])
train_mice['Age'].isnull().sum()

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Algorithms which handle missing values
Some algorithms like XGBoost and LightGBM can handle missing values without any pre-processing, by supplying relevant parameters.

https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/

Data Analyst Resume: A Complete Guide: Preface
100% (1)
Data Analyst Resume: A Complete Guide: Preface
12 pages
Lect 2
No ratings yet
Lect 2
54 pages
The Complete Guide To Data Preprocessing
No ratings yet
The Complete Guide To Data Preprocessing
50 pages
Unit 3
No ratings yet
Unit 3
30 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
12 pages
PW2 DataCleaning
No ratings yet
PW2 DataCleaning
6 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
EXP-12_IAIML
No ratings yet
EXP-12_IAIML
13 pages
Missing Data
No ratings yet
Missing Data
14 pages
Data - Preprocessing - 2
No ratings yet
Data - Preprocessing - 2
10 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
6 pages
AI351 Lecture 1 - Data Preprocessing
No ratings yet
AI351 Lecture 1 - Data Preprocessing
8 pages
Lecture 4 New Data Pre Processing
No ratings yet
Lecture 4 New Data Pre Processing
41 pages
Handling Missing Values
No ratings yet
Handling Missing Values
4 pages
Missing Data
No ratings yet
Missing Data
25 pages
Data Cleaning With Python and Pandas
No ratings yet
Data Cleaning With Python and Pandas
49 pages
Missing Data Handling
No ratings yet
Missing Data Handling
19 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
10 pages
Adsl Exp 3 2024
No ratings yet
Adsl Exp 3 2024
11 pages
Missing Values
No ratings yet
Missing Values
3 pages
Data Analytics lab manual
No ratings yet
Data Analytics lab manual
47 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
Data Analytics Lab Manual_250402_095326
No ratings yet
Data Analytics Lab Manual_250402_095326
58 pages
Pandas
No ratings yet
Pandas
4 pages
Machine Learning Techniques Lesson 1
No ratings yet
Machine Learning Techniques Lesson 1
9 pages
Chapter 1. Data Preparation (2)
No ratings yet
Chapter 1. Data Preparation (2)
74 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Group A Assignment No2 Writeup
No ratings yet
Group A Assignment No2 Writeup
9 pages
Data Wrangling and Preprocessing
100% (1)
Data Wrangling and Preprocessing
41 pages
DWM Exp 7
No ratings yet
DWM Exp 7
4 pages
Slides on DataII
No ratings yet
Slides on DataII
26 pages
Day 19 - Numpy
No ratings yet
Day 19 - Numpy
5 pages
ADS_Exp2
No ratings yet
ADS_Exp2
4 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
6 pages
Missing Data Values and How To Handle It
No ratings yet
Missing Data Values and How To Handle It
5 pages
platias2020-Greece
No ratings yet
platias2020-Greece
10 pages
lec 4
No ratings yet
lec 4
9 pages
ET 610 - Data Preprocessing
No ratings yet
ET 610 - Data Preprocessing
41 pages
Lecture 8 Handling Missing Values
No ratings yet
Lecture 8 Handling Missing Values
25 pages
chapter_3
No ratings yet
chapter_3
58 pages
CH 02 Data Handling Technique
No ratings yet
CH 02 Data Handling Technique
105 pages
DM Chapter 3 Data Preprocessing
No ratings yet
DM Chapter 3 Data Preprocessing
76 pages
Dataminin Presentation (1) .PPTX - Read-Only
No ratings yet
Dataminin Presentation (1) .PPTX - Read-Only
23 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples)
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples)
10 pages
DA lab
No ratings yet
DA lab
27 pages
DADM S5 Imputation of Missing Data
No ratings yet
DADM S5 Imputation of Missing Data
15 pages
Data Cleaning_Project work
No ratings yet
Data Cleaning_Project work
10 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
2_Machine Learning_130824
No ratings yet
2_Machine Learning_130824
81 pages
Missing Data Imputation Using Singular Value Decomposition
No ratings yet
Missing Data Imputation Using Singular Value Decomposition
6 pages
ML Practical 03
No ratings yet
ML Practical 03
20 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
FDS Unit 2
No ratings yet
FDS Unit 2
8 pages
DA unit 2 15m handling missing data
No ratings yet
DA unit 2 15m handling missing data
3 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
TP2- ML -handling outliers
No ratings yet
TP2- ML -handling outliers
5 pages
Ass-2 Ds
No ratings yet
Ass-2 Ds
29 pages
handling missing values
No ratings yet
handling missing values
5 pages
Random Sample Consensus: Robust Estimation in Computer Vision
From Everand
Random Sample Consensus: Robust Estimation in Computer Vision
Fouad Sabry
No ratings yet
Introduction to Algorithms
From Everand
Introduction to Algorithms
S VASIST
No ratings yet
Computer Algebra: Fundamentals and Applications
From Everand
Computer Algebra: Fundamentals and Applications
Fouad Sabry
No ratings yet
Approach to Automating Content Generation Using Generative AI
No ratings yet
Approach to Automating Content Generation Using Generative AI
2 pages
Company Details PUNE
No ratings yet
Company Details PUNE
443 pages
TYPES OF text processing chunks techniques best solution
No ratings yet
TYPES OF text processing chunks techniques best solution
5 pages
Ai Model Learn From Data Tomodel
No ratings yet
Ai Model Learn From Data Tomodel
13 pages
CHP 10 Research Methods Part III
No ratings yet
CHP 10 Research Methods Part III
43 pages
Tugas 1-Forecasting SP 2023
No ratings yet
Tugas 1-Forecasting SP 2023
3 pages
Instucciones Proyecto 1
No ratings yet
Instucciones Proyecto 1
10 pages
SBET4282 Assignment Question
No ratings yet
SBET4282 Assignment Question
8 pages
Fashion Business Research Report On Sreetwear
No ratings yet
Fashion Business Research Report On Sreetwear
15 pages
Does Eye Color Depend On Gender? It Might Depend On Who or How You Ask
No ratings yet
Does Eye Color Depend On Gender? It Might Depend On Who or How You Ask
11 pages
Extended Essay
No ratings yet
Extended Essay
18 pages
Factor Analysis by Hair 2010 (Rules of Thumbs)
67% (3)
Factor Analysis by Hair 2010 (Rules of Thumbs)
4 pages
Natasya Febyola Uji Asumsi Klasik
No ratings yet
Natasya Febyola Uji Asumsi Klasik
3 pages
Ai - Introduction: FDP / Short Term Training On Artificial Intelligence & Deep Learning Applications
No ratings yet
Ai - Introduction: FDP / Short Term Training On Artificial Intelligence & Deep Learning Applications
6 pages
Efa Vs Cfa
No ratings yet
Efa Vs Cfa
11 pages
Individual Capstone Contribution
No ratings yet
Individual Capstone Contribution
4 pages
Activity No. 10
No ratings yet
Activity No. 10
6 pages
Probability Predict Stata
No ratings yet
Probability Predict Stata
2 pages
Inferential Statistics and Hypothesis Testing
No ratings yet
Inferential Statistics and Hypothesis Testing
10 pages
Data Mining and BI
No ratings yet
Data Mining and BI
4 pages
Alternative Navigator For Nueva Ecija High School
No ratings yet
Alternative Navigator For Nueva Ecija High School
26 pages
The Impact of Early Child Care and Development Education On Cognitive, Psychomotor, and Affective Domains of Learning
No ratings yet
The Impact of Early Child Care and Development Education On Cognitive, Psychomotor, and Affective Domains of Learning
10 pages
CBR Proposal
No ratings yet
CBR Proposal
14 pages
Module 11 Unit 3 Multiple Linear Regression
No ratings yet
Module 11 Unit 3 Multiple Linear Regression
8 pages
Calibration and Validation of Condition Indicator For Managing Urban Pavement Networks
No ratings yet
Calibration and Validation of Condition Indicator For Managing Urban Pavement Networks
9 pages
ECON3334 Midterm Fall2022 Question
No ratings yet
ECON3334 Midterm Fall2022 Question
7 pages
Cluster Analysis: Concepts and Techniques - Chapter 7
100% (1)
Cluster Analysis: Concepts and Techniques - Chapter 7
60 pages
It6006 Data Analytics Syllabus
No ratings yet
It6006 Data Analytics Syllabus
1 page
Gnuplot Basics
No ratings yet
Gnuplot Basics
5 pages
Marketing Mix
0% (1)
Marketing Mix
59 pages
FinalProyect173706
No ratings yet
FinalProyect173706
8 pages
Ai&ml Record
No ratings yet
Ai&ml Record
57 pages
Thesis Proposal
No ratings yet
Thesis Proposal
11 pages

Handling Missing Values in Python

Uploaded by

Handling Missing Values in Python

Uploaded by

Handling Missing Values in Python

Syed Afroz Ali (Data Scientist)

1. Missing Completely at Random (MCAR)

2. Missing at Random (MAR)

3. Missing Not at Random (MNAR)

List wise Deletion/ Dropping rows

Dropping complete columns

Syed Afroz Ali (Data Scientist)

Syed Afroz Ali (Data Scientist)

from sklearn.impute import SimpleImputer

Imputations Techniques for Time Series Problems

 'ffill' or 'pad' - Replace NaN s with last observed value

Syed Afroz Ali (Data Scientist)

Syed Afroz Ali (Data Scientist)

# Interpolate using the linear method

Syed Afroz Ali (Data Scientist)

K-Nearest Neighbour Imputation

Multivariate feature imputation - Multivariate imputation by chained equations (MICE)

Syed Afroz Ali (Data Scientist)

Syed Afroz Ali (Data Scientist)

You might also like