0% found this document useful (0 votes)

17 views

Advance Python

Uploaded by

Pinkesh kumar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views

Advance Python

Uploaded by

Pinkesh kumar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

### Objective Overview:

The goal of this assignment is to guide you through the process of data preprocessing using Python
libraries like pandas, numpy, scikit-learn, and seaborn. You will apply techniques for data cleaning,
transformation, and visualization, ultimately preparing the dataset for further analysis or machine
learning.

### Step-by-Step Breakdown:

---

### 1. Dataset Selection:

Choose a dataset that fits the criteria:

- At least 500 rows and multiple columns of varying data types (numerical, categorical, text, etc.).
- Suitable open data sources include:
- **Kaggle**: Provides datasets on diverse topics (e.g., health, finance, sports).
- **UCI Machine Learning Repository**: Offers datasets used for machine learning tasks.
- **Open Data Portals**: Many governments and organizations release datasets for public use.

**Dataset Example**: Suppose we select the **"Titanic: Machine Learning from Disaster" dataset** from
Kaggle (contains 891 rows, with both numerical and categorical data).

---

### 2. Data Cleaning:

#### Missing Values:

- **Step 1**: Identify missing values.
‘‘‘python
import pandas as pd

# Load the dataset

data = pd.read_csv(’titanic.csv’)

# Identify missing values

missing_values = data.isnull().sum()
print(missing_values)
‘‘‘
- **Step 2**: Handle missing values. Depending on the column type and context, you can:
- Impute numerical values (e.g., mean, median).
- Impute categorical values (e.g., mode or constant).
- Drop rows or columns with excessive missing data.
‘‘‘python
# Example of imputing missing ’Age’ with the median
data[’Age’].fillna(data[’Age’].median(), inplace=True)

# Example of imputing missing ’Embarked’ with the mode

data[’Embarked’].fillna(data[’Embarked’].mode()[0], inplace=True)
‘‘‘

#### Duplicates:
- **Step 3**: Detect and remove duplicate rows.
‘‘‘python
# Check for duplicates
duplicates = data.duplicated().sum()
print(f"Number of duplicate rows: {duplicates}")

# Remove duplicates
data = data.drop_duplicates()
‘‘‘

#### Outliers:
- **Step 4**: Identify outliers using the **Z-score** or **IQR (Interquartile Range)** method.
‘‘‘python
import numpy as np
from scipy.stats import zscore

# Calculate Z-scores for numerical columns

data_zscore = data.select_dtypes(include=[np.number])
z_scores = np.abs(zscore(data_zscore))

# Threshold for identifying outliers

threshold = 3
outliers = (z_scores > threshold).sum()
print(f"Outliers detected: {outliers}")
‘‘‘
- **Step 5**: Handle outliers by removing or capping.
‘‘‘python
# Remove outliers (Z-score > 3)
data_clean = data[(z_scores < threshold).all(axis=1)]
‘‘‘

---

### 3. Data Transformation:

#### Normalization/Standardization:
- **Step 6**: Normalize or standardize numerical features.
‘‘‘python
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Example of Min-Max Scaling

scaler = MinMaxScaler()
data_scaled = data.copy()
data_scaled[’Age’] = scaler.fit_transform(data[[’Age’]])

# Example of Z-score Standardization

standardizer = StandardScaler()
data_standardized = data.copy()
data_standardized[’Age’] = standardizer.fit_transform(data[[’Age’]])
‘‘‘

#### Encoding Categorical Variables:

- **Step 7**: Convert categorical variables into numerical formats using encoding.
‘‘‘python
# One-Hot Encoding (e.g., ’Sex’ and ’Embarked’ columns)
data_encoded = pd.get_dummies(data, columns=[’Sex’, ’Embarked’])

# Label Encoding (e.g., ’Survived’ column)

from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
data[’Survived’] = label_encoder.fit_transform(data[’Survived’])
‘‘‘

#### Date and Time Features:

- **Step 8**: Extract useful features from date columns (if applicable).
‘‘‘python
# Example: Convert ’Date’ column into year, month, day features
data[’Year’] = pd.to_datetime(data[’Date’]).dt.year
data[’Month’] = pd.to_datetime(data[’Date’]).dt.month
‘‘‘

#### Text Data Preprocessing:

- **Step 9**: If text data is available, preprocess it using tokenization, stop words removal, and
stemming/lemmatization.
‘‘‘python
from sklearn.feature_extraction.text import CountVectorizer

# Example of text tokenization

vectorizer = CountVectorizer(stop_words=’english’)
X = vectorizer.fit_transform(data[’TextColumn’])

# Optionally, apply stemming/lemmatization using libraries like NLTK

‘‘‘

---

### 4. Data Visualization:

Visualize the dataset to understand its distribution and relationships.

#### Histograms:
- **Step 10**: Create a histogram for numerical features.
‘‘‘python
import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(data[’Age’], kde=True)
plt.title(’Age Distribution’)
plt.show()
‘‘‘

#### Box Plots:

- **Step 11**: Visualize outliers with box plots.
‘‘‘python
sns.boxplot(x=data[’Age’])
plt.title(’Box Plot of Age’)
plt.show()
‘‘‘

#### Heatmap (Correlation Matrix):

- **Step 12**: Visualize correlations between numerical features.
‘‘‘python
corr_matrix = data.corr()
sns.heatmap(corr_matrix, annot=True, cmap=’coolwarm’)
plt.title(’Correlation Heatmap’)
plt.show()
‘‘‘

#### Scatter Plot:

- **Step 13**: Visualize relationships between features using scatter plots.
‘‘‘python
sns.scatterplot(x=data[’Age’], y=data[’Fare’])
plt.title(’Age vs Fare’)
plt.show()
‘‘‘

---

### 5. Feature Engineering:

- **Step 14**: Create new features based on existing data. For example, combine ’SibSp’ and ’Parch’ into
a new feature, ’FamilySize’.
‘‘‘python
data[’FamilySize’] = data[’SibSp’] + data[’Parch’]
‘‘‘

- **Step 15**: Perform feature selection to identify the most important features.
‘‘‘python
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

X = data.drop(’Survived’, axis=1)
y = data[’Survived’]

# Use Random Forest to rank features by importance

rf = RandomForestClassifier(n_estimators=100)
rf.fit(X, y)

# Select important features

selector = SelectFromModel(rf, threshold="mean")
X_selected = selector.transform(X)
‘‘‘

---

### 6. **Documentation**:

- **Code Documentation**: Add comments and explanations to clarify the rationale behind each
preprocessing step.

- **Preprocessing Impact**:
- **Missing Value Handling**: Imputing or removing missing data can improve model performance by
ensuring no incomplete rows or columns.
- **Outlier Removal**: Identifying and removing outliers ensures the model is not unduly influenced by
extreme values.
- **Encoding**: Converting categorical data into numerical values makes it compatible with machine
learning algorithms.
- **Feature Engineering**: Creating new features helps enhance model accuracy by providing additional
information for the algorithm.
---

### Final Thoughts:

After completing these preprocessing steps, your dataset will be clean, transformed, and ready for
machine learning or further analysis. Keep in mind that data preprocessing is a crucial step, as it directly
impacts the quality of insights and predictions generated by your models.

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
(Feature Engineering) (Extended-Cheatsheet)
No ratings yet
(Feature Engineering) (Extended-Cheatsheet)
9 pages
Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
27 pages
Machine Learning Algorithms PDF
100% (1)
Machine Learning Algorithms PDF
148 pages
Lustre Quick Cheatsheet
No ratings yet
Lustre Quick Cheatsheet
4 pages
EXP-2 ML
No ratings yet
EXP-2 ML
6 pages
1data Cleansing Cheklist
No ratings yet
1data Cleansing Cheklist
2 pages
EXP-2
No ratings yet
EXP-2
6 pages
S-9
No ratings yet
S-9
18 pages
UNITIV.BtechIot
No ratings yet
UNITIV.BtechIot
43 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
DSUR_EA2352001010391_W7
No ratings yet
DSUR_EA2352001010391_W7
3 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
III-Unit
No ratings yet
III-Unit
4 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
Day-4 DS Practicals
No ratings yet
Day-4 DS Practicals
5 pages
Data Analytics Lab Manual_250402_095326
No ratings yet
Data Analytics Lab Manual_250402_095326
58 pages
DA_Programs
No ratings yet
DA_Programs
44 pages
Data Cleaning Approaches in Machine Learning Algorithms
No ratings yet
Data Cleaning Approaches in Machine Learning Algorithms
8 pages
DP
No ratings yet
DP
9 pages
AML MIDSEM
No ratings yet
AML MIDSEM
59 pages
Data Preprocessing
No ratings yet
Data Preprocessing
11 pages
Data Preprocessing Tutorial
No ratings yet
Data Preprocessing Tutorial
39 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Unit 7 ML
No ratings yet
Unit 7 ML
33 pages
Lecture Material 3
No ratings yet
Lecture Material 3
7 pages
DA lab
No ratings yet
DA lab
27 pages
ML SELF UNIT 2
No ratings yet
ML SELF UNIT 2
20 pages
DPT Week 1
No ratings yet
DPT Week 1
3 pages
# For Linear Algebra Import Numpy As NP # For Data Processing Import Pandas As PD
No ratings yet
# For Linear Algebra Import Numpy As NP # For Data Processing Import Pandas As PD
4 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
1_Data Preprocessing and Cleaning_55
No ratings yet
1_Data Preprocessing and Cleaning_55
8 pages
Preprocessing
No ratings yet
Preprocessing
9 pages
1
No ratings yet
1
9 pages
ML Assignment
No ratings yet
ML Assignment
34 pages
ML (Prac1)
No ratings yet
ML (Prac1)
12 pages
Northbay Summarizes Data Pre-Processing Algorithms
No ratings yet
Northbay Summarizes Data Pre-Processing Algorithms
10 pages
Unit1 ML Programs
No ratings yet
Unit1 ML Programs
5 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
21 pages
ML JOURNAL
No ratings yet
ML JOURNAL
53 pages
Ap Python
No ratings yet
Ap Python
12 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
8 pages
Part A Assignment 6
No ratings yet
Part A Assignment 6
28 pages
PythonForMachineLearning
No ratings yet
PythonForMachineLearning
66 pages
CSC407_Chapter 2-3
No ratings yet
CSC407_Chapter 2-3
46 pages
Dwdm-Lab Manual
No ratings yet
Dwdm-Lab Manual
39 pages
Building Good Training Sets UNIT 1 PART2
No ratings yet
Building Good Training Sets UNIT 1 PART2
46 pages
Car-price-prediction (1)
No ratings yet
Car-price-prediction (1)
42 pages
ML Book Notes
No ratings yet
ML Book Notes
9 pages
ML Checklist PDF
No ratings yet
ML Checklist PDF
4 pages
Titanic Akshaya
No ratings yet
Titanic Akshaya
12 pages
Lab_questionbank
No ratings yet
Lab_questionbank
3 pages
DataPreparation - Outlier - Treatment ASSIGEMENT ANSWER
No ratings yet
DataPreparation - Outlier - Treatment ASSIGEMENT ANSWER
4 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
3-Data Preprocessing
No ratings yet
3-Data Preprocessing
32 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Quick Python Guide
From Everand
Quick Python Guide
Coder1
No ratings yet
Hidaramani Apparel (PVT) LTD Knit Cluster in Srilanka Is Investigating The Merits and Drawbacks of The Covid-19 Health Protection System
No ratings yet
Hidaramani Apparel (PVT) LTD Knit Cluster in Srilanka Is Investigating The Merits and Drawbacks of The Covid-19 Health Protection System
28 pages
Programming Flowchart
60% (5)
Programming Flowchart
105 pages
Cap 3
0% (1)
Cap 3
5 pages
Java Streams
No ratings yet
Java Streams
21 pages
M06 StorageScalability
No ratings yet
M06 StorageScalability
61 pages
Davv PHD Course Work Time Table
100% (2)
Davv PHD Course Work Time Table
4 pages
DBMS Lab Assignments-8 PDF
No ratings yet
DBMS Lab Assignments-8 PDF
4 pages
Eyasu Research Draft
No ratings yet
Eyasu Research Draft
44 pages
Knowledge Unit of Science and Technology: Laboratory Manual (CC1021L) : (Programming Fundamentals) (Semester Fall-2021)
No ratings yet
Knowledge Unit of Science and Technology: Laboratory Manual (CC1021L) : (Programming Fundamentals) (Semester Fall-2021)
5 pages
Audcise Notes
No ratings yet
Audcise Notes
3 pages
Quick Reference 8.7 A1PE
No ratings yet
Quick Reference 8.7 A1PE
4 pages
Ajol File Journals - 359 - Articles - 136455 - Submission - Proof - 136455 4285 365269 1 10 20160531
No ratings yet
Ajol File Journals - 359 - Articles - 136455 - Submission - Proof - 136455 4285 365269 1 10 20160531
11 pages
Cornea Madalina Tema 3
No ratings yet
Cornea Madalina Tema 3
13 pages
Spatial Data by Neha Shaikh
No ratings yet
Spatial Data by Neha Shaikh
14 pages
Tableau- Projects and Skills
No ratings yet
Tableau- Projects and Skills
2 pages
10-Importance of Algorithms and Data Structures - Fundamentals of Alg-Analy - Space and Time Complexity-03-08-2022
No ratings yet
10-Importance of Algorithms and Data Structures - Fundamentals of Alg-Analy - Space and Time Complexity-03-08-2022
17 pages
11 Pasipanodya Tsamabatare Chapter 1-5
No ratings yet
11 Pasipanodya Tsamabatare Chapter 1-5
92 pages
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 2
No ratings yet
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 2
86 pages
Quant 0 DS Traps
No ratings yet
Quant 0 DS Traps
3 pages
System Health Check Training 19 March 2015: By: Aslaily Abd Manan
No ratings yet
System Health Check Training 19 March 2015: By: Aslaily Abd Manan
17 pages
Sensor Network Databases - An Introduction: Context
No ratings yet
Sensor Network Databases - An Introduction: Context
29 pages
Chapter 3 Canva Summary
No ratings yet
Chapter 3 Canva Summary
23 pages
Akshay J Shetty CV
No ratings yet
Akshay J Shetty CV
2 pages
.Trashed-1711539973-What Is StylisticsUnit 1
No ratings yet
.Trashed-1711539973-What Is StylisticsUnit 1
17 pages
Data Structures Algorithms and Applications in C by Sartraj Sahani
100% (1)
Data Structures Algorithms and Applications in C by Sartraj Sahani
826 pages
Oracle Function
No ratings yet
Oracle Function
20 pages
Research Proposal For RM
No ratings yet
Research Proposal For RM
3 pages
Entity Spaces Quick Reference
No ratings yet
Entity Spaces Quick Reference
25 pages
Distributed Databases: Solutions To Practice Exercises
No ratings yet
Distributed Databases: Solutions To Practice Exercises
4 pages

Advance Python

Uploaded by

Advance Python

Uploaded by

### Objective Overview:

### Step-by-Step Breakdown:

### 1. **Dataset Selection**:

Choose a dataset that fits the criteria:

### 2. **Data Cleaning**:

#### Missing Values:

# Load the dataset

# Identify missing values

# Example of imputing missing ’Embarked’ with the mode

# Calculate Z-scores for numerical columns

# Threshold for identifying outliers

### 3. **Data Transformation**:

# Example of Min-Max Scaling

# Example of Z-score Standardization

#### Encoding Categorical Variables:

# Label Encoding (e.g., ’Survived’ column)

#### Date and Time Features:

#### Text Data Preprocessing:

# Example of text tokenization

# Optionally, apply stemming/lemmatization using libraries like NLTK

### 4. **Data Visualization**:

Visualize the dataset to understand its distribution and relationships.

#### Box Plots:

#### Heatmap (Correlation Matrix):

#### Scatter Plot:

### 5. **Feature Engineering**:

# Use Random Forest to rank features by importance

# Select important features

### Final Thoughts:

You might also like

### 1. Dataset Selection:

### 2. Data Cleaning:

### 3. Data Transformation:

### 4. Data Visualization:

### 5. Feature Engineering: