0% found this document useful (0 votes)

6 views

Python Pandas

Uploaded by

Vineet Pal

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views

Python Pandas

Uploaded by

Vineet Pal

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 13

The Unique Computers

Neelmatha Lucknow
Python Pandas
What is Pandas?
Pandas is a powerful Python library that is specifically designed to work on
data frames that have "relational" or "labeled" data. Its aim aligns with doing
real-world data analysis using Python. Its flexibility and functionality make it
indispensable for various data-related tasks. Hence, this Python package
works well for data manipulation, operating a dataset, exploring a data
frame, data analysis, and machine learning-related tasks.

Generally, Pandas operates a data frame using Series and DataFrame; where
Series works on a one-dimensional labeled array holding data of any type
like integers, strings, and objects, while a DataFrame is a two-dimensional
data structure that manages and operates data in tabular form (using rows
and columns).

Why Pandas?
The beauty of Pandas is that it simplifies the task related to data frames and
makes it simple to do many of the time-consuming, repetitive tasks involved
in working with data frames, such as:

• Import datasets - available in the form of spreadsheets, comma-

separated values (CSV) files, and more.

• Data cleansing - dealing with missing values and representing them

as NaN, NA, or NaT.

• Size mutability - columns can be added and removed from

DataFrame and higher-dimensional objects.

• Data normalization – normalize the data into a suitable format for

analysis.

• Data alignment - objects can be explicitly aligned to a set of labels.

Intuitive merging and joining data sets – we can merge and join
datasets.
• Reshaping and pivoting of datasets – datasets can be reshaped
and pivoted as per the need.

• Efficient manipulation and extraction - manipulation and

extraction of specific parts of extensive datasets using intelligent label-
based slicing, indexing, and subsetting techniques.

• Statistical analysis - to perform statistical operations on datasets.

• Data visualization - Visualize datasets and uncover insights.

Applications of Pandas
The most common applications of Pandas are as follows:

• Data Cleaning: Pandas provides functionalities to clean messy data,

deal with incomplete or inconsistent data, handle missing values,
remove duplicates, and standardize formats to do effective data
analysis.

• Data Exploration: Pandas easily summarize statistics, find trends,

and visualize data using built-in plotting functions, Matplotlib, or
Seaborn integration.

• Data Preparation: Pandas may pivot, melt, convert variables, and

merge datasets based on common columns to prepare data for
analysis.

• Data Analysis: Pandas supports descriptive statistics, time series

analysis, group-by operations, and custom functions.

• Data Visualisation: Pandas itself has basic plotting capabilities; it

integrates and supports data visualization libraries like Matplotlib,
Seaborn, and Plotly to create innovative visualizations.

• Time Series Analysis: Pandas supports date/time indexing,

resampling, frequency conversion, and rolling statistics for time series
data.

• Data Aggregation and Grouping: Pandas HYPERLINK

"https://www.tutorialspoint.com/python_pandas/python_pandas_groupb
y.htm"groupby HYPERLINK
"https://www.tutorialspoint.com/python_pandas/python_pandas_groupb
y.htm"() function lets you aggregate data and compute group-wise
summary statistics or apply functions to groups.
• Data Input/Output: Pandas makes data input and export easy by
reading and writing CSV, Excel, JSON, SQL databases, and more.

• Machine Learning: Pandas works well with Scikit-learn for data

preparation, feature engineering, and model input data.

• Financial Analysis: Pandas is commonly used in finance for stock

market data analysis, financial indicator calculation, and portfolio
optimization.

• Text Data Analysis: Pandas' string manipulation, regular expressions,

and text mining functions help analyse textual data.

• Experimental Data Analysis: Pandas makes manipulating and

analysing large datasets, performing statistical tests, and visualizing
results easy.

Python Pandas Data Structures

Data structures in Pandas are designed to handle data efficiently. They allow
for the organization, storage, and modification of data in a way that
optimizes memory usage and computational performance. Python Pandas

−
library provides two primary data structures for handling and analyzing data

• Series

• DataFrame

Dimension and Description of Pandas Data Structures

Data Dimensio Description

Structure ns
Series 1 A one-dimensional labeled homogeneous array, sizeimmutable.
Data Frames 2 A two-dimensional labeled, size-mutable tabular structure with
potentially heterogeneously typed columns.

Series

A Series is a one-dimensional labeled array that can hold any data type. It
can store integers, strings, floating-point numbers, etc. Each value in a
Series is associated with a label (index), which can be an integer or a string.

Name Steve
Age 35

Gender Male

Rating 3.5

Example

Consider the following Series which is a collection of different data types

import pandas as pd
data = ['Steve', '35', 'Male', '3.5']
series = pd.Series(data, index=['Name', 'Age', 'Gender', 'Rating'])
print(series)

On executing the above program, you will get the following output −

Name Steve

Age 35

Gender Male

Rating 3.5

dtype: object

Key Points

Following are the key points related to the Pandas Series.

• Homogeneous data

• Size Immutable

• Values of Data Mutable

DataFrame

A DataFrame is a two-dimensional labeled data structure with columns that

can hold different data types. It is similar to a table in a database or a

rating of a sales team −

spreadsheet. Consider the following data representing the performance

Name Age Gender Rating

Steve 32 Male 3.45

Lia 28 Female 4.6

Vin 45 Male 3.9

Katie 38 Female 2.78

Example

The above tabular data can be represented in a DataFrame as follows −

Open Compiler

import pandas as pd

# Data represented as a dictionary

data = {

'Name': ['Steve', 'Lia', 'Vin', 'Katie'],

'Age': [32, 28, 45, 38],

'Gender': ['Male', 'Female', 'Male', 'Female'],

'Rating': [3.45, 4.6, 3.9, 2.78]

# Creating the DataFrame

df = pd.DataFrame(data)
print(df)

Output

On executing the above code you will get the following output −

Name Age Gender Rating

0 Steve 32 Male 3.45

1 Lia 28 Female 4.60

2 Vin 45 Male 3.90

3 Katie 38 Female 2.78

Key Points

Following are the key points related the Pandas DataFrame −

• Heterogeneous data

• Size Mutable

• Data Mutable

Creation of Data Frames

Creation New dataFrames

import pandas as pd
data={"name":["rahul","neha","amit"],
"age":[12,15,27],
"Salary":[1200,1500,1200]
}
df=pd.DataFrame(data)
print(df)

Reading CSV File

import pandas as pd
data=pd.read_csv("book.csv")
print(data)

reading Excel File

import pandas as pd
data=pd.read_excel("book1.xlsx")
print(data)

Exploring Data in Pandas

There are some Function in Pandas

Head()

Tail()

Info()

Describe()

Isnull()
Isnull().sum()

Dealing With Duplicate Values

Data.duplicated()

import pandas as pd

data=pd.read_excel("salary.xlsx")

print(data.duplicated())

Data[“emp_id”].duplicated()

import pandas as pd

data=pd.read_excel("salary.xlsx")

print(data["Emp_ID"].duplicated())

Data[“emp_id”].duplicated().sum()

import pandas as pd

data=pd.read_excel("salary.xlsx")

print(data["Emp_ID"].duplicated().sum())

Data.drop_duplicates(“emp_id”)

import pandas as pd

data=pd.read_excel("salary.xlsx")

print(data.drop_duplicates("Emp_ID"))

Working with missing values

Data.isnull
To print null values
import pandas as pd
data=pd.read_excel("salary.xlsx")
print(data.isnull())
data.isnull().sum())
to count null values
import pandas as pd
data=pd.read_excel("salary.xlsx")
print(data.isnull().sum())
data.dropna()
To delete null values
import pandas as pd
data=pd.read_excel("salary.xlsx")
print(data)
print("\n\n\n")
print(data.dropna())
data.replace(np.nan,"hii")
to replace nan
import numpy as np
import pandas as pd
data=pd.read_excel("salary.xlsx")
print(data)
data.replace(np.nan,"hii")
data["Salary"]=data["Salary"].replace(np.nan,30000)
to replace any special char
import pandas as pd
import numpy as np
data=pd.read_excel("salary.xlsx")
data["Salary"]=data["Salary"].replace(np.nan,30000)
print(data)
data["Salary"].mean()
import pandas as pd
import numpy as np
data=pd.read_excel("salary.xlsx")
print(data["Salary"].mean())
data.fillna(method="bfill")
import pandas as pd
import numpy as np
data=pd.read_excel("salary.xlsx")
print(data)
print("\n\n\n")
print(data.fillna(method="bfill"))
data.fillna(method="ffill")
import pandas as pd
import numpy as np
data=pd.read_excel("salary.xlsx")
print(data)
print("\n\n\n")
print(data.fillna(method="ffill"))
Column transformation in Pandas

To create new column

import pandas as pd

data=pd.read_excel("salary.xlsx")

print(data,"\n\n")

data.loc[(data["Bonus"] == 0),"GetBonus"]="No Bonus"

data.loc[(data["Bonus"] > 0,"GetBonus")]="Bonus"

print(data)

To marge two column

import pandas as pd

data=pd.read_excel("salary.xlsx")

print(data,"\n\n")

data["Full name"]=data["Name"]+" "+data["Last Name"]

print(data)

To Add Calculation in column

import pandas as pd

data=pd.read_excel("salary.xlsx")

print(data,"\n\n")

data["Bonus"]=(data["Salary"]/100)*20

print(data)

To extract some latter from dataFrame

import pandas as pd

data={"Month":["January","Fabruary","March","April"]}

a=pd.DataFrame(data)
print(a)

def extract(value):

return value[0:3]

a["Short_Months"]=a["Month"].map(extract)

print(a)

GroupBy In Pandas
Count gender by Deparment

import pandas as pd
data=pd.read_excel("Salary.xlsx")
print(data)
gp=data.groupby("Department").agg({"Gender":"count"})
print(gp)
By Job Title count Emp_id

import pandas as pd
data=pd.read_excel("Salary.xlsx")
print(data)
gp=data.groupby("Job Title").agg({"Emp_ID":"count"})
print(gp)

By Gender

import pandas as pd
data=pd.read_excel("Salary.xlsx")
print(data)
gp=data.groupby(["Department","Gender"]).agg({"Emp_ID":"count"})
print(gp)
By Age
import pandas as pd
data=pd.read_excel("Salary.xlsx")
print(data)
print("\n\n\n")
a=data.groupby("Countries").agg({"Age":"max"})
print(a)
By Age and Gender
import pandas as pd
data=pd.read_excel("Salary.xlsx")
print(data)
print("\n\n\n")
a=data.groupby(["Countries","Gender"]).agg({"Age":"max"})
print(a)

Merge Join and Concatenate in Pandas

Merge
On the basis of EEID
import pandas as pd
data1={"EEID":["A01","A02","A03","A04","A05","A06"],
"Name":["Amit","priya","Neha","Lovely","Karab","Mohit"],
"Age":[34,56,24,27,28,26]}
print(data1)
data2={"EEID":["A01","A02","A03","A04","A05","A06"],
"Salary":[45000,47000,30000,14200,42300,456600]}
print(data2)
print("\n\n\n")
df1=pd.DataFrame(data1)
df2=pd.DataFrame(data2)
print(df1)
print()
print(df2)
print()
print(pd.merge(df1,df2,on="EEID"))
Use of how
P1
import pandas as pd
data1={"EEID":["A01","A02","A03","A04","A05","A06"],
"Name":["Amit","priya","Neha","Lovely","Karab","Mohit"],
"Age":[34,56,24,27,28,26]}
print(data1)
data2={"EEID":["A01","A02","A03","A04","A05","A06"],
"Salary":[45000,47000,30000,14200,42300,456600]}
print(data2)
print("\n\n\n")
df1=pd.DataFrame(data1)
df2=pd.DataFrame(data2)
print(df1)
print()
print(df2)
print()
print(pd.merge(df1,df2,on="EEID", how="inner"))
P2
print(pd.merge(df1,df2,on="EEID", how="left"))
P3
print(pd.merge(df1,df2,on="EEID", how="right"))

Concatenate
import pandas as pd
data1={"EEID":["A01","A02","A03","A04","A05","A06"],
"Name":["Amit","priya","Neha","Lovely","Karan","Mohit"]}
data2={"EEID":["A07","A08","A09","A010","A11","A12"],
"Name":["Atin","Pankaj","Alia","Suman","Sanjay","Karan"]}
df1=pd.DataFrame(data1)
df2=pd.DataFrame(data2)
print(df1)
print(df2)
print()
ndf=pd.concat([df1,df2])
print(ndf)

Join
import pandas as pd
data1={"EEI":["A01","A02","A03","A04","A05","A06"],
"Name":["Amit","priya","Neha","Lovely","Karab","Mohit"]}
print(data1)
data2={"EEID":["A09","A02","A03","A010","A05","A06"],
"Salary":[45000,47000,30000,14200,42300,456600]}
print(data2)
print("\n\n\n")
df1=pd.DataFrame(data1)
df2=pd.DataFrame(data2)
print(df1)
print()
print(df2)
print()
print(df1.join(df2))

Pandas Basics
No ratings yet
Pandas Basics
84 pages
SnowPro Advanced Data Engineer
No ratings yet
SnowPro Advanced Data Engineer
8 pages
The Pandas Library
No ratings yet
The Pandas Library
39 pages
Python Pandas Tutorial
No ratings yet
Python Pandas Tutorial
6 pages
18_Pandas
No ratings yet
18_Pandas
33 pages
FDS Module 2 Notes
No ratings yet
FDS Module 2 Notes
24 pages
Class Notes: Class: XII Date: 7-Apr-2020 Subject: Informatics Practices Topic: 2. Python Pandas
No ratings yet
Class Notes: Class: XII Date: 7-Apr-2020 Subject: Informatics Practices Topic: 2. Python Pandas
4 pages
Unit 4
No ratings yet
Unit 4
36 pages
Loki Temp PPT Pandas 2
No ratings yet
Loki Temp PPT Pandas 2
31 pages
Ii Unit Pandas
No ratings yet
Ii Unit Pandas
30 pages
Python Pandas Tutorial For Beginners
No ratings yet
Python Pandas Tutorial For Beginners
203 pages
All Document Reader 1715619870900
No ratings yet
All Document Reader 1715619870900
6 pages
Introduction To Pandas For Data Analysis
No ratings yet
Introduction To Pandas For Data Analysis
6 pages
DevOps Session 3 Pandas.pptx
No ratings yet
DevOps Session 3 Pandas.pptx
33 pages
Class 6 Pandas
No ratings yet
Class 6 Pandas
13 pages
Pandas
No ratings yet
Pandas
12 pages
Pandas
No ratings yet
Pandas
11 pages
Pandas
No ratings yet
Pandas
13 pages
Pandas 1705297450
No ratings yet
Pandas 1705297450
21 pages
Python Pandas Module - Introduction-07-11-2023
No ratings yet
Python Pandas Module - Introduction-07-11-2023
84 pages
Pandas
No ratings yet
Pandas
25 pages
Pandas python
No ratings yet
Pandas python
11 pages
2_Pandas
No ratings yet
2_Pandas
22 pages
Notes On Pandasmanpreet
No ratings yet
Notes On Pandasmanpreet
4 pages
Pandas
No ratings yet
Pandas
21 pages
CHP 8 Pandas
No ratings yet
CHP 8 Pandas
49 pages
Pandas
No ratings yet
Pandas
16 pages
Pandas Notes
No ratings yet
Pandas Notes
4 pages
Lecture 7 Understanding dataFrames in Python and R
No ratings yet
Lecture 7 Understanding dataFrames in Python and R
17 pages
Lab-3 Pandas Library
No ratings yet
Lab-3 Pandas Library
14 pages
Pandas
No ratings yet
Pandas
3 pages
JOINS (1)
No ratings yet
JOINS (1)
10 pages
Pandas_Notes
No ratings yet
Pandas_Notes
6 pages
unit-3(FODS)
No ratings yet
unit-3(FODS)
34 pages
Python pandas
No ratings yet
Python pandas
34 pages
Starting Out With Pandas - Ext
No ratings yet
Starting Out With Pandas - Ext
18 pages
Pandas PDF(2)
No ratings yet
Pandas PDF(2)
25 pages
ML Lab1 Python Panda
No ratings yet
ML Lab1 Python Panda
9 pages
Pandas
No ratings yet
Pandas
42 pages
pandas
No ratings yet
pandas
10 pages
Pandas
No ratings yet
Pandas
82 pages
Pandas (Ziad)
No ratings yet
Pandas (Ziad)
38 pages
Class 12 Panda Project
No ratings yet
Class 12 Panda Project
13 pages
Pandas
No ratings yet
Pandas
41 pages
practical-7
No ratings yet
practical-7
8 pages
Pandas Dataframe Export The CSV File
No ratings yet
Pandas Dataframe Export The CSV File
9 pages
Pandas
No ratings yet
Pandas
41 pages
Python 3rd unit question and answer
No ratings yet
Python 3rd unit question and answer
25 pages
4a Introduction To Pandas - PPTX - Lyst5943
No ratings yet
4a Introduction To Pandas - PPTX - Lyst5943
11 pages
UNIT - 3 Pandas
No ratings yet
UNIT - 3 Pandas
21 pages
Python Data Frame New
No ratings yet
Python Data Frame New
32 pages
Pandas
No ratings yet
Pandas
4 pages
introduction to pandas
No ratings yet
introduction to pandas
14 pages
Python Pandas For Data Analytics
No ratings yet
Python Pandas For Data Analytics
7 pages
Usage of NumPy for Numerical Data in Detail
No ratings yet
Usage of NumPy for Numerical Data in Detail
52 pages
Python Pandas ch-2
No ratings yet
Python Pandas ch-2
56 pages
Instant Download Learning the Pandas Library Python Tools for Data Munging Analysis and Visual Matt Harrison PDF All Chapters
100% (5)
Instant Download Learning the Pandas Library Python Tools for Data Munging Analysis and Visual Matt Harrison PDF All Chapters
65 pages
Practical Guide To Pandas For Data Science
No ratings yet
Practical Guide To Pandas For Data Science
26 pages
Tutorial Data Visualization Pandas Matplotlib Seaborn
No ratings yet
Tutorial Data Visualization Pandas Matplotlib Seaborn
32 pages
06 MGMT 590 Fall 2019 Data Handling With Pandas(1)
No ratings yet
06 MGMT 590 Fall 2019 Data Handling With Pandas(1)
14 pages
Mastering Pandas in Python: Course Book
From Everand
Mastering Pandas in Python: Course Book
Pedro Martins
No ratings yet
File Handling
No ratings yet
File Handling
52 pages
LibreOffice Shortcut key
No ratings yet
LibreOffice Shortcut key
6 pages
O'LEVEL PREVIOUS PAPERS Hindi & English Medium
No ratings yet
O'LEVEL PREVIOUS PAPERS Hindi & English Medium
11 pages
LibreOffice Shortcut key
No ratings yet
LibreOffice Shortcut key
7 pages
Chapter 5 File Handling
No ratings yet
Chapter 5 File Handling
52 pages
Ict
No ratings yet
Ict
2 pages
DAA (5th) Dec2018
No ratings yet
DAA (5th) Dec2018
2 pages
SHA-1 Deprecation and Migration To TR34
No ratings yet
SHA-1 Deprecation and Migration To TR34
8 pages
Small18 PDF
No ratings yet
Small18 PDF
35 pages
01 Exercises-Functional-Mockup-Interface
No ratings yet
01 Exercises-Functional-Mockup-Interface
25 pages
Sage ERP X3 Architecture
No ratings yet
Sage ERP X3 Architecture
4 pages
Artificial Neural Networks
100% (1)
Artificial Neural Networks
18 pages
Cryptography and Network Security: Fourth Edition by William Stallings
No ratings yet
Cryptography and Network Security: Fourth Edition by William Stallings
41 pages
4 TH
No ratings yet
4 TH
12 pages
Teledyne NFS Brochure
No ratings yet
Teledyne NFS Brochure
2 pages
HP 3D DriveGuard Functional Specification
No ratings yet
HP 3D DriveGuard Functional Specification
35 pages
DMG64480K035 03WTC DataSheet
No ratings yet
DMG64480K035 03WTC DataSheet
16 pages
CSE231L Lab 7 Flip Flops Registers
No ratings yet
CSE231L Lab 7 Flip Flops Registers
7 pages
PaperIJRCS202201013
No ratings yet
PaperIJRCS202201013
9 pages
Web Technology & E-Commerce - Unit
No ratings yet
Web Technology & E-Commerce - Unit
38 pages
Realtime T12N Access: Smallest Fingerprint Professional Access Control System
No ratings yet
Realtime T12N Access: Smallest Fingerprint Professional Access Control System
1 page
Operating System Assignment
No ratings yet
Operating System Assignment
6 pages
SDD Compiler Design
No ratings yet
SDD Compiler Design
102 pages
Software Engineering Viva Questions
0% (1)
Software Engineering Viva Questions
11 pages
Bahasa Inggris Ii Modul
No ratings yet
Bahasa Inggris Ii Modul
40 pages
Manga de Amor
No ratings yet
Manga de Amor
4 pages
PH.D Computer Application (Section A) (Part 1)
No ratings yet
PH.D Computer Application (Section A) (Part 1)
24 pages
BV30 User Manual-V1
No ratings yet
BV30 User Manual-V1
57 pages
Divisha Kandari CV
No ratings yet
Divisha Kandari CV
1 page
Java Concepts
No ratings yet
Java Concepts
2 pages
General Information: Course Syllabus
No ratings yet
General Information: Course Syllabus
5 pages
EE: 451 Mobile Communications: Syed Ali Hassan
No ratings yet
EE: 451 Mobile Communications: Syed Ali Hassan
38 pages
XML DTD: What Is A DTD?
No ratings yet
XML DTD: What Is A DTD?
3 pages
IBM Power E1080 Level 2
No ratings yet
IBM Power E1080 Level 2
15 pages

Python Pandas

Uploaded by

Python Pandas

Uploaded by

The Unique Computers

• Import datasets - available in the form of spreadsheets, comma-

• Data cleansing - dealing with missing values and representing them

• Size mutability - columns can be added and removed from

• Data normalization – normalize the data into a suitable format for

• Data alignment - objects can be explicitly aligned to a set of labels.

• Efficient manipulation and extraction - manipulation and

• Statistical analysis - to perform statistical operations on datasets.

• Data visualization - Visualize datasets and uncover insights.

• Data Cleaning: Pandas provides functionalities to clean messy data,

• Data Exploration: Pandas easily summarize statistics, find trends,

• Data Preparation: Pandas may pivot, melt, convert variables, and

• Data Analysis: Pandas supports descriptive statistics, time series

• Data Visualisation: Pandas itself has basic plotting capabilities; it

• Time Series Analysis: Pandas supports date/time indexing,

• Data Aggregation and Grouping: Pandas HYPERLINK

• Machine Learning: Pandas works well with Scikit-learn for data

• Financial Analysis: Pandas is commonly used in finance for stock

• Text Data Analysis: Pandas' string manipulation, regular expressions,

• Experimental Data Analysis: Pandas makes manipulating and

Python Pandas Data Structures

Dimension and Description of Pandas Data Structures

Data Dimensio Description

Consider the following Series which is a collection of different data types

Following are the key points related to the Pandas Series.

• Values of Data Mutable

A DataFrame is a two-dimensional labeled data structure with columns that

rating of a sales team −

Name Age Gender Rating

Lia 28 Female 4.6

Vin 45 Male 3.9

Katie 38 Female 2.78

The above tabular data can be represented in a DataFrame as follows −

# Data represented as a dictionary

'Name': ['Steve', 'Lia', 'Vin', 'Katie'],

'Age': [32, 28, 45, 38],

'Gender': ['Male', 'Female', 'Male', 'Female'],

'Rating': [3.45, 4.6, 3.9, 2.78]

# Creating the DataFrame

Name Age Gender Rating

0 Steve 32 Male 3.45

1 Lia 28 Female 4.60

2 Vin 45 Male 3.90

3 Katie 38 Female 2.78

Following are the key points related the Pandas DataFrame −

Creation of Data Frames

Creation New dataFrames

Reading CSV File

reading Excel File

Exploring Data in Pandas

There are some Function in Pandas

Dealing With Duplicate Values

Working with missing values

To create new column

data.loc[(data["Bonus"] == 0),"GetBonus"]="No Bonus"

data.loc[(data["Bonus"] > 0,"GetBonus")]="Bonus"

To marge two column

data["Full name"]=data["Name"]+" "+data["Last Name"]

To Add Calculation in column

To extract some latter from dataFrame

Merge Join and Concatenate in Pandas

You might also like