0% found this document useful (0 votes)

16 views

pyspark-vs-pandas

Uploaded by

julianalb.berrio

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views

pyspark-vs-pandas

Uploaded by

julianalb.berrio

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 16

Data Engineering Fundamentals

Pandas
vs PySpark

Eren Han
Data Engineering Fundamentals
1
LOAD CSV

Pandas PySpark

df = spark.read \
.options(header=True,
df = pd.read_csv('sample.csv')
inferSchema=True) \
.csv('sample.csv')

Eren Han
Data Engineering Fundamentals
2
VIEW DATAFRAME

Pandas PySpark

df df.show()

df.head(10) df.show(10)

Eren Han
Data Engineering Fundamentals
3
CHECK COLUMNS AND DATA TYPES

Pandas PySpark

df.columns df.columns

df.dtypes df.dtypes

Eren Han
Data Engineering Fundamentals
4
RENAME COLUMNS

Pandas PySpark

df.columns = [x, y, z] df.toDF(x, y, z)

df.rename(columns= {"old":"new"}) df.withColumnRenamed("old","new")

Eren Han
Data Engineering Fundamentals
5
DROP COLUMN

Pandas PySpark

df.drop("column", axis=1) df.drop("column")

Eren Han
Data Engineering Fundamentals
6
FILTERING

Pandas PySpark

df[df.column < 80] df[df.column < 80]

df[(df.column < 80) & (df.column2 == 50)] df[(df.column < 80) & (df.column2 == 50)]

Eren Han
Data Engineering Fundamentals
7
ADD COLUMN

Pandas PySpark

df["new"] = 1 / df.column df.withColumn("new", 1 /

df.column)

Note: Division by zero is Note: Division by zero is NULL.

infinite.

Eren Han
Data Engineering Fundamentals
8
FILL NULLS

Pandas PySpark

df.fillna(0) df.fillna(0)

Eren Han
Data Engineering Fundamentals
9
AGGREGATION

Pandas PySpark

df.groupby([date, product]) \ df.groupby([date, product]) \

.agg({"sales":"mean", .agg({"sales":"mean",
"revenue":"max"}) "revenue":"max"})

Eren Han
Data Engineering Fundamentals
10
STANDARD TRANSFORMATIONS

Pandas PySpark

import numpy as np import pysapark.sql.functions as F

df["logcolumn"] = np.log(df.column) df.withColumn("logcolumn",
F.log(df.column)

Eren Han
Data Engineering Fundamentals
11
CONDITIONAL STATEMENTS

Pandas PySpark

df["cond"]= df.apply(lambda x: 1 if import pysapark.sql.functions as F

df.col1>20 else 2 if df.col2==6 else df.withColumn("cond", \
3, axis=1) F.when(df.col1>20,1) \
.when(df.col2==6,2)
.otherwise(3))

Eren Han
Data Engineering Fundamentals
12
MERGE / JOIN DATAFRAMES

Pandas PySpark

df.merge(df2, on="key") df.join(df2, on="key")

df.merge(df2, left_on="a",right_on="b") df.join(df2, df.a == df2.b)

Eren Han
Data Engineering Fundamentals
13
SUMMARY STATISTICS

Pandas PySpark

df.describe() df.describe().show()

Note: Only
count,mean,stddev,min,max.

Eren Han
Data Engineering Fundamentals
14
CHANGE DATA TYPES

Pandas PySpark

from pyspark.sql.types
df['A'] = df['A'].astype(int)
import IntegerType

df = df.withColumn('A',
col('A').cast(IntegerType()))

Eren Han
Data Engineering Fundamentals

Thank You for

reading. I hope
you enjoyed it.

Eren Han

Pyspark Vs Pandas Cheatsheet
No ratings yet
Pyspark Vs Pandas Cheatsheet
3 pages
PYSPARK Interview Questions
100% (2)
PYSPARK Interview Questions
126 pages
PySpark Data Frame Questions PDF
100% (1)
PySpark Data Frame Questions PDF
57 pages
Cath DLP
No ratings yet
Cath DLP
15 pages
Data Engineering 101 PySpark Vs Pandas 1721887961
No ratings yet
Data Engineering 101 PySpark Vs Pandas 1721887961
36 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
1737249906013
No ratings yet
1737249906013
106 pages
Chapter 3
No ratings yet
Chapter 3
33 pages
1 - Introduction ToPySpark
No ratings yet
1 - Introduction ToPySpark
26 pages
Pyspark IQ FREE Guide
No ratings yet
Pyspark IQ FREE Guide
57 pages
Master PySpark 1-18
No ratings yet
Master PySpark 1-18
59 pages
Working with csv file in Databricks
No ratings yet
Working with csv file in Databricks
4 pages
50_PySpark_interview_questions__1732556477
No ratings yet
50_PySpark_interview_questions__1732556477
7 pages
DevOps Session 3 Pandas.pptx
No ratings yet
DevOps Session 3 Pandas.pptx
33 pages
4 Data Transformation Using Pandas
No ratings yet
4 Data Transformation Using Pandas
59 pages
S
No ratings yet
S
22 pages
06 MGMT 590 Fall 2019 Data Handling With Pandas(1)
No ratings yet
06 MGMT 590 Fall 2019 Data Handling With Pandas(1)
14 pages
Slide 10 PySpark - SQL
No ratings yet
Slide 10 PySpark - SQL
131 pages
Pandas Learndatasci
No ratings yet
Pandas Learndatasci
86 pages
PySpark
No ratings yet
PySpark
177 pages
Apache Spark
No ratings yet
Apache Spark
5 pages
Panduan Pandas
No ratings yet
Panduan Pandas
33 pages
DP 203t00a Enu Powerpoint 03
No ratings yet
DP 203t00a Enu Powerpoint 03
25 pages
Learn Python Pandas For Data Science Quick TutorialExamples For All Primary Operations of DataFrames
No ratings yet
Learn Python Pandas For Data Science Quick TutorialExamples For All Primary Operations of DataFrames
37 pages
Spark Lab
No ratings yet
Spark Lab
6 pages
Extract, Transform and Load (ETL)
No ratings yet
Extract, Transform and Load (ETL)
31 pages
FDS Module 2 Notes
No ratings yet
FDS Module 2 Notes
24 pages
Pandas Illustrated The Definitive Visual Guide To Pandas by Lev Maximov Jan, 2023 Better Programming - Semplificato
No ratings yet
Pandas Illustrated The Definitive Visual Guide To Pandas by Lev Maximov Jan, 2023 Better Programming - Semplificato
63 pages
Pandas_Notes
No ratings yet
Pandas_Notes
6 pages
07 Spark Dataframes
100% (1)
07 Spark Dataframes
45 pages
Pandas - PySpark Equivalents-1
No ratings yet
Pandas - PySpark Equivalents-1
3 pages
Pandas (Ziad)
No ratings yet
Pandas (Ziad)
38 pages
Data Analysis With Python
No ratings yet
Data Analysis With Python
12 pages
BDA U5 copy
No ratings yet
BDA U5 copy
42 pages
Fundamental Pyspark Operations 1708364268
No ratings yet
Fundamental Pyspark Operations 1708364268
10 pages
Pyspark Funcamentals
No ratings yet
Pyspark Funcamentals
10 pages
week 3 python (1)
No ratings yet
week 3 python (1)
152 pages
1 Pandas Basics
No ratings yet
1 Pandas Basics
13 pages
Pandas Illustrated: The Definitive Visual Guide To Pandas - by Lev Maximov - Jan, 2023 - Better Programming
No ratings yet
Pandas Illustrated: The Definitive Visual Guide To Pandas - by Lev Maximov - Jan, 2023 - Better Programming
99 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Pandas
No ratings yet
Pandas
41 pages
Pandas
No ratings yet
Pandas
28 pages
bLScCdW1geivYxBAmcEE3u (1)(1)
No ratings yet
bLScCdW1geivYxBAmcEE3u (1)(1)
166 pages
Deloitte Pyspark Interview Questions for Data Engineer 2024 _ by Ronit Malhotra _ Jun, 2024 _ Medium
No ratings yet
Deloitte Pyspark Interview Questions for Data Engineer 2024 _ by Ronit Malhotra _ Jun, 2024 _ Medium
9 pages
4 BNI Python Training
100% (1)
4 BNI Python Training
126 pages
(Ebook) Data Analysis with Python and PySpark (MEAP V07) by Jonathan Rioux ISBN 9781617297205, 1617297208 2024 scribd download
100% (9)
(Ebook) Data Analysis with Python and PySpark (MEAP V07) by Jonathan Rioux ISBN 9781617297205, 1617297208 2024 scribd download
65 pages
Unit 4 - Data Manipulations
No ratings yet
Unit 4 - Data Manipulations
70 pages
Pandas Tutorial
No ratings yet
Pandas Tutorial
21 pages
CHP 8 Pandas
No ratings yet
CHP 8 Pandas
49 pages
Cheat Sheet: The Pandas Dataframe Object I: Preliminaries Get Your Data Into A Dataframe
No ratings yet
Cheat Sheet: The Pandas Dataframe Object I: Preliminaries Get Your Data Into A Dataframe
12 pages
Loki Temp PPT Pandas 2
No ratings yet
Loki Temp PPT Pandas 2
31 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Pandas Basics
No ratings yet
Pandas Basics
21 pages
Big Data Analytics in Apache Spark
No ratings yet
Big Data Analytics in Apache Spark
79 pages
Spark Test Que
No ratings yet
Spark Test Que
3 pages
Buy Ebook Data Analysis With Python and PySpark (MEAP V07) Jonathan Rioux Cheap Price
100% (1)
Buy Ebook Data Analysis With Python and PySpark (MEAP V07) Jonathan Rioux Cheap Price
62 pages
DE Bootcamp _ Week 3 Day 2
No ratings yet
DE Bootcamp _ Week 3 Day 2
4 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
10 pages
Practical Guide To Pandas For Data Science
No ratings yet
Practical Guide To Pandas For Data Science
26 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
SG 5 Assignment 1 2 3 4
100% (3)
SG 5 Assignment 1 2 3 4
10 pages
Q50 High Value Tech Specs 10.10.23
No ratings yet
Q50 High Value Tech Specs 10.10.23
1 page
Motilal Oswal Diwali Picks 2021
No ratings yet
Motilal Oswal Diwali Picks 2021
8 pages
Analog Testing M Tech Thesis
No ratings yet
Analog Testing M Tech Thesis
89 pages
Aquaculture Booklet
No ratings yet
Aquaculture Booklet
25 pages
Week 1 - Problems With Solutions
No ratings yet
Week 1 - Problems With Solutions
10 pages
DBMSLabManual Suresh
No ratings yet
DBMSLabManual Suresh
34 pages
Meliseptol-Wipessensitive Msds
No ratings yet
Meliseptol-Wipessensitive Msds
11 pages
Physics 2A - Preliminary Exam
No ratings yet
Physics 2A - Preliminary Exam
3 pages
RedhatLinux Certified Professional Step-by-Step-guide Aravikumar48@gmail PDF
100% (2)
RedhatLinux Certified Professional Step-by-Step-guide Aravikumar48@gmail PDF
112 pages
Provisional Allotment List (In-Service) 21.10.2023
No ratings yet
Provisional Allotment List (In-Service) 21.10.2023
47 pages
Record 20
No ratings yet
Record 20
40 pages
Thesis For Software Development
100% (2)
Thesis For Software Development
6 pages
Level of Awareness On Monkeypox (MPOX) Among Second-Year Medical Technology - RESEARCH PAPER
No ratings yet
Level of Awareness On Monkeypox (MPOX) Among Second-Year Medical Technology - RESEARCH PAPER
42 pages
Notes Pas 265
No ratings yet
Notes Pas 265
4 pages
Industrial Ultrasonic Solutions: Expertise and Partnership
No ratings yet
Industrial Ultrasonic Solutions: Expertise and Partnership
15 pages
Chapter 2 News
No ratings yet
Chapter 2 News
28 pages
DZS zNID GPON 2400A1 ONT - M
No ratings yet
DZS zNID GPON 2400A1 ONT - M
5 pages
Blackcat John Deere
No ratings yet
Blackcat John Deere
50 pages
Indonesia Market For Polyester Resins
No ratings yet
Indonesia Market For Polyester Resins
8 pages
EoE Sim Educational Fellow 2020 JD
No ratings yet
EoE Sim Educational Fellow 2020 JD
6 pages
Roget'S Thesaurus: Synonyms AND Antonyms
100% (1)
Roget'S Thesaurus: Synonyms AND Antonyms
447 pages
Vastu Tips For Industrial Land
100% (1)
Vastu Tips For Industrial Land
9 pages
Energy Conservation (Singh)
No ratings yet
Energy Conservation (Singh)
6 pages
History of Computer
No ratings yet
History of Computer
47 pages
Medical Surgical Nursing Bullets Nle Nclex
100% (2)
Medical Surgical Nursing Bullets Nle Nclex
95 pages
Preboard Examination - 1 Timetable: Class: Ix State
No ratings yet
Preboard Examination - 1 Timetable: Class: Ix State
2 pages
Download Complete Brill s Companion to Callimachus Brill s Companions to Classical Studies Benjamin Acosta-Hughes PDF for All Chapters
100% (1)
Download Complete Brill s Companion to Callimachus Brill s Companions to Classical Studies Benjamin Acosta-Hughes PDF for All Chapters
78 pages
Reflection TSL
No ratings yet
Reflection TSL
2 pages

pyspark-vs-pandas

Uploaded by

pyspark-vs-pandas

Uploaded by

Data Engineering Fundamentals

df.columns = [x, y, z] df.toDF(x, y, z)

df.rename(columns= {"old":"new"}) df.withColumnRenamed("old","new")

df.drop("column", axis=1) df.drop("column")

df[df.column < 80] df[df.column < 80]

df["new"] = 1 / df.column df.withColumn("new", 1 /

Note: Division by zero is Note: Division by zero is NULL.

df.groupby([date, product]) \ df.groupby([date, product]) \

import numpy as np import pysapark.sql.functions as F

df["cond"]= df.apply(lambda x: 1 if import pysapark.sql.functions as F

df.merge(df2, on="key") df.join(df2, on="key")

df.merge(df2, left_on="a",right_on="b") df.join(df2, df.a == df2.b)

Thank You for

You might also like