Open navigation menu

Scribd

0% found this document useful (0 votes)

107 views

Data Engineering 101 - Day 24 - SQL Vs PySpark

Books data engineering SQL

Uploaded by

Copyright

© © All Rights Reserved

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

107 views

Data Engineering 101 - Day 24 - SQL Vs PySpark

Books data engineering SQL

Uploaded by

Copyright

© © All Rights Reserved

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 82

Data Engineering 101 -

SQL vs PySpark
80 +
comparisons

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SELECT COLUMNS
SQL
SELECT column1, column2

1
FROM table;

PYSPARK
df.select("column1", "column2")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FILTER ROWS
SQL
SELECT * FROM table

2
WHERE condition;

PYSPARK
df.filter("condition")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

AGGREGATE FUNCTIONS
SQL
SELECT AVG(column)

3
FROM table;

PYSPARK
df.select(F.avg("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

GROUP BY
SQL
SELECT column, COUNT(*)

4
FROM table
GROUP BY column;

PYSPARK
df.groupBy("column").count()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ORDER BY
SQL
SELECT *

5
FROM table
ORDER BY column ASC;

PYSPARK
df.orderBy("column",
ascending=True)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

JOIN
SQL
SELECT * FROM table1

6
JOIN table2
ON table1.id = table2.id;

PYSPARK
df1.join(df2, df1.id == df2.id)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

UNION
SQL
SELECT * FROM table1

7
UNION
SELECT * FROM table2;

PYSPARK
df1.union(df2)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LIMIT
SQL
SELECT *

8
FROM table
LIMIT 100;

PYSPARK
df.limit(100)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DISTINCT VALUES
SQL
SELECT DISTINCT column

9
FROM table;

PYSPARK
df.select("column").distinct()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ADDING A NEW COLUMN

SQL
SELECT *, (column1 + column2)

10
AS new_column
FROM table;

PYSPARK
df.withColumn("new_column",
F.col("column1") +
F.col("column2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

COLUMN ALIAS
SQL
SELECT column AS alias_name

11
FROM table;

PYSPARK
df.select(F.col("column").alias("
alias_name"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FILTERING ON MULTIPLE
CONDITIONS
SQL
SELECT * FROM table

12
WHERE
condition1 AND condition2;

PYSPARK
df.filter((F.col("condition1")) &
(F.col("condition2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SUBQUERY
SQL
SELECT * FROM

13
(SELECT * FROM table
WHERE condition) AS subquery;

PYSPARK
df.filter("condition").alias("subq
uery")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

BETWEEN
SQL
SELECT * FROM table

14
WHERE column
BETWEEN val1 AND val2;

PYSPARK
df.filter(F.col("column") \
.between("val1", "val2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LIKE
SQL
SELECT * FROM table

15
WHERE column LIKE pattern;

PYSPARK
df.filter(F.col("column") \
.like("pattern"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CASE WHEN
SQL
SELECT CASE

16
WHEN condition THEN result1
ELSE result2 END
FROM table;

PYSPARK
df.select(F.when(F.col("conditio
n"), "result1") \
.otherwise("result2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CAST DATA TYPE

SQL
SELECT

17
CAST(column AS datatype)
FROM table;

PYSPARK
df.select(F.col("column") \
.cast("datatype"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

COUNT DISTINCT
SQL
SELECT

18
COUNT(DISTINCT column)
FROM table;

PYSPARK
df.select(F.countDistinct("colu
mn"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SUBSTRING
SQL
SELECT SUBSTRING(column,

19
start, length)
FROM table;

PYSPARK
df.select(F.substring("column",
start, length))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CONCATENATE COLUMNS
SQL
SELECT

20
CONCAT(column1, column2) AS
new_column
FROM table;

PYSPARK
df.withColumn("new_column",
F.concat(F.col("column1"),
F.col("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

AVERAGE OVER PARTITION

SQL
SELECT AVG(column)

21
OVER (PARTITION BY column2)
FROM table;

PYSPARK
df.withColumn("avg", F.avg("column") \
.over(Window.partitionBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SUM OVER PARTITION

SQL
SELECT SUM(column)

22
OVER (PARTITION BY column2)
FROM table;

PYSPARK
df.withColumn("sum", F.sum("column") \
.over(Window.partitionBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LEAD FUNCTION
SQL
SELECT LEAD(column, 1)

23
OVER (ORDER BY column2)
FROM table;

PYSPARK
df.withColumn("lead",
F.lead("column", 1) \
.over(Window.orderBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LAG FUNCTION
SQL
SELECT LAG(column, 1)

24
OVER (ORDER BY column2)
FROM table;

PYSPARK
df.withColumn("lag", F.lag("column", 1) \
.over(Window.orderBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ROW COUNT
SQL
SELECT COUNT(*)

25
FROM table;

PYSPARK
df.count()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DROP COLUMN
SQL
ALTER TABLE table

26
DROP COLUMN column;

PYSPARK
df.drop("column")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

RENAME COLUMN
SQL
ALTER TABLE table RENAME

27
COLUMN column1 TO column2;

PYSPARK
df.withColumnRenamed("colu
mn1", "column2")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CHANGE COLUMN TYPE

SQL
ALTER TABLE table

28
ALTER COLUMN column TYPE
new_type;

PYSPARK
df.withColumn("column",
df["column"] \
.cast("new_type"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CREATING A TABLE FROM

SELECT
SQL
CREATE TABLE new_table

29
AS SELECT * FROM table;

PYSPARK
(df.write.format("parquet") \
.saveAsTable("new_table"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

INSERTING SELECTED DATA

INTO TABLE
SQL
INSERT INTO table2

30
SELECT * FROM table1;

PYSPARK
(df1.write.insertInto("table2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CREATING A TABLE WITH

SPECIFIC COLUMNS
SQL
CREATE TABLE new_table

31
AS
SELECT column1, column2
FROM table;

PYSPARK
(df.select("column1", "column2") \
.write.format("parquet") \
.saveAsTable("new_table"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

AGGREGATE WITH ALIAS

SQL
SELECT column,

32
COUNT(*) AS count
FROM table
GROUP BY column;

PYSPARK
df.groupBy("column") \
.agg(F.count("*") \
.alias("count"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

NESTED SUBQUERY
SQL
SELECT * FROM

33
(SELECT *
FROM table
WHERE condition) sub
WHERE sub.condition2;

PYSPARK
df.filter("condition") \
.alias("sub") \
.filter("sub.condition2")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

MULTIPLE JOINS
SQL
SELECT * FROM table1

34
JOIN table2
ON table1.id = table2.id
JOIN table3
ON table1.id = table3.id;

PYSPARK
df1.join(df2, "id").join(df3, "id")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CROSS JOIN
SQL
SELECT *

35
FROM table1
CROSS JOIN table2;

PYSPARK
df1.crossJoin(df2)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

GROUP BY HAVING COUNT

GREATER THAN
SQL
SELECT column,

36
COUNT(*)
FROM table
GROUP BY column
HAVING COUNT(*) > 1;

PYSPARK
df.groupBy("column") \
.count() \
.filter(F.col("count") > 1)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ALIAS FOR TABLE IN JOIN

SQL
SELECT t1.*

37
FROM table1 t1
JOIN table2 t2
ON t1.id = t2.id;

PYSPARK
df1.alias("t1") \
.join(df2.alias("t2"), F.col("t1.id")
== F.col("t2.id"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SELECTING FROM MULTIPLE

TABLES
SQL
SELECT t1.column, t2.column

38
FROM table1 t1, table2 t2
WHERE t1.id = t2.id;

PYSPARK
df1.join(df2, df1.id == df2.id) \
.select(df1.column, df2.column)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CASE WHEN WITH MULTIPLE

CONDITIONS
SQL
SELECT CASE WHEN

39
condition THEN 'value1'
WHEN condition2 THEN 'value2' ELSE
'value3'
END
FROM table;

PYSPARK
df.select(F.when(F.col("condition"),
"value1").when(F.col("condition2"),
"value2").otherwise("value3"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

EXTRACTING DATE PARTS

SQL
SELECT EXTRACT(YEAR FROM

40
date_column)
FROM table;

PYSPARK
df.select(F.year(F.col("date_colu
mn")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

INEQUALITY FILTERING
SQL
SELECT *

41
FROM table
WHERE column != 'value';

PYSPARK
df.filter(df.column != 'value')

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

IN LIST
SQL
SELECT *

42
FROM table
WHERE column IN ('value1',
'value2');

PYSPARK
df.filter(df.column.isin('value1',
'value2'))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

NOT IN LIST
SQL
SELECT *

43
FROM table
WHERE column NOT IN ('value1',
'value2');

PYSPARK
df.filter(~df.column.isin('value1',
'value2'))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

NULL VALUES
SQL
SELECT * FROM

44
table
WHERE column IS NULL;

PYSPARK
df.filter(df.column.isNull())

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

NOT NULL VALUES

SQL
SELECT *

45
FROM table
WHERE column IS NOT NULL;

PYSPARK
df.filter(df.column.isNotNull())

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

STRING UPPER CASE

SQL
SELECT UPPER(column)

46
FROM table;

PYSPARK
df.select(F.upper(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

STRING LOWER CASE

SQL
SELECT LOWER(column)

47
FROM table;

PYSPARK
df.select(F.lower(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

STRING LENGTH
SQL
SELECT LENGTH(column)

48
FROM table;

PYSPARK
df.select(F.length(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

TRIM STRING
SQL
SELECT TRIM(column)

49
FROM table;

PYSPARK
df.select(F.trim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LEFT TRIM STRING

SQL
SELECT LTRIM(column)

50
FROM table;

PYSPARK
df.select(F.ltrim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

RIGHT TRIM STRING

SQL
SELECT RTRIM(column)

51
FROM table;

PYSPARK
df.select(F.rtrim(df.column))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

STRING REPLACE
SQL
SELECT REPLACE(column, 'find',

52
'replace')
FROM table;

PYSPARK
df.select(F.regexp_replace(df.c
olumn, 'find', 'replace'))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SUBSTRING INDEX
SQL
SELECT

53
SUBSTRING_INDEX(column,
'delim', count)
FROM table;

PYSPARK
df.select(F.expr("split(column,
'delim')[count-1]"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DATE DIFFERENCE
SQL
SELECT DATEDIFF('date1', 'date2')

54
FROM table;

PYSPARK
df.select(F.datediff(F.col('date1'
), F.col('date2')))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ADD MONTHS TO DATE

SQL
SELECT

55
ADD_MONTHS(date_column,
num_months)
FROM table;

PYSPARK
df.select(F.add_months
(df.date_column, num_months))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FIRST VALUE IN GROUP

SQL
SELECT FIRST_VALUE(column)

56
OVER (PARTITION BY column2)
FROM table;

PYSPARK
df.withColumn("first_val",
F.first("column") \
.over(Window.partitionBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LAST VALUE IN GROUP

SQL
SELECT LAST_VALUE(column)

57
OVER (PARTITION BY column2)
FROM table;

PYSPARK
df.withColumn("last_val",
F.last("column") \
.over(Window.partitionBy("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ROW NUMBER OVER

PARTITION
SQL
SELECT ROW_NUMBER()

58
OVER (PARTITION BY column
ORDER BY column)
FROM table;

PYSPARK
df.withColumn("row_num",
F.row_number() \
.over(Window.partitionBy("column") \
.orderBy("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

RANK OVER PARTITION

SQL
SELECT RANK()

59
OVER (PARTITION BY column
ORDER BY column)
FROM table;

PYSPARK
df.withColumn("rank",
F.rank().over(Window.partitionBy
("column").orderBy("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DENSE RANK OVER

PARTITION
SQL
SELECT DENSE_RANK()

60
OVER (PARTITION BY column
ORDER BY column)
FROM table;

PYSPARK
df.withColumn("dense_rank",
F.dense_rank().over(Window.partitio
nBy("column").orderBy("column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

COUNT ROWS
SQL
SELECT COUNT(*)

61
FROM table;

PYSPARK
df.count()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

MATHEMATICAL
OPERATIONS
SQL
SELECT column1 + column2

62
FROM table;

PYSPARK
df.select(F.col("column1") +
F.col("column2"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

STRING CONCATENATION
SQL
SELECT column1 | column2

63
AS new_column
FROM table;

PYSPARK
df.withColumn("new_column",
F.concat_ws("|",
F.col("column1"),
F.col("column2")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FIND MINIMUM VALUE

SQL
SELECT MIN(column)

64
FROM table;

PYSPARK
df.select(F.min("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FIND MAXIMUM VALUE

SQL
SELECT MAX(column)

65
FROM table;

PYSPARK
df.select(F.max("column"))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

REMOVING DUPLICATES
SQL
SELECT DISTINCT *

66
FROM table;

PYSPARK
df.distinct()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

LEFT JOIN
SQL
SELECT * FROM table1

67
LEFT JOIN table2
ON table1.id = table2.id;

PYSPARK
df1.join(df2, df1.id == df2.id,
"left")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

RIGHT JOIN
SQL
SELECT * FROM table1

68
RIGHT JOIN table2
ON table1.id = table2.id;

PYSPARK
df1.join(df2, df1.id == df2.id,
"right")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

FULL OUTER JOIN

SQL
SELECT * FROM table1

69
FULL OUTER
JOIN table2
ON table1.id = table2.id;

PYSPARK
df1.join(df2, df1.id == df2.id,
"outer")

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

GROUP BY WITH HAVING

SQL
SELECT column, COUNT(*)

70
FROM table
GROUP BY column
HAVING COUNT(*) > 10;

PYSPARK
df.groupBy("column") \
.count() \
.filter(F.col("count") > 10)

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

ROUND DECIMAL VALUES

SQL
SELECT ROUND(column, 2)

71
FROM table;

PYSPARK
df.select(F.round("column", 2))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

GET CURRENT DATE

SQL
SELECT CURRENT_DATE();

72
PYSPARK
df.select(F.current_date())

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DATE ADDITION
SQL
SELECT

73
DATE_ADD(date_column, 10)
FROM table;

PYSPARK
df.select(F.date_add(F.col("dat
e_column"), 10))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

DATE SUBTRACTION
SQL
SELECT

74
DATE_SUB(date_column, 10)
FROM table;

PYSPARK
df.select(F.date_sub(F.col("dat
e_column"), 10))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

EXTRACT YEAR FROM DATE

SQL
SELECT YEAR(date_column)

75
FROM table;

PYSPARK
df.select(F.year(F.col("date_col
umn")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

EXTRACT MONTH FROM

DATE
SQL
SELECT MONTH(date_column)

76
FROM table;

PYSPARK
df.select(F.month(F.col("date_
column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

EXTRACT DAY FROM DATE

SQL
SELECT DAY(date_column)

77
FROM table;

PYSPARK
df.select(F.dayofmonth(F.col("d
ate_column")))

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

SORTING DESCENDING
SQL
SELECT *

78
FROM table
ORDER BY column DESC;

PYSPARK
df.orderBy(F.col("column").desc())

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

GROUP BY MULTIPLE
COLUMNS
SQL
SELECT col1, col2, COUNT(*)

79
FROM table
GROUP BY col1, col2;

PYSPARK
df.groupBy("col1", "col2") \
.count()

Shwetank Singh
GritSetGrow - GSGLearn.com
DATA ENGINEERING - SQL VS PYSPARK

CONDITIONAL COLUMN
UPDATE
SQL
UPDATE table

80
SET column1 = CASE
WHEN condition
THEN 'value1' ELSE 'value2' END;

PYSPARK
df.withColumn("column1",
F.when(F.col("condition"),
"value1").otherwise("value2"))

Shwetank Singh
GritSetGrow - GSGLearn.com

You might also like

Pyspark 30 Days
No ratings yet
Pyspark 30 Days
32 pages
Pythons Basics
No ratings yet
Pythons Basics
104 pages
Machine Learning - A First Course For Engineers and Scientists
No ratings yet
Machine Learning - A First Course For Engineers and Scientists
348 pages
Iti Pdfs
No ratings yet
Iti Pdfs
10 pages
SQL Vs PySpark 1678871778
No ratings yet
SQL Vs PySpark 1678871778
8 pages
? Create The ROOT - DEPTH Table - ESS-DWW Courseware - Snowflake University - On-Demand
No ratings yet
? Create The ROOT - DEPTH Table - ESS-DWW Courseware - Snowflake University - On-Demand
7 pages
Saep 99 PDF
No ratings yet
Saep 99 PDF
44 pages
BCG Matrix PPT of Apple
50% (2)
BCG Matrix PPT of Apple
15 pages
Pandas Vs SQL
No ratings yet
Pandas Vs SQL
50 pages
Data Engineering - Dimensional Modelling
No ratings yet
Data Engineering - Dimensional Modelling
52 pages
PySpark Q&A
No ratings yet
PySpark Q&A
56 pages
Data Engineering 101 ETL Terminology 1717401904
No ratings yet
Data Engineering 101 ETL Terminology 1717401904
148 pages
Unstructured Dataload Into Hive Database Through PySpark
No ratings yet
Unstructured Dataload Into Hive Database Through PySpark
9 pages
Sai Harish Addanki - Lead Data EngineerAWS Certified Professional
No ratings yet
Sai Harish Addanki - Lead Data EngineerAWS Certified Professional
2 pages
3 Lecture 3-ETL
100% (1)
3 Lecture 3-ETL
42 pages
Top Pyspark InterviewQuestions
No ratings yet
Top Pyspark InterviewQuestions
21 pages
PySpark Cheatsheet
No ratings yet
PySpark Cheatsheet
12 pages
DataEngineer Roadmap
No ratings yet
DataEngineer Roadmap
12 pages
Databricksmcqsquestionsandanswers
No ratings yet
Databricksmcqsquestionsandanswers
5 pages
SCD Type 2. Pyspark
No ratings yet
SCD Type 2. Pyspark
7 pages
Data Engineering 101 - Azure Synapse Analytics
No ratings yet
Data Engineering 101 - Azure Synapse Analytics
45 pages
Top 50 Data Warehousing Interview Questions & Answers
No ratings yet
Top 50 Data Warehousing Interview Questions & Answers
8 pages
SCD Type-1,2 Implementation in Pyspark
No ratings yet
SCD Type-1,2 Implementation in Pyspark
6 pages
Apache Hive
No ratings yet
Apache Hive
3 pages
Azure Data Factory Monitoring Best Practices
No ratings yet
Azure Data Factory Monitoring Best Practices
9 pages
Databricks Course Curriculum
No ratings yet
Databricks Course Curriculum
2 pages
SQL Interview
No ratings yet
SQL Interview
73 pages
Pyspark Learning Hub
No ratings yet
Pyspark Learning Hub
7 pages
INTERVIEW QUESTIONS - ALL Companies
No ratings yet
INTERVIEW QUESTIONS - ALL Companies
15 pages
DataStage Faq S
No ratings yet
DataStage Faq S
57 pages
BD - Spark - Baladasu A - SightSpectrum
No ratings yet
BD - Spark - Baladasu A - SightSpectrum
3 pages
Etl
No ratings yet
Etl
13 pages
Duckdb-Docs-0 9 2
No ratings yet
Duckdb-Docs-0 9 2
897 pages
Create An Spark Streaming App: 1. Architecture and Abstraction
No ratings yet
Create An Spark Streaming App: 1. Architecture and Abstraction
8 pages
Intro To Apache Spark: Paco Nathan, Download Slides
No ratings yet
Intro To Apache Spark: Paco Nathan, Download Slides
86 pages
DW
No ratings yet
DW
29 pages
Interview PDF
No ratings yet
Interview PDF
100 pages
Hive Cheat Sheet - Quick Reference
No ratings yet
Hive Cheat Sheet - Quick Reference
19 pages
Ssis Interview Imp1
No ratings yet
Ssis Interview Imp1
4 pages
Lead Data Engineer Resume Example
No ratings yet
Lead Data Engineer Resume Example
1 page
What Are The Difference Between DDL, DML and DCL Commands - Oracle FAQ
No ratings yet
What Are The Difference Between DDL, DML and DCL Commands - Oracle FAQ
4 pages
Sqoop Cammand
No ratings yet
Sqoop Cammand
8 pages
Srikanth
No ratings yet
Srikanth
7 pages
Polars Vs Pandas - Benchmarking Performances and Beyond - LinkedIn
No ratings yet
Polars Vs Pandas - Benchmarking Performances and Beyond - LinkedIn
12 pages
Etl VS Elt
No ratings yet
Etl VS Elt
8 pages
Flink Vs Spark by Slim Baltagi
No ratings yet
Flink Vs Spark by Slim Baltagi
67 pages
L02 - Spark SQL For Data Processing: CBG1C04 Big Data Programming
No ratings yet
L02 - Spark SQL For Data Processing: CBG1C04 Big Data Programming
23 pages
Data Engineer Interview Questions
No ratings yet
Data Engineer Interview Questions
16 pages
TensorFlow With R
No ratings yet
TensorFlow With R
46 pages
Hadoop Commands Cheat Sheet
No ratings yet
Hadoop Commands Cheat Sheet
1 page
Mongodb Cheat Sheet
No ratings yet
Mongodb Cheat Sheet
10 pages
Securing Snowflake
No ratings yet
Securing Snowflake
114 pages
AWS Certified Big Data Specialty Exam Dumps - Amazondumps - Us
100% (1)
AWS Certified Big Data Specialty Exam Dumps - Amazondumps - Us
5 pages
Pytest Documentation: Release 2.7.1
No ratings yet
Pytest Documentation: Release 2.7.1
219 pages
Spark Use Cases
No ratings yet
Spark Use Cases
2 pages
Star and Snowflake Schemas
No ratings yet
Star and Snowflake Schemas
4 pages
Big Data Hadoop MCQ Question
No ratings yet
Big Data Hadoop MCQ Question
109 pages
Studying For A Tech Interview Sucks
No ratings yet
Studying For A Tech Interview Sucks
8 pages
4.1 The Spark UI - Databricks
No ratings yet
4.1 The Spark UI - Databricks
7 pages
Resume Mohit
No ratings yet
Resume Mohit
6 pages
Pipeline Parallelism 2. Partition Parallelism
No ratings yet
Pipeline Parallelism 2. Partition Parallelism
12 pages
SQL and PySpark
No ratings yet
SQL and PySpark
80 pages
Data Engineering 101 SQL and PySpark 1727161935
No ratings yet
Data Engineering 101 SQL and PySpark 1727161935
58 pages
SQL Guide to Null
No ratings yet
SQL Guide to Null
11 pages
Sample Db SQL
No ratings yet
Sample Db SQL
4 pages
SQL Server Source Control Basics eBook
No ratings yet
SQL Server Source Control Basics eBook
296 pages
PostGres SQL
No ratings yet
PostGres SQL
7 pages
Extra-Practice-Problems-for-SQL
No ratings yet
Extra-Practice-Problems-for-SQL
5 pages
LoA - Basic - Book 1
No ratings yet
LoA - Basic - Book 1
21 pages
Choosing Beliefs NOTES
No ratings yet
Choosing Beliefs NOTES
9 pages
10 - Processor Structure and Function
No ratings yet
10 - Processor Structure and Function
45 pages
Ls Cognitive Proficiency CPI Analysis
No ratings yet
Ls Cognitive Proficiency CPI Analysis
6 pages
Wifi Cracker
No ratings yet
Wifi Cracker
13 pages
Solda MIGMAG
No ratings yet
Solda MIGMAG
37 pages
Raw Pitch Deck
No ratings yet
Raw Pitch Deck
18 pages
A5E42673511en LU240 HA Ma OI en-US
No ratings yet
A5E42673511en LU240 HA Ma OI en-US
269 pages
Data Flow Diagram With Examples - Food Ordering System
No ratings yet
Data Flow Diagram With Examples - Food Ordering System
4 pages
Тест 2
No ratings yet
Тест 2
27 pages
TC2431en-Ed03 Virtualization OXE Configuration Related To OXE Releases and ESXi Infrastructure Versions
100% (1)
TC2431en-Ed03 Virtualization OXE Configuration Related To OXE Releases and ESXi Infrastructure Versions
70 pages
Ibps RRB Po Memory Based Questions Discussion 5th Aug 2023 English 611685760538582
No ratings yet
Ibps RRB Po Memory Based Questions Discussion 5th Aug 2023 English 611685760538582
33 pages
TKHTS Cuoiky 20192 Thuy - CTTT
No ratings yet
TKHTS Cuoiky 20192 Thuy - CTTT
1 page
Project Management: - Dr. Gyanesh Kumar Sinha Associate Professor - Operations and Analytics
No ratings yet
Project Management: - Dr. Gyanesh Kumar Sinha Associate Professor - Operations and Analytics
10 pages
Расшифровка СИГНАЛОВ
No ratings yet
Расшифровка СИГНАЛОВ
4 pages
XML UserGuide PDF
No ratings yet
XML UserGuide PDF
277 pages
Digital Electronics: Subtractor
No ratings yet
Digital Electronics: Subtractor
21 pages
Smartphones Past Present and Future
No ratings yet
Smartphones Past Present and Future
4 pages
Class 6 Syllabus St. Vincent Asansol Icse Board
No ratings yet
Class 6 Syllabus St. Vincent Asansol Icse Board
17 pages
Learning Plan Computer 7 Word
No ratings yet
Learning Plan Computer 7 Word
9 pages
Chapter 11: Consumer-Oriented E-Commerce: Week 7
No ratings yet
Chapter 11: Consumer-Oriented E-Commerce: Week 7
18 pages
GP-Net: A Lightweight Generative Convolutional Neural Network with Grasp Priority
No ratings yet
GP-Net: A Lightweight Generative Convolutional Neural Network with Grasp Priority
20 pages
ssss
No ratings yet
ssss
282 pages
Sony Vaio MS02 - (MBX-130)
No ratings yet
Sony Vaio MS02 - (MBX-130)
43 pages
Abstract Data Type
No ratings yet
Abstract Data Type
5 pages
CDC Python Learning Hierarchy
No ratings yet
CDC Python Learning Hierarchy
3 pages
Enhancing Regulatory Intelligence
No ratings yet
Enhancing Regulatory Intelligence
49 pages
The Fragility of Technology
No ratings yet
The Fragility of Technology
7 pages
DS-2CD1343G2-IUF Datasheet V5.7.1 20230425
No ratings yet
DS-2CD1343G2-IUF Datasheet V5.7.1 20230425
6 pages

Pyspark 30 Days
Pyspark 30 Days
Pythons Basics
Pythons Basics
Machine Learning - A First Course For Engineers and Scientists
Machine Learning - A First Course For Engineers and Scientists
Iti Pdfs
Iti Pdfs
SQL Vs PySpark 1678871778
SQL Vs PySpark 1678871778
? Create The ROOT - DEPTH Table - ESS-DWW Courseware - Snowflake University - On-Demand
? Create The ROOT - DEPTH Table - ESS-DWW Courseware - Snowflake University - On-Demand
Saep 99 PDF
Saep 99 PDF
BCG Matrix PPT of Apple
BCG Matrix PPT of Apple
Pandas Vs SQL
Pandas Vs SQL
Data Engineering - Dimensional Modelling
Data Engineering - Dimensional Modelling
PySpark Q&A
PySpark Q&A
Data Engineering 101 ETL Terminology 1717401904
Data Engineering 101 ETL Terminology 1717401904
Unstructured Dataload Into Hive Database Through PySpark
Unstructured Dataload Into Hive Database Through PySpark
Sai Harish Addanki - Lead Data EngineerAWS Certified Professional
Sai Harish Addanki - Lead Data EngineerAWS Certified Professional
3 Lecture 3-ETL
3 Lecture 3-ETL
Top Pyspark InterviewQuestions
Top Pyspark InterviewQuestions
PySpark Cheatsheet
PySpark Cheatsheet
DataEngineer Roadmap
DataEngineer Roadmap
Databricksmcqsquestionsandanswers
Databricksmcqsquestionsandanswers
SCD Type 2. Pyspark
SCD Type 2. Pyspark
Data Engineering 101 - Azure Synapse Analytics
Data Engineering 101 - Azure Synapse Analytics
Top 50 Data Warehousing Interview Questions & Answers
Top 50 Data Warehousing Interview Questions & Answers
SCD Type-1,2 Implementation in Pyspark
SCD Type-1,2 Implementation in Pyspark
Apache Hive
Apache Hive
Azure Data Factory Monitoring Best Practices
Azure Data Factory Monitoring Best Practices
Databricks Course Curriculum
Databricks Course Curriculum
SQL Interview
SQL Interview
Pyspark Learning Hub
Pyspark Learning Hub
INTERVIEW QUESTIONS - ALL Companies
INTERVIEW QUESTIONS - ALL Companies
DataStage Faq S
DataStage Faq S
BD - Spark - Baladasu A - SightSpectrum
BD - Spark - Baladasu A - SightSpectrum
Etl
Etl
Duckdb-Docs-0 9 2
Duckdb-Docs-0 9 2
Create An Spark Streaming App: 1. Architecture and Abstraction
Create An Spark Streaming App: 1. Architecture and Abstraction
Intro To Apache Spark: Paco Nathan, Download Slides
Intro To Apache Spark: Paco Nathan, Download Slides
DW
DW
Interview PDF
Interview PDF
Hive Cheat Sheet - Quick Reference
Hive Cheat Sheet - Quick Reference
Ssis Interview Imp1
Ssis Interview Imp1
Lead Data Engineer Resume Example
Lead Data Engineer Resume Example
What Are The Difference Between DDL, DML and DCL Commands - Oracle FAQ
What Are The Difference Between DDL, DML and DCL Commands - Oracle FAQ
Sqoop Cammand
Sqoop Cammand
Srikanth
Srikanth
Polars Vs Pandas - Benchmarking Performances and Beyond - LinkedIn
Polars Vs Pandas - Benchmarking Performances and Beyond - LinkedIn
Etl VS Elt
Etl VS Elt
Flink Vs Spark by Slim Baltagi
Flink Vs Spark by Slim Baltagi
L02 - Spark SQL For Data Processing: CBG1C04 Big Data Programming
L02 - Spark SQL For Data Processing: CBG1C04 Big Data Programming
Data Engineer Interview Questions
Data Engineer Interview Questions
TensorFlow With R
TensorFlow With R
Hadoop Commands Cheat Sheet
Hadoop Commands Cheat Sheet
Mongodb Cheat Sheet
Mongodb Cheat Sheet
Securing Snowflake
Securing Snowflake
AWS Certified Big Data Specialty Exam Dumps - Amazondumps - Us
AWS Certified Big Data Specialty Exam Dumps - Amazondumps - Us
Pytest Documentation: Release 2.7.1
Pytest Documentation: Release 2.7.1
Spark Use Cases
Spark Use Cases
Star and Snowflake Schemas
Star and Snowflake Schemas
Big Data Hadoop MCQ Question
Big Data Hadoop MCQ Question
Studying For A Tech Interview Sucks
Studying For A Tech Interview Sucks
4.1 The Spark UI - Databricks
4.1 The Spark UI - Databricks
Resume Mohit
Resume Mohit
Pipeline Parallelism 2. Partition Parallelism
Pipeline Parallelism 2. Partition Parallelism
SQL and PySpark
SQL and PySpark
Data Engineering 101 SQL and PySpark 1727161935
Data Engineering 101 SQL and PySpark 1727161935
SQL Guide to Null
SQL Guide to Null
Sample Db SQL
Sample Db SQL
SQL Server Source Control Basics eBook
SQL Server Source Control Basics eBook
PostGres SQL
PostGres SQL
Extra-Practice-Problems-for-SQL
Extra-Practice-Problems-for-SQL
LoA - Basic - Book 1
LoA - Basic - Book 1
Choosing Beliefs NOTES
Choosing Beliefs NOTES
10 - Processor Structure and Function
10 - Processor Structure and Function
Ls Cognitive Proficiency CPI Analysis
Ls Cognitive Proficiency CPI Analysis
Wifi Cracker
Wifi Cracker
Solda MIGMAG
Solda MIGMAG
Raw Pitch Deck
Raw Pitch Deck
A5E42673511en LU240 HA Ma OI en-US
A5E42673511en LU240 HA Ma OI en-US
Data Flow Diagram With Examples - Food Ordering System
Data Flow Diagram With Examples - Food Ordering System
Тест 2
Тест 2
TC2431en-Ed03 Virtualization OXE Configuration Related To OXE Releases and ESXi Infrastructure Versions
TC2431en-Ed03 Virtualization OXE Configuration Related To OXE Releases and ESXi Infrastructure Versions
Ibps RRB Po Memory Based Questions Discussion 5th Aug 2023 English 611685760538582
Ibps RRB Po Memory Based Questions Discussion 5th Aug 2023 English 611685760538582
TKHTS Cuoiky 20192 Thuy - CTTT
TKHTS Cuoiky 20192 Thuy - CTTT
Project Management: - Dr. Gyanesh Kumar Sinha Associate Professor - Operations and Analytics
Project Management: - Dr. Gyanesh Kumar Sinha Associate Professor - Operations and Analytics
Расшифровка СИГНАЛОВ
Расшифровка СИГНАЛОВ
XML UserGuide PDF
XML UserGuide PDF
Digital Electronics: Subtractor
Digital Electronics: Subtractor
Smartphones Past Present and Future
Smartphones Past Present and Future
Class 6 Syllabus St. Vincent Asansol Icse Board
Class 6 Syllabus St. Vincent Asansol Icse Board
Learning Plan Computer 7 Word
Learning Plan Computer 7 Word
Chapter 11: Consumer-Oriented E-Commerce: Week 7
Chapter 11: Consumer-Oriented E-Commerce: Week 7
GP-Net: A Lightweight Generative Convolutional Neural Network with Grasp Priority
GP-Net: A Lightweight Generative Convolutional Neural Network with Grasp Priority
ssss
ssss
Sony Vaio MS02 - (MBX-130)
Sony Vaio MS02 - (MBX-130)
Abstract Data Type
Abstract Data Type
CDC Python Learning Hierarchy
CDC Python Learning Hierarchy
Enhancing Regulatory Intelligence
Enhancing Regulatory Intelligence
The Fragility of Technology
The Fragility of Technology
DS-2CD1343G2-IUF Datasheet V5.7.1 20230425
DS-2CD1343G2-IUF Datasheet V5.7.1 20230425