Welcome to Scribd!

Cs 744: Spark SQL: Shivaram Venkataraman Fall 2019

Uploaded by

0% found this document useful (0 votes)

56 views24 pages

CS 744 covers Spark SQL and related topics. The document discusses Spark SQL's architecture, which includes Catalyst as an extensible query optimizer and code generator. Spark SQL supports relational queries on DataFrames and can handle large datasets across clusters. It allows SQL queries to be combined with machine learning workflows. The document outlines features like caching, UDFs, and interoperability between RDDs and DataFrames.

Original Description:

Sparksql

Original Title

cs744-sparksql-notes

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

0% found this document useful (0 votes)

56 views24 pages

Cs 744: Spark SQL: Shivaram Venkataraman Fall 2019

Uploaded by

abhimanyu thakur

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Download as pdf or txt

Jump to Page

You are on page 1of 24

Search inside document

CS 744: SPARK SQL

Shivaram Venkataraman
Fall 2019
ADMINISTRIVIA
- Assignment 2 grades this week
- Midterm details on Piazza
- Course Project Proposal comments
Applications

Machine Learning SQL Streaming Graph

Computational Engines

Scalable Storage Systems

Resource Management

Datacenter Architecture
SQL: STRUCTURED QUERY LANGUAGE
DATABASE SYSTEMS
SQL in BiG DATA SYSTEMS
- Scale: How do we handle large datasets, clusters ?

- Wide-area: How do we handle queries across datacenters ?

SPARK SQL: Architecture
DATAFRAME
Motivation: Understanding the structure of data

lines = sc.textFile(“users")
csv = lines.map(x =>
x.split(‘,’))
young = csv.filter(x =>
x(1) < 21)
println(young.count())
PROCEDURAL VS. RELATIONAL

ctx = new HiveContext ()

lines = sc.textFile(“users")
users = ctx.table(“users")
csv = lines.map(x =>
young = users.where(
x.split(‘,’))
users(“age") < 21)
young = csv.filter(x =>
println(young.count())
x(1) < 21)
println(young.count())
OPERATORS à EXPRESSIONS
Projection (select), Filter, Join, Aggregations take in Expressions

employees.join(dept,
employees (“deptId") === dept ("id ")
)

Build up Abstract Syntax Tree (AST)

OTHER FEATURES
1. Debugging: Eager analysis of logical plans

2. Interoperability: Convert RDD to Dataframes

OTHER FEATURES
3. Caching: Columnar caching with compression

4. UDFs: Python or Scala functions

val model: LogisticRegressionModel = ...
ctx.udf. register (" predict", (x: Float , y: Float) =>
model.predict(Vector(x, y)))
ctx.sql (" SELECT predict(age , weight) FROM users ")
CATALYST
Goal: Extensibility to add new optimization rules
CATALYST DESIGN
Library for representing trees and
rules to manipulate them

tree. transform {
case Add(Literal(c1),Literal(c2)) =>
Literal(c1+c2)
case Add(left , Literal(0)) => left
case Add(Literal(0), right) => right
}
LOGICAL, PHYSICAL PLANS
1. Analyzer: Lookup relations, map named attributes, propagate types
2. Logical Optimization

3. Physical Planning
CODE GENERATION
CPU bound when data is in-memory
Branches, virtual function calls etc.

def compile(node: Node ): AST = node match {

case Literal(value) => q"$value"
case Attribute (name) => q"row.get($name)"
case Add(left, right) =>
q"${compile(left)} + ${compile(right)}"
}
EXTENSIONS
Data sources
- Define a BaseRelation that contains schema
- TableScan returns RDD[Row]
- Pruning / Filtering optimizations

User-Defined Types (UDTs)

- Support advanced analytics with e.g. Vector
- Users provide mapping from UDT to Catalyst Row
SUMMARY, TAKEAWAYS
Relational API
- Enables rich space of optimizations
- Easy to use, integration with Scala, Python

Catalyst Optimizer
- Extensible, rule-based optimizer
- Code generation for high-performance

Evolution of Spark API

DISCUSSION
https://forms.gle/r6DnV7wLGHjYmYd17
Does SparkSQL help ML workloads? Consider the MNIST code in your
assignment. What parts of your code would benefit from SparkSQL and what
parts would not?
What are some limitations of the Catalyst optimizer as described in the
paper? Describe one or two ideas to improve the optimizer
NEXT STEPS
Next class: Wide-area SQL queries
Midterm coming up!
SCHEMA INFERENCE
Common data formats: JSON, CSV, semi-structured data

JSON schema inference

- Find most specific SparkSQL type that matches instances
e.g. if tweet.loc.latitude are all 32-bit then it is a INT
- Fall back to STRING if unknown
- Implemented using a reduce over trees of types

Solution Architecture Document SAD Template
Document16 pages
Solution Architecture Document SAD Template
sikandar jameel
100% (3)
Jira Tool PDF
Document57 pages
Jira Tool PDF
abhimanyu thakur
100% (2)
PySpark Data Frame Questions PDF
Document57 pages
PySpark Data Frame Questions PDF
Varun Pathak
100% (1)
Information Practices
Document141 pages
Information Practices
aj
No ratings yet
Selenium Interview Questions - Cognizant
Document20 pages
Selenium Interview Questions - Cognizant
Jessie Sokhi
No ratings yet
Spark Training in Bangalore
Document36 pages
Spark Training in Bangalore
kellytechnologies
No ratings yet
Spark SQL
Document24 pages
Spark SQL
Jaswanth Chowdarys
No ratings yet
Apache Spark - DataFrames and Spark SQL
Document146 pages
Apache Spark - DataFrames and Spark SQL
Ammar Baig
100% (1)
Mysql
Document81 pages
Mysql
Aayush Sahu
100% (1)
Neo4j Notes
Document10 pages
Neo4j Notes
sparklingemeraldsdazzle
No ratings yet
Introduction To R
Document36 pages
Introduction To R
Refael Lav
No ratings yet
Dbms Ut II Answer Key
Document3 pages
Dbms Ut II Answer Key
Jiju_Joseph_1288
No ratings yet
Shark: SQL and Rich Analytics at Scale
Document35 pages
Shark: SQL and Rich Analytics at Scale
manishsg
No ratings yet
Nova Guliyev: SR Data Consultant
Document6 pages
Nova Guliyev: SR Data Consultant
Arth Patel
No ratings yet
Python Library Functions
Document12 pages
Python Library Functions
Omar Akhlaq
No ratings yet
Spark: Fast, Interactive, Language-Integrated Cluster Computing
Document25 pages
Spark: Fast, Interactive, Language-Integrated Cluster Computing
Michaël Memeteau
No ratings yet
Notes
Document12 pages
Notes
Chris Harris
No ratings yet
Docse
Document3 pages
Docse
lodakel125
No ratings yet
Spark SQL Meetup - 4-8-2012
Document27 pages
Spark SQL Meetup - 4-8-2012
Ardie Carderas
No ratings yet
Dimensionality - Reduction - Principal - Component - Analysis - Ipynb at Master Llsourcell - Dimensionality - Reduction GitHub
Document14 pages
Dimensionality - Reduction - Principal - Component - Analysis - Ipynb at Master Llsourcell - Dimensionality - Reduction GitHub
sid rai
No ratings yet
SQL Webinar
Document18 pages
SQL Webinar
cadeja.umafiq
No ratings yet
Dav Exps - Merged - Merged
Document99 pages
Dav Exps - Merged - Merged
Sahil Surve
No ratings yet
How To Use Ibatis
Document9 pages
How To Use Ibatis
NeelDK
No ratings yet
ADC Theory
Document7 pages
ADC Theory
aaaryaa1989
No ratings yet
Scala PDF
Document29 pages
Scala PDF
Mauricio Alejandro Arenas Arriagada
No ratings yet
Notes On MYSQL
Document7 pages
Notes On MYSQL
Namhaa Sharma
No ratings yet
07 Spark Dataframes
Document45 pages
07 Spark Dataframes
mhafod
100% (1)
The Relational Model
Document84 pages
The Relational Model
Mani Chandra Teja
No ratings yet
DBMS Record
Document76 pages
DBMS Record
Pranava Pranu
No ratings yet
Data Analysis and Visulaization Experiment
Document104 pages
Data Analysis and Visulaization Experiment
Kashik Sredharan
No ratings yet
Basic Part 1
Document46 pages
Basic Part 1
xo3ugyfw
No ratings yet
Hadoop Spark
Document34 pages
Hadoop Spark
klogeswaran.it
No ratings yet
Overview
Document25 pages
Overview
sarvesh_mishra
No ratings yet
Databricks: Building and Operating A Big Data Service Based On Apache Spark
Document32 pages
Databricks: Building and Operating A Big Data Service Based On Apache Spark
Saravanan1234567
No ratings yet
Web-Scale Data Processing: Christopher Olston and Many Others
Document32 pages
Web-Scale Data Processing: Christopher Olston and Many Others
Said Lobo
No ratings yet
PROG8060_Lesson04_DataStructures (2)
Document47 pages
PROG8060_Lesson04_DataStructures (2)
shivani varu
No ratings yet
Session 3.8
Document17 pages
Session 3.8
dhurgadevi
No ratings yet
PySpark Questions
Document5 pages
PySpark Questions
Sai Krishna
No ratings yet
DBMS Record
Document58 pages
DBMS Record
Pranava Pranu
No ratings yet
Lucente Pmacct
Document30 pages
Lucente Pmacct
Anonymous Wp1emUrIK
No ratings yet
List of Programs in R 2 Sem
Document48 pages
List of Programs in R 2 Sem
samarth agarwal
No ratings yet
Problem Set 1: SQL
Document8 pages
Problem Set 1: SQL
Dipanjana Saha
No ratings yet
Data Analytics Lab Record 603 - C
Document3 pages
Data Analytics Lab Record 603 - C
saurabh32x
No ratings yet
PySpark Transformations Tutorial
Document58 pages
PySpark Transformations Tutorial
ravikumar lanka
100% (1)
Python Unit 5
Document21 pages
Python Unit 5
artificial intelligence
No ratings yet
JudyQiu Talk IIT Nov 4 2011
Document81 pages
JudyQiu Talk IIT Nov 4 2011
Sherril Vincent
No ratings yet
Post GRE
Document59 pages
Post GRE
Sarang Hae
No ratings yet
SAS Syllabus
Document6 pages
SAS Syllabus
samar
No ratings yet
Ads Final Assignment No 11
Document18 pages
Ads Final Assignment No 11
ert
No ratings yet
CH - 5 Fundamentals of A Database System
Document13 pages
CH - 5 Fundamentals of A Database System
blackhat0917
No ratings yet
Lecture 4
Document51 pages
Lecture 4
Việt Anh Đoàn
No ratings yet
ch3 Abbrev
Document64 pages
ch3 Abbrev
Irfan Khan
No ratings yet
NEWS For R Version 2.13.1 (2011-07-08)
Document49 pages
NEWS For R Version 2.13.1 (2011-07-08)
Ekram Karouma
No ratings yet
KBKrishnaTeja Interview Questions
Document2 pages
KBKrishnaTeja Interview Questions
nikhildevopspro
No ratings yet
BDA List of Experiments For Practical Exam
Document21 pages
BDA List of Experiments For Practical Exam
Pharoah Gamerz
No ratings yet
Apache Spark: The Next Gen Toolset For Big Data Processing
Document9 pages
Apache Spark: The Next Gen Toolset For Big Data Processing
Sanjay K Prasad
No ratings yet
Note
Document9 pages
Note
KING MAKER
No ratings yet
Slide 2
Document68 pages
Slide 2
dejenedagime999
No ratings yet
Databricks Pyspark 1712042928
Document21 pages
Databricks Pyspark 1712042928
Lipsa Priyadarsini
No ratings yet
Resume
Document4 pages
Resume
shekhar
No ratings yet
Pandas Dataframe Export The CSV File
Document9 pages
Pandas Dataframe Export The CSV File
ammouna beng
No ratings yet
The Definitive Guide to Azure Data Engineering: Modern ELT, DevOps, and Analytics on the Azure Cloud Platform
From Everand
The Definitive Guide to Azure Data Engineering: Modern ELT, DevOps, and Analytics on the Azure Cloud Platform
Ron C. L'Esteve
No ratings yet
Fast Data Processing Systems with SMACK Stack
From Everand
Fast Data Processing Systems with SMACK Stack
Raúl Estrada
No ratings yet
Full-Stack-Developer2 - Template 18
Document1 page
Full-Stack-Developer2 - Template 18
abhimanyu thakur
No ratings yet
Bpap-A 40
Document132 pages
Bpap-A 40
abhimanyu thakur
No ratings yet
Emc Documentum Content Server 65 Release Notes
Document79 pages
Emc Documentum Content Server 65 Release Notes
abhimanyu thakur
No ratings yet
Protractor Tutorial
Document70 pages
Protractor Tutorial
abhimanyu thakur
No ratings yet
GOFLDNTAND4OOW413569
Document4 pages
GOFLDNTAND4OOW413569
abhimanyu thakur
No ratings yet
Java Collections JDK8 Features
Document81 pages
Java Collections JDK8 Features
abhimanyu thakur
No ratings yet
Installation Guide - MAC OS
Document20 pages
Installation Guide - MAC OS
abhimanyu thakur
No ratings yet
Full Stack Data Science
Document10 pages
Full Stack Data Science
abhimanyu thakur
No ratings yet
Why Should We Learn Python
Document6 pages
Why Should We Learn Python
abhimanyu thakur
No ratings yet
6+ Years - 27-July
Document11 pages
6+ Years - 27-July
abhimanyu thakur
No ratings yet
Installation Guide - Linux
Document15 pages
Installation Guide - Linux
abhimanyu thakur
No ratings yet
6+ Years - 25-July
Document10 pages
6+ Years - 25-July
abhimanyu thakur
No ratings yet
3-6 Years - 17-July
Document11 pages
3-6 Years - 17-July
abhimanyu thakur
No ratings yet
Bangalore Jobs 30 July
Document8 pages
Bangalore Jobs 30 July
abhimanyu thakur
No ratings yet
Curriculam Vitae Chaitali Jain: Career Objective
Document2 pages
Curriculam Vitae Chaitali Jain: Career Objective
abhimanyu thakur
No ratings yet
Blockchain Certification Training Course: About Intellipaat
Document11 pages
Blockchain Certification Training Course: About Intellipaat
abhimanyu thakur
No ratings yet
Thematic Semester On Blockchain Technology: Pre-Requisites
Document2 pages
Thematic Semester On Blockchain Technology: Pre-Requisites
abhimanyu thakur
No ratings yet
Blockchain Syllabus For Site Sep18
Document2 pages
Blockchain Syllabus For Site Sep18
abhimanyu thakur
No ratings yet
Course Syllabus: Course Code Course Title ECTS Credits
Document5 pages
Course Syllabus: Course Code Course Title ECTS Credits
abhimanyu thakur
No ratings yet
Leave and License Agreement: Particulars Amount Paid GRN/Transaction Id Date
Document5 pages
Leave and License Agreement: Particulars Amount Paid GRN/Transaction Id Date
abhimanyu thakur
No ratings yet
Solace JMS Integration With Spark Streaming 1.3
Document27 pages
Solace JMS Integration With Spark Streaming 1.3
abhimanyu thakur
No ratings yet
ETL Testing: Online, Classroom, Corporate Mr. 40 Days
Document13 pages
ETL Testing: Online, Classroom, Corporate Mr. 40 Days
abhimanyu thakur
No ratings yet
Spark 2.0.1 Release Notes: New Features
Document2 pages
Spark 2.0.1 Release Notes: New Features
abhimanyu thakur
No ratings yet
HCP Work With Notes
Document7 pages
HCP Work With Notes
abhimanyu thakur
No ratings yet
Relationship Between VPN and Firewall - GeeksforGeeks
Document5 pages
Relationship Between VPN and Firewall - GeeksforGeeks
chidiebere onwuchekwa
No ratings yet
RDBMS Lab Guide
Document33 pages
RDBMS Lab Guide
Ramasamy Go
No ratings yet
Nagios SAP
Document17 pages
Nagios SAP
soissons
No ratings yet
(Unit D - Pointers and File Handling) Class 1 - Pointer
Document13 pages
(Unit D - Pointers and File Handling) Class 1 - Pointer
Tanish Kapoor
No ratings yet
2database Management System of Multi Level Marketing Organisation
Document24 pages
2database Management System of Multi Level Marketing Organisation
indra05222
No ratings yet
Symbol Table
Document6 pages
Symbol Table
Anju
No ratings yet
Device Upgrade Procedure v6 0
Document16 pages
Device Upgrade Procedure v6 0
زكيعبادي
No ratings yet
HP-UX 11i v3 Read Before Installing or Updating: Part Number: P07214-001 Published: May 2018
Document16 pages
HP-UX 11i v3 Read Before Installing or Updating: Part Number: P07214-001 Published: May 2018
Momate
No ratings yet
Tachonet: Software Requirements Specification
Document56 pages
Tachonet: Software Requirements Specification
Noor noor
No ratings yet
Introduction To Software Testing Engineering Criteria For Technologies
Document40 pages
Introduction To Software Testing Engineering Criteria For Technologies
Nurma Ayu Wigati
No ratings yet
Brief Description About Content Management System
Document7 pages
Brief Description About Content Management System
sanjeewascribd
No ratings yet
Foxpro Tutorial A
Document8 pages
Foxpro Tutorial A
Rovel Policarpio
No ratings yet
Oracle Export and Import
Document3 pages
Oracle Export and Import
Randhir Badal
No ratings yet
Adobe Acrobat Pro DC 2020 Windows Impossible To Crack - Need Help
Document3 pages
Adobe Acrobat Pro DC 2020 Windows Impossible To Crack - Need Help
Robert Fong
No ratings yet
ITE S22 23 in ClassExercise Ch4 2
Document2 pages
ITE S22 23 in ClassExercise Ch4 2
Fajr Alrais
No ratings yet
CT042-3-1-IDB-Week 9
Document51 pages
CT042-3-1-IDB-Week 9
小垃圾
No ratings yet
Yashwanth
Document98 pages
Yashwanth
Chaitu Kumari
No ratings yet
StationWare User Manual
Document195 pages
StationWare User Manual
Fernando Lozano
No ratings yet
PHP Compile Test
Document12 pages
PHP Compile Test
goharhussain
No ratings yet
Sas Contents (Arvind)
Document3 pages
Sas Contents (Arvind)
itsdama
No ratings yet
Create A LUN in Netapp Storage
Document6 pages
Create A LUN in Netapp Storage
nbha2
No ratings yet
4.2 PLSQL Chapter 4 PDF
Document5 pages
4.2 PLSQL Chapter 4 PDF
phanidhar paluri
No ratings yet
Purchase Requisitions Uploading Tool
Document12 pages
Purchase Requisitions Uploading Tool
antonio_abbate
No ratings yet
Install Wamp SSL PDF
Document9 pages
Install Wamp SSL PDF
Ionel Gherasim
No ratings yet
Evolutionary Architectures Day 2816211628782168865
Document213 pages
Evolutionary Architectures Day 2816211628782168865
Raghunandan Gupta
No ratings yet
BDACh 02 L01 Hadoop
Document24 pages
BDACh 02 L01 Hadoop
mkarveer
No ratings yet
Complete Guide To Fixing Default Passwords For Trixbox
Document4 pages
Complete Guide To Fixing Default Passwords For Trixbox
scribd19999
No ratings yet
2 Waysto Add Swap Space
Document2 pages
2 Waysto Add Swap Space
பழனிவேலுகந்தசுவாமி
No ratings yet