Welcome to Scribd!

0% found this document useful (0 votes)

50 views

Map Reduced B Seminar

Uploaded by

The document describes MapReduce, a programming model developed by Google for processing large datasets in a distributed computing environment. MapReduce allows for automatic parallelization, distribution, fault tolerance, and monitoring of large-scale data processing jobs across thousands of CPUs. It works by breaking jobs into map and reduce stages, with the map stage distributing work across nodes and the reduce stage consolidating results from the map outputs. The model has been widely adopted at Google for tasks like web indexing, machine learning, sorting, and data mining of large datasets.

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Map Reduced B Seminar

Uploaded by

niharika sunkara

0% found this document useful (0 votes)

50 views17 pages

Original Description:

Map reduce

Original Title

Map Reduced b Seminar

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Download as pdf or txt

0% found this document useful (0 votes)

50 views17 pages

Map Reduced B Seminar

Uploaded by

niharika sunkara

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Download as pdf or txt

Jump to Page

You are on page 1of 17

Search inside document

MapReduce:

Simplified Data Processing on

Large Clusters

These are slides from Dan Welds class at U. Washington

(who in turn made his slides based on those by Jeff Dean, Sanjay
Ghemawat, Google, Inc.)
Motivation

Large-Scale Data Processing

Want to use 1000s of CPUs
But dont want hassle of managing things

MapReduce provides
Automatic parallelization & distribution
Fault tolerance
I/O scheduling
Monitoring & status updates
Map/Reduce ala Google
map(key, val) is run on each item in set
emits intermediate key / val pairs

reduce(key, vals) is run for each unique key

emitted by map()
emits final output
count words in docs
Input consists of (url, contents) pairs

map(key=url, val=contents):
For each word w in contents, emit (w, 1)

reduce(key=word, values=uniq_counts):
Sum all 1s in values list
Emit result (word, sum)
map(key=url, val=contents):
Count, For each word w in contents, emit (w, 1)
Illustrated reduce(key=word, values=uniq_counts):
Sum all 1s in values list
Emit result (word, sum)

see 1 bob 1
see bob throw
bob 1 run 1
see spot run
run 1 see 2
see 1 spot 1
spot 1 throw 1
throw 1
Grep
Input consists of (url+offset, single line)
map(key=url+offset, val=line):
If contents matches regexp, emit (line, 1)

reduce(key=line, values=uniq_counts):
Dont do anything; just emit line
Model is Widely Applicable
MapReduce Programs In Google Source Tree

Example uses:
distributed grep distributed sort web link-graph reversal
term-vector / host web access log stats inverted index construction
statistical machine
document clustering machine learning
translation
... ... ...
Implementation Overview
Typical cluster:

100s/1000s of 2-CPU x86 machines, 2-4 GB of memory

Storage is on local IDE disks
GFS: distributed file system manages data (SOSP'03)
Job scheduling system: jobs made up of tasks,
scheduler assigns tasks to machines

Implementation is a C++ library linked into user programs

Job Processing
Fault Tolerance / Workers
Handled via re-execution
Detect failure via periodic heartbeats
Re-execute completed + in-progress map tasks
Why????
Re-execute in progress reduce tasks
Task completion committed through master
Robust: lost 1600/1800 machines once finished ok
Semantics in presence of failures: see paper
Master Failure
Could handle, ?
But don't yet
(master failure unlikely)
Refinement:
Redundant Execution
Slow workers significantly delay completion time
Other jobs consuming resources on machine

Bad disks w/ soft errors transfer data slowly

Weird things: processor caches disabled (!!)

Solution: Near end of phase, spawn backup tasks

Whichever one finishes first "wins"

Dramatically shortens job completion time

Refinement:
Locality Optimization
Master scheduling policy:
Asks GFS for locations of replicas of input file blocks
Map tasks typically split into 64MB (GFS block size)
Map tasks scheduled so GFS input block replica are on
same machine or same rack

Effect
Thousands of machines read input at local disk speed
Without this, rack switches limit read rate
Performance
Tests run on cluster of 1800 machines:
4 GB of memory
Dual-processor 2 GHz Xeons with Hyperthreading
Dual 160 GB IDE disks
Gigabit Ethernet per machine
Bisection bandwidth approximately 100 Gbps

Two benchmarks:
MR_GrepScan 1010 100-byte records to extract records
matching a rare pattern (92K matching records)

MR_SortSort 1010 100-byte records (modeled after TeraSort

benchmark)
MR_Grep

Locality optimization helps:

1800 machines read 1 TB at peak ~31 GB/s
W/out this, rack switches would limit to 10 GB/s

Startup overhead is significant for short

jobs
MR_Sort
Normal No backup tasks 200 processes killed

Backup tasks reduce job completion time a lot!

System deals well with failures
Conclusions
MapReduce proven to be useful abstraction

Greatly simplifies large-scale computations

Fun to use:
focus on problem,
let library deal w/ messy details

Design and Construction of A Battery Level Indicator
Document10 pages
Design and Construction of A Battery Level Indicator
Mohamed Nasser
No ratings yet
1 - Software Quality Engineering
Document34 pages
1 - Software Quality Engineering
sweethome1997
100% (2)
NEW AW Volumeshare 7 Ext5 PDS
Document10 pages
NEW AW Volumeshare 7 Ext5 PDS
CeoĐứcTrường
100% (1)
Introduction To Map Reduce
Document50 pages
Introduction To Map Reduce
KhAn Zainab
No ratings yet
Chapter Five Hadoop Mapreduce & HDFS
Document44 pages
Chapter Five Hadoop Mapreduce & HDFS
Binyam Bekele Moges
No ratings yet
Take A Close Look At: Ma Ed
Document42 pages
Take A Close Look At: Ma Ed
Abhishek Ranjan
No ratings yet
Chapter 05 Google Re
Document69 pages
Chapter 05 Google Re
William
No ratings yet
CS 425 / ECE 428 Distributed Systems Fall 2014: Lecture 3: Mapreduce and Hadoop
Document24 pages
CS 425 / ECE 428 Distributed Systems Fall 2014: Lecture 3: Mapreduce and Hadoop
Pandu snigdha
No ratings yet
Map Reduce
Document25 pages
Map Reduce
ahmadroheed
No ratings yet
Map Reduce Programming
Document21 pages
Map Reduce Programming
Nyerere Oyaro
No ratings yet
Lecture - 3
Document25 pages
Lecture - 3
atik
No ratings yet
Lecture 2.1
Document13 pages
Lecture 2.1
chandrakantb210462cs
No ratings yet
Map Reduce PDF
Document29 pages
Map Reduce PDF
Mahalakshmi G
No ratings yet
MapReduce Introduction
Document34 pages
MapReduce Introduction
WarunikaRanaweera
No ratings yet
Unit III EBDP 2022 PDF
Document77 pages
Unit III EBDP 2022 PDF
Raju Jacob Raj
No ratings yet
Mapreduce: by Asfand Yar Khan (2176) Rohail Abbasi (2179)
Document11 pages
Mapreduce: by Asfand Yar Khan (2176) Rohail Abbasi (2179)
Hasnain
No ratings yet
Map Reduce Design and Execution Framework Part 1
Document19 pages
Map Reduce Design and Execution Framework Part 1
l200908
No ratings yet
Unit III EBDP 2022
Document77 pages
Unit III EBDP 2022
Raju Jacob Raj
No ratings yet
Parallel Programming, Mapreduce Model: Unit Ii
Document47 pages
Parallel Programming, Mapreduce Model: Unit Ii
Darpan Paloda
No ratings yet
Hadoop Wordcount Program
Document20 pages
Hadoop Wordcount Program
Arjun S
No ratings yet
Map Reduce
Document28 pages
Map Reduce
Shiva Yadav
No ratings yet
Bda CHP2
Document105 pages
Bda CHP2
Isam Syed
No ratings yet
Big Data Analytics Mid 2
Document9 pages
Big Data Analytics Mid 2
Sampath Kumar Maka
No ratings yet
Hadoop Interview Questions Faq
Document14 pages
Hadoop Interview Questions Faq
mihirhota
No ratings yet
Map Reduce: Simplified Processing On Large Clusters
Document29 pages
Map Reduce: Simplified Processing On Large Clusters
Joy Bagdi
No ratings yet
Distributed and Cloud Computing
Document58 pages
Distributed and Cloud Computing
18JE0254 CHIRAG JAIN
No ratings yet
Introduction To MapReduce
Document43 pages
Introduction To MapReduce
Ashwin Ajmera
No ratings yet
Map Reduce
Document3 pages
Map Reduce
alisubi727
No ratings yet
BSC in Information Technology (Data Science) : Massive or Big Data Processing J.Alosius
Document30 pages
BSC in Information Technology (Data Science) : Massive or Big Data Processing J.Alosius
Geethma Minoli
No ratings yet
Big Data Computing
Document36 pages
Big Data Computing
jefferyleclerc
No ratings yet
Introduction To MapReduce
Document26 pages
Introduction To MapReduce
fab vif
No ratings yet
Unit 3 - Big Data Technologies
Document42 pages
Unit 3 - Big Data Technologies
prakash N
No ratings yet
Lecture 2 - Mapreduce: Cpe 458 - Parallel Programming, Spring 2009
Document26 pages
Lecture 2 - Mapreduce: Cpe 458 - Parallel Programming, Spring 2009
rhshriva
No ratings yet
Hadoop Map Reduce Concept
Document23 pages
Hadoop Map Reduce Concept
shelakeavi2003
No ratings yet
There Are 7 Tips For Improving Map Reduce Performance:: Configuring The Cluster Correctly
Document4 pages
There Are 7 Tips For Improving Map Reduce Performance:: Configuring The Cluster Correctly
Mounika Chowdary
No ratings yet
CS 425 / ECE 428 Distributed Systems Fall 2016: Lecture 4: Mapreduce and Hadoop
Document24 pages
CS 425 / ECE 428 Distributed Systems Fall 2016: Lecture 4: Mapreduce and Hadoop
abdulbaset alselwi
No ratings yet
Lecture 1 - Map Reduce
Document31 pages
Lecture 1 - Map Reduce
poornank05
No ratings yet
Computational Tools DTU Presentation Week3
Document33 pages
Computational Tools DTU Presentation Week3
dr.rawstone
No ratings yet
Map Reduce
Document30 pages
Map Reduce
paridhiagarwal129
No ratings yet
HadoopMapreduce Summerization
Document24 pages
HadoopMapreduce Summerization
Atharv Chaudhari
No ratings yet
Mapreduce Types and Formats
Document65 pages
Mapreduce Types and Formats
Tejaswini Karmakonda
No ratings yet
Hadoop and Map Reduce
Document27 pages
Hadoop and Map Reduce
arshpreetmundra14
No ratings yet
3a - MapReduce Data Flow Scheduling Combiner Partitioner PDF
Document22 pages
3a - MapReduce Data Flow Scheduling Combiner Partitioner PDF
23522020 Danendra Athallariq Harya P
No ratings yet
Parallel & Distributed Computing
Document52 pages
Parallel & Distributed Computing
litbumreader
100% (1)
ADBMS-Module 3
Document115 pages
ADBMS-Module 3
chethanrangaiah1294
No ratings yet
Hadoop Map Reduce Concepts - Teaching - 1
Document53 pages
Hadoop Map Reduce Concepts - Teaching - 1
Trung Hiếu
No ratings yet
Map Reduce Notes and Learning
Document48 pages
Map Reduce Notes and Learning
Surya Bhardwaj
No ratings yet
Mapreduce: Yash Sehgal
Document10 pages
Mapreduce: Yash Sehgal
Anonymous i2UUpKCsv
No ratings yet
Hadoop Spark
Document34 pages
Hadoop Spark
klogeswaran.it
No ratings yet
Hadoop Map Reduce
Document53 pages
Hadoop Map Reduce
Youssef Jamma3
No ratings yet
Yu Slides Sosp09
Document30 pages
Yu Slides Sosp09
Jegiritter
No ratings yet
Large-Scale Data Management: Cs525: Special Topics in Dbs
Document22 pages
Large-Scale Data Management: Cs525: Special Topics in Dbs
Pindiganti
No ratings yet
Introduction To MapReduce
Document9 pages
Introduction To MapReduce
shivaraj BG
No ratings yet
Unit 4 Da
Document57 pages
Unit 4 Da
aadityapawar210138
No ratings yet
Lecture 10 MapReduce Hadoop
Document37 pages
Lecture 10 MapReduce Hadoop
DAVID HUMBERTO GUTIERREZ MARTINEZ
No ratings yet
Ecs765p W2
Document55 pages
Ecs765p W2
Yen-Kai Cheng
No ratings yet
Unit 2 - From Hadoop Streaming PDF
Document20 pages
Unit 2 - From Hadoop Streaming PDF
Gopal Agarwal
No ratings yet
Mapreduce: Simplified Data Processing On Large Clusters by Jeffrey Dean and Sanjay Ghemawa Presented by Jon Logan
Document30 pages
Mapreduce: Simplified Data Processing On Large Clusters by Jeffrey Dean and Sanjay Ghemawa Presented by Jon Logan
Javier Ignacio Rojas Cares
No ratings yet
Numerical Libraries For Petascale Computing: Brett Bode William Gropp
Document34 pages
Numerical Libraries For Petascale Computing: Brett Bode William Gropp
Peng Xu
No ratings yet
BDP 2023 03
Document59 pages
BDP 2023 03
Aayush Airan
No ratings yet
50 Recipes for Programming Node.js
From Everand
50 Recipes for Programming Node.js
Jamie Munro
Rating: 3 out of 5 stars
3/5 (4)
Build Your Own Distributed Compilation Cluster - A Practical Walkthrough
From Everand
Build Your Own Distributed Compilation Cluster - A Practical Walkthrough
Hunter Davis
No ratings yet
Programming Your GPU with OpenMP: Performance Portability for GPUs
From Everand
Programming Your GPU with OpenMP: Performance Portability for GPUs
Tom Deakin
No ratings yet
Aim: Program To Implement Linkedlist Program:: Package Import Import Public Class Public Static Void New
Document1 page
Aim: Program To Implement Linkedlist Program:: Package Import Import Public Class Public Static Void New
niharika sunkara
No ratings yet
Aim: Program To Implement Linkedlist Without Using In-Built Class. Program
Document5 pages
Aim: Program To Implement Linkedlist Without Using In-Built Class. Program
niharika sunkara
No ratings yet
AIM: Program To Implement Binary Search Program
Document2 pages
AIM: Program To Implement Binary Search Program
niharika sunkara
No ratings yet
Average of Integer: Driver
Document3 pages
Average of Integer: Driver
niharika sunkara
No ratings yet
Av Grating
Document5 pages
Av Grating
niharika sunkara
No ratings yet
Word Count
Document3 pages
Word Count
niharika sunkara
No ratings yet
Ee4213 ch8
Document93 pages
Ee4213 ch8
niharika sunkara
No ratings yet
Unit 51
Document20 pages
Unit 51
niharika sunkara
No ratings yet
Power Electronic Control Device Alzatari - Diss
Document102 pages
Power Electronic Control Device Alzatari - Diss
Ankita vaghela
No ratings yet
Aikido LV
Document13 pages
Aikido LV
epascaru
No ratings yet
500-IN-ONE Electronic Projects Lab - Experiments List: Back To The Basics
Document2 pages
500-IN-ONE Electronic Projects Lab - Experiments List: Back To The Basics
Leandro Musso
No ratings yet
Mongodbinternalsdevternity 151209084136 Lva1 App6891
Document52 pages
Mongodbinternalsdevternity 151209084136 Lva1 App6891
Diganta Kumar Gogoi
No ratings yet
3 SDLC Model V Model
Document8 pages
3 SDLC Model V Model
manjiri510
No ratings yet
Assignment1 Extended
Document1 page
Assignment1 Extended
maheshwarivikas1982
No ratings yet
015
Document934 pages
015
M8Rlawio
No ratings yet
Capacity Planning Report
Document6 pages
Capacity Planning Report
Juan Betancur
No ratings yet
Data Protection For FlashStack With Cohesity Reference Architecture
Document58 pages
Data Protection For FlashStack With Cohesity Reference Architecture
ndzoba
No ratings yet
+2.7 V To +5.5 V, I C Interface, Voltage Output, 8-Bit Digital-To-Analog Converter
Document26 pages
+2.7 V To +5.5 V, I C Interface, Voltage Output, 8-Bit Digital-To-Analog Converter
João Paulo Lucas Barbosa
No ratings yet
Fatawa Usmani Vol 04
Document554 pages
Fatawa Usmani Vol 04
munawar abbasi
No ratings yet
CAN Adapter Manual MAY04
Document11 pages
CAN Adapter Manual MAY04
nuno paiva
No ratings yet
CO10A Laser Marking System - General Arrangements
Document10 pages
CO10A Laser Marking System - General Arrangements
MIguel Alvarez Vazquez
No ratings yet
Delay Calculations: Introduction To Cmos Vlsi Design
Document27 pages
Delay Calculations: Introduction To Cmos Vlsi Design
bibo
No ratings yet
DLU Calculator
Document2 pages
DLU Calculator
Cristobal Andres Armijo Barrenechea
No ratings yet
Quiz
Document2 pages
Quiz
Sonia Agustin
No ratings yet
6 Database Csharp
Document10 pages
6 Database Csharp
Sangar Mahmood
No ratings yet
CUDA
Document46 pages
CUDA
kunalgrg
No ratings yet
Acer Ferrari 3200 - Eng
Document105 pages
Acer Ferrari 3200 - Eng
Michail Kyriakidis
No ratings yet
PBL B5 Fire Alarm
Document24 pages
PBL B5 Fire Alarm
Omkar Dadpe
No ratings yet
Chapter 4
Document390 pages
Chapter 4
datucha.imnaishvili
No ratings yet
Ses2 - Fundamental Testing Concepts - v1.0
Document31 pages
Ses2 - Fundamental Testing Concepts - v1.0
Hoàng Thảo Trinh
No ratings yet
Zone Control Unit: Features and Functions
Document5 pages
Zone Control Unit: Features and Functions
Dgh Teri
No ratings yet
Multiplication of Two 16 Bit Numbers
Document1 page
Multiplication of Two 16 Bit Numbers
Toaster97
No ratings yet
Spark: Owner's Manual
Document5 pages
Spark: Owner's Manual
jorge medina
No ratings yet
Structure of The ISO/IEC 15504-5:2012 Model: (Peldzius and Ragaisis, 2011)
Document11 pages
Structure of The ISO/IEC 15504-5:2012 Model: (Peldzius and Ragaisis, 2011)
chris
No ratings yet
Frequency Response of Circuit
Document14 pages
Frequency Response of Circuit
Deri Ramadhan
No ratings yet