Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo

1

© 2009 VMware Inc. All rights reserved
企业的大数据平台
董波
大数据产品线经理
VMware

2

2
这些企业都选择了虚拟化作为大数据基础平台
Vmware虚拟化平台

3

3
企业需要成熟,高效、可扩展的大数据平台

4

4
您应该把VMWare的虚拟化作为大数据的首选平台
Management
Network/Security
Storage/Availability
Compute

5

5
Hadoop 在虚拟化平台上具有优异的性能
0
50
100
150
200
250
300
350
400
450
TeraGen TeraSort TeraValidate
Elapsedtime,seconds(lowerisbetter)
Native
1 VM
2 VMs
4 VMs
Source: http://www.vmware.com/files/pdf/techpaper/VMW-Hadoop-Performance-vSphere5.pdf

6

6
虚拟化平台满足企业Hadoop 历程中的关键需求
20 3000 node
Integrated
Scale
Standalone

7

7
虚拟化平台让您关注业务而非技术

8

8
自动化Hadoop集群部署管理
部署
改变尺寸
弹性扩展
定制
包含最佳实践
管理
配置调整
运行
执行作业
访问 HDFS
仅需1/1000 人力。
不必人人都是Hadoop专家。

9

9
提高Hadoop 集群可用性
 增加Hadoop集群的可用性
 使用vMotion消除计划内停机时间
 使用 vSphere HA 减少计划外停机时间
 使用 vSphere FT 提供零宕机、零数据丢失
 久经沙场的解决方案
HDFS
(Hadoop Distributed File System)
HBase (Key-Value store)
MapReduce (Job Scheduling/Execution System)
Pig (Data Flow) Hive (SQL)
BI ReportingETL Tools
ManagementServer
Zookeepr
(Coordination)
HCatalog
RDBMS
Namenode
Jobtracker
Hive
MetaDB
Hcatalog MDB
Server

10

10
主动监控和优化
 通过VCOPs主动监控
 获得全面的可视性
 减少手动操作
 主动管理可操作性

11

11
集群整合共享资源,降低 CAPEX
 如果没有虚拟化,CAPEX意味着每个集群最
大负载时硬件投资总和
 在虚拟化情形下:
• 集群共享资源池
• CAPEX 意味着通盘最大负载
• 2:1到4:1的整合比
Σ(Max) Max(Σ)

12

12
Storage
虚拟化让Hadoop更加弹性
Compute
Current
Hadoop:
Combined
Storage/Co
mpute
Storage
T1 T2
VM VM VM
VMVM
VM
VM中的Hadoop
- * VM 的生命周期
取决于Datanode
- * 弹性限制
存储分离
- * 计算、数据分离
- * 消除Datanode造成的
弹性限制
- * 弹性计算
- * 提高利用率
分离计算集群
- *分离虚拟计算
- * 每租户配置计算集群
- * 更强VM级别的
安全和资源隔离
Slave Node

13

13
在Hadoop中动态横向收缩/扩展
 为不同租户部署单独的计算集群共享HDFS
 根据优先级和可用资源增加或减少Task Tracker数量
Ad hoc
data mining
Dynamic resourcepool
Data layer HDFS
Host Host Host Host Host Host
Production
recommendation engine
Virtualization platform
Compute layer Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Compute
VM
Ad hoc
data mining
Production
recommendation engine
Compute
VM
Job Tracker Job Tracker

14

14
虚拟化是最佳的多租户整合方案
物理方案 虚拟化方案
Resource Sharing Yes,
Users share a common Hadoop
cluster
Yes,
Users share common physical
servers in different Hadoop
clusters
Data Sharing Yes,
Users share a common Hadoop
cluster
Yes,
Different compute clusters share
a common HDFS cluster
Performance Isolation Weak, by slot number Strong, by CPU, RAM, Disk IO
Failure Isolation No,
Bad job fails entire cluster
Strong,
Failure impact only one cluster
Configuration Isolation No,
Same configuration, same distro,
same version
Yes,
Free to use different distro,
version, configuration
Security Isolation Weak,
Enforced by Hadoop
authentication and authorization
Strong,
Cluster level isolation.
Scalability Single master node capacity will
become a bottle neck
As many Namenode and
Jobtracker as needed

15

15
VMWare为企业提供了成熟,高效、可扩展的大数据平台
 快速部署、配置和监控
 动态配置Hadoop,满足
业务需要
 一键式HA配置
Agility
 通过计算节点和数据节
点分离,实现全面的弹
性计算
 根据资源情况,进行
Scale In/Out
Elasticity
 整合Hadoop,提高利用
率
 池化资源,提高性能和
优化作业执行
Efficiency

16

16
欢迎下载试用
 Download and try Serengeti
• projectserengeti.org
 VMware Hadoop site
• vmware.com/hadoop
 Hadoop performance on
vSphere
• vmware.com/files/pdf/VMW-
Hadoop-Performance-vSphere5.pdf
 Hadoop High Availability
solution
• vmware.com/files/pdf/Apache-
Hadoop-VMware-HA-solution.pdf

17

17
Q&A

More Related Content

2. hadoop