数据中心是一个物理房间、一座建筑物或一处设施,其中容纳用于构建、运行和交付应用程序和服务的 IT 基础架构。它还存储和管理与这些应用程序和服务相关的数据。
数据中心最初是私人拥有的、受到严格控制的本地部署设施,容纳传统的 IT 基础设施,仅供一家公司使用。最近,它们发展成为云服务提供商(CSP)拥有的远程设施或设施网络。这些 CSP 数据中心设有虚拟化 IT 基础架构,供多家公司和客户共享使用。
数据中心的历史可以追溯到 20 世纪 40 年代。美国军方的电气数字积分器和计算机 (ENIAC) 于 1945 年在宾夕法尼亚大学建成,是需要专用空间来容纳其庞大机体的数据中心的早期示例。
多年来,计算机的大小变得紧凑,需要的物理空间更少。20 世纪 90 年代,微型计算机出现,大大减少了 IT 运营所需的空间。这些开始占据旧式大型计算机房的微型计算机被称为“服务器”,而这些房间被称为“数据中心”。
21 世纪初,云计算的出现极大地颠覆了传统的数据中心格局。云服务允许组织通过互联网按需访问计算资源,按使用量计价,从而可以根据需要灵活地扩展或缩减。
2006 年,Google 在俄勒冈州达拉斯市推出了第一个超大规模数据中心。这个超大规模设施目前占地 12 万平方米,雇用了大约 200 名数据中心运营人员。1
McKinsey & Company 的一项研究预计,到 2030 年,该行业将以每年 10% 的速度增长,全球建设新设施的支出将达到 490 亿美元。2
数据中心设施有多种类型,一家公司可能会根据工作负载和业务需求使用多种类型的数据中心设施。
此数据中心模型可在本地托管所有 IT 基础设施和数据。很多公司均会选择本地数据中心。它们对信息安全拥有更高的控制权,且可更轻松地遵守欧盟《通用数据保护条例 (GDPR)》或美国《健康保险流通和责任法案 (HIPAA)》等法规。该公司负责企业数据中心内的所有部署、监控与管理任务。
云数据中心(也称为云计算数据中心)存储 IT 基础架构资源,供多个客户(从数十个客户到数百万客户)通过 Internet 连接共享使用。
许多最大的云数据中心(称为超大规模数据中心)由主要云服务供应商 (CSP) 运营,例如 Amazon Web Services (AWS)、Google Cloud Platform、IBM Cloud 和 Microsoft Azure。这些公司在世界每个地区都拥有主要的数据中心。例如,IBM 在全球不同地点运营 60 多个 IBM Cloud Data Centers。
超大规模数据中心比传统数据中心更大,占地面积可达数百万平方英尺。 它们通常包含至少 5000 台服务器和长达数英里的连接设备,有时面积可能达到 60000 平方英尺。
云服务供应商通常维护较小的边缘数据中心 (EDC),这些中心更靠近云客户(以及云客户的客户)。边缘数据中心构成了边缘计算的基础,边缘计算是一种使应用程序更接近最终用户的分布式计算框架。边缘数据中心非常适合实时、数据密集型工作负载,例如大数据分析、人工智能 (AI)、机器学习 (ML) 和内容交付。它们有助于最大限度地降低延迟,从而提高整体应用程序性能和客户体验。
对于缺乏空间、人员或专业知识来管理内部 IT 基础设施的组织而言,托管数据中心和主机托管设施是一种选择。对于那些不愿意使用公共云数据中心的共享资源来托管其基础设施的人来说,这些是理想的选择。
在托管数据中心,客户公司从供应商处租用专用服务器、存储和网络硬件,供应商处理客户公司的 IT 行政、监控和管理。
在主机托管设施中,客户公司拥有所有基础设施,并租用专用空间将其托管在设施内。在传统的主机托管模式中,客户公司对硬件拥有唯一的访问权,并负有全部管理责任。这种模式对于隐私和安全来说是理想的选择,但通常不切实际,尤其是在停电或紧急情况下。如今,大多数主机托管供应商都为需要它们的客户提供管理和监控服务。
公司通常选择托管数据中心和主机托管设施来容纳中小型企业 (SMB) 的远程数据备份和灾难恢复 (DR) 技术。
大多数现代数据中心(包括内部部署数据中心)都是从传统 IT 架构发展而来的。他们现在不再在专用硬件上运行每个应用程序或工作负载,而是使用云架构,其中 CPU、存储和网络等物理资源都实现了虚拟化。虚拟化使这些资源能够从其物理限制中抽象出来,并汇集到可以根据多个应用程序和工作负载的需要量进行分配的容量中。
虚拟化还能实现软件定义的基础设施 (SDI) - 这种基础设施可以通过编程方式调配、配置、运行、维护和“停机”,无需人工干预。
这种虚拟化催生了新的数据中心架构,例如软件定义的数据中心 (SDDC),这是一种服务器管理概念,可虚拟化网络、存储和计算等基础架构元素,并将其作为服务交付。此功能使组织无需进行物理更改即可为每个应用程序和工作负载优化基础架构,这有助于提高性能和控制成本。“即服务”数据中心模式有望变得更加普遍,IDC 预测,到 2026 年,65% 的科技购买者将优先考虑这些模型。3
云架构和 SDI 的结合为数据中心及其用户提供了许多优势,例如:
虚拟化使公司或云能够优化其资源,并以最少的硬件数量和最少的未使用或空闲容量为大多数用户提供服务。
SDI 自动化使配置新基础设施就像通过自助服务门户提交请求一样简单。
与传统 IT 基础架构相比,虚拟化 IT 基础架构更容易扩展。即使是使用本地数据中心的公司,也可以在需要时通过将工作负载突发到云来按需增加容量。
公司和云可以为用户提供多种使用和交付 IT 的方式,所有这些都基于同一基础设施。根据工作负载需求进行选择,包括基础设施即服务 (IaaS)、平台即服务 (PaaS)、软件即服务 (SaaS) 等。CSP 提供这些服务,以便在私有本地数据中心使用,或作为私有云、公有云、混合云或多云环境中的云解决方案。
其他数据解决方案则包括模块化数据中心—专门设计用作数据中心的预制设施,同时还预先铺设了管道并配有必要的冷却设备。
服务器是功能强大的计算机,可向终端用户设备提供应用程序、服务和数据。数据中心服务器有多种形式:
服务器外形规格的选择取决于许多因素,包括数据中心的可用空间、服务器上运行的工作负载、可用功率和成本。
大多数服务器都包含一些本地存储功能,称为直连存储 (DAS),以使最常用的数据(热数据)保持在 CPU 附近。
另外两种数据中心存储配置则为网络直连存储 (NAS) 和存储区域网络 (SAN)。
NAS 通过标准以太网连接为多个服务器提供数据存储和数据访问。NAS 设备通常是具有各种存储介质(如硬盘驱动器 (HDD) 或固态驱动器 (SSD))的专用服务器
与 NAS 一样,SAN 支持共享存储,但对数据使用单独的网络,并由多个存储服务器、应用程序服务器和存储管理软件组成,结构更为复杂。
数据中心网络拓扑是指数据中心网络设备的物理布局和互连,包括基础设施、服务器和组件之间的连接以及数据流。
数据中心网络由各种网络设备(如交换机、路由器和光纤)组成,负责在服务器之间传输网络流量(称为东/西流量)以及在服务器与客户端之间传输网络流量(称为北/南流量)。
如上所述,数据中心通常具有虚拟化网络服务。此种能力使其可以在网络的物理基础设施的基础上创建软件定义的叠加网络,以适应特定的安全控制或服务水平协议 (SLA)。
数据中心需要高带宽连接,以允许服务器和存储系统之间以及入站和出站网络流量之间进行通信。对于超大规模数据中心来说,带宽要求可能从每秒数千兆位 (Gbps) 到每秒数兆兆位 (Tbps) 不等。
数据中心需要在各个层面始终保持在线。大多数服务器都配备双电源。电池供电的不间断电源 (UPS) 可防止电力激增和短暂停电。如果发生更严重的停电,大功率发电机可以发挥作用。
电缆管理是一个重要的数据中心设计问题,因为各种电缆连接着数千台服务器。如果电缆彼此靠得太近,它们可能会导致串扰,进而对数据传输速率和信号传输产生负面影响。此外,太多电缆挤在一起,也可能会产生过多的热量。数据中心的建设和扩建必须考虑建筑规范和行业标准,以确保电缆布置高效且安全。
数据中心宕机对数据中心供应商及其客户来说代价高昂。数据中心运营商和架构师不遗余力地提高系统的弹性。这些措施包括独立磁盘冗余阵列 (RAID),以防止在存储介质发生故障时数据丢失或损坏。其他措施包括备用数据中心冷却基础设施,即使主冷却系统发生故障,也能保持服务器在最佳温度下运行。
许多大型数据中心供应商的数据中心位于地理位置不同的区域。如果一个区域发生自然灾害或政治动荡,运营可以故障转移到另一个区域,以实现不间断的服务。
Uptime Institute 使用四层系统来评估数据中心的冗余度和弹性。4
数据中心的设计和装备可控制可能损坏或毁坏硬件并导致昂贵或灾难性停机的相互关联的环境因素。
数据中心包含敏感信息和关键业务应用程序,因此需要制定跨物理数据中心和多云环境的全面安全策略。
数据中心安全措施包括硬件和存储设备的物理安全,以及管理和访问控制。它还涵盖软件应用程序以及组织策略和程序的安全性。例如,超大规模数据中心需要专门的防火墙和其他协议来增强网络安全性。
数据中心管理包括组织保持其私有数据中心正常运行、安全和合规所需的任务和工具。负责执行这些任务的人称为数据中心经理。
数据中心经理负责一般维护(例如软件和硬件升级)、一般清洁或决定服务器的物理布置。他们还针对损害数据中心的任何威胁或事件采取主动或被动措施。
企业中的数据中心经理可以使用数据中心基础架构管理 (DCIM) 解决方案来简化整体管理并实现 IT 性能优化。这些软件解决方案为数据中心经理提供了一个集中式平台,以实时监视、测量、管理和控制所有数据中心元素。这包括从本地 IT 组件到供暖、制冷和照明等设施的所有内容。
商业可持续发展是环境、社会和治理(ESG) 实践的重要组成部分。Gartner 指出,87% 的商界领袖计划在未来几年加大对可持续发展的投资。5为此,减少数据中心对环境的影响与全球应对气候变化的更广泛业务目标是一致的。
如今 AI 驱动的工作负载激增正在推动数据中心的增长。Goldman Sachs Research 估计,到 2030 年,数据中心的电力需求将增长 160%。5
由于存在降低耗电量的需求,从而促使企业组织努力实现可再生能源解决方案,以为其超大规模数据中心供电。此现象引发了绿色数据中心或可持续数据中心的增长,而这些设施可容纳 IT 基础设施并使用节能技术来优化能源使用并最大限度地减少对环境造成的影响。
通过在数据中心采用虚拟化、节能硬件和可再生能源等技术,组织可以优化能源使用、减少浪费并节省资金。认证在认可和促进数据中心内的可持续发展实践方面发挥着举足轻重的作用。著名的认证和协会包括 Leadership in Energy and Environmental Design (LEED)、Energy Star 和 Green Grid。
数据中心设施有多种类型,一家公司可能会根据工作负载和业务需求使用多种类型的数据中心设施。
在这种数据中心模型中,所有 IT 基础设施和数据都托管在本地。许多公司选择拥有自己的本地数据中心,因为他们觉得这样可以更好地管控信息安全,并且更易于遵守《欧盟通用数据保护条例》(GDPR) 或美国《健康保险流通和责任法案》(HIPAA) 等法规。在企业数据中心中,公司负责所有部署、监控和管理任务。
云数据中心(也称为云计算数据中心)存储 IT 基础架构资源,供多个客户(从数十个客户到数百万客户)通过 Internet 连接共享使用。
许多大型云数据中心(即超大规模数据中心)由 Amazon Web Services (AWS)、Google Cloud Platform、IBM® Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 等主要云服务提供商运营。事实上,大多数领先的云供应商在全球范围内运营多个超大规模数据中心。
通常,云服务供应商会维护较小的边缘数据中心,这些数据中心位于更靠近云客户(和云客户的客户)的位置。对于诸如大数据分析、人工智能 (AI) 和内容交付应用程序等实时、数据密集型工作负载,边缘数据中心可以帮助最大限度地减少延迟,从而提高整体应用程序性能和客户体验体验。
托管数据中心和主机托管设施适用于没有空间、人员或专业知识在本地部署和管理其部分或全部 IT 基础设施,但又不想使用公有云数据中心的共享资源托管基础设施的组织。
在托管数据中心中,客户公司从数据中心提供商处租用专用服务器、存储和网络硬件,数据中心提供商负责为客户公司进行管理、监控和维护。
在主机托管设施中,客户公司拥有所有基础设施,并租用专用空间将其托管在设施内。在传统的主机托管模式中,客户公司对硬件拥有唯一访问权,并全权负责管理硬件;这种模式对于隐私和安全来说是理想的选择,但通常不切实际,尤其是在停电或紧急情况下。如今,大多数主机托管提供商都为需要它们的客户提供管理和监控服务。
托管数据中心和主机托管设施通常用于为中小型企业 (SMB) 提供远程数据备份和灾难恢复技术。
服务器是功能强大的计算机,可向终端用户设备提供应用程序、服务和数据。数据中心服务器有多种形式:
机架式服务器是一种宽大的平板式独立服务器,大小相当于一个小号披萨盒,其设计可在机架上相互堆叠,以节省空间(相较于塔式或台式服务器)。每台机架式服务器都有自己的电源、冷却风扇、网络交换机和端口,以及通用处理器、内存和存储空间等。
刀片服务器旨在节省更多空间。每个刀片都包含处理器、网络控制器、内存和存储空间;其安装在可容纳多个刀片的机箱中,并包含所有刀片的电源、网络管理和其他资源。
大型机是具有多个处理器的高性能计算机,可以完成整个机架式或刀片式服务器的工作。作为第一批可虚拟化的计算机,大型机可以实时处理数十亿次计算和事务。
外形规格的选择取决于许多因素,包括数据中心的可用空间、服务器上运行的工作负载、可用功率和成本。
大多数服务器都包含一些本地存储功能,称为直连存储 (DAS),以使最常用的数据(热数据)保持在 CPU 附近。
另外两种数据中心存储配置包括网络直连存储 (NAS) 和存储区域网络 (SAN)。
NAS 通过标准以太网连接为多个服务器提供数据存储和数据访问。NAS 设备通常是一台专用服务器,配备多种存储介质,包括硬盘驱动器 (HDD) 和/或固态硬盘 (SSD)。
与 NAS 一样,SAN 支持共享存储,但对数据使用单独的网络,并由多个存储服务器、应用程序服务器和存储管理软件组成,结构更加复杂。
单个数据中心可以会同时使用三种存储配置(即 DAS、NAS 和 SAN)以及 File Storage、Block Storage 和 Object Storage 类型。
数据中心网络由各种类型的交换机、路由器和光纤组成,负责在服务器之间传输网络流量(称为东/西流量)以及在服务器与客户端之间传输网络流量(称为南/北流量)。
如上所述,数据中心的网络服务通常是虚拟化的。这使其可以在网络的物理基础设施的基础上创建软件定义的叠加网络,以适应特定的安全控制或服务水平协议 (SLA)。
数据中心需要在各个层面始终保持在线。大多数服务器都配备双电源。电池供电的不间断电源 (UPS)可防止电力激增和短暂停电。如果发生更严重的停电情况,可以启动大功率发电机。
由于数千台服务器通过各种电缆连接,电缆管理是数据中心设计的一个重要考虑要素。如果电缆彼此靠得太近,它们可能会导致串扰,进而对数据传输速率和信号传输产生负面影响。此外,太多电缆挤在一起,也可能会产生过多的热量。数据中心的建设和扩建必须考虑建筑规范和行业标准,以确保电缆布置高效且安全。
数据中心停机时间对数据中心提供商及其客户来说都成本高昂,因此数据中心运营商和架构师会不遗余力地提高系统的弹性。这些措施包括从独立磁盘冗余阵列 (RAID)(用于在存储介质发生故障时防止数据丢失或损坏)到备份数据中心冷却基础设施(即使在主冷却系统发生故障时也能保持服务器在最佳温度下运行)。
许多大型数据中心提供商在地理理上不同的区域设有数据中心,因此,如果一个地区发生自然灾害或政治动荡,可以将业务故障切换到其他地区,以保证提供不间断服务。
Uptime Institute(ibm.com 外部链接)使用四个级别的系统对数据中心的冗余性和弹性进行评估:
第 1 级 - 提供基本的冗余容量组件,例如不间断电源 (UPS) 和全天候 24 小时冷却,以支持办公室或其他场所的 IT 运营。
第 2 级 - 增加额外的冗余电源和冷却子系统,例如发电机和储能设备,以提高对中断的安全性。
第 3 级 - 增加冗余组件,作为与其他数据中心的关键区别。第 3 级设施在设备需要维护或更换无需停机。
第 4 级 - 通过实施多个独立的、物理隔离的冗余容量组件来增加容错性,因此,当某个设备出现故障时,不会对 IT 运营产生影响。
数据中心必须设计并配备用于控制环境因素(这些因素大多数是相互关联),这可能会损坏或破坏硬件,并导致高昂或灾难性的停机时间。
温度:大多数数据中心采用风冷和液冷的组合,以保持服务器和其他硬件在适当的温度范围内运行。风冷基本上就是空调,具体来说,是针对整个服务器机房或特定行或机架的机房空调 (CRAC)。液冷技术将液体直接泵送到处理器,或者在某些情况下将服务器浸入冷却液中。数据中心提供商越来越多地转向液冷技术,以提高能源效率和可持续性。与风冷相比,它需要更少的电力和水资源。
湿度:湿度高会导致设备生锈;湿度低则会增加电力激增的风险(见下文)。湿度控制设备包括上述 CRAC 系统、适当的通风和湿度传感器。
静电:只要 25 伏的静电放电就足以损坏设备或数据。数据中心设施配备了监测静电并安全放电的设备。
火灾:显而易见,数据中心须配备防火设备,并且定期进行测试。
IBM Cloud 在世界各地均设有全球数据中心,以便帮助您快速满足特定于地理位置的需求。
IBM Storage 可帮助您确保数据安全且易于访问,以便更快、更明智地做出决策。
IBM® Cloud for VMware Solutions 支持将 VMware 工作负载无缝迁移到云并实现现代化。此功能允许您利用现有投资获得一致的 VMware 体验,同时保留相同级别的访问、安全性和控制。
IBM® Turbonomic 为现代数据中心管理提供智能资源分配、容量规划和自动化性能保证。
IBM Cloud 与 Red Hat® 携手提供市场领先的安全性、企业可扩展性和开放式创新,解锁云端和 AI 的全部潜力。
所有链接均为 ibm.com 外部链接
1 “Google:达拉斯,或者数据中心”,DataCenters.com。
2“投资新兴数据中心经济”,McKinsey & Company,2023 年 1 月 17 日。
3 “IDC FutureScape:2023 年全球数字基础设施未来预测”,Mary Johnston Turner,IDC,2022 年 12 月 9 日。
4“分级系统”,Uptime Institute。
5“AI 有望推动数据中心电力需求增长 160%”,Goldman Sachs Research,2024 年 5 月 14 日。