APP下载

融合架构云数据中心:概念、技术与实践

2015-05-13王恩东亓开元

信息通信技术 2015年2期
关键词:虚拟化数据中心重构

王恩东 张 东 亓开元

1 高效能服务器和存储技术国家重点实验室 济南 250101

2 浪潮电子信息产业股份有限公司 济南 250101

引言

现阶段,互联网应用的需求引领全球数据中心的发展趋势,中国的互联网规模已经十分巨大。例如,截至2014年底,我国智能终端数量达到25亿部,上网用户数量超过6亿人。在这样数量庞大的终端设备背后,必须要有更大的内容服务商提供服务。例如,阿里巴巴在“双十一”的交易额比香港一个月的零售总额还要多,微信的活跃用户数量比美国总人口还多。这些庞大的互联网服务更需要规模庞大的数据中心来支撑。

与此同时,金融、电信等传统行业的信息化需求也持续攀升。例如,2014年底中国银联卡量约为40亿张,电信用户超过10亿,智能电表的数量是美国的三倍。然而,我国传统行业虽然信息化需求旺盛,总量上占有优势,但是人均信息消费和主要发达国家相比还有很大的差距,未来我国信息产业市场的增长空间仍然非常巨大[1]。

1 云数据中心的需求及挑战

从技术角度来看,支撑互联网和传统行业应用需求的物联网、云计算、大数据、移动互联网等新兴技术进一步推动了数据中心向集中化、规模化发展,给数据中心带来了扩展、效率、能耗、安全等诸多问题和挑战。

首先是扩展性,单台设备的扩展性受设备内部CPU互连性能、I/O扩展能力的制约,数据中心的扩展性则受网络性能的制约。目前的数据中心普遍采用分布式架构,设备间的互连网络带宽远低于主板内和设备内的互连带宽,并且网络协议复杂、层次众多,协议的转换和处理占用了大量系统资源,使得业务系统扩展性受到严重限制。

第二,目前大多数数据中心的服务器利用率低于30%,通过虚拟化能够实现计算资源在不同业务间的动态调度,从而使得设备的利用率提升到60%左右。然而,当前的虚拟化技术在设备间的资源调度开销很大,虚拟化迁移的时间延迟为分钟级,因此,设备间资源的共享程度非常有限。此外,传统架构中服务器、存储等设备是分离的,各自的资源处于隔离状态,资源共享仅限于同类设备。

第三,能耗是数据中心越来越突出的问题。目前,虽然有很多技术可以将数据中心的PUE(Power Usage Effect)从2.0降到1.5,但非IT能耗依然突出。此外,IT设备在业务处理方面的效率低下常常被忽略,在关注PUE的同时还要重视IT设备能耗到性能的转化率。例如,在相同的图形处理能力下,通用CPU比专业化GPU的功耗大3倍;因此,提升CPU针对大规模应用的性能,或者发展面向应用的专用或可重构计算单元,具有广阔的空间。

最后,随着规模的发展和云服务的普及,云数据中心所面临的安全问题更加严峻。首先,木马、病毒、系统后门等传统攻击手段无时无刻不在威胁着数据的安全。其次,由于云数据中心敏感数据、关键业务高度集中,一旦出现安全问题则很可能是全局性或社会问题,会产生比以往更加严重的后果。

通过上面的问题可以看出,随着规模的不断扩大,传统数据中心那种将服务器、存储设备进行简单堆积,以交换机连接、再辅以虚拟化软件进行资源简单调度和管理的方式已经无法满足需求,必须进行各个层面技术的创新和数据中心架构的变革。本文将这种适应未来需求的全新的数据中心架构定义为融合架构。

2 融合架构的核心理念和技术路线

2.1 融合架构=硬件重构+软件定义

融合架构数据中心(Smart Data Center)的设计思想是通过硬件解耦实现资源的物理池化和动态重构,通过软件定义实现业务感知的按需资源组合与配置,满足系统的弹性伸缩和超大规模的持续扩展。

融合架构是综合发展传统建设方案和新兴技术路线而形成的全新数据中心架构设计理念。此前,由众多企业级厂商提出的混合架构(Converged Architecture)[2]更多地强调数据中心不同模块之间的直接集成或简单软硬一体化部署,而不是从业务的视角出发,对数据中心的硬件架构进行重新设计,以更好地发挥软件功能。而SDDC、SDN等软件定义[3]概念的兴起,又导致数据中心建设过度关注软件发展,整个产业存在软硬失衡的潜在风险,必须要重新审视硬件重构的价值。事实上,单靠软件无法定义一切,硬件重构是软件定义的基础和保障。例如,在虚拟化技术发展的初期,英特尔在芯片上增加了VT-x、VT-d等针对性的指令设计,以更好地发挥虚拟化的特性。同样,由互联网企业主导的单纯意义上的硬件重构[4],因其站在行业特有规模和自主性的立场上强调硬件的高密度部署,缺乏从业务到资源的适配层软件设计,也仅适用于特定的生态系统和应用场景。

也就是说,只靠软件定义没有硬件重构,虚拟化效率不高;只有硬件重构没有软件定义,系统缺乏灵活性,使用复杂度高。在融合架构中,硬件重构和软件定义是缺一不可、相辅相成的辩证统一关系,在硬件层将计算、存储、网络设备中的同类资源整合为资源池,各类资源能够任意重组,在软件层智能地感知业务的资源需求,利用硬件的重构能力动态地分配和组合资源。

2.2 融合架构发展阶段

融合架构可以从硬件和软件层面演进、分三个阶段逐步发展(如表1所示)。

表1 融合架构数据中心发展路线

第一阶段,在硬件上实现散热、电源、管理等非IT资源的集中化和模块化,并利用软件虚拟化技术实现计算、存储等IT资源的池化和集中管理。这个阶段的硬件形态可以视为“服务器即计算机”(Server as a Computer)。

第二阶段,进一步将非计算部分的存储、网络等I/O设备进行池化,机柜内采用硅光电等技术进行高速互连,并以软件定义的计算、存储和网络来满足业务需求。也就是硬件上将整机柜当作一台计算机(Rack as a Computer)[5],并实现完全的软件定义。

第三阶段是最终将CPU、内存等所有的IT资源完全池化,可以根据应用需求智能地分配和组合资源,实现完全意义上业务驱动的软件定义数据中心。也就是将整个数据中心当作一台计算机(Data Center as a Computer)[6],并通过软件实现业务驱动和应用感知。

2.3 融合架构关键技术

融合架构的实现需要以下一系列技术的支撑。

1) 硅光电技术[7]的应用将加速硬件解耦化,为硬件重构奠定基础。硅光电技术相对于目前用于主板间和节点间通信的光纤技术有着更高的通信速率、更低的功耗、更高的部署密度和传输可靠性,特别适合芯片间的高速长距离互连,其应用将加速推动硬件资源的解耦化,进而实现数据中心硬件资源的物理池化。这种物理池化与目前基于虚拟化的资源逻辑池化是有区别的。虚拟化技术主要是采用依靠软件实现的分时复用模式,因而不可避免地引入系统的资源开销;因此,当硬件资源具备物理的解耦能力之后,通过基于软件定义的资源边界配置与组织模式,将会在很大程度上提升数据中心的总体能效。

2) 可重构计算技术[8]的发展使得硬件面向软件优化成为可能。随着3D晶体管工艺的推广应用,处理芯片内部的晶体管资源更加丰富,可编程FPGA器件的性能和容量也都大幅提升,使得面向特定应用重构计算单元硬件逻辑成为可能。可重构处理器既保持了处理器的通用性,又具备专用硬件逻辑的高效率以及逻辑可重构带来的灵活性,实际上就是一种更细粒度的软件定义的资源重构,将对数据中心整体效率带来较大提升。

3) 高性能非易失性存储[9]的突破性进展将简化存储层次结构,大幅提升系统性能。随着半导体工艺技术的进步,近几年非易失性存储器在性能和容量密度方面已经取得较大进展,将对计算机系统传统的存储层次结构产生革命性的影响。内存与外存合二为一,存储层次架构更加扁平化。扁平化将带来更低的数据访问延迟、更高的访问带宽,以及更大容量的存储空间,支撑效率更高的“内存计算”模式[10]。

4) 人工智能应用于软件定义,将支撑面向应用优化的数据中心基础设施智能重构。在数据中心系统软件技术方面,关注重点将由目前的资源虚拟化,逐步转向关注业务感知的软件定义能力。目前,最新的方向是在数据中心资源管理中引入机器学习技术,特别是在模式识别、音/视频处理等领域广泛应用的深层网络技术[11],建立业务感知的资源重构决策系统,赋予硬件基础设施理解上层应用需求和识别资源使用行为特征的能力,最终实现硬件平台的智能重构。

3 融合架构数据中心实践

在经历了系统孤立建设、设备集中化和虚拟化阶段后,互联网、行业应用的快速增长及动态变化对数据中心的持续扩展、资源管理和应用支撑能力带来更大的需求。针对上述需求,基于融合架构的技术路线,目前已经形成完整的数据中心基础设施布局和路线图,通过利用融合架构基础设施建立面向区域性公共服务以及金融、能源、电信、交通等行业的云数据中心,提供支撑文化教育、医疗卫生、质量监督、电子政务、城市管理、科研等领域的云计算服务,进一步促进政府、行业数据平台和搜索、电子商务、社交等互联网平台的资源整合和升级,支撑以数据即时感知、智能处理、按需服务为典型特征的重点行业大数据应用创新,提升各行业信息化水平,降低服务信息化成本,促进传统产业转型升级。融合架构数据中心基础设施路线图,如图1所示。

图1 融合架构数据中心基础设施路线图

第一代融合架构的基础设施包括整机柜服务器、关键应用主机、海量存储和云海OS,这些基础设施都已经完成研发并得到实际应用,取得了优异的社会效益和经济效益。

第二代融合架构的基础设施包括正在研发和即将发布的下一代关键应用主机、智能模块化数据中心(Smart Modular Center)和云海OS G2。

第三代融合架构基础设施是面向未来云数据中心预研和规划的形态,包括基于融合架构的数据中心(Smart Data Center)和云海OS G3。

下面来分别介绍这三代融合架构数据中心的代表性基础设施。

3.1 第一代融合架构基础设施

3.1.1 整机柜服务器

整机柜服务器SmartRack是第一代融合架构基础设施的典型代表。与传统的服务器不同,通过计算、存储和网络的模块化以及散热、供电、管理的集中化,SmartRack实现了硬件聚合并支持整机柜资源的统一管理和业务的自动部署。在此基础上,利用云海OS提供的资源虚拟化功能,SmartRack还具备软件定义特征,将整机柜资源整合成计算、存储和网络的资源池,对资源池进行统一管理、动态调度和灵活分配。

基于融合架构,还可以面向不同的业务场景进行整机柜服务器的定制化设计。例如,面向深度学习、人工智能应用的协调处理加速整机柜服务器;面向自然风冷数据中心的高温耐腐蚀整机柜服务器;面向大数据存储、社交网站的冷存储整机柜服务器;面向云计算、虚拟化应用的高密度计算整机柜服务器;面向热数据处理、搭载SSD硬盘的高性能存储整机柜服务器。

目前,SmartRack在国内市场占有率超过60%,与传统服务器相比,其部署密度提高13.8%,功耗降低12%,总体拥有成本(Total Cost of Ownership,TCO)降低15%。以百度阳泉数据中心为例,其一天就能完成4 500个节点的部署,部署效率是传统服务器的10倍,创造了国内服务器部署实施速度纪录,更好地满足了用户业务的爆发式增长。

3.1.2 关键应用主机

当前中国的银行、电信等行业业务规模已经是全球最大,其核心业务对关键应用主机的要求也越来越高。K1是中国唯一自主研发的关键应用主机,打破了外国品牌在该领域的垄断局面。通过采用全模块化冗余设计,基于物理分区、进程冗余等多层次高可用技术,K1可靠性达到99.9994%。同时,为增强事务处理能力,K1最大支持32颗CPU、256个计算核心、8TB内存。此外,通过建立国产主机系统产业联盟,并全面支持DB2、Sybase、WebSphere等国际主流基础软件,形成完善的关键应用主机生态环境。

K1已经在政府、金融、能源等12大关键行业实现覆盖。据IDC统计,K1在2014年下半年首次进入国内高端UNIX服务器市场前三,占有率达到14%。以K1承载的中国建设银行省级核心业务系统为例,该系统覆盖数十个二级分行、数百个营业网点、数千个柜员、数万台终端,业务并发峰值每秒数千笔。相比之前的进口设备,系统性能提升4倍,价格降低38%,TCO降低43%。截至目前,K1已经稳定运行1 500余天,未出现任何计划外停机。

3.1.3 安全解决方案

针对当前云数据中心面临的安全威胁,融合架构基于安全可信的主动防御体系构建完整的数据中心安全解决方案。该解决方案以可信服务器为根基,以操作系统安全加固软件为支撑,采用自主可控的商用密码算法,支持中国和国际可信计算体系,建立从服务器、虚拟化软件、操作系统到应用程序的软硬件一体化信任链,保护服务器免遭针对BIOS、PCI卡、硬盘等固件的恶意代码攻击。

为验证云数据中心安全解决方案的有效性,通过“云数据中心渗透测试”模拟用户真实环境,在网络层、应用层和系统层及时有效地发现并阻断攻击8万余次,验证了云数据中心安全解决方案在面临各类攻击时的鲁棒性和抗攻击性。

3.2 第二代融合架构基础设施

第二代融合架构最有代表性的是智能模块化数据中心。传统服务器架构中,I/O是和CPU、内存等资源紧耦合在一起的。在智能模块化数据中心中,为实现I/O资源的集中和池化,计算和I/O模块之间通过硅光电建立高速通道。基于硅光电技术,单元模块可提供400Gb/s的互连带宽,与传统的双万兆互连相比提升了20倍,从而使I/O资源的池化成为可能。同时,通过采用分布式交换架构,可以通过软件定义实现灵活的网络拓扑划分,快速动态地调整计算和I/O模块之间的搭配,实现两者之间的动态组合,有效提升整个系统的扩展性和灵活性,保证硬件重构的实现。

借助I/O资源的动态重构能力,Smart Modular Center通过云海OS G2能够实现更灵活高效的软件定义网络和存储。现在一般意义上的软件定义网络,实际上是在三层网络上通过Overlay方式实现二层交换。在Smart Modular Center中,虚拟交换机的功能可以通过分布式交换网络的网卡硬件实现,按需构建拓扑、划分vLan、定义QoS,为上层应用提供高效可靠、安全隔离的网络环境。同理,通过将存储资源更灵活地分配各个计算节点,支持NAS和SAN等多种访问接口,实现按照业务需求提供存储资源。软件定义网络和存储,连同第一代中实现的软件定义计算,就形成了完整的软件定义数据中心。

通过硬件重构和软件定义,智能模块化数据中心能够更加灵活地调度资源满足业务需要。例如,动态重构CPU、GPU资源满足高性能应用对计算能力的需要,重构CPU和存储资源形成存储服务器集群,满足大数据应用对计算和存储能力的需要。与传统的“服务器+虚拟化”的技术相比,由于计算和存储设备之间的界限被打破,系统效率和灵活性都有很大提升。

此外,为更好地支持内存计算,Smart Modular Center提供64TB DRAM与384TB NVM的异构混合内存,辅以模块间400Gb/s的高速互连,基本上可以满足95%以上内存计算系统的需求。

3.3 第三代融合架构基础设施

与前两代相比,第三代融合架构在硬件重构和软件定义上更进一步。在I/O集中化的基础上,进一步解耦CPU和内存形成集中的资源池,再辅以软件定义的能力,可以将数千颗CPU、PB级内存的计算机通过虚拟化软件形成任意粒度大小的资源容器,其他低功耗器件、加速器件、I/O资源同样可以池化和任意分配,形成各种规模和配置的计算机。同时,配合应用感知的资源分配技术,将使数据中心的资源调度完全智能化、高效化。

第三代融合架构基础设施Smart Data Center将硬件资源清晰地组织成不同的功能区,功能区在软件定义的控制下形成不同的资源池来支撑云平台和云应用,如图2所示。通过智能感知上层业务的类型,数据中心自动重构适合的资源来为业务构建最佳的运行环境,让应用软件与运行环境之间的契合程度达到一个前所未有的水平。

图2 第三代融合架构数据中心

4 结束语

基于“两个层面、三个阶段”发展路线的融合架构云数据中心基础设施研发和应用实践表明,通过高效的内部互连,数据中心可以实现硬件层面的重构和虚拟化,效率可以比现在的软件虚拟化提升一到两个数量级,从而使资源利用更加平衡,可扩展性更强;通过软件定义计算、存储和网络,数据中心能够更加灵活地满足不同业务的多样性需求;通过使用各种新型器件,数据中心可以提高资源利用率、节约成本和降低能耗。融合架构将促进数据中心由资源驱动型向业务驱动型转变,真正意义上实现开放融合、安全高效、智能绿色和灵动成长。

参考文献

[1]赛迪顾问.2013~2014年中国信息消费市场研究年度报告[R].2014

[2]James Staten,Cristopher Voce,Galen Schreck,et al.Are Converged Infrastructures Good For IT?[R].2010

[3]赵小凡.对“软件定义一切”的思考和理解[J].软件和信息服务,2014(1):16

[4]张广彬,盘骏,曾智强.数据中心2013:硬件重构与软件定义[R].2014

[5]张东,亓开元,吴楠,等.云海大数据一体机体系结构和关键技术[C]// 第二届CCF大数据学术会议,2014

[6]Barroso L A ,Hölzle U.The datacenter as a computer: An introduction to the design of warehouse-scale machines[J].Synthesis lectures on computer architecture,2009,4(1): 1-108

[7]De Dobbelaere P. Silicon photonics technology platform for embedded and integrated optical interconnect systems[C]//The 18th Asia and South Pacific Design Automation Conference,2013:644-647

[8]Bobda C.Introduction to Reconfigurable Computing:Architectures[M].Springer,2007

[9]Ugo Russo,Andrea Redaelli,Roberto Bez.Non-Volatile Memory Technology Overview[C]// Workshop on Technology Architecture Inter-action.Saint-Malo,France,2010

[10]Zaharia M,Chowdhury N M,Franklin M,et al.Spark:Cluster competing with working sets[C]//The 2nd USENIX conference on Hot topics in cloud computing.Boston,MA,USA,2010:1-10

[11]Quoc V Le,Marc Aurelio Ranzato,Rajat Monga,et al.Building High-level Features Using Large Scale Unsupervised Learning[C]//The 29th International Conference on Machine Learning. Edinburgh,Scotland, UK,2012

猜你喜欢

虚拟化数据中心重构
酒泉云计算大数据中心
视频压缩感知采样率自适应的帧间片匹配重构
长城叙事的重构
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
基于OpenStack虚拟化网络管理平台的设计与实现
北方大陆 重构未来
对基于Docker的虚拟化技术的几点探讨
北京的重构与再造
浅析虚拟化技术的安全保障