向云服务进发
2014-06-18卜娜
卜娜
“过去一年是激动人心的一年,云计算的发展和价值就像当年电冰箱、电视机面市后,电能所发挥的作用一样。”在今年召开的中国云计算大会上,面对中国云服务的快速变化,阿里巴巴集团首席技术官王坚曾发出这样的感慨。
2013年,中国云计算产业已进入成长期,基于云计算的由点到面的创新应用渗透到各个领域,金融、交通、电力、制造等产业纷纷触“云”寻求突破,为物联网与智慧城市应用展开的云计算数据中心建设如火如荼。从向亚马逊看齐的阿里云、腾讯云的成熟,到云存储、云制造、云管理服务的兴起,再到政务云、教育云、金融云、城市管理云、医疗卫生云、位置服务云等一系列云应用的丰富,都显现出中国云服务市场的巨大潜力和广阔前景。据市场研究公司IDC的预测,2014年中国云服务市场规模将达到11亿美元,未来4年还将以接近45%的复合增长率增长。
当下,越来越多的企业看到了云服务带来的机遇与变革,但对于如何着手改造云服务的载体——数据中心,却依旧有大量企业感到迷惑。不少CIO表示,他们对于数据中心的服务能力有明确的期望,但他们却并不清楚如何确保云化后的数据中心能具备这样的能力,为其所要承载的应用提供服务,并真正发挥云的作用。
向云过渡前,数据中心用户真正应该关心的问题是什么?面对不同的服务需求,数据中心应该寻找什么样的云技术进行改造?决定云计算数据中心效率、能耗、管理等问题的关键技术又有哪些?我们不妨一起从中国数据中心云实践先行者们的经验中,寻找这些问题的答案。
忽略这些,云计算将是一纸空谈
2009年,为了“提升员工工作效率、帮助业务部门发展、提供灵活交付模式和支持新业务”,英特尔的IT部门开始在公司内部尝试将其全球的数据中心逐步向私有云架构转化。通过部署私有云,英特尔在这5年中节省了900万美元的开支;将申请基础设施服务所需的时间从14天缩短至45分钟;在减少了40%设计用服务器的同时性能却提高了5倍;让80%的新服务都部署在了云中,并提供自助式服务。到目前为止,英特尔位于上海的紫竹数据中心的虚拟化程度已经接近75%,用于EDA设计的刀片服务器的使用率可达80%以上。
在短短几年内,就能把支撑全球近2万员工使用的复杂IT系统,在不影响业务的前提下转化为高效的私有云,并将云的价值成功转化为成本大幅降低、效率大幅提升的价值,英特尔在构建云的过程中,到底有什么诀窍呢?
“云计算的目的是要实现业务效率和用户体验的双重提升,忽略了这两点,云计算将是一纸空谈。与此同时,有效实施对云的管理并根据行业性质的不同建立拥有不同安全等级的计算环境,是云计算部署的重要环节。”在谈及英特尔建设私有云的经验的时候,英特尔公司IT部门的介绍人曾经道出了这些基本原则。
基于其在数据中心建设和计算负载领域长期积累的经验,英特尔IT部门制定了一个“平衡法则”——在改进计算负荷与减少资源消耗、实现管理需求与减少资本投资、稳妥发展与积极创新以提升竞争力之间尽量做到平衡。英特尔IT部门为此还制定了三大策略:一是持续优化数据中心,涵盖了服务器、存储、网络、基础设施等各个层面,让其与业务发展相匹配;二是提高数据中心使用率,即通过业务优化和技术手段,尽量利用已有的基础设施,减少资源投入;三是在兼顾本地需求的基础上实施数据中心垂直整合的区域规划策略。
在规划数据中心时,企业常常习惯于先把主要精力放在研究云的技术架构上,例如如何实现虚拟化等,其实这是个误区。企业数据中心向云转化的过程,并不仅是IT基础架构的变化,企业应该将其看做是IT服务方式的一种彻底改变。
传统的数据中心更多是为了支撑企业业务,而云的核心价值却远不止于此,企业使用云的驱动力是提升业务效率和用户体验,支撑全球化、移动化的变革。所以,在规划数据中心之前,恰恰是英特尔IT部门所考虑的基本原则、实施法则和策略等问题,从这样的角度出发去思考数据中心的架构的改造,才可能做到在投资建设和技术选择的方向上“不迷惑”、“不跑偏”。依据英特尔的经验凝聚而成的“平衡法则”和三大实施策略,目前对所有正在计划或构建私有云数据中心的企业而言,都是极具参考价值的。
过渡的关键:统一网络架构
实现数据中心向云的过渡,不能只关心如何让计算或存储资源实现池化这样的问题。因为虚拟化让计算、存储资源池化后,分配与交付这些资源,都要通过网络实现。在这样的数据中心里,网络的功能已经发生了巨大的变化,它必须具备总线般的效率,才能顺利交付云服务。所以,传统数据中心向云转化的过程中,网络功能的转化才是数据中心转化的关键。
三年前,数据与存储网络融合的大趋势开始改变数据中心。FCoE作为实现这种融合的关键技术被IT厂商大力推崇,英特尔还在Linuxs内核上实现了开源的FCoE,又进一步推进了这一技术在数据中心的广泛应用。随着万兆以太网端口价格的下降,在国内不少用户的云实践中,一体化的网络已经开始为云数据中心效力。
上海交通大学的数据中心在向云转化的过程中,就启用了数据与存储网络融合的方案,他们主要借助新兴的FCoE技术实现了传统FC存储网络向FCoE存储网络的平稳过渡。其经验是:让数据服务器区的Cisco Nexus 5500启用FCoE功能,部分接口配置8G FC SFP模块,SAN存储系统选择支持FCoE的NetApp FAS系列存储系统。NetApp FAS和服务器的万兆网卡接入Nexus交换机的万兆接口,这样在同一万兆端口上,就可以同时支持FCoE、iSCSI和NAS协议,原有配置FC网卡的存储设备和服务器接入到Cisco Nexus 5500的FC接口上,与FCoE网络融合。NetApp FAS的FC接口接入现有的FC交换机,为原有的FC SAN提供存储空间。考虑到各厂商的FC交换机有极强的排他性,上海交通大学没有将原有的FC 交换机与Nexus 5500互连。在他们看来,随着时间的推移,FC SAN 设备将自然被淘汰,数据中心将过渡到纯FCoE存储。预计未来两年内,其数据中心将有一半以上的服务器会配置万兆融合端口。endprint
云化的数据中心之所以比以往更需要一个统一的网络架构,主要是因为当虚拟化将数据中心变为云环境后,传输网络和存储网络的异构会制造更复杂的流量。越来越多复杂的流量需要被管理,势必会让云变成一个低效系统。特别是随着流量规模的增长,数据中心很难在不降低性能的前提下保证可用性。同时,异构的网络在需要扩展的时候,也会带来更高昂的成本。只有采用统一的架构,才可能实现通过简化网络架构、简化运维提升效率的目标。
“软件定义数据中心”的转变
数据中心的云化为数据中心架构的设计带来了一些新的问题:如果未来将这样的数据中心推倒重来的可能性几乎为零,那采用何种架构、何种技术才能让其可持续发展?随着数据中心传输、收集、汇总和分析的数据量不断增长,网络、计算和存储面临的新挑战应该如何应对?
服务器虚拟化、存储虚拟化和网络虚拟化的技术演变,并不是偶然发生的。虚拟化让IT基础设施变为可弹性、灵活扩展的资源,它逐渐向人们证明:面对复杂多变的商业环境,以及互联网的发展,企业业务的灵活应变能力只能基于可以灵活应变的IT基础设施。数据中心的发展将以服务为导向,同时必须更易于管理和运营。
所以,云数据中心的发展目标是变成这样的数据中心——软件定义的数据中心,一个更灵活、更智能、效能不再被物理硬件所束缚的数据中心。数据中心的改造,必然是围绕网络、服务器和存储的自动化流程的改造:网络将向基于SDN的服务感知网络演进,存储将从存储区域网络共享向实现“存储即服务”的云存储演进,计算将演进为能根据负载需求获得弹性的计算能力且必须保证安全、可信。
当然,这种改造方向也引发了一种新的设想,那就是未来数据中心会不会演变成计算、存储、网络资源的无缝整合?目前,英特尔正在进行这方面的探索。面向软件定义数据中心,英特尔已经提出了一种新的架构——SDI(软件定义的基础设施),SDI的目标是让未来的开放架构数据中心的IT资源从静态走向动态,让其管理从手动走向自动化。它的核心想法是让计算、存储、网路通过统一的计算架构实现效能释放,不必再用各种优化技术去弥补不同架构造成的内耗。基于这种统一架构,云数据中心能更快、更高效地实现资源自动化配给能力和管理能力。
在大型云计算数据中心,对计算、存储、网络物理融合的改造已经开始了。最佳例证是英特尔的新一代机柜式架构(RSA),受到了百度、阿里巴巴、腾讯、中国电信等国内大型云计算数据中心建设者的重视。这种全新的机架结构,不再使用光纤通道、PCI-E端口或者iSCSI接口来连接每个机架内的存储单元,而是通过使用英特尔高速硅光子技术连接每个机架内的存储单元,动辄10万以上服务器量的数据中心,可以大幅减少线缆的使用,降低成本。更关键的是,相对于传统服务器架构,它能让部署密度大幅提升,化解大型云计算数据中心遭遇的高密度部署难题。
该如何看待SDN
根据IDC的预测,在未来5年内,将有超过25亿用户连接到互联网,使用的设备数量将超过100亿。同当前的情况相比,预计到2015年,这一发展将需要8倍的存储容量、16倍的网络容量以及20多倍的计算容量。今天的数据中心建设者是否已经考虑到,这样的压力会给数据中心带来怎样的灾难?在实现网络一体化之后,网络应该如何演进才能应对这样的流量、数据的爆炸式增长?
阿里集团网络数据中心资深专家庞俊英认为,云数据中心的网络至少应该具有以下几个特质:简化的运营、快速部署的效率、标准化和绿色。为此,阿里云已经构建起了基于标准化的、模块化的云数据中心网络架构。
值得关注的是,今天阿里云已经把网络看作是阿里奔向小康的“路”。为何阿里云对网络有了这样的认识?因为阿里云已经看到了SDN。在网络融合之后,依靠SDN,阿里云将可以按照业务的需要自由定义网络的能力,让网络效率完全释放,为其业务提供高效的支撑。庞俊英明确表示,阿里云的数据中心正在尝试借助SDN实现对业务的灵活支撑。SDN的价值已被众多云数据中心的运营者所看好,例如世纪互联就在构建基于SDN的运营模式。
在构建SDN网络之前,目前也有很多数据中心用户需要关注的技术和平台。事实上,SDN将不再是网络通信领域的问题。从技术本质看,SDN带来的最大改变是将网络控制功能从转发数据包的网络设备中分离出来,将控制功能植入在标准计算平台运行的软件中,所以计算平台便成了决定SDN发展的一个关键点。
可以看到,目前网络厂商主要在基于私有计算架构推广SDN,用户自主开发的难度比较大。为了支持SDN的发展,英特尔也推出了开放网络平台交换器设计架构、开放网络平台服务器设计架构,还推出了数据层开发套件(Intel Data Plane Development Kit,Intel DPDK),以驱动整个生态圈加速对SDN软硬件产品的开发。据介绍,仅借助DPDK软件库,就可以将数据包处理性能最多提高10倍,让服务器在处理数据包的同时还能通过英特尔处理器执行其他工作负载,最终降低硬件成本、简化应用程序开发环境。在DPDK这类开发套件的帮助下,数据中心用户开发基于SDN的新业务的时间可以大幅缩短。所以,目前DPDK也受到了不少SDN开发者的热捧。
云需要的存储
在云计算和大数据的需求下,如何对海量数据进行存储、处理、利用,已成当今各行业共同探讨的热点问题。在高度虚拟化的环境中,计算的效率可以得到提升,但依旧用传统、僵化的存储架构处理数据,很难避免成本和时间双失的局面。
业界大谈的软件定义的存储的三个新特征——自动化分层、自动化数据管理和大规模可扩展能力,无非是为了让数据存储更适应云存储和大数据的需求。
值得关注的是,传统存储系统面临的很多问题,都可以在计算平台的改进中得到解决。伴随英特尔至强平台为下一代存储解决方案优化技术的出现,可横向扩展的智能存储方案已经对症化解了不少面向大数据应用的存储难题。例如通过自动精简配置、重复数据删除等方法,实现在数据写入磁盘的时候分配空间,通过为冗余、重复数据建立索引等方式,解决磁盘空间的浪费问题,以适应业务对云不断变化的需求。endprint
面向大数据应用,英特尔还推出了很多智能存储技术和工具,帮助企业减少需要存储的数据量,改进使用数据的方式。例如对冷、热数据的分流可以改善数据存储的成本,针对Hadoop的优化大幅提升数据分析能力等。
此外,针对传统硬盘高时延、高错误率等问题,英特尔正在推动固态硬盘技术的创新,以及这类存储设备在云化数据中心领域的应用。随着SSD设备价格的下降,一系列具备高带宽、低时延、高IOPS的固态硬盘,将让云的存储问题得到彻底改善。
虚拟化与安全问题
在不少云数据中心的实践中,高水平的服务器虚拟化并不多见。其实,除了虚拟化软件提供的功能外,如果善于利用硬件平台的虚拟化优化能力,虚拟化的效果可能会远超你的预期。目前,基于多核英特尔至强处理器的服务器,英特尔提供了VT-x技术,可对32位、64位虚拟化环境提供支持。通过扩展核心平台架构,英特尔虚拟化技术能帮助用户填平当前虚拟化解决方案中鸿沟并消除障碍。这一架构扩展能实现的改进之一是:面向虚拟化软件的全新更高特权 Ring (CPU 访问特权等级),如果拥有更高的特权 Ring,就可以支持客户操作系统和应用在适用的 Ring 中运行,同时确保虚拟化软件对平台资源具有特权控制。它能消除不少潜在的系统冲突,简化软件要求。
安全问题是悬在云服务头上的一把利剑,因为云把企业的管理边界扩展到了数据中心之外,让传统的保护数据中心数据、平台的安全防护模式失去了作用。如何使云成为可信的系统呢?答案是构建可信的服务器资源池。
其实,企业可以使用虚拟化服务器的可信计算池在动态环境中建立信任,虚拟化服务器可由外部实体根据已知的可信签名来建立信任。可信计算池可以在虚拟机转移到平台前为其提供一定程度的安全性,并支持可信计算池之间的虚拟机迁移。将那些敏感的工作负载放入可信计算池,就可以加强对这类工作负载的保护。
构建可信计算池是私有云实践中实现安全性的重要部分,也是进行数据中心运营时保证安全性的必备措施。
“理论”造就的能耗管理误区
数据中心的云化发展最不能忽视的问题就是——能耗管理对运营成本的影响。或许有人会问,高水平的虚拟化不就是解决能效问题的法宝吗?理论上讲,高水平的虚拟化确实可以帮助数据中心减少物理设备,从而减少能耗。但在数据中心里,这个理论却很难实现。因为只是简单地用更少的物理硬件设备封装虚拟机,并不足以实现降低电费的目标。如果整合措施实施不当,数据中心的能耗甚至还会增加。
在云计算数据中心,减少能源使用和能源成本,并不与减少整体能源负载成正比。其原因在于:将物理服务器整合到一个虚拟平台上后,转移工作负载的过程会导致I/O能力的下降,从而引发性能的下降。当性能下降时,系统成功完成任务所需要的时长增加,能耗就会随之增加。在国内,华胜天成等公司的云计算实践都遇到过类似的问题。只有在计算性能提升,且I/O吞吐率也大幅提升的前提下,这样的问题才能得到缓解。
英特尔上海紫竹数据中心在340平方米的空间内容纳了330多台服务器,但数据中心的PUE值却可以降低到1.3。
英特尔成功提升能效的原因有二:一、新一代至强处理器本身在I/O和能耗方面的大幅改进,可以让数据中心在提高虚拟化整合比例的基础上,获得能耗上的改进。华胜天成目前也在通过这一途径解决其云计算数据中心的能效问题。二,英特尔对数据中心的散热节能技术、手段进行了很多尝试:他们将热风道与冷风道隔离,对数据中心内的线缆布局进行了调整;在保证数据中心正常工作的前提下,将整体温度从摄氏18度提升到了22度;大胆启用自然风冷却——在室外温度低于18度时,就利用自然风来冷却。
虽然随着计算平台的演进,在保持高性能的前提下,获得能效收益并非不现实,但是大型数据中心却不能仅依靠这种思路控制能效,英特尔认为只有基于策略的能耗管理方案才能为这种规模的数据中心快速带来回报。据介绍,英特尔IT就在通过使用英特尔的智能功耗节点管理器和数据中心管理器,实现对单个服务器和服务器节点功耗的实时监视、控制。在运行I/O密集型工作负载的情况下,服务器能耗依旧可以降低20%。
在数据中心云化的过程中,企业会逐渐感受到计算、网络、存储技术的技术变革将为云带来怎样的效能。在可预见的未来,企业更早看清数据中心演进过程中必然会发生的变化,就更容易掌控数据中心的云能量。endprint