数据中心的可用性及可靠性
2012-09-21中国惠普有限公司
文|中国惠普有限公司 常 菲
世源科技工程有限公司 牛 悦
1 引言
企事业的数据中心,如金融、保险及通信运营商等计算机及网络通信设备投入服务后,若无一个长期稳定的外围物理环境来保证IT设备的正常运行,一旦造成服务器的宕机,势必造成一定的经济损失或不好的社会影响。数据中心的基础设施是IT设备连续稳定运行的保证,建设高可用性和高可靠性的数据中心则成为建设单位及设计单位考虑的重点。国内外的数据中心规范、标准对数据中心的等级划分,归根结底还是在可用性和可靠性要求上的一个划分,等级越高其可用性和可靠性就越高。
2 可用性与可靠性的定义
可用性是指长时间的一个平均数值,用这个数值来表示某一运行中的可修复设备或系统在这段时间内能按其功能稳定运行的能力。可用性(A)可用平均无故障时间(MTBF)和平均故障维修时间(MTTR)来计算:
如2008年某城市电网的平均无故障时间为8756小时,平均故障维修时间为4小时,则2008年此城市电网的可用性为:
可用性并没有对故障次数有限制。如上例,2008年某城市电网系统的可用性为0.99954,表示出2008年总的停电时间为4小时,但是,并不确定停电次数,有可能只停电一次,停了4小时,也可能停了四
3 国内外规范、标准对数据中心的要求
国家标准《电子信息系统机房设计规范》(GB 50174-2008)要求设计时根据机房的使用性质、管理要求及其在经济和社会中的重要性,确定所属级别,并对不同的级别提出了不同的性能要求。A级机房的基础设施要达到容错的要求;B级机房的基础设施达到冗余配置;C级机房的基础设施满足基本需求配置。并对不同级别的机房在技术要求方面进行了说明,如抗震设防的要求、冷冻机组配置要求、供电电源要求、柴油发电机及UPS的配置要求等,这些方面的要求都是为了建设一个满足相应等级的可靠性和可用性的数据中心。
美国通信工业协会的TIA 942标准将数据中心分为4级,并对建筑结构、供电系统、空调系统等基础设施按不同级别、不同可靠性的配置要求进行了描述。Tier1级别要求基础设施满足基本需求配置;Tier2级别要求满足冗余配置;Tier3级别要求可达到在线维护的冗余配置;Tier4级别要求可达到容错的配置。国内外规范、标准的分级既有相同之处,也有不同之处,但都对不同级别的数据中心提出了不同的可用性和可靠性的要求。
4 数据中心供配电系统可用性的计算
数据中心由多个系统构成,包括供配电系统、空调系统、综合布线系统、消防系统等,每个系统的可用性共同决定了整个数据中心的可用性。供配电系统又由市电、柴油发电机系统、UPS系统等构成,其中任何一个部分有问题都会降低系统的可用性。每个系统基本上是由不同的设备或子系统通过串联或并联组成的。
若系统1由设备1和设备2串联组成,系统1的可用性为A,设备1的可用性为A1,设备2的可用性为A2,如图1所示。
若系统1由设备1和设备2并联组成,系统1的可用性为A,设备1的可用性为A1,设备2的可用性为A2,如图2所示。
以一个简单的供配电系统为例,UPS采用1+1冗余方式配置。若整个系统可用性为A,市电电网可用性为A1,主配电柜可用性为A2,UPS1(包括电池系统)可用性为A3,UPS2(包括电池系统)可用性为A4,分配电柜可用性为A5。如图3所示。
图1 串联系统
图2 并联系统
图3 UPS 1+1 冗余配置
则此系统的可用性A= A1×A2×(A3+A4- A3×A4)×A5。
5 如何提高系统的可用性和可靠性
系统的结构及配置直接决定了数据中心的可用性和可靠性。如果一个系统是由各个子系统串联而成,则任何一个子系统出现故障将导致整个系统的瘫痪,因此这样系统的可用性和可靠性低于任何一个子系统的可用性和可靠性。这就是消除和减少单点故障的原因,保证为用户提供连续不间断的7×24小时服务,在设计和建设时要减少单点故障的存在,对可能存在单点故障的环节,在设计上要尽可能的减少其对整个系统的影响,机房各系统也都具有足够的冗余能力。《电子信息系统机房设计规范》(GB 50174-2008)中的A级机房和TIA 942标准中的Tier4级别机房,都对系统提出了容错的要求。数据中心基础设施的容错配置是可以消除系统的单点故障,如2N配置的系统可用性能够达到99.9998%。冗余配置可以减少系统的单点故障,如果系统结构合理还能满足在线维护的要求,这都在很大程度上提高了系统的可用性和可靠性。
数据中心的运维管理是很重要的,科学合理的运维管理体系可以直接降低系统发生故障的可能性。数据中心的系统是比较复杂的,复杂的系统会增加故障处理的难度,甚至很长时间找不到故障的原因,这就可能增加了宕机的时间。很多实例证明,人为操作失误是导致系统宕机的一个重要原因,因此提高运维人员的素质是保证数据中心稳定运行的有效手段,而对运维人员的定期培训则是必要的。人为错误的减少直接降低宕机的风险,甚至在设备出现故障时,能够通过合理快速的操作,避免宕机或减少宕机时间。设备的日常维护可以降低设备故障的几率,任何设备其实都是需要维护的,平常能够发现潜在的问题并及时处理,消除本来可以避免的问题。例如,UPS的蓄电池就是供配电系统中一个比较薄弱的环节,一般电池出现故障的概率要高于其他配电设备,任何一节蓄电池出现问题都可能给整个系统带来风险,因此电池的日常监测与维护是必不可少的,电池的寿命达到预期值时要及时更换。
数据中心设计的灵活性、可拓展性也是一些客户比较关心的问题,尤其是对一些需要分期实施、分期投入运行的企业。如果在分期实施的过程中对已运行的设备产生影响甚至需要停机一段时间,则对高可用性的机房是不可接受的。因此,数据中心必须做好准备应对未来的发展变化,在系统设计上尽量做到具有较大的灵活性,“统一设计、分期实施”的方法就显得尤为重要。如果客户有需求,需要考虑空间规划、容量规划和系统设计的合理性,确保系统具有可扩展性和灵活性。
6 其他问题
虽然数据中心基础设施的容错、冗余配置可以提高系统的可用性和可靠性,但需要准确的定位数据中心的等级,是否真的需要如此高的可靠性。有些企事业的数据中心对可靠性并没用太高的要求,服务器宕机并不会给他们带来很严重的后果,因此设计前期需要与客户充分的沟通,了解其需求,甚至帮助客户定位需求,避免不必要的投资。数据中心的初期建设成本包括设备购置费用及设备占地面积所耗用成本,2N配置的系统和N+1配置的系统在设备费用及占地面积上会有一定的差别,导致初期投资成本的或高或低。另外,运营费用也有差别,如电气设备自身的电力损耗、线路损耗,设备的维护费用,尤其是UPS电池需要定期维护和更换。电力损耗的增加也增加了PUE值,在倡导绿色节能的今天,PUE值越来越受到人们的关注。
因此,各系统的设计应考虑先进性与实用性相结合,在满足功能需求和可靠性要求的前提下,尽量节省总体建设投资、降低长期运营成本。
1 Robert Arno, Peter Gross, PE and Robert Schuerger. PE《What Five 9’s Really Mean and Managing Expectations》.IEEE Industry Applications Society Conference 2008.
2 钟景华,朱利伟等.《新一代绿色数据中心的规划与设计》.电子工业出版社.
3 张广明,韩林.《数据中心UPS供电系统的设计与应用》.人民邮电出版社.