模块化UPS系统的可用性分析
2012-09-25谢凤华李峻健
谢凤华,李峻健
(中兴通讯股份有限公司)
0 前 言
毫无疑问,高可用性是UPS系统第一要素。但系统并联模块数越多而可用度越低吗?UPS运行的可用度是基于对可靠性模型的科学分析。
1 可靠性的指标和定义
1.1 故障率与平均无故障时间
故障率λ(即失效系数):元器件或者功能模块或者系统出故障的概率。
平均无故障时间 MTBF(mean ti me bet ween failure):定义为利用数学统计方法计算出的设备在发生的两次故障之间的运行时间。
YD/T 2165-2010《通信用模块化不间断电源》规定UPS系统的MTBF值不小于10万小时[1]。
1.2 可靠度(Reliability)
可靠度(可靠性)是一个可靠性指标。系统实现所需功能的概率。它是指在规定的条件下,在规定的时间内,产品完成规定的功能,也就是说在规定时间内该产品不出故障的概率。可靠度是不考虑维修的。可靠度与故障率的关系为:
从可靠度的公式看出,可靠度不仅与MTBF有关,还与考核的时间长短t有关,也就是说我们不能单纯提某系统的可靠度是多少,而是应该提某系统在某段时间范围内的可靠度,时间越长,可靠度越低(见表1)。通常指一年时间内的可靠度。
表1 单机在MTBF等于10万小时时,不同时间范围的可靠度
1.3 可维护性(Maintainability)
可维护性(Maintainability),指在规定的时间内完成主动维护的概率。可维护性用MTTR来表示。
平均维修时间 MTTR(Mean ti me to repair):是设备发生故障瞬间开始到通过维修而重新投入使用所需的平均时间。修复率μ是 MTTR的倒数,μ=
1.4 可用度(Availability)
可用度(可用性)是一个可维护性指标,是系统在运行过程中,正常运行的时间与总时间之比。可用度A与其它几个指标的关系可表示为:
可用度指标不仅与MTBF有关,而且与MTTR有关,在MTBF不变的前提下,减小MTTR就能提高可用性A。
2 模块化UPS系统的可靠度
2.1 “N+X”任务可靠度计算公式
(N+X)个UPS模块并联形成一个表决系统,在该系统中(N+X)个可靠度相同的模块单元组成并联结构,其中N是负载容量所需模块数,X是冗余模块数。R1为单模块的可靠度。
对该表决系统,其可靠度Rs如公式1所示[2]。
1.2 在单模块的可靠度R 1为0.9时,计算得到“N+X”的系统可靠度
图1 表2数据转换成N+X的系统可靠度分布曲线图
由图1可以看出:
(1)当没有冗余即X为0时,并联可靠度随N的增大而降低。10个模块并联时可靠度只有不到0.35。说明当系统没有冗余时,系统可靠度将随并联模块数的增加而减少。
(2)“4+1”系统的可靠度为0.92,大于单模块的0.9;但“5+1”系统的可靠度为0.89小于单模块的可靠度。说明当系统模块数较多时,冗余1个模块时系统的可靠度还可能低于单个模块的可靠度。
(3)“8+2”的可靠度0.93略大于“4+1”的可靠度0.92。说明可以通过增加冗余数来提高多模块并联时的可靠度。所以“并联模块数越多系统可靠性越低”不完全正确。R1=0.9时,系统可靠度数据见表2。
表2 在模块可靠度R1为0.9(1年左右)时,计算得到N+X的系统可靠度数据
3 模块化UPS系统的可用度
3.1 采用可用度指标衡量UPS系统的可用性
对于一次性使用的设备,如不可回收的人造地球卫星上的通讯设备,仅关心其可靠性即可。但对于如UPS等可修复的设备,除可靠性指标外,更需关注设备在整个使用寿命周期内的可用度(率)。既要考虑故障发生的概率,还要考虑系统可维护性。
标准ANSI/TIA-942数据中心通信基础设施标准( ANSI/TIA-942Telecommunications Infrastructure Standard for Data Centers)是针对数据中心机房规划、建设的标准文件。该标准不是要求可靠度,而是根据不同的可用度将数据机房分为4个等级(见表3)。
表3 ANSI/TIA-942标准对机房等级规定
3.2 可用度指标中的MTTR时间细分
设备的维修时间MTTR是指设备从发生故障到恢复功能的时间t,它由故障发生到故障自动检测时间t1、故障检测到人们知道时间t2、后勤保障时间t3、故障维修时间t4、恢复时间t5等多个时间段组成,t=t1+t2+t3+t4+t5,如图2。
图2 MTTR的时间细分
相对于后勤保障时间t3和故障维修时间t4,t1、t2、t5可以忽略不计。MTTR可以假设如下四个数值:
(1)假设用户自己在设备故障现场,用户备有可供更换的备用模块,用户一发现问题就立即自己更换,则可能MTTR不大于0.5 h。这是一种最理想、最短的时间。
(2)用户维护人员不在设备现场但在设备所在城市,模块一旦故障即可实时通知(如手机短信)用户维护人员,设备现场有可供更换用的备用模块,维护人员在5 h之内赶到现场并完成更换工作。此时MTTR为5 h。
(3)用户自己没有备用模块,或者用户即使有备用模块但自己不更换,需要厂家技术人员赶来更换,厂家承诺解决问题的时间为48 h,因为更换模块只需要0.5 h,MTTR为48 h和0.5 h之和,约等于50 h(简化计算)。
(4)对于传统的集中式UPS,一般需要厂家资深工程师,带齐备品备件和检测仪器,假设响应时间为2天(制造商备好备件、乘坐交通工具赶到设备现场的时间),现场维修时间3天,则MTTR为5天共120 h。
对于模块化UPS,采用B种情况和C种情况比较合理,即MTTR为5 h或者50 h。
3.3 “N+X”并联系统可用度计算公式
“N+X”模块化UPS系统是一个表决模型,“N”为负载容量所需模块数,“X”为冗余模块数。用等效MTBF、等效MTTR和可用度三个参数来表征该系统的可用性。
系统 MTBFS、MTTRS和可用度 AS如公式(2)、公式(3)和公式(4)所示[3]。
3.4 “N+X”并联系统可用度计算结果与分析
根据上述公式计算出在模块的MTBF1等于10万小时,MTTR1分别为0.5/50/120 h,N+X(N=[1,10],X=[0,2])时系统的可用度As如表4。
计算结果分析
(1)当 MTTR很小为0.5 h时,只要1个冗余模块,系统就可以达到很高的可用度。
表4 “N+X”系统可用度AS数据表
(2)对于N+2(N 不大于10时)系统,可用度均可达到5个9的要求。这个为下文设置休眠模块数量提供了理论依据。正常工作时有2个冗余模块数即可,多余模块可以让其休眠,既可以满足系统可用度需求,也符合节能原则。
(3)对于 MTBF为10万小时,10+0系统,当MTTR为0.5/5/50/120小时,系统的可用度对应为4个9/3个9/2个9/1个9。说明 MTTR的大小对系统可用度影响很大。
(4)系统可用度与冗余数X的关系:对于MTBF等于10万小时、MTTR等于5小时、N等于10时,系统的可用度在X为0/1时分别为3个9/7个9。增加1个冗余数,可用度提高4个9。
(5)系统可用度与总模块数N+X的关系:对于MTBF等于10万小时、MTTR等于120小时,4+1系统或8+2系统的可用度分别为:4个9或6个9,有如下关系:
As(8+2)大于As(1+1)大于As(4+1)大于 As(8+1)
实际应用中,绝大部分UPS系统带载在10%~60%的额定容量(参见美国可靠性研究中心对UPS负载率的统计)。也就是说实际负载容量数N小于设计的负载容量数N,在系统模块数不变时,相当于冗余数X增大,则实际上系统可用性比设计的更高。
可见对于可维修模块化UPS系统,并不是并联模块数越多系统可用度越低,关键还在于冗余模块数X。即可以通过增加冗余数来提高更多并联模块数系统的可用度。
4 结 语
对于可维修模块化UPS系统,不但需要关注可靠度,更需关注可用度。对于“N+1”系统,随着N的增大,无疑系统的可靠度降低,但是如果是“N+X”,当N增大时,X也增大时,则系统的可靠度和可用度都是可以增大的。
[1] YD/T 2165-2010.通信用模块化不间断电源[S].
[2] 金伟娅,张康达.可靠性工程[M].北京:化学工业出版社,2005.
[3] 郭永基.可靠性工程原理[M].北京:清华大学出版社,2002.
[4] 谢凤华.降低MTTR以提高模块化UPS系统的可用性[C].中国电源学会第18届学术年会论文集,2009.