数据中心不间断供电系统可靠度与可用度研究
2018-09-04陈四雄易龙强
陈四雄,易龙强
(厦门科华恒盛股份有限公司,福建 厦门 361000)
0 引言
可靠度与可用度是可靠性领域中的常用术语,被广泛地应用于数据中心不间断供电系统的设计和运维中,是表征系统对负载供电可持续性的两个性能指标。
由于可靠度与可用度都是以概率的形式存在,它们的概念较为相近,因此行业在运用这两个指标时经常混淆。设计计算过程与计算内容时常常前面还在讨论可靠性,后面就用可用度来计算,用可用度的概念来替换可靠度的概念,用可靠度的计算方法来计算可用度,这在可靠性的理论、概念和应用等方面值得商榷。
本文在理论分析可靠度、可用度概念的基础上,从计算方法、串并联模型分析和应用领域等角度,对这两个指标的异同点进行了对比分析,以期澄清可靠度与可用度之间的关系,并规范行业的使用方法。
1 研究背景
随着信息化技术的发展,数据中心在银行、政企用户等重要行业和单位担任着极其重要的角色。保证供电系统的可靠性是数据中心所有设备安全运行的基础条件之一,数十毫秒级的供电闪断即有可能造成数据中心服务器宕机,甚至引发设备故障。
表征数据中心供电系统可靠性的指标通常有可靠度与可用度,它们是可靠性领域中的常用术语。工程上,可靠度与可用度的定义主要源自于标准GB/T 2900.13-2008《电工术语 可信性与服务质量》及其对应的国际标准IEC 60050(191):1990。标准中关于可靠度与可用度的定义的描述如下。
a)可靠度
产品在给定条件下和给定的时间区间 (t1,t2)内能完成要求的功能的概率。
b)瞬时可用度
在要求的外部资源得到提供的前提下,产品在给定的条件下和给定的时刻处于能完成要求的功能的状态的概率。
c) (稳态)可用度
稳态条件下,给定时间区间内的瞬时可用度的平均值。
从概念上来看,它们都是 “能完成要求的功能的概率”,都可以用于描述数据中心供电系统的可靠性程度。这是造成当前行业对其概念混淆和混用的主要源头,导致行业在计算、运用这两个指标时经常不加区分地使用。
但事实上,可靠度与可用度在可靠性领域作为两个概念被提出来,在概念、应用场合和计算方法上还是存在不少的差异,不应相互替代,更不能混为一谈。
2 差异分析
2.1 计算方式的不同
可靠度是一种概率,是对可靠性的一种定量评估,它代表一件事发生可能性的度量。R(t)的一般表达式为:
当一个设备处于失效率浴盆曲线中段,恒定失效率区间时(即λ(x)为常数λ时),则设备或系统的可靠度可计算为:
由此可见,影响可靠度的唯一因素是设备的失效率λ水平,可靠度描述设备的内在性能。它只与设备使用器件、工艺、设计和生产水平等设备自身的内在因素息息相关。对于数据中心不间断供电系统而言,其可靠度只与设计的系统构架、选用的设备质量等系统自身的各种内在因素相关。
对于失效率恒定的产品,其平均无故障时间或平均开工时间 (MTBF:Mean Time Between Failures)与可靠度相关,可由可靠度R(t)计算给出,即:
式(3)中:f(t)——失效发生时的概率密度。
可见,MTBF也只与设备失效率自身内在因素相关。由式 (2)-(3)可得,可靠度与MTBF之间的关系为:
对于可用度,标准中描述到:在某些条件下,如失效率与修复率均为恒定,稳态可用度可表示为平均可用时间同平均可用时间与平均不可用时间的和之比。
设备的平均可用时间可采用MTBF来计算,平均不可用时间可采用平均故障修复时间或平均停工时间 (MTTR:Mean Time To Repair)来计算,那么可用度的计算式为:
其中,对于失效率恒定的产品,MTBF是常数。MTTR表示将一个产品恢复到预期性能水平所需要的平均修复时间。它包含了如问题查找、设备拆分、元件替换、设备重装和功能测试等,因此MTTR与产品的可维修性、厂商水平和维修人员水平等产品外在因素相关,也基本维持不变。
因此,由式 (5)可知,可用度指标是由MTBF与MTTR两个参数共同决定的,可用度也可以表示为数据中心不间断供电系统经长期运行,大约有A的时间比例处于正常工作状态。
对比可靠度计算公式 (4)和可用度计算公式(5)可以发现,两者完全不同,并且可靠度是一个随时间按指数递减的函数,而可用度基本是一个恒定值,如图1所示。
图1 可靠度与可用度随时间变化关系
可用度是一个涉及产品可靠性、产品可维护性等产品的内在秉性与外在秉性相关的概念。标准GB/T 2900.13-2008《电工术语 可信性与服务质量》附图A.1清楚地表达了可靠性与可用性之间的关系,如图2所示。
图2 可靠性与可用性的关系示意
由图2中可见,可用性在概念上包含了组成系统中设备的可靠性、可维修性和维护的保障性。因此,对于数据中心不间断供电系统而言,其可用性所涉及的内涵涵盖面更广。
2.2 系统模型的不同
从可靠性理论的角度而言,可用度是表征 “可修复系统”的重要可靠性指标,而目前工程应用中主要使用的是稳态可用度。可靠度则可以同时表征“可修复系统”与 “不可修复系统”的可靠性指标。
关于 “可修复系统”与 “不可修复系统”的概念是可靠性理论中的一个重要概念,顾名思义它们表示系统故障时是否可通过维修返回正常工作状态,它们工作的状态图如图3所示。
图3 可修复系统与不可修复系统
在图3中,Xi与Yi分别表示第i个周期的开工时间和停工时间,在开工时间内系统处于正常状态,在停工时间内系统处于故障状态。通常开关时间Xi与停工时间Yi大多采用指数分布,但也不一定是同概率分布。
数据中心不间断供电系统是典型的可修复系统,根据概念描述则可靠度是用于描述数据中心供电系统自身供电可靠性程度的指标;而可用度是描述数据中心长时间运行过程中,供电系统处于正常供电状态下的时间占比。
研究可修复系统的主要数学工具是随机过程理论:当构成系统各部件的寿命分布和故障后修理时间分布,及其他出现的有关分布均为指数分布时,只要适当地定义系统的状态,总是可以用马尔可夫过程来描述。
行业中,在分析系统的可用度的过程中经常采用可靠度串并联模型分析计算。严格地说,这在理论上并不成立。因为可用度本身从理论上涉及可靠度的部件寿命指数分析与故障后修理时间指数分析,分析方法应采用马尔可夫过程分析方法。由于理论分析过程较为复杂,这里直接列出理论分析结果,具体的计算过程与方法可参见文献 [4]。
a)串联系统
对于由不同部件构成的并联系统,其可用度计算公式更为复杂。可见可用度串并联计算模型在理论上与可靠度的串并联计算模型并不相同。
2.3 应用领域的不同
从前述计算方法差异的分析中,不难发现可靠度与可用度在工程应用上的差异:
a)可靠度用于设备、系统的设计,衡量系统的内在可靠性能;
b)可用度用于设备、系统的使用或运维,衡量系统持续提供特定功能的综合能力 (包括内在性能和外在因素),特别是在MTBF一定的情况下,描述产品的可维修性和厂家的服务能力。
因此,大体而言,数据中心不间断供电系统在设计过程中应该追求可靠性,在可靠性得到保障的情况下,则在使用过程中应该注重可用性。
另外,在数据中心不间断供电系统应用过程中,还存在两类完全不同的不间断供电理念,它从另一个方面体现出可靠度与可用度的关注点。
一种应用是 “不间断保护”,即供电系统在外部市电供电断电后,为负载提供不间断的电力保护功能。在该应用下,供电负载对供电系统要求的是其供电可靠性,任何情况下都不允许断电情况发生,必须确保负载供电万无一失。对于数据中心不间断供电系统而言,数据中心内主要负载就是IT类负载,系统任何时刻发生数十毫秒级的供电闪断即有可能造成数据中心服务器宕机,甚至引发设备故障或损坏。可见,数据中心不间断供电系统必须追求可靠度。
另一类应用为 “持续供电”,即供电系统在外部市电供电断电后,系统仍能持续不断地为负载提供电力。系统可以是不间断供电,但也允许有短暂的供电失效,或供电设备发生故障。不过必须在尽量短的时间内能恢复系统供电或修复故障设备,实
b)同部件并联系统现系统供电持续正常工作。这类应用主要针对数据中心空调、水泵、照明和消防应急设备等非IT类负载,供电系统在此则主要追求可用性。
由此可见,对于数据中心而言,不间断供电系统既要强调可靠性,又要强调可用性。或者说,数据中心不间断供电系统需要追求在有可靠性保障前提下的可用性。
2.4 可靠度与可用度对比
将前述分析对比情况列于表1,以方便读者对比分析可靠度与可用度之间的差异。
3 计算分析
前面通过理论论述了可靠度与可用度之间的差异,下面将进一步地举例计算说明两者之间的关系。根据供电系统可用度计算公式,对公式进行适当的改造可得:
可见,系统可用度与MTTR与MTBF的比值相关,比值越小则系统的可用度越高。下面分不同情况进行分析。
3.1 两个MTTR相同的系统
由式 (8)可见,对于两个MTTR相同的系统,即系统可维修性与维修保障性一致,则系统的MTBF越大,系统的可用度就越高。这意味着在系统可维修性与维修保障性可保证的情况下,需要不断地追求系统的可靠性,或系统与设备的质量。
3.2 两个MTBF相同的系统
对于两个MTBF相同的系统,则MTTR越小,系统的可用度就越高。这意味着在系统的可靠性得到保障的情况下,还需要对系统设备的可维修性和厂家的服务能力提出更高的要求。
3.3 追求可用性必须以可靠性为提前
设一个系统的MTBF1为1 000 000 h、其MTTR1为10 h;另一系统的MTBF2只有100 000 h、其MTTR2为1 h。则两个系统的各个性能指标为:
可见,虽然两个系统的MTBF和MTTR同时相差10倍,但它们的比值完全相同,因此可用度也完全一致。可是,系统的可靠度却相差0.000 009,相应的系统失效率也差10倍。从而两种MTBF的电源设备对客户负载的不断电保护的保障能力完全不同。因此,可用度并不能准确、直接地表征系统自身的可靠性特征,它还与系统的可维修性这个外在的特性相关。
这个例子也表明,对于数据中心不间断供电系统而言,追求系统的可用性必须以高可靠性为前提。单纯的高可用性并不一定能够满足用户的实际需求,可能会给数据中心负载稳定运行带来极大的安全隐患。
4 结束语
综上所述,通过对数据中心不间断供电系统的可靠度与可用度进行分析,形成了如下结论。
a)数据中心不间断供电系统在设计过程中应该追求可靠度,在可靠度得到保障的前提下,则应在使用运维过程中关注可用度。
b)影响系统的可靠度指标的唯一因素只有设备或系统的失效率,它代表了设备厂商的技术水平与生产质量把控水平;而影响系统的可用度指标的因素有系统的可靠性、可维修性和维修保障能力,它还体现了设备厂商的综合服务能力。
c)系统可用度串并联计算模型与可靠度计算模型不同,可用度串并联计算模型可参照文献 [4]中给出的理论计算公式计算。