服务器可靠性试验方案设计研究
2021-03-19郑菁菁史旭鹏徐泽林
郑菁菁,史旭鹏,徐泽林
(1.南京信息工程大学,南京 210044; 2.中认英泰检测技术有限公司,苏州 215104)
引言
可靠性试验与环境试验一样,本身就是一门技术,不是有了人,有了试验设备,就能准确的做好试验,为达高的试验再现性,如实的评估出装备的实际战斗力。在环境与可靠性试验前,首先要做好试验设计。
服务器是军民融合产品,民用时通常在环控的条件下工作,军用时,特别在运载工具上使用时,通常会进行抗振缓冲加固。所以试验设计的要求和内容会有所不同。本文谈的的民用服务器的可靠性试验设计。
1 明确被考核可靠性的指标及其含义
在进行可靠性试验方案设计时,首先弄清可靠性指标,要明白指标的含义。在当今的可靠性试验中,任务下达单位,即甲方给试验室的考核指标,有时就是单纯给个MTBF值,并没有说清是MTBF的什么值,甚至有的产品在研制总要求、合同、任务书上也没有明确是什么值。
我国当前有二大类型可靠性标准,一类是以国军标GJB 899A 可靠性鉴定和验收试验(它来自美国军标781和781手册)为主的可靠性标准,另一类是以国标GB/T 5080(即商用标准,它来自IEC 61124,例如其中的:可靠性试验,第7部分:恒定失效率和恒定失效强度的验证试验)为主的可靠性标准。
1.1 国军标GJB 899A中的可靠性指标体系为
1)使用指标
①目标值:
期望装备达到的指标。既是满足使用要求的最佳值,又是达到最佳费效比的值,它是确定合同指标中“规定值”的依据。目标值到装备成熟期才能达到,成熟期是指装备已使用了足够长时间,而且可靠性增长已结束,其维修配套设备已齐全。
②门限值:
它是满足装备使用必须达到的指标。它是确定合同指标中“最低可接收值”的依据。门限值是根据目标值,考虑费用、技术水平、设计风险、其它不定因素等,按研制时间推算出来的。
2)合同指标
①规定值(θ0):
从“目标值”转换而来,是期望装备达到的合同指标,是制造方进行可靠性、维修性设计的依据。
②最低可接收值(θ1):
装备必须达到的合同指标,它是考核或验收的依据。
3)检验指标(可靠性试验考核方案中的指标)
① MTBF.检验下限值(θ1),又称MTBF假设值的下限值
由最低可接收值转换而来,它是不可接收的MTBF值,当受试装备MTBF的真值接近θ1时,统计试验方案以高概率拒收MTBF真值接近θ1设备。
② MTBF.检验上限值(θ0),又称MTBF假设值的上限值
可接收的MTBF值。它等于鉴别比乘以MTBF检验下限值(θ1),当受试装备的MTBF真值接近θ0时,统计试验方案以高概率接收MTBF真值接近θ0设备。
4)试验指标(MTBF的验证值)
① MTBF置信下限(θL)
由验证试验得出的MTBF真值范围的下限值,此值必须等于或大于MTBF检验下限值(θ1),也即必须等于或大于最低可接收值,这样才能通过可靠性试验,使用方才能接收。
②MTBF置信上限(θU)
由验证试验得出的MTBF真值范围的上限值,它与真值范围的下限值一起表示MTBF真值以一定的置信概率落在该上下限范围内。
1.2 在国标中,没有给出可靠性指标体系,仅给出
m:为MTBF的真值(在可靠性试验中可靠性水平指标的真值是得不到的,可靠性试验只能给出真值的置信范围);
m0:为规定的MTBF值,m0=1λ0设计目标值(相当于国军标中的规定值θ0);例如表1,方案B.8,产品可靠性指标真值已达到设计目标值m0,制造方还有10 %的风险可能交不出去,即可靠性试验结果报告会有10 %(名义值)的可能会给出没有达到的判决要求。
m1:为MTBF的下限值,m1=1λ1,(相当于国军标中的最低可接受值θ1、MTBF的验证值置信下限);例如表1,方案B.8,使用方接受了可靠性试验指标达到下限值m1的产品,实际使用方所接收的产品还有10 %(名义值)的风险可能根本没有达到。
1.3 可靠性指标的含义
在进行可靠性试验设计时还应特别注意,不能单独看指标的高低,它必须结合试验应力、试验剖面,失效判据在一起看。否则是空的,不落地的。
1)可靠性指标、试验剖面、失效判据三个要素
可靠性指标的高低与产品在全寿命期内所要经历的任务剖面密切相关,即与可靠性试验中与所用试验剖面密切相关,因为剖面中应力高低直接影响到最后得出MTBF值的高低。另外,MTBF值的高低与失效判据密切相关,判据的严与松,多与少,同样直接关系到最后得出MTBF值的高低。所以在谈论可靠性指标时,如果不谈考核用的试验剖面,不谈试验判据是非常不严密的,是空的。得出的指标也是不正确的。然而,当今许多研制总要求、合同、任务书,往往只有指标,没有考核试验应力、试验剖面、失效判据,所以在设计可靠性试验方案时必须论证清楚,当然这是后补的,否则无法设计出符合实际使用要求的可靠性试验设计方案。其实这在产品研制初期就应明确的。
2)在设计可靠性试验方案时,有时会碰到只有可靠性指标,没有明确是什么指标,即可靠性方案设计时,还要明确考核的是基本可靠性(MTBF)还是任务可靠性(MTBCF),因为基本可靠性给出的是产品所需维修备件和维修人力、维修费用方面的信息。对基本可靠性凡是相关失效都计入MTBF值。任务可靠性给出的是完成任务的信息,任务成功的概率,即平均无致命故障之间的间隔时间。基本可靠性与任务可靠性的关系为: 要基本可靠性高, 任务可靠性必下降; 要任务可靠性高, 基本可靠性必下降。因为任务可靠性要用冗余。所以一个完整的试验方案,因同时考核出基本可靠性指标和任务可靠性指标,这样花同样的经费同样的时间,得出的产品可靠性水平指标的信息量最多。
2 选择好统计试验方案
在进行可靠性试验方案设计时,首先要选择统计试验方案,在国军标GJB 899A中有:概率比序贯试验方案、定时截尾试验方案、全数试验方案;在国标中GB/T 5080中有:序贯试验方案、定时/定数截尾试验方案、综合试验方案。
在选择方案号时,要考虑的因素有:最低可接受值、设计值、置信度、风险率、试验时间、试验经费等,并且从这些因素中平衡。具体来说:
1)设备的成熟程度及预期的寿命:对成熟度高,预期寿命长的产品,通常选择时间短的风险率高的方案;
2)设备的关键与重要程度:这类产品通常选择置信度高的风险率低的试验方案;
3)经费和进度:经费与时间足够时通常选择置信度高的风险率低的试验方案,否则,相反之。
当今市场上的服务器,MTBF值一般都说为5 000 h,但一般不说清楚是规定值(设计值),还是MTBF的下限值。但在军工产品可靠性设计中将其作为最低可接受值看待,在商贸中一般将其看做为设计值,但可靠性试验考核时,通常用m0=50 000 h设计试验方案。因为是民品,现选择在IEC 61124 ED2:2006中的定时/定数截尾试验方案进行试验设计,该方案又有下列具体试验编号,见表1。
按可靠性试验的要求:试验样品数至少应有两台;对十分昂贵和质量控制严格的受试设备,可允许一台。这里需进行可靠性试验的服务器,其可靠性指标定为:m0=50 000 h,m1=10 000,由于价格高,能投入的样本量比较少,但统计试验方案是建立在抽样理论基础上的,为了使试验结果更好代表母体,试验样品数为:3台。
由于服务器的m0=50 000 h,一般都选择方案号B.8。这里:
表1 定时/定数截尾试验方案
有效试验时间:=50 000 h×1.08= 54 000 h,由于样品数为3,每台样品的有效试验时间为:18 000 h,可接受的失效数c=2。
3 加速试验方案
在IEC 61124 ED2:2006中规定:为适应高可靠性要求和缩短产品进入市场的时间,所有标准中的试验类型都是可以加速的。
任何类型的加速试验都是基于加速损伤模型理论,即产品在其寿命周期内所经历的应力可对其造成渐进的累积损伤。都是通过提高试验应力来产生与产品寿命期内预期应力产生的同样累积损伤。
54 000 h有效台时,即每台18 000 h的有效试验时间,无论从时间还是经费上,客户都认为不可接受,希望通过加速到一个月内完成试验。对此,对可靠性试验设计,必须引入加速试验方案。
民用服务器是全寿命期间在环控条件下固定使用的产品,能加速的参数主要是温度和湿度。因为固定使用时,不会像在运载工具上使用那样,除温度湿度外同时存在振动,所以振动主要发生在运输过程中,而且在包装状态下。
Peano轨迹在加工平面零件时得到了良好的效果,但对于非球面零件的加工,Peano轨迹无法确保达到预期的加工结果。因此,文献[42] 在Peano轨迹(图5(a))的基础上提出了更适合于非球面零件加工的类Peano轨迹(图5(b)),在对直径为100 mm的非球面零件加工的实验中,经过145 min的加工,使得面型误差由PV=0.386 λ,RMS=0.056 λ收敛至PV=0.097 λ,RMS=0.011 λ(其中λ=632.8 nm)。
1)加速试验公式:
选用劳森(Lawson)温湿度加速模型进行加速,本研究将温度和湿度之间的“×”修正为“+”号,以提高试验结果的置信度。得出的加速系数为:
式中:
Ea—激活能,1.0 eV;
kb—波尔兹曼常数(8.617 385E-5 eV/k);
T1—加速前的温度;
RH1—加速前的湿度;
T2—加速后的温度;
B—常数,本模型取5.557×10-4。
2)加速系数
①加速条件:
加速前的温度:25 ℃;
加速后的温度:35 ℃;
加速前的湿度:60 %RH;
加速后的湿度:90 %RH。
②按上述加速模型计算出放入加速系数:43。
3)加速后平均每台的试验时间为:18 000h/43=418.605 h。
4 试验剖面
1)循环数
可靠性试验方案设计时,需足够的试验循环数,因为只有这样,才能确保试验数据统计的准确性。试验循环数可设计成24 h的倍数或24 h的可约小时数。例如几倍的24 h或12 h、8 h、6 h和4 h为一个周期。考虑到加速后的每台试验样品的有效台时数为:418.605 h,本次对服务器可靠性试验设计成24 h为一循环,共21循环。
2)环境应力
每一循环中:20 h为高应力,采用加速后的35 ℃、90 %RH温湿度度综合加速应力,4 h为服务器在环控条件下的标准大气环境应力,即未加速前的25 ℃、60 %RH的应力。第21循环为16 h采用温湿度综合加速应力,余下8 h为标准大气环境应力。这样正好满足加速前的每台18 000 h的有效试验时间。
3)每一循环中的升降温速率为5 ℃/min,时间为2 min,包含在高应力的温湿度综合加速应力中。
4)电应力
电应力采用:第一循环标称电压220 V,第二循环高电压242 V,第三循环低电压198 V,以此循环下去,直至完成全部21个试验循环。
5)功能应力
①由于服务器是连续工作的,通常从开机正式投入后,它会不间断地工作,一直到彻底报废。所以本次服务器的可靠性试验在有效试验时间内是连续不间断开机运行,满足可靠性长期稳定工作的要求。
②在加电应力过程中,硬件和所有软件同时运行,改变当今许多可靠性试验实际只是硬件的可靠性试验,即仅在给定剖面点上进行性能参数测量,而不运行功能的状态。由此得出的可靠性指标实际基本是硬件的可靠性指标,这也是导致试验室试验得出的可靠性指标比实际使用统计出的可靠性水平低许多的原因,根据美国宇航局给出的数据,软件的可靠性比硬件可靠性低一个数量级。为此,本次对服务器的可靠性试验,在试验的全过程要按服务器全寿命期间各软件模块(存储,运算,数据处理,管理,数据备份、转换等)功能在实际使用中出现的概率进行运行,运行采用压力测试软件(CPU负载测试软件)进行。并以此同时给出软硬件一体的可靠性指标。因为软件测评仅相当于硬件ESS试验,它给不出软件的可靠性定量指标。
6)运行剖面
根据上述叙述,设计出的服务器可靠性试验剖面如图1。
5 故障与失效判据
1)失效判据
①服务器无法启动
②系统需频繁重启(允许3次)
③服务器死机(允许3次)
图1 服务器可靠性试验剖面图
④硬盘损坏
2)判决标准
接收试验: 若在时,r≤2,则认为符合规定的要求。
拒收试验: 若在时或在之前,r>2,则认为不符合规定的要求。
6 结论
我国的试验室可靠性试验已走过了30个年头。在这30年中产品的可靠性水平有了很大的提高,特别在军用装备可靠性工作的带动下,民用产品,特别是军民融合产品,其可靠性工作也愈来愈受到重视。在取得巨大成就的同时,也存在军民产品指标不统一,给系统可靠性设计带来了难度,以及,特别是民品指标高,试验室考核时间长,费用高等问题,对此,本研究给出了二者的转换关系和用加速的办法缩短可靠性试验时间的方法。