APP下载

基于网络中混合备用元件的可靠性评估策略

2016-02-23史小宏

计算机技术与发展 2016年12期
关键词:系统可靠性元件可靠性

陈 杰,史小宏

(上海海事大学 信息工程学院,上海 201306)

基于网络中混合备用元件的可靠性评估策略

陈 杰,史小宏

(上海海事大学 信息工程学院,上海 201306)

随着大型网络系统复杂性的不断提升,能否在规定任务时间内降低执行元件失效性从而提高系统执行可靠性变得格外重要。备用元件概念的引入大大缓解了此类矛盾。由于备用元件在等待替代过程中会出现失效现象,因此对网络中备用元件的要求也随之提高。在对备用元件进行选择分类时,混合备用的思想被用在了可靠性评估之中。从提高样本评估的准确率着手,提出一种启动备用元件的混合排序策略,并将它应用到预期任务成本评估之中。实验结果表明,在大多数情况下该策略均能取得预期的效果,能够显著降低备用元件失效的概率,保障网络系统中的任务能够顺利执行。

失效性;备用元件;混合备用;可靠性评估;预期任务成本

0 引 言

随着当今科技的飞速发展,通过备用技术获得高可靠性的方式在多个领域中得到了广泛应用,如通信网络、计算机网络、传感器网络、卫星技术、电力系统等等。在系统或设备的全寿命周期期间,可靠性评估的工作贯穿整个研发过程,包含设计、生产、实验直至退役。在研究领域,有人提出将所有设备故障的模式用布尔变量来表示其排序过程,然后针对各个阶段建立故障树模型,并通过依赖函数(Dependence Algebra)及阶段代数(Phase Algebra)将故障树转换为MBDD(Multistate BDD)模型,利用MBDD模型编程求解,最终获得顶事件失效的概率;Mo Yuchang针对排序问题继续深入研究,采用启发式算法进行排序,从而可以达到缩小BDD规模的目的[1]。

在一个备用系统中,多备用元件的模型能确保系统顺利运行,但是这些先进技术在运行时也会造成大量的系统活跃元件损耗,即元件失效[2]。在预防可靠性系统失效方案中,备用元件在计算机系统的使用更为广泛。工作过程是在线元件失效后,备用元件立即激活并进入系统代替失效元件继续工作。这些技术目前被广泛应用于飞行起降控制、空间系统和大型网络系统中。根据常见的失效特征及转换期间的实际操作,将目前常见的备用技术归为3类:热贮备(Hot Standby Mode,HSM)、冷贮备(Cold Standby Mode,CSM)和温贮备(Warm Standby Mode,WSM)[3]。文中提出一种新的混合备用策略,通过对备用元件状态依赖的待机模型转化成失效元件进行跟进操作[4]。

1 元件的混合冗余备份模型

1.1 模型的知识架构

由于热备用元件一直是处于激活状态中并等待执行,所以具有提供快速替代失效元件的能力,所以热贮备模型的开销是最大的。相对而言冷备用元件一直处于休眠状态,在大型系统中延迟恢复,为了降低启动成本,冷备用元件在此时发挥了作用。而温贮备模型则是介于两者之间,经历了一个较为温和的操作环境,部分处于操作环境下,处于待机状态。其中热贮备元件所处的环境压力和在线操作元件相同,因此其失效率也随之相应一致[5]。为了在任务执行过程中的操作模型之间(Operation Mode,OM)获得平衡以期达到任务的顺利进行,采用的方式如下:

(1)系统模型的组织方式及修复方式。

规定混合备用模型中组成系统的N个独立元件m,并将其分布表示为m(1),m(2),…,m(N)。起先进入系统进行OM的是m(1),随后置元件m(2),m(3),…,m(N)为热备用状态,使其处于激活等待状态,并进入HSM中等候调用。处于待机状态的m(3)则置于WSM中,最后处于休眠状态的CSM为以下元件:m(4),m(5),…,m(N)。当在线元件失效或者离开OM时,HSM中的元件进入系统替代后继续工作。WSM中元件依次进入HSM中等候替代操作。在约定时间内激活CSM并使其处于待机状态进入WSM。

(2)模型的构建方式。

元件m(N)在CSM中激活,处于WSM到HSM的时间开销为t+σ,且转化期间未出现元件失效,则元件m(2),m(3),…,m(N-1)在3种状态之间转变的时间开销为t。

若模型中该备用元件处于CSM-WSM-HSM的状态转换中,期间未出现过失效行为,并且元件最终在OM中执行,故判定此元件在转换到操作的过程是成功的[6]。

1.2 模型结构的约定方式

1)模型的转移过程。

当网络中元件从CSM传输到WSM再传输到HSM时,规定预期任务所开销[7]的元件未出现过失效行为,即在前期的m(1),m(2),…,m(i)期间未出现过失效。当这一系列行为顺利完成时,可以称这个混合备用系统为H系统。具体实现如图1所示,并做如下规定:

(1)元件在OM,HSM,WSM,CSM中除了参数的标记表达不同,其余属性一致;

(2)任务操作期间,4种状态模型是并行存在的;

(3)和工作期间所开销的时间任务成本相比,CSM→HSM的时间,WSM→HSM的时间,HSM→OM的时间忽略不计。

图1 备用元件间的状态转换比较

图(a)-(c)是无冷备用元件参与的可能结果;图(d)-(f)是冷备用元件参与的可能结果。任务进行顺利,并运行到第m(i)时,在CSM→HSM的开销为MCW(m(k)),WSM→HSM的开销为MWH(m(k)),在HSM中的开销为MHO(m(k)),又知CSM在休眠过程中无开销,激活后进入待机状态WSM,随后转移到HSM中。HSM中元件的等待时间UH(m(k))远远大于WSM中元件的等待时间UW(m(k)),但却小于操作时间UO(m(k))。规定UW(m(k))

2)结构的修复方式。

此类高可靠性的应用模型,通常会采取多种校验方式及自纠方式,如在中央处理机中设置奇偶校验预测方式。

图2 备用元件修复步骤

在网络任务执行过程中,通过同步事件记录及执行操作记录来异步记录备用元件及任务运行记录,通过寄存器存储单元采集失效元件物理及逻辑地址。根据MCIC码、现场信息来统计分析故障位置,并找出故障源。图2展示了系统中备用元件修复失效元件的过程。

2 系统模型中备用元件的失效率

2.1 模型失效概率

已知任务执行期间的时间为tS,进行S等分后,每个元件的操作时间可以细化为Δ=tS/S。令元件失效的概率为Fi(t),则元件间失效的间隔为Fi(Δ(k+1))-Fi(Δk)。令指数分布的时间失效率为λi,则暴露的失效率d=1,由此进一步推断出1-S单位时间间隔内的失效率为:

Pi(k)=exp(-λiΔk)[1-exp(-Δik)]

(1)

基于韦伯分布的刻度参数ηi和形状参数βi,得到Fi(t)=1-exp(-(t/ηi)βi),则有:

Pi(k)=exp{-[Δk/ηi]βi}-exp{- [Δ(k+1)/ηi]βi}

(2)

该公式的执行条件是在理想情况下元件所处任意状态(不包含OM状态)且失效时间不超过操作时间[8]。

考虑到元件分布具有分散特性,这里引入干涉理论来进行可靠度计算。

2.2 失效和失效矢量

在构成整个任务的执行元件序列之前,处于三态状态的备用元件经历失效期、稳定失效期和剧烈失效期。在任务执行过程中引发的备用元件的失效称为失效矢量。这里规定为ω,其基本单位描述为μm。

失效矢量自时间变化而变化的形式称为失效速率。因此可以称失效量是时间的函数。

在网络操作元件实际转换过程中,影响备用元件失效的因素还有很多,如任务中断、传输速度、任务死循环等,外部条件如环境及服务器硬件因素等,因此构建通式不是特别容易。从现有网络可靠性实践来看,备用元件的失效量符合时间变化的概率。

3 混合备用元件的HFST转换策略

提出失效驱动的混合备用转换系统[9](HFST)来计算复杂度。

3.1 元件迁移方式

在状态激活阶段,加入冷贮备元件在任务操作过程中作为替换。对于一个执行周期为t的任务,累积的失效分布备用元件n置于CSM中,激活处于休眠状态的元件,WSM中的待机元件进一步激活,HSM中则处于时刻准备状态,最后OM中进行任务执行。这里将元件所处时间进行分配,冷贮备时间为τCSM,温贮备时间为τWSM,热贮备时间为τHSM。综上所述,该元件在任务执行时间τCSM+τWSM+τHSM+τOM完成前的失效率为:

Fi(t)=Fi(DC(n)τCSM+DW(n)τWSM+ DH(n)τHSM+tOM)

(3)

限制条件为0≤DC(n)≤DW(n)≤DH(n)≤1,将DC(n)τCSM近似为0。所给的元件n在各状态间进行转移得出失效概率:

Fi(tC,tW,tH,tO,tF)=Fi(DC(n)τCSM+

DW(n)τWSM+DH(n)τHSM+τOM)=

Fi(DW(n)τmin(tH,tO,tF)+

DH(n)max(0,min(tF-tH,tO-

tH)+max(0,tF-tO)))

(4)

3.2 元件失效概率

对于累积的失效分布备用元件n在各状态间等份地进行转换,基于元件的离散分布[10],可以得出元件在冷贮备状态下为KC=tH/Δ,温贮备下为KW=tW/Δ,热贮备下为KH=tH/Δ,操作状态下的时间等份为KO=tO/Δ,状态间的失效分布率为:

pi(KC,KW,KH,KO,KF)=

Fi(t(ΔkC,ΔkW,ΔkH,ΔkO,Δ(kC+1)))-

Fi(t(ΔkC,ΔkW,ΔkH,ΔkO,ΔkF)

(5)

3.3 元件分布序列集成

若系统中的元件分布不同,则激活元件的开销受系统可靠性和预期任务成本所影响[11]。为此对元件序列做出如下约束:系统元件m(1),m(2),…,m(N)在忽略转换时间的最小任务成本开销规定为E,此时的任务可靠性规定为N。

通常情形下,休眠及待机元素在系统中的数目并不高[12]。考虑元件数量对准确性的影响,即元件数越大对系统开销的影响就越大,反之则相反[13]。

3.4 算法过程

对于混合备用的元件从KC,KW,KH,KO,KF的一个时间等份,获得失效概率的迭代伪代码,如下所示:

MAKE-SET(t=0,d1=DC(i),d2=DW(i))

forkF=0,1,…,m-1,dothenext

whilekC

ifkF>kO,maked2=0

pi(KC,KW,KH,KO,KF)=Fi(t+dΔ)-Fi(t)

endfor

部分混合备用元件HFST算法如图3所示。

在执行任务期间,元件在OM状态后会失效或关闭。备用元件离开CSM后,在WSM及HSM中进行状态转移时也会出现元件失效。

规定元件在CSM中的时间为tC,在WSM中为tW,在HSM中为tH,最后作为备用元件在OM中执行的时间为tO。为确保元件的顺利替换,可获知时间间隔间的关系为tC+tW+tH≤tO(t≠0)。备用元件在3种状态进行转换替代过程中未出现过在原状态遗留现象[14],即在前一状态失效时立刻进行替换工作。

图3 部分混合备用元件HFST算法

4 实验及仿真

4.1 实验步骤

由于该数据集的样本数较少,且为平衡获取的数据集,在该样本上分别使用了启发式排序算法和混合备用排序策略。文中相关工作主要分为以下几步:

(1)对相关原始数据做盒须图处理,将产生延迟的数据进行剔除处理;

(2)对相关统计的实验数据进行归一化处理;

(3)对已经处理完毕的数据与原数据按比例进行划分;

(4)对数据降维之后,对每个子数据集进行SVM算法的分类;

(5)根据混合备用排序策略对最终结果进行集成并将其输出;

(6)通过启发式算法对约定范围内的数据进行输出并比较。

实验通过基于混合备用元件的策略,对比了启发式排序算法对网络中元件的可靠性评估,剔除延迟数据后在约定区间内按比例对子数据集分类。

将样本序列随机分为5份,并对其样本数据进行十字交叉验证得出该测试样本。该数据集各项参数指标如表1所示。

表1 系统中备用元件的参数指标

需要说明的是,为使得实验结果尽量准确,因此使得每个子数据块的样本的转换开销尽量相似,这样就能使得采集的不平衡数据集尽量一致。

由于备用元件在系统模型中是基于动态分布的,所以备用元件在系统模型中采取Weibull分布。Weibull分布在可靠性工程领域有着较为广泛的应用,在建模过程中也能表现出更高的灵活性。它的主要思想是:将系统模型划分成多个可执行元件(i个),并将元件按序列分类后进行串联操作。将该模型分类成i个环,组合为一个链环。此时它的寿命周期受失效率最高处环的寿命周期的影响。若将单个链的寿命周期看成一个自由组合的可变值,且令各环寿命周期之间相互独立,并保持元件序列在模型之中的分布相当,则此时链寿命周期的问题就变成了求解元件序列分布的极小值问题。对于所输入的数据而言,在推断出分布参数后,将会在处理元件寿命周期试验中来使用。

4.2 实验结果与分析

分别通过启发式算法及混合备用策略对元件可靠性和预期任务在约定范围内进行评估。首先通过SVM算法进行元件分类后,对两组不同数量的备用元件分别进行对比。

在评估样本可靠性过程中,通过特征选择方式发现,在不同数量级的对比中,启发式算法与混合备用策略各占优势,如图4和图5所示。

图4 k值取样200~400时任务可靠性比较

图5 k值取样20~200时成本开销比较

通过实验仿真不难看出在约定备用元件数量下,混合备用策略的预期成本开销低于启发式算法且任务可靠性要高于启发式算法。

5 结束语

备用元件系统在提高执行系统可靠性方面起到了推进作用,并在多领域得以应用。文中针对已有的混合备用元件策略进行改进,将混合备用元件与分配选择相结合,有效降低了网络系统运行时产生的元件失效性问题。该方法通过基于混合备用的方式,利用对备用元件进行分配控制,从而减少了系统运行过程中出现的执行元件失效替换问题。该方法通过将状态转换,即CSM→WSM→HSM的过程,最终确保元件在OM中任务的平稳运行。实验结果表明,在比较的两种可靠性评估策略中,该混合备用策略具有一定优势。

[1]MoYuchang.VariableorderingtoimproveBDDanalysisofphased-missionsystemwithmultimodefailures[J].IEEE

TransactionsonReliability,2009,58(1):53-57.

[2]LuoW,QinX,TanXC,etal.Exploitingredundanciestoenhanceschedulabilityinfault-tolerantandreal-timedistributedsystems[J].IEEETransactionsonSystems,Man,andCybernetics-PartA:SystemsandHumans,2009,39(3):626-639.

[3] 俞 建,胡 涛,杨建军,等.多阶段任务系统可靠性并联冗余优化模型[J].火力与指挥控制,2012,37(1):159-163.

[4]PandeyD,JacobM,YadavJ.Reliabilityanalysisofapower-Loomplantwithcoldstandbyforitsstrategicunit[J].MicroelectronicsReliability,2012,36(1):114-117.

[5]RausandM,HøylandA.Systemreliabilitytheory:models,statisticalmethods,andapplications[M].2nded.NewYork,NY,USA:Wiley-Interscience,2003.

[6] 胡 涛,杨春辉,杨建军.多阶段任务系统可靠性与冗余优化设计[M].北京:国防工业出版社,2012:19-23.

[7]KuoW.最优可靠性设计:基础与应用[M].北京:科学出版社,2011.

[8] 金 星.工程系统可靠性数值分析方法[M].北京:国防工业出版社,2009.

[9]XingL,LevitinG.BDD-basedreliabilityevaluationofphased-missionsystemswithinternal/externalcommon-causefailures[J].ReliabilityEngineeringandSystemSafety,2013,112:145-153.

[10] 莫毓昌.高可靠实时多阶段系统可靠性分析[D].哈尔滨:哈尔滨工业大学,2008.

[11]XingLiudong.Reliabilityevaluationofphased-missionsystemwithimperfectfaultcoverageandcommon-causefailures[J].IEEETransactionsonReliability,2011,53(2):174-185.

[12] 宋保维.系统可靠性分析与设计[M].西安:西北工业大学出版社,2011.

[13]WangC,XingL,VokkaraneVM,etal.Reliabilityandlife-timemodelingofwirelesssensornodes[J].Microelectron.Rel.,2014,54(1):161-165.

[14] 黎 湘,郁文贤.决策层信息融合的神经网络模型与算法研究[J].电子学报,1997,25(9):117-120.

Reliability Assessment Strategy of Hybrid Standby ElementsBased on Network

CHEN Jie,SHI Xiao-hong

(College of Information Engineering,Shanghai Maritime University,Shanghai 201306,China)

With the rising complexity of a large network system,it becomes extremely important to improve the system reliability for implementation by reducing the failure of the implementation of the components within the mandated time.The concept of hybrid standby has greatly eased the contradiction.Fully considering the failure of standby elements in the process of the waiting for an alternative,the requirements of the standby elements of the network are increased.The idea of hybrid standby is applied to assess the reliability when assigned the standby elements selection.In order to improve the accuracy of the sample assessment,a hybrid order strategy is presented to start standby elements and applied to the expected task cost assessment.The experiments show that in most cases the strategy can achieve the expected results which can reduce the probability of the failure of standby elements significantly,enduring network system for implementation successfully.

failure;standby element;hybrid standby;reliability assessment;expected task cost

2016-01-10

2016-05-12

时间:2016-11-21

交通运输部应用基础研究项目(2015329810030);上海市教育科研创新项目(14YZ113)

陈 杰(1991-),男,硕士研究生,研究方向为移动Agent技术、复杂系统可靠性评估;史小宏,副教授,研究方向为移动Agent技术、复杂系统可靠性评估。

http://www.cnki.net/kcms/detail/61.1450.TP.20161121.1633.020.html

TP39

A

1673-629X(2016)12-0082-05

10.3969/j.issn.1673-629X.2016.12.018

猜你喜欢

系统可靠性元件可靠性
试析提高配网系统可靠性的技术措施
可靠性管理体系创建与实践
合理使用及正确测试以提升DC/DC变换器可靠性
5G通信中数据传输的可靠性分析
城市轨道交通信号系统可靠性分析
QFN元件的返工指南
基于故障树模型的光伏跟踪系统可靠性分析
在新兴产业看小元件如何发挥大作用
宝马i3高电压元件介绍(上)
基于可靠性跟踪的薄弱环节辨识方法在省级电网可靠性改善中的应用研究