空间计算机冗余架构可靠性分析比较
2018-04-12李杰沈锐
李杰,沈锐
(山东航天电子技术研究所,烟台 264003)
概 述
空间计算机系统能否长时间稳定可靠地工作,对深空探测任务的成败起着关键作用。提升空间计算机系统可靠性的主要途径之一,是采用恰当的容错策略和系统架构,利用冗余资源来屏蔽故障对系统的影响,使系统正常发挥作用[1]。随着计算技术的发展,空间计算机冗余从原来常见的双机架构,发展出三机架构(Triple Modular Redundancy,TMR)[2]、四机架构[3]等,容错策略上既有采用静态的冷备[4]或热备[5],也有采用故障模块修复后动态重构(如动态重构TMR[6])。不同的架构和策略各有其特点,可面向不同的应用场景。
目前对空间计算机冗余架构可靠性的研究主要集中在两个方面:①从理论角度进行新的可靠性模型设计和软硬件容错策略设计与分析[7-8]等;②对空间电子设备进行可靠性预计评估,判断是否满足系统可靠性需求,为系统方案提供技术支撑[9-10]。但近年来在空间计算机架构可靠性相互间比较研究这方面相对比较欠缺。
本文利用马尔可夫链模型分析计算方法[11-12],以虚拟的5年任务为背景,对6种典型空间计算机冗余架构可靠性进行了比较分析。
1 数学模型
1.1 约束条件
仅考虑计算节点数量不超过4的系统,包括:双机冷备、双机热备、TMR、动态重构TMR、(2 + 1)三机、四机(4-3-2)共6种架构。其中,有备份的如双机冷备、双机热备、(2 + 1)三机,只考虑一个备份。随着软硬件容错技术的发展,可修复技术在高可靠空间电子系统中的应用也越来越多。具有可修复能力的电子设备进行可靠性分析时过程相对比较复杂。
本文以动态重构TMR作为可修复设备的代表进行可靠性分析。在各架构中,各节点失效率λ相同且不随时间变化,单个节点的可靠度p呈指数分布,即p=e-λt。冷备份激活前可靠度为1,架构中切换开关、表决器及节点间信息交互通道等均认为可靠度为1。
1.2 冗余架构建模
1.2.1 双机冷备
正常状态下(S0),没有故障节点,主节点当班,备节点不加电,认为此时备节点不会发生故障。当1个节点(主节点)发生故障时(S1),备节点激活替换主机当班。当备节点再发生故障时(S2),系统失效,状态转移见图1。
图1 双机冷备系统状态转移图Fig.1 State transition of dual cold standby systems
建立状态微分方程,得到
根据拉氏变换
初始条件pS0(0)=1,pS1(0)=0,解方程组式(1)可得
再由拉氏反变换得到
可得双机冷备系统可靠度为
1.2.2 双机热备
正常状态下(S0),主节点当班,备节点处于加电但非当班,没有故障节点。与双机冷备不同,此状态下备节点也有发生故障的可能。当2个节点中的1个节点发生故障时(S1),另一节点继续当班,当2个节点都再发生故障时(S2),系统失效,状态转移见图2。
图2 双机热备系统状态转移图Fig.2 State transition of dual hot standby systems
建立状态微分方程,得到
根据拉氏变换
初始条件为ps0(0)=1,ps1(0)=0,解上述方程组式(6)可得
再由拉氏反变换,得
可得双机热备系统可靠度为
1.2.3 TMR
常规TMR的正常状态下(S0),3个节点均正常工作,3个节点都有发生故障的可能。当3个节点中的1个节点发生故障,另2个节点正常工作时(S1),TMR的3取2机制屏蔽掉故障节点的影响,系统输出正确结果。当再次出现1个节点或2个节点故障(S2)时,无法再根据3取2机制判断哪个节点故障,系统失效,状态转移见图3。
图3 TMR系统状态转移图Fig.3 State transition of TMR systems
根据图3建立状态微分方程,得到
通过拉氏变换
初始条件为pS0(0)=1,pS1(0)=0,解方程组式(11)可得
再由拉氏变换,得到
可得TMR系统可靠度
1.2.4 动态重构TMR
动态重构TMR发生一个节点故障时,系统通过内嵌故障诊断、故障识别及故障清除等手段让故障节点恢复正常,然后在不影响系统工作情况下,通过动态重构将修复后的节点重新接入系统,恢复到3节点正常工作状态。
正常状态下(S0),3个节点均无故障工作。当3个节点中的1个节点发生故障,另2个节点正常工作时(S1),3取2机制有效,系统输出正确结果。系统以概率µ修复故障节点并从S1恢复到S0状态。当再次出现1个节点或2个节点故障(S2)时,系统失效。状态转移见图4。
图4 可修复TMR系统状态转移图Fig.4 State transition of repairable TMR systems
建立状态微分方程,得到
通过拉氏变换,及初始条件pS0(0)=1,pS1(0)=0,解上述方程组式(16)可得
令a、b为方程s2+5λs+µs+6λ2两个解,即
将式(19)代入pS0(s)和pS1(s)表达式,再由反拉氏变换,得
得到可修复TMR系统可靠度为
1.2.5 (2 + 1)三机
此处(2 + 1)三机指1个双节点热备加上1个冷备节点架构。当热备双节点中的1个发生故障时,系统以(2λΔt)的概率从S0转移到S1,激活冷备节点,与正常节点重新构成双机热备。其后的行为就如同一个双机热备架构。状态变化如图5所示。
图5 (2 + 1)三机系统状态转移图Fig.5 State transition of(2 + 1)triple-unit systems
建立状态微分方程,得到
通过拉氏变换
初始条件为pS0(0)=1,pS1(0)=0,pS2(0)=0,解上述方程组式(22)可得
再由拉氏反变换得到
可得(2 + 1)三机系统可靠度为
1.2.6 四机(4-3-2)
四机(4-3-2)指可降级的四节点冗余架构。正常状态下(S0),系统4个节点无故障工作,此时系统采取4取3的机制。当有1个节点发生故障时(S1),系统剩余3个节点降级构成1个TMR,此时系统是3取2机制。后续行为与常规TMR一样,出现2个故障节点(S2)时,系统仍能正常输出。如果出现3个及以上节点故障时(S3),则系统失效。实际上,四机(4-3-2)可以等效为1个TMR+1架构,两者可靠度相同,状态转移如图6所示。
图6 四机(4-3-2)系统状态转移图Fig.6 State transition of(4-3-2)quad-unit systems
建立状态微分方程,得到
通过拉氏变换
初始条件设为pS0(0)=1,pS1(0)=0,pS2(0)=0。
解上述方程组式(27)可得
再由拉氏反变换得到
于是可得四机(4-3-2)系统可靠度为
2 系统可靠度对比分析
假设单节点失效率λ=10-5/h[13],动态重构TMR修复率为µ=100λ=10-3/h。根据公式(1)~(6),计算不同架构的系统可靠度随时间变化情况,所得曲线如图7所示。
图7 单节点失效率λ=10-5/h,动态重构TMR修复率为µ=100λ=10-3/h,各架构可靠度变化曲线Fig.7 Reliability curves of different architectures.Failure rate of simplex unit is λ=10-5/h.Repair rate of dynamic re-configurable TMR is µ=100λ=10-3/h
5年后(4.38万h)只有双机冷备、(2 + 1)三机和动态重构TMR这3种系统的可靠度还处于0.9之上。5年后的系统可靠度最终排序为动态重构TMR最高(0.975),其次(2 + 1)三机(0.965),然后是双机冷备(0.925),接下来是双机热备(0.869),四机(4-3-2)(0.861),最后是TMR(0.701)。其中,(2 + 1)三机一直高居首位,在3.6万h(约4.1年)后可靠度才低于动态重构TMR。在单节点失效率较低的情况下,冷备节点对系统可靠度提高的作用比较明显。四机(4-3-2)可靠度一直略高于双机热备,在4.1万h左右(约4.7年)低于双机热备可靠度。
同是TMR基本架构,具有单节点修复功能的动态重构TMR持续保持比较高的可靠度,而传统TMR架构则是所考察的架构中可靠度下降最快的,2.3万h(2.62年)后TMR系统可靠度就降到0.9以下,表明拥有单节点修复功能对提升系统可靠性具有较大作用。
为更清晰地对架构进行比较,将节点失效率提高为λ=10-4/h,修复率分别取µ=10λ=10-3/h,和µ=100λ=10-2/h,并加入单节点可靠度变化曲线,如图8所示。任务结束时,系统可靠度排序与图7中基本一致。
图8 单节点失效率λ=10-4/h,动态重构TMR修复率分别为µ=10λ=10-3/h,和µ=100λ=10-2/h,各架构可靠度变化曲线Fig.8 Reliability curves of different architectures.Failure rate of simplex unit is λ=10-4/h.Repair rates of dynamic re-configurable TMR are set toµ=10λ=10-3/h and µ=100λ=10-2/h, respectively.
图8中,传统TMR架构在经过一段短暂时间后可靠度变得比单机还低。根据TMR及单节点可靠度表达式3e-2λt-2e-3λt-e-λt=0,可得两可靠度曲线的交点为t=ln2/λ≈ 0.7 / 0.000 1=7 000 h处。由方程解表达式可知,交点位置与λ大小成反比。本算例中,λ的值相对较大,所以交点位置比较靠前;前一例中,λ数值相对小,交点位置超出了任务时间范围。类似情况也可从四机(4-3-2)上看到(大约在1.5万h处),且本例中四机更快地变得比双机热备可靠度更低。从TMR的架构看,在TMR发生一个节点故障后,剩余的两个正常节点虽是并行运行着的,但此时在结构上等效于一个双机串联结构;如再发生一个节点故障则整个系统失效,两个节点的冗余并没有给系统可靠性带来益处,反而起到了副作用。四机(4-3-2)相当于一个TMR + 1结构,因有一个备份,所以低于单节点可靠度的时间发生得晚很多。
具有冷备的架构依然占据一点优势,但节点失效率的提高使得本例中的优势不如前一例中优势明显。由图8可以看到,提高故障节点修复率对提升系统可靠性效果显著,动态重构TMR(µ=0.01)的可靠度一直处于较高水平。图9中可见,动态重构TMR(µ=0.01)的可靠度一直高于双机冷备和(2 + 1)三机,而动态重构TMR(µ=0.001)的可靠度在1.5万h后接近2万 h处才超过双机冷备和(2 + 1)三机。5年后,动态重构TMR(µ=0.01)与双机冷备、(2 + 1)三机的可靠度差值,均超过动态重构TMR(µ=0.01)相应可靠度差值的7倍。
图9 第二例中具有不同修复率的动态重构TMR分别与双机冷备、(2 + 1)三机可靠度差值变化Fig.9 Difference reliability curves of comparing dynamic re-configurable TMR with different repair rates in the second case with dual cold standby system and(2 + 1)system,respectively
3 结 论
本文对6种典型空间计算机冗余架构建立了马尔可夫链模型,根据可靠性理论对各架构的可靠性进行了计算、分析和比较。在不考虑开关、表决、通信等影响的情况下,具有冷备的冗余架构可靠性占有一定优势。这表明,如果实时性要求不强,从降低成本和系统复杂度等角度考虑,采用冷备架构是一种相对合理的选择。TMR架构虽具有实时性强、发生一次故障系统工作不间断等优点,但从分析结果看,常规TMR架构不适合长时间任务(T> ln2/λ)。同样的TMR架构,具有了单机故障修复能力就可获得高的系统可靠性,较高的修复率能使系统可靠性得到大幅提升。这意味着,除了单纯追求极低的单机失效率指标外,通过开发高效的自主故障识别、诊断和修复技术,让单机具有较强的从故障中恢复的能力,也是改善系统可靠性的有效途径。