APP下载

一种可靠性框图的异构系统可用性评价模型

2016-12-07张兴军董小社

西安电子科技大学学报 2016年3期
关键词:框图可用性异构

孙 健,张兴军,董小社

(西安交通大学电子与信息工程学院,陕西西安 710049)

一种可靠性框图的异构系统可用性评价模型

孙 健,张兴军,董小社

(西安交通大学电子与信息工程学院,陕西西安 710049)

针对异构系统内自治节点性能特征差异导致系统整体可用性评价困难的问题,提出一种采用可靠性框图的可用性评价模型.首先,分析系统异构性,从节点和任务角度对异构性进行分类,对资源异构性进行数学量化;然后,结合异构性分类构建串并行混联的异构系统可靠性框图可用性评价模型,并根据模型分析节点和整体异构系统的可用性度量方法.可用性评价以典型双节点和多节点异构系统为例,同时与马尔可夫过程可用性模型的评价结果进行比较,结果表明,文中所提模型能对异构系统可用性进行准确评价,可为研究异构系统可用性提升及高可用设计提供参考.

异构系统;可靠性框图;可用性;异构性;高可用

近年来实时应用服务范围不断扩大,系统复杂性持续提高.物联网、云计算及大数据等各种新型技术的兴起,使得具有卓越性价比、良好可扩展性及高可用性的异构系统[1]成为解决计算密集型、数据密集型服务的有效方案[2],如何对异构系统进行可用性评价也成为研究异构系统高可用性的热点问题.

目前国内外系统可用性分析建模方法主要有随机Petri网(Stochastic Petri Net,SPN)[3-5]、Markov过程[6-7]、故障树模型[8]及可靠性框图(Reliability Block Diagram,RBD)[9-11]等.文献[5]采用随机Petri网对容错服务器系统进行可用性建模评价,并考虑服务可用性.文献[7]采用Markov过程方法对热备k-out-of-n表决系统可靠性进行了研究.文献[12]结合Markov过程与随机Petri网评价双控制器磁盘阵列系统的可用性.文献[11]采用可靠性框图方法分析评价了私有云计算环境的可用性.然而针对异构系统可用性的研究较少,缺乏完善有效的可用性建模及评价方法.

异构系统的重要特点是系统内各自治节点特征、性能及可用性等差异很大,因此,在对异构系统可用性进行建模时,不仅要考虑单个节点和节点内各部件的自身性能与特征,还要考虑相互制约的各自治节点集中体现出的异构系统整体可用性,给异构系统可用性建模评价带来了诸多困难.笔者对异构性进行分类、量化,进而采用可靠性框图方法设计实现异构系统的可用性评价模型.该模型采用串并行混联RBD结构,分析可用性度量方法,并对异构系统的可用性进行准确的评价度量.对比Markov过程模型评价结果,该模型充分考虑了异构性对系统可用性的影响,准确评价系统可用性为异构系统的可用性提升提供了理论性参考.

1 系统异构性

1.1异构性分类

异构系统是指由多台独立自治节点通过高速互联网络相互连接而成的高性能、高可用的计算机系统,各自治节点的中央处理单元(Central Processing Unit,CPU)处理能力、内存容量、I/O及其他资源均不相同.各用户可向系统内任何节点提交各种不同计算量和需求的任务,由特定节点承载的特定服务来执行并完成对应任务.因此,异构系统的异构性可分为节点异构性和任务异构性.

任务异构性由具体任务处理时间与全部任务队列平均处理时间的比值来体现.对节点异构性定义如下.

定义1 类型异构性,指不同自治节点其指令集结构(Instruction Set Architecture,ISA)与操作系统(Operating System,OS)的不相同.

定义2 资源异构性,指不同自治节点资源如CPU、内存和I/O资源等的拥有量不同.

特别对于资源异构性,其主要体现在各资源部件的结构和特性上.结构上的异构是指各部件操作管理和优化方式的不同,特性上的异构是指各部件性能参数的差异.异构系统规模越大,资源异构性越突出.

1.2异构性量化

根据上述异构性分类及定义2进一步对异构系统资源异构性进行数学量化:①设HS={N1,N2,…,Ni,…,Nn},为异构系统集合,n是异构系统中自治节点的个数,且n≥2;②H为异构性,如CPU异构性Hcpu,内存异构性Hmem,I/O异构性Hio等;③C为自治节点中各部件的性能量化值,如对于CPU,Ccpu(i)为自治节点i的综合处理速度;若对于内存,Cmem(i)则指自治节点i的用户可用内存总量,操作系统占用的内存量除外;④RC为自治节点中各部件的性能量化值相对所有部件中性能最高部件的比值,有RC(i)=C(i)根据文献[13]对资源异构性的数学描述,令,n为自治节点的个数,得异构性公式为

对于一般的情况,如CPU资源异构性,有

2 可用性建模

2.1异构系统RBD可用性评价模型

文中提出的异构系统RBD可用性评价模型如图1所示,是一个串行与并行结构混联的RBD模型.Task Q为异构系统任务队列,其可用性用串行RBD模型来表示.A̠Nodei代表自治节点可用性,A̠Conni代表节点Nodei到异构系统间网络连接的可用性.对于Nodei与Conni所构成的子系统,其可用性用串行RBD模型来表示;对于Nodei与Conni子系统集合,其可用性用并行RBD模型来表示;对于每个Nodei,其可用性受节点内部资源及类型如CPU、内存、I/O等部件可用性的影响.另外,模型中任何子模块可用性均受对应异构性的制约,后面会具体讨论各模块可用性与异构性的制约关系,进而度量系统的整体可用性.

图1 异构RBD可用性模型

2.2系统稳态可用度

系统可用性指系统提供正常服务的时间占系统总运行时间的比例[14],其度量方式可以是一个百分数或概率值,更实际的情况下也可以是年平均系统正常运行时间的比率.系统可用度有3种评价模式,瞬时可用度、平均可用度及稳态可用度.瞬时可用度指系统在瞬时时刻可运行的概率;平均可用度指系统在区域时间段内可用度的平均值;稳态可用度指系统长期可正常运行的概率.通常用稳态可用度来评价计算机系统的可用性:ASS=tMTBF/(tMTBF+tMTTR).其中,ASS为系统稳态可用度;tMTBF为系统正常运行直至发生故障的平均时间,即系统可靠性;tMTTR为系统由故障态恢复至工作状态所用的平均时间,即系统可恢复性.另外,当系统故障服从指数分布时,故障率为一个常数.设故障率为λ,有λ=1/tMTBF;当系统修复服从指数分布时,修复率为一个常数.设修复率为μ,则有μ=1/tMTTR.

2.3系统可用性度量

设异构性函数f(H)=1-H/0.5.根据1.2节中对异构性量化值H计算公式及取值范围的描述,可得f(H)取值分布在0到1区间,即0

设自治节点集合NodeSet={Node1,Node2,…,Noden}.Nodei到异构系统的网络连接集合ConnSet={Conn1,Conn2,…,Connn}.任意一个Nodei与Conni组合模块相对于其他模块独立,设其可用性为A̠ Node̠Conni,失效率为F̠Node̠Conni,有A̠Node̠Conni+F̠Node̠Conni=1;设异构系统整体可用性为A̠ HeteroSys,失效率为F̠HeteroSys,有A̠HeteroSys+F̠HeteroSys=1.

将Nodei与Conni模块组合看作是局部串行的RBD模型,考虑异构性对模块的影响,有

对自治节点Nodei的可用性A̠Nodei,根据图1中的描述,从异构性量化的角度出发,可将其看作是节点内多个类型与资源模块的串联,有

对网络连接模块Conn的自身可用性A̠Conni,假设其故障率与修复率分别为αi和βi,其可用性可通过公式A̠Con ni=βi/(αi+βi)计算得出.同时若将自治节点模块按异构性分类为类型模块和资源模块,节点Nodei类型模块可用性为A̠Node̠typei,资源模块可用性为A̠Node̠resi,式(3)可进一步描述为

其中,A̠Node̠Conni可由式(2)计算得出.由异构系统可用性计算公式可知,影响异构系统可用性度量的因素包括自治节点可用性、自治节点间网络连接可用性、所运行任务集合的可用性,以及这3部分的异构性.对于自治节点还要考虑节点内部异构类型及异构资源的可用性.

3 可用性评价与比较分析

以采用可靠性框图的可用性模型评价异构系统为例,图2描述了异构系统的整体硬件体系框架.系统由n个各自独立自治的高性能服务器节点构成,节点间通过高速以太网链路相互连接,并由冗余心跳检测机制监测各服务器节点的运行情况.各节点通过虚拟IP技术透明的为用户/终端提供高可用服务.各服务器节点硬件体系结构支持SMP、cc Numa;处理器支持x86、IA64、AMD、SPARC;支持Infiniband、PCI Express、Hyper Transports等I/O技术;支持网卡、SCSI卡、RAID卡、磁盘阵列柜等接口卡及外围设备;操作系统支持Windows、Linux及AIX.

图2 异构系统硬件体系框架

图3根据可靠性框图的可用性评价模型,结合随机Petri网方法描述了异构系统内自治服务器节点的状态转换情况.服务器节点与网络链接的4个运行状态分别为:正常、故障、修复及宕机/关闭.服务器节点或网络链接平时处于正常运行态;发生故障时,服务器节点宕机,网络链接关闭;服务器节点或网络链接修复后,节点重新启动并恢复至正常态.

对于整个异构系统,由图3中状态转换关系可知,其属于k/n表决系统[15]范畴.假设异构系统是可修复系统,即任何故障服务器节点都可通过修复恢复至正常运行态;且由n个自治节点组成的异构系统中,处于运行正常态的自治节点个数为k,0≤k≤n.当1≤k≤n时,异构系统能够为用户/终端提供服务;当k=0时,异构系统内所有服务器节点/网络链接处于宕机/关闭状态,系统不再向用户/终端提供服务,直到系统内自治节点修复.

图3 异构系统状态转换图

3.1参数选取

评价参数设置部分选用文献[14]中描述的异构系统可用性评价参数.之后,将得到的系统可用度计算结果与文献[16]中结果进行比较分析,所用到的参数如表1所示.由于异构系统是可修复系统,假设系统内部各自治节点与网络链接的修复时间均为1 h.期间自治节点停机检修,进行系统备份,存储设备、磁盘阵列或连接设备的维修及更换,有tMTTR1=tMTTR2=…=tMTTRn=1 h;tMTTRconn1=tMTTRconn2=…=tMTTRconnn=1 h;相应地,有μnode1=μnode2=…=μnoden=1/h;μconn1=μconn2=…=μconnn=1/h.对于自治节点的异构性函数f(Hnode1),f(Hnode2),…,f(Hnoden)与网络链接异构性函数f(Hconn1),f(Hconn2),…,f(Hconnn),有0< f(Hnode1),f(Hnode2),…,f(Hnoden),f(Hconn1),f(Hconn2),…,f(Hnoden)≤1.

表1 评价参数列表

3.2评价结果与比较分析

对具有双节点的异构系统进行可用性评价.从之前对异构性量化的分析也可得知,在异构部件为两个的情况下,系统内部异构性差异的体现最为明显,对系统可用性的影响最大,评价分析相比多部件异构系统更具有典型性.考虑自治节点与网络链接异构性函数值不变且均为1的情况,即节点与网络链接同构,设tMTBFconn1=tMTBFconn2=1 000 h;tMTBFnode1=tMTBFnode2=tMTBFnodes.简化评价模型中任务队列Task Q的部分,对比采用可靠性框图的异构系统可用性评价模型与文献[16]中使用的Markov过程方法可用性评价模型,结果如表2所示.说明采用RBD的可用性模型能够对异构系统进行准确的可用性评价.并且当tMTBFnodes值大于1 000 h时,系统可用度可以达到5个9的高可用指标要求.

表2 RBD/Markov过程评价模型系统可用度结果比较

图4(a)描述了自治节点与网络链接tMTTF一定,tMTBFnodes与tMTBFconns变化的情况下,异构系统可用度的计算情况.坐标系中位于上方的曲线是tMTBFconn1=tMTBFconn2=1 000 h时,tMTBFnodes取值分别为10 h,100 h,500 h,1 000 h时,系统可用性的计算结果.坐标系中位于下方的曲线是tMTBFnode1=tMTBFnode2=10 h时,tMTBFconns取值分别为10 h,100 h,500 h,1 000 h时,系统可用性的计算结果.说明在tMTTF一定时,tMTBF越大,异构系统可用性越高;另外,一般网络链接的可靠性要优于自治节点,因此,tMTBFnodes对系统可用性影响要大于tMTBFconns,采用提升tMTBFnodes所带来的系统可用性提高要明显高于提升tMTBFconns.

图4 异构系统可用性评价结果

考虑tMTTR变化的情况,假设tMTBFnodes与tMTBFconns值不变,tMTBFnodes=100 h,tMTBFconns=1 000 h;tMTTR1=tMTTR2=tMTTRconn1=tMTTRconn2=tMTTRs.选取4个不同tMTTRs值(10 h,100 h,500 h,1 000 h)计算异构系统的可用性,结果如图4(b)所示.计算结果说明系统可用性随tMTTRs的增加而逐渐降低,最后趋于0.

考虑自治节点异构性函数变化,而网络链接异构性函数不变且仍为1的情况,即自治节点异构,网络链接同构.设异构系统中自治节点异构性函数值f(Hnode1)=f(Hnode2)=f(Hnodes)={0,0.1,0.2,…,1.0},取值范围为0

对多节点异构系统进行可用性评价.设系统内自治节点tMTBFnodes=1 000 h,各自治节点与网络链接的修复时间均为1 h,f(H)取值分别为0.2,0.5,0.8,异构节点数变化的情况下异构系统可用性的计算结果如图5所示.说明异构系统中自治节点越多,系统可用性越高;在相同节点数的情况下,异构函数值越大,即节点异构性越小,系统可用性越高.综上所述,可通过提高自治节点、网络链接的平均故障时间间隔、降低系统内各部件修复时间、降低系统异构性及增加节点冗余个数的方法,以达到提升异构系统可用性及系统高可用的目的.

图5 节点数对可用性的影响

4 结束语

从分析异构系统异构性,对异构性进行分类、性量化入手,笔者提出一种可靠性框图的异构系统可用性评价模型.评价模型采用串并行混联RBD结构,结合系统异构性分析异构系统可用性度量方法.模型以典型双节点和多节点异构系统为例,对比Markov过程模型并对系统可用性进行评价.评价结果与比较分析表明该模型不仅能准确对异构系统可用性进行评价,而且从数学量化角度考虑系统异构性对可用性的影响,为研究异构系统可用性提升方法以及异构系统高可用提供了有意义的理论性参考.

[1]HAMID A,JORGE G.List Scheduling Algorithm for Heterogeneous System by an Optimistic Cost Table[J].IEEE Transactions on Parallel and Distributed Systems,2014,25(3):682-694.

[2]KIM J S,HENRIQUE A,ALAN S.Principles for Designing Data/Compute-Intensive Distributed Applications and Middleware Systems for Heterogeneous Environments[J].Journal of Parallel&Distributed Computing,2007,67(7): 755-771.

[3]林闯.随机Petri网和系统性能评价[M].2版.北京:清华大学出版社,2009.

[4]李晔,王映辉,于振华.信息物理融合系统的面向对象Petri网建模[J].西安电子科技大学学报,2014,41(2): 165-171. LI Ye,WANG Yinghui,YU Zhenhua.Formal Modeling of Cyber-physical Systems Using Object-oriented Petri Nets [J].Journal of Xidian University,2014,41(2):165-171.

[5]SALFNER F,WOLTER K.A Petri Net Model for Service Availability in Redundant Computing Systems[C]// Proceedings of Winter Simulation Conference.Piscataway:IEEE,2009:819-826.

[6]SHAHRZAD F R,MIN X,KIEN M N,et al.Dynamic Availability Assessment and Optimal Component Design of Multi-state Weighted k-out-of-n Systems[J].Reliability Engineering and System Safety,2014,123:57-62.

[7]SUPRASAD V A,HOANG P,PAVINDRA B M.Reliability Characteristics of k-out-of-n Warm Standby Systems[J]. IEEE Transactions on Reliability,2012,61(4):1007-1018.

[8]ANTHONY M,AOWLING R,DRNO N,et al.Reliability Analysis for Power to Fire Pump Using Fault Tree and RBD [J].IEEE Transactions on Industry Applications,2013,49(2):997-1003.

[9]YANG B,HU Y M,HUANG C Y.An Architecture-based Multi-objective Optimization Approach to Testing Resource Allocation[J].IEEE Transactions on Reliability,2015,64(1):497-515.

[10]ERICA S,FERNANDO L,EDUARDO T,et al.A Modeling Approach for Cloud Infrastructure Planning Considering Dependability and Cost Requirements[J].IEEE Transactions on System,Man,and Cybernetics:Systems,2015,45 (4):549-558.

[11]SOUZA D,MATOS R,ARAUJO J,et al.EucaBomber:Experimental Evaluation of Availability in Eucalyptus Private Clouds[C]//Proceedings of International Conference on Systems,Man,and Cybernetics.Piscataway:IEEE,2013: 4080-4085.

[12]WAN Y P,FENG D,YANG T M,et al.The Adaptive Heartbeat Design of High Availability RAID Dual-Controller [C]//Proceedings of International Conference on Multimedia and Ubiquitous Engineering.Piscataway:IEEE,2008: 45-50.

[13]ZHANG X D,QIU Y X,XIAO L.Improving Distributed Workload Performance by Sharing both CPU and Memory Resources[C]//Proceedings of International Conference on Distributed Computing Systems.Piscataway:IEEE,2000: 233-241.

[14]HEIMANN D,MITTAL N,TRIVEDI K S.Availability and Reliability Modeling for Computer Systems[J].Advances in Computers,1990,31:175-233.

[15]方永峰,陈建军,曹鸿钧.可修复的k/n表决系统的可靠性分析[J].西安电子科技大学学报,2014,41(5):180-184. FANG Yongfeng,CHEN Jianjun,CAO Hongjun.Analysis of Dynamic Reliability of the Repairable k-out-of-n System under Several Times Random Shocks[J].Journal of Xidian University,2014,41(5):180-184.

[16]SUN J,GONG W F,DONG X S,et al.High Availability Analysis and Evaluation of Heterogeneous Dual Computer Fault-Tolerant System[C]//Proceedings of International Conference on Software Engineering and Service Science. Piscataway:IEEE,2014:460-464.

(编辑:齐淑娟)

Availability evaluation model for the heterogeneous system based on RBD

SUN Jian,ZHANG Xingjun,DONG Xiaoshe
(School of Electronic and Information Engineering,Xi’an Jiaotong Univ.,Xi’an 710049,China)

In order to cope with difficulty of heterogeneous system availability evaluation caused by autonomous node performance and characteristic differences,the paper proposes an availability evaluation model based on the reliability block diagram(RBD).First,we analyze and catalog system heterogeneity from the angle of nodes and tasks,and quantify resource heterogeneity.Then by heterogeneity classification,we build a serial and parallel mixed RBD availability evaluation model,and discuss the availability measurement method of nodes and the whole heterogeneous system.Availability evaluation takes the dual-computer and multi node heterogeneous system for example,and compares evaluation results with the Markov process availability model.Results show that the model we propose can evaluate the heterogeneous system with accuracy,and hence,provide

for research on availability improving and high-availability design of the heterogeneous system.

heterogeneous system;reliability block diagram;availability;heterogeneity;high-availability

TP302.7

A

1001-2400(2016)03-0190-07

10.3969/j.issn.1001-2400.2016.03.033

2015-06-15

国家“863计划”资助项目(2008AA01A202)

孙 健(1983-),男,西安交通大学博士研究生,E-mail:sunjian83@sina.com.

猜你喜欢

框图可用性异构
试论同课异构之“同”与“异”
基于辐射传输模型的GOCI晨昏时段数据的可用性分析
捷豹I-PACE纯电动汽车高压蓄电池充电系统(三)
吴健:多元异构的数字敦煌
从可用性角度分析精密空调的配电形式
电路图2017年凯迪拉克XT5
算法框图的补全
异构醇醚在超浓缩洗衣液中的应用探索
医疗器械的可用性工程浅析
LTE异构网技术与组网研究