APP下载

基于现场数据统计的计算机联锁设备寿命分析

2018-06-30梁志国朱晓琳齐志华

铁道学报 2018年6期
关键词:失效率板卡寿命

张 放,梁志国,朱晓琳,齐志华

(中国铁道科学研究院 通信信号研究所,北京 100081)

计算机联锁系统(CBI),是以计算机控制技术为核心,采用可靠性技术、失效-安全技术以及安全相关通信等技术实现车站联锁要求的计算机实时控制系统;是实现重大生命攸关功能的铁路信号控制系统中最为典型的一类复杂电子可编程安全苛求系统[1]。经过30余年的发展,计算机联锁系统在我国铁路已得到普遍应用,且我国高速铁路的车站联锁全部采用计算机联锁系统。

事实上,计算机联锁设备的广泛使用可为其设备寿命问题的研究提供大量基础数据。而以往对联锁设备寿命的研究,大都受到故障数据数量及详细度非常有限的制约,取得的故障数据覆盖时间较短,难以较准确地预测和描述设备的寿命周期;并且数据来源较为模糊,无相关的站场维护信息,更加降低了本就不高的预测精度的置信度。为此,本文以迄今上道运行时间最长、数量最大,且具有大量现场维护及故障记录的某型双机热备计算机联锁设备为对象,按其系统层次结构进行设备故障数据的分类整理、统计和分析,进而建立该联锁系统的寿命预测模型并进行寿命预测计算,研究更为符合车站现场实际维护和运用的设备寿命周期,为合理配置更新改造设备时间和降低投资成本提供借鉴。

1 故障数据分析

1.1 双机热备联锁系统的一般构成

目前我国铁路车站使用的双机热备型计算机联锁设备结构按层次分包括人机接口层、主控层、执行层和对外接口层几部分,其系统结构示意如图1所示。

图1 某型双机热备计算机联锁系统结构

人机接口层主要包括监控机及维修机;主控层主要包括联锁机;执行层主要是由规模数量的采驱模块构成的执表机。由图1可见,除维修机外该联锁系统各部分均采用冗余结构设计,当主用部分和备用部分都失效时才会导致系统失效。

1.2 有效故障数据的筛选与信息匹配

本文分析所依据的基础数据,来源于某计算机联锁厂家所有型号的联锁设备,从2000年11月至2016年12月间超过7 000条的各种故障记录以及相应站场设备的维护记录。故障记录中包含了站场名字、故障发生时间及其影响和处理情况等,其中大部分记录都对故障现象及处理过程进行了描述,但并未对故障原因进行精确分类[2]。维护记录中则包含设备的配置、开通日期以及设备的变更、(故障)板卡更换等信息。要研究其中某个系统的寿命,首先需要将这些故障记录与维护记录进行匹配,从繁杂的原始记录中收集、筛选影响该系统有效运行的各部件相关数据,主要包括故障类型、故障板卡、故障日期、有效运行时间等信息。由于数据量巨大,故编制了自动筛选出匹配相关数据的统计程序。程序首先根据站场名查找故障联锁系统的类型,排除其他类型的数据,再依据站场维护信息,将设备故障发生距开通日期的使用时间统计出来并换算成天。信息匹配和计算筛选后的数据示例见表1。

表1 程序筛选处理后的故障数据信息样式

1.3 故障归类与定位等级划分

在得到筛选及信息匹配处理的结果之后,需要根据故障描述和处理结果对故障点进行定位确认和故障归类。故障记录主要分为硬件故障、软件故障、环境引发故障、其他设备故障等,故障的归类过程关乎整个记录分析的准确性。故障归类最核心的问题是分类的标准,如果分类过细,便于掌握详细的故障数据,但是分类太多,不利于整理和突出故障点;如果故障统计的太粗略,特别是在统计初期的分类范畴很小,难以得出准确的结论。本文主要研究联锁系统硬件的可靠性分析,相较于软件故障等其他故障,本文对联锁系统硬件故障做了更加详实的分类。在硬件故障下又进行了3个层级的分类,联锁机部分、电源部分为第一级,CPU板、采集驱动板等为第二级,而CPU板的各子型号为第三级。

为了能够更加详实地分类,本文采用抽样预分类的方法,即先抽取2 000条故障详细分类,再对结果进行整理归类。预分类可以解决很多故障归类模糊的问题,统一不同记录人对故障器件的描述方法,再对全部故障进行处理,提高故障归类的准确程度。得到了以下3点硬件故障归类经验。

(1)联锁系统存储设备失效是故障发生率非常高的一类故障,既包括上位机或维修机中的电子盘硬盘故障,也包括存储系统崩溃,无法工作的问题,仅凭故障现象的记录很难区分是硬件故障还是软件故障。由于存储设备失效绝大多数发生在设备日常使用当中,属于软件故障的概率较低,且存储设备失效可以通过硬件换新解决,故本文将存储设备失效统一列为硬件故障的一类进行故障统计。

(2)例如雷击灾害、鼠害等问题,雷击灾害同时造成多个硬件设备发生故障的可能性很高,而这一点并不能反映系统随使用年限累计而发生的可靠性变化,因此不能和硬件老化失效故障混为一谈。

(3)接触不良是导致设备通信中断,板卡失效的一个重要原因,将板卡和接头的接触不良归纳为联锁设备板卡机笼的故障,即将故障归纳为连接设备两端的一端,方便归纳整理和故障树的建立。

根据以上原则及经验对联锁机硬件故障进行分类,将结果定位到板卡级(见表2)。对故障数据合并、统计得到表3。

表2 定位故障位置后的信息样式

表3 某型计算机联锁系统故障收集统计

1.4 故障数据分析

数据分析需要在采集故障数据之外结合现场实际的调研情况进行。根据现场调研发现,联锁设备的平均使用年限都在10年以上,根据《普速铁路信号维护规则》[3]的要求,联锁设备的大修年限为10年,但现场联锁超期服役的现象普遍存在,为了减少因设备到达使用年限后换新引起的统计误差,我们统计使用年限在10年内的故障数据,用设备投入使用i年后这一年中发生的故障数量除以该期间中在用设备数量,得到失效率。第ti时间段的设备平均失效率为

λ(ti)=ri/(nit0)

( 1 )

式中:ri为ti时间段内的失效个数;ni为ti时间段内在用的样本数量;t0为时间段的长度,1年。假设统计的车站都是从年头使用到年尾,1年中失效率不变,粗略统计失效率变化。本统计方法的好处是可以简单直观地反映失效率的变化趋势。

图2、图3为统计、计算出的联锁机、监控机发生的全部故障的失效率,从柱状图曲线可以看出其分布具有浴盆曲线的特征。

图2 联锁机全部板卡失效率

图3 监控机全部板卡失效率

图4统计了联锁机各板卡模块包括CPU、采驱板、通信板、联锁机笼等的失效率,发现各部件失效率均大体符合浴盆曲线的分布特征,同时符合一般电子设备的故障规律。

图4 联锁机各板卡模块失效率

除研究各硬件板卡的失效规律外,本文借助大量故障数据分析,可以采集以往研究中常被忽略不计的故障,如雷电灾害、人为损坏、电源屏强电引入、电磁干扰、鼠害等环境引发故障,这些引起联锁失效的因素对研究系统可靠性也具有较大意义。下文以统计结果为依据,计算以上五类环境引发故障的发生概率。

根据对2001年至2016年的联锁系统故障分析,该型联锁系统累计使用天数18 116 410 d,共发生雷击灾害129次,发生概率为f雷电=7.1×10-6次/d;人为操作不当损害42次,发生概率为f人损=2.3×10-6次/d;电源屏强电引入30次,发生概率为f强电=1.7×10-6次/d;电磁干扰21次,发生概率为f电扰=1.2×10-6次/d;鼠害18次,发生概率为f鼠害=1.0×10-6次/d。在剔除以上环境引发的硬件板卡失效数据之后,下文将建模计算联锁系统的平均无故障时间MTBF(Mean Time Between Failure)。

2 联锁系统寿命预测模型

2.1 联锁系统故障模型分析

本文将不同影响程度的故障归纳为两个类型。其一是影响联锁设备有效运行的硬件故障,如CPU板、电源、采集驱动板等单一硬件失效,组合会引起联锁停止工作的灾难性故障或严重故障,也就是现场人们常说设备瘫痪;其二是影响联锁设备正常工作,但相互组合不会引起联锁设备停止工作的不严重故障或轻微故障,如维修机部分的故障,包括维修机与监控通信的故障、远程诊断功能部件的故障等。要找出会引起联锁设备失效的故障组合并构建故障树,第一部分的单点故障就是故障树的底事件。而任何单点故障都属于异常状态,但单点故障通常不会导致冗余系统失效,因而第二部分无需纳入故障树进行分析,只需要总结计算单个设备的失效规律即可。

2.2 联锁系统故障树模型

根据1.4节中对影响设备寿命模型[4]的故障数据分析,本文筛选出了56个故障点,其中年均发生一次及以上的故障点31个,再从中分类,会影响联锁设备有效运行的硬件故障点15个,每个故障点即为故障树的底事件[5]。由图1可以了解该型联锁的系统结构,在建立故障树之前,还需要对该型联锁系统的供电结构作出分析(如图5所示)。由其供电结构可知,两套UPS(不间断电源)所负责的供电对象并不交叉,在构建故障树的过程中UPS故障要分别包含在联锁模块失效当中,又包含在控显模块失效当中。

图5 某型双机热备计算机联锁供电结构

结合图1和图5所描述的结构,以某型双机热备计算机联锁为例建立其故障树模型如图6所示。

2.3 联锁系统的结构函数

通过观察故障树模型可知,其涉及的单元和层级较多,采用下行法将故障树逐层展开(表4),求出故障树的最小割集[6]。

表4 故障树逐层展开

图6 某型计算机联锁系统故障树

根据下行法,得到该故障树共有130个割集,通过对得到的割集进行分析,故障树中{X7,X16},{X22,X29}相同,应删除其一,余下129个割集之间不存在包含或被包含的关系,故此方法得到的129个割集为本故障树的最小割集。

当任意最小割集发生时,便会导致顶事件发生,即系统失效[7]。若知道各最小割集发生的概率随时间的变化规律,再将各最小割集的分布函数组合在一起,便可以形成系统的可靠度函数[8]。根据各最小割集的子事件组合计算出最小割集的失效分布函数,得出系统的结构函数为

φ(X)=1-(1-X1X10)(1-X1X11)…

(1-X25X31)(1-X25X32)

( 2 )

硬件系统的可靠度函数为

R(t)=(1-F1(t)F10(t))(1-F1(t)F11(t))…

(1-F25(t)F31(t))(1-F25(t)F32(t))

( 3 )

3 寿命预计计算

为计算硬件系统的可靠度函数R(t),需要计算各最小割集中的失效分布函数。在1.4节的计算中我们得到各联锁设备失效率随使用年限增加的变化趋势[9],但前提是假设各设备部件在一年当中的失效率是恒定不变的,而且忽略了同一设备部件各故障点间的时间联系,为了精确计算,本文需要引入更精确的算法。

3.1 失效分布函数的选择

常用的寿命分布包括指数分布、正态分布和威布尔分布等。

指数分布的密度函数为f(t)=1-λe-λt,从指数分布的概率密度函数可知,随机变量服从参数为λ的指数分布,其参数λ为恒定常数。此类分布对于雷击灾害、鼠害等故障率基本恒定的环境所引发的系统失效有较好的拟合度,但与本文1.4节中分析符合浴盆曲线的各板卡失效分布差别较大,其分布与本文收集的硬件故障样本拟合程度较差,因此指数分布不适合作为本文研究的故障样本分布。

威布尔分布在机械产品、工程材料和电子设备的统计试验中有着广泛的应用,其三参威布尔[10]的失效密度函数和失效分布函数分别为

( 4 )

( 5 )

三参威布尔分布通过形状参数β、尺度参数m、位置参数r的变化,可以很好地描述各种不同故障状态,被称为万能分布。当m<1时为递减型函数,符合浴盆曲线的下降段;当m=1时为恒定型函数,即指数分布函数;当m>1时为递增型函数,符合浴盆曲线的上升段函数,并且当m=3~4时与正态分布相近,包含了指数分布、正态分布。威布尔函数的m值决定了其单调性,可以从失效率是否单调来判断各硬件单元是否服从威布尔分布。通过对联锁机硬件设备的年均失效率进行分析,设备投入使用的前几年通常为故障的高发期,且失效率逐年降低,而后失效率随使用年限的增加逐渐上升,符合浴盆曲线的基本分布特征。本文着重研究的是各单元损耗故障期(失效率单调递增时期)的失效分布函数,因此选用三参威布尔分布作为故障样本分布较为合适。

3.2 计算失效分布函数的数据准备

计算失效分布函数的数据准备是为了减少计算失效分布函数中的误差,主要分为计算随机截尾数据的经验分布函数和故障数据的截取。人们常用残存比较法和平均秩次法计算随机截尾数据的经验分布函数。平均秩次法因采用中位秩公式,实际应用较多。

3.2.1 计算随机截尾数据的经验分布函数

在硬件故障统计过程中,因为所有参与统计的样本投入使用时间是随机的,必然会遇到参试样本试验截止时间不同的情况,即不完全寿命数据[11]。对于尚未失效就中途退出(例如2013年投入使用的车站使用了3年,但到达试验截止时间2016年12月时未失效)的样本,无法预计其何时失效,因此在进行参数估计之前需要对数据(包含故障数据和非故障数据)进行处理,首先根据部件是否发生故障将数据分为故障数据和中止数据两类,其中中止数据包括未故障数据及非自身原因造成的故障数据。把所有数据按时间值大小排列出序号见表5。

表5 数据整理处理后格式

全部时间数据栏是将所有设备的使用时间数据按照其时间值由小到大排列,故障时间数据栏是将所有故障数据按其时间值由小到大排列且Tm=ti,是否故障栏中1表示此样本此时发生故障,0表示此样本未发生故障而此时试验中止。

用平均秩次法计算经验分布函数:

首先根据表5中的数据文件计算各故障数据的平均秩次为

( 6 )

式中:Ai为第i个故障样本按其使用时间从小到大的顺序号;m为所有样本(包含故障样本和中途退出样本)按其使用时间从小到大的顺序号;n为数据总数。

其次是对于故障累积概率F(t)的推算,常用的计算公式有近似中位秩公式、海森公式和平均秩公式等。将平均秩次Ai带入近似中位秩公式为

( 7 )

这样得到的故障累积概率F(t)能够避免不完全寿命数据带来的计算误差。

3.2.2 故障数据的截取

本文要研究的是设备寿命在损耗故障期的失效分布函数(即浴盆曲线的上升段),通过直方图直观判断,在我们观测的15个硬件设备组别里,某设备投入使用的前期都是浴盆曲线的下降段[12],设0≤t

F(t)=F损耗(t)+F(tb)tb≤t<+∞

( 8 )

其中0≤F(t)≤1,实际硬件设备不存在寿命无限的情况,故表达式( 8 )中t不能取到+∞。假设t=tp时,F损耗(tp)+F(tb)=1,即F(tp)=1,对应设备在时间到达tp时设备全部失效,故损耗故障期的失效分布函数F(t)中t的取值范围是(tb,tp)。

3.3 失效分布函数参数计算

威布尔分布参数计算通过观察直方图分布,假设tb时刻后某设备进入损耗故障期,先根据中位秩公式可以方便地得出某设备在t=tb时刻的失效率F(tb),再把tb时刻之后发生的故障数据和从t=0时刻起全部中途退出的试验样本数据按其全部时间数据进行从小到大的排列,排出的新序号见表6。

表6 损耗故障期数据处理后的格式

先按平均秩次法计算经验分布函数数据点,再根据文献[13]中的方法计算F损耗(t)的威布尔函数各参数。相关系数优化法是一种工程中普遍应用的计算三参威布尔分布各参数值的方法,其具体计算过程采用相关系数优化法求出位置参数r,再采用最小二乘法估计形状参数m和尺度参数β。因为要对故障数据进行截取,需要注意假设tb时刻后某设备进入损耗故障期时,其位置参数tb≤r

( 9 )

(10)

由上文可知,tb时刻的选取直接影响威布尔分布的样本取值,进而影响最终的计算结果,选用直方图与线性相关系数计算相结合的方法来确定。以CPU板故障为例,先通过直方图观察其失效率,在第2年之后进入损耗故障期,选取第2年之后的数据tb时刻,计算其FCPU损耗(t)的参数值,并计算其线性相关系数为

(11)

相关系数的平方等于1是最理想的情况,一般认为相关系数在0.8以上时,两者有强相关性。假设当w>0.8时,选取的时刻tx为有效地进入损耗故障期的时间点,即tx=tb,此时位置参数tx≤r

由于分析处理寿命数据时数据量非常大,计算的数据也非常复杂,因此本文涉及计算的数据均由程序实现。

以联锁机为例,其CPU板为tb=708,tb+1=728,F(tb)=0.011,经过相关系数优化法计算其形状参数β=3.810,尺度参数m=12 734.7,位置参数r=712,tp=22 598,相关系数w=0.954,由此可知CPU板损耗故障期的失效分布函数为

FCPU(t)=F损耗(t)+F(tb)=

1.011-e-((t-712)/12 734.7)3.81708

(12)

以此类推,采集板损耗故障期的失效分布函数为

F采集板(t)=F损耗(t)+F(tb)=

1.020-e-((t-1 002)/17 114.9)1.581 002

(13)

相关系数w=0.981,各板卡失效分布函数的参数见表7。

表7 各板卡失效分布函数的参数

3.4 系统寿命预测计算与分析

经过计算已经得出系统结构函数中各底事件的失效分布函数,下面主要计算系统的寿命并分析结果。

根据2.3节中计算出的硬件系统可靠度函数R(t),经前文计算得到系统的可靠度函数表达式R(t)为

(14)

其中tbmax

图7 系统的可靠度函数仿真

(15)

式(15)的积分上限是+∞,即理论上硬件设备的全部失效发生在正无穷时刻,而经过前文的计算,得出各硬件设备的失效率[16]达到100%时即为寿命终点,故将积分上限定位tpmin,则有

(16)

系统的平均剩余寿命E(Tt)也称为系统的条件故障间隔时间MTBFt。根据《铁路车站计算机联锁技术条件》[17]7.1.2中的规定,计算机联锁的可靠性指标为MTBF≥105h,即E(t)≥105h≈4.17×103d。当系统运行时间t≈10 500 d后,系统可靠性便不再满足要求。即基于故障树模型分析的该型计算机联锁系统的预期使用寿命约为29年。

系统的结构函数反映的是两底事件发生在同一天时,任意两底事件组合形成最小割集而导致的系统失效,即平均恢复时间MTTR=24 h。在实际现场维修跟踪调查中得知,随着设备投入使用年限增加,备品备件的老化越发严重,特别是投入使用10年以上的计算机联锁设备,由于备品备件的型号更新,如现场备品发生失效,则较难保证一天之内把备品送到现场替换失效板卡,这样就增加了单点故障的维修时间,降低了系统的可靠度。另一方面,随着使用年限的增加,系统在维修过程中普遍遇到电线老化和接口松动的问题,极易在维修过程中引发新的故障点,造成系统失效。因此实际应用中发现,系统超期服役(投入使用10年)以后,其维修难度会明显增加,进而影响系统的可靠度。

4 结束语

本文通过匹配和整理某型联锁设备的故障数据及站场维护数据,得到联锁设备各硬件板卡的失效分布情况;采用故障树建模的方法进行可靠性寿命预测,求出联锁系统的可靠度函数;用威布尔分布描述各板卡损耗故障期的失效分布函数并计算其系数;将各硬件板卡的失效分布函数带入系统的可靠度函数,通过计算求得某型联锁设备的预期寿命。相较于其他故障分析文章,本文使用的故障数据量较大、考虑影响系统可靠度的因素比较全面,更贴近实际情况。同时采用本文的分析方法研究其他型号的联锁设备时,可以将故障树模型略加调整,计算其结构函数涉及的硬件设备失效分布函数,能够较为方便地计算出系统预期寿命。此外,本文的研究对于合理配置、更新改造设备时间,优化系统布局也具有一定的意义。

参考文献:

[1]袁湘鄂,段武.计算机联锁系统[M].北京:中国铁道出版社,2015.

[2]贺国芳.可靠性数据的收集与分析[M].北京:国防工业出版社,1995:76-93.

[3]中国铁路总公司.普速铁路信号维护规则[S].北京:中国铁道出版,2015.

[4]LU Z,SUN Y C.Research on the Maintainability Evaluation Model Based on Fuzzy Theory[J].Chinese Journal of Aeronautics,2007,20(5):402-410.

[5]苏宏升,文俊.区域计算机联锁系统安全性分析的动态故障树模型与方法研究[J].铁道学报,2015,37(3):46-53.

SU Hongsheng,WEN Jun.Research on Modeling of Dynamic Fault Tree in Regional Computer Interlocking System Safety Analysis[J].Journal of the China Railway Society,2015,37(3):46-53.

[6]傅惠民,高镇同.确定威布尔分布三参数的相关系数优化法[J].航空学报,1990,11(7):323-327.

FU Huimin,GAO Zhentong.An Optimization Methodor Correlation Coefficientfor Determing a Three-parameter Weibull Distribution[J].Acta Aeronautica ET Astronautica Sinica,1990,11(7):323-327.

[7]姚成玉,陈东宁,王斌.基于T-S故障树和贝叶斯网络的模糊可靠性评估方法[J].机械工程学报,2014,50(2):193-201.

YAO Chengyu,CHEN Dongning,WANG Bin.Fuzzy Reliability Assessment Method Based on T-S Fault Tree and Bayesian Network[J].Journal of Mechanical Engineering,2014,50(2):193-201.

[8]李博远,胡丽琴,陈珊琦,等.基于故障树和层次分析的可靠性分配方法[J].安全与环境工程,2015,22(1):117-120.

LI Boyuan,HU Liqin,CHEN Shanqi,et al.A Reliability Allocation Method Based on FTA and AHP[J].Safety and Environmental Engineering,2015,22(1):117-120.

[9]SPECS U.Military Handbook Reliability Prediction of Electronic Equipment(MIL-HDBK-217F)[M].1991.

[10]丁湛,黄双华.基于威布尔分布的可靠性寿命分布模型的建立[J].电子测量技术,2007,30(3):34-35.

DING Zhan,HUANG Shuanghua.Establishment of Reliability Life Model Based on Weibull Distribution[J].Electronic Measurement Technology,2007,30(3):34-35.

[11]王华胜.基于加权最小二乘法的机车车辆零部件可靠性分析[J].铁道学报,2001,23(6):21-25.

WANG Huasheng.Reliability Analysis of Locomotive and Car Parts Based on Weighted Least Square Method[J].Journal of the China Railway Society,2001,23(6):21-25.

[12]齐先军,彭翔天,张晶晶.基于浴盆形故障率函数的配电系统可靠性评估算法[J].电力系统保护与控制,2015,43(5):81-87.

QI Xianjun,PENG Xiangtian,ZHANG Jingjing.Reliability Evaluation Algorithm of Power Distribution System Based on Bathtub-shaped Hazard Function[J].Power System Protection and Control,2015,43(5):81-87.

[13]陈建译,周荣,乔高锋,等.基于故障数据的计算机联锁系统寿命预测方法[J].铁路计算机应用,2017,26(1):6-10.

CHEN Jianyi,ZHOU Rong,QIAO Gaofeng,et al.Life Prediction for Railway Computerized Interlocking System Based on Fault Data[J].Railway Computer Application,2017,26(1):6-10.

[14]傅惠民.不完全数据秩分布理论[J].航空学报,1993,14(11):578-584.

FU Huimin.Theory of Incomplete Data Rank Distributions[J].Acta Aeronautica ET Astronautica Sinica,1993,14(11):578-584.

[15]ASADI M,BAYRAMOGLU I.The Mean Residual Life Function of a K-out-of-n Structure at the System Level[J].IEEE Transactions on Reliability(S0018-9529),2006,55(2):314-318.

[16]SN29500 R.Quality Specification Failure Rates of Components[S].Siemens Standard,1986.

[17]国家铁路局.TB/T 3027—2015 铁路车站计算机联锁技术条件[S].北京:中国铁道出版社,2015.

猜你喜欢

失效率板卡寿命
MACH2系统板卡程序下装平台的研制
基于通信定位系统用模块的可靠性预计计算研究
人类寿命极限应在120~150岁之间
仓鼠的寿命知多少
车载控制器CVRE板卡显红故障分析及处理
深入理解失效率和返修率∗
基于改进龙格-库塔法反舰导弹贮存寿命研究
马烈光养生之悟 自静其心延寿命
人类正常寿命为175岁
基于组态王软件和泓格PIO-D64 板卡的流水灯控制