APP下载

基于异步动态的地铁综合监控系统可靠性分析

2016-12-30

铁道标准设计 2016年12期
关键词:系统可靠性可靠性服务器

王 毅

(中铁第一勘察设计院集团有限公司,西安 710043)



基于异步动态的地铁综合监控系统可靠性分析

王 毅

(中铁第一勘察设计院集团有限公司,西安 710043)

以综合监控系统为研究对象,在对地铁综合监控系统整体架构进行研究的基础上,将系统看作一个离散的异步动态系统,对系统主要设备的控制部分建立可靠性数学模型。运用Lyapunov函数的分析方法证明模型的可靠性,依据控制网络可靠性理论对综合监控系统的平均无故障时间及平均故障修复时间两个指标进行计算,验证系统在不同程度失效时的可靠性。

地铁;综合监控系统;可靠性;分析

1 概述

近年来,城市轨道交通的飞速发展,对社会经济和人民的日常生活都起到长期的重要影响。为保证轨道交通的正常运营并创造安全、舒适的乘车和候车环境,地铁全线配备了信号系统、环境与设备监控系统、安防系统、电扶梯、火灾自动报警系统、站台门等机电系统。为确保以上这些系统的安全可靠运行,设置综合监控系统(Integrated Supervisory & Control System,简称ISCS)。

综合监控系统是城市轨道交通综合自动化的一部分[1],它通过统一的软硬件平台,对地铁环境与设备监控系统、电力监控系统等进行集成,对信号系统、通信系统、自动售检票系统等进行互联管理,有效提高了地铁的服务能力,优化了运营组织结构。

目前,综合监控系统已在国内的地铁、轻轨工程中得到广泛应用。作为全线机电设备的监控平台,它的应用和工作性质决定了系统必须具备高可靠性和高安全性,而且必须保证24 h不间断正常运转。一旦系统中断或故障,将会直接影响整个地铁的正常运营。

2 综合监控系统架构

综合监控系统采用两级管理、三级控制的结构体系[2]。两级管理是在线路的控制中心和车站控制室进行系统管理,三级控制分别在控制中心、各车站和现场各被集成的子系统实现。

控制中心是综合监控系统的中央级系统所在位置,负责监控沿线各车站的车站级综合监控系统(含车辆段系统)、软件测试平台、培训管理系统、维修管理系统、集中告警系统、综合后备盘等[3]。综合监控系统车站级构成如图1所示。

图1 综合监控系统车站级构成示意

3 系统可靠性分析

3.1 系统可靠性指标

综合监控系统是一个综合型的计算机监控网络系统,它的软件体系结构是层次组织划分的,每个上层软件的系统都是建立在低一层软件系统的基础上;其分布式系统由多个独立运行的服务器、工作站和软件等组成,分布在不同的地理和网络位置。

综合监控系统的可靠性来源于系统24 h不间断的正常运行,当系统发生软件闪断或硬件宕机时,迅速地进行故障修复并迁移到热备系统正常运行是其可靠性的保证手段。

系统平均无故障时间(Mean Time Between Failures,简称MTBF)和系统平均修复时间(Mean Time To Repair,简称MTTR)是衡量一个系统可靠性的两个重要指标[4]。综合监控系统单台设备平均无故障时间(MTBF)要求不小于10 000 h,系统故障修复时间(MTTR)要求小于60 min[5]。MTBF反映了系统的时间质量,是系统在规定的时间内保持正常运行能力的一种指标;MTTR则反映了从系统故障时刻起,到系统恢复正常运行之前的所需时间,它有效地衡量了一个系统在可维护性和响应时间上的能力。由于综合监控系统对轨道交通的正常运营具有重要意义,一旦系统发生故障,系统必须在第一时间发生修复响应。根据网络控制系统可靠性理论,衡量综合监控系统的可靠性指标之一,可以用系统有效性(Availability)来表示。有效性更加准确地反映了综合监控系统网络的性能,它是在部分软硬件失效的情况下,系统能达到保障性能要求的概率。系统有效性通过平均无故障时间和平均故障修复时间两个指标的比值关系来表示,计算公式为[6]

在综合监控系统的控制网络中,平均无故障时间和平均故障修复时间交替穿插在系统的运行过程中[7],他们的相互关系如图2所示。

图2 控制系统MTBF与MTTR关系

由图2可见:

综合监控系统的平均无故障时间和平均故障修复时间发生的可能性是随机的,因此MTBF和MTTR均是一组随机的概率统计数值,它们所表示的系统有效性A也是一个概率统计数值。

构成综合监控系统的主要设备有前置机FEP、历时服务器、实时服务器、磁盘阵列、网络交换机、系统工作站,它们中的任何一组设备发生故障,都会导致系统中断运行。这些主要设备的可靠性指标,直接影响到整个系统的可靠性。

3.2 系统可靠性分析

构成综合监控系统的关键设备有前置机FEP、历时服务器、实时服务器、磁盘阵列、网络交换机、系统工作站。关键设备可靠性指标如表1所示。

表1 关键设备可靠性指标

综合监控系统的前置机FEP、历时服务器、实时服务器、磁盘阵列、网络交换机、系统工作站全都采用完全冗余配置且并联[8],并联方式如图3所示。

图3 冗余设备并联示意

地铁综合监控系统负责全线各个软硬件设备及子系统的监管和控制,它自身所发出的指令依靠网络和代码实现。由于其与生俱来的架构特点和功能要求,使得综合监控系统故障点数量巨大,任何一个节点的实效,都会影响到系统的有效性和可靠性。从综合监控系统的网络控制结构来看,它的工作流程如图4所示。

图4 综合监控系统工作流程示意

对于任何一个控制网络来说,系统7×24 h的无故障运行是不可能的,只能最大程度地提高其有效工作时间。综合监控系统利用双机热备等技术,有效提高了系统的可靠性。根据图4,可将综合监控系统看作一个离散线性系统,系统主要设备的控制部分可以建立一个近似为离散时间方程的数学模型。

3.2.1 控制部分数学模型

系统控制部分的数学建模结构为[9-10]

式中,xt是系统状态量;ut是指令输入量;Ln是系统增益;n定义为综合监控网络传输时由于故障等原因发送的错误指令或失效数据;yt是系统数据执行后的输出量。系统正常工作时,失效数据为零,即L0=0;当系统发生故障时,Ln即为非零向量。A、B为矩阵系数。系统模型的估计误差值定义为

(1)综合监控系统正常工作时,L0=0,离散时间方程为

式中,dt为t时间的网络延时,将dt=0代入式(6)可得

那么同理可得系统模型的估计误差值为

(2)综合监控系统发生失效故障时,将故障时刻t之前已经完成发送的信息定义为y(t-dt),离散时间方程为

系统模型的估计误差值为

结合公式,推导可得出

Δ1=A,Δ2=A-LC

3.2.2 数学模型可靠性分析

综合监控系统在运行过程中发生的故障状态可以划分为状态1,2,3,…,n,因此可以把这些发生的状态看作是n个离散的状态,实时运行的综合监控系统看作是一个异步动态系统[11]。则系统的状态变量[12]

代入Lyapunov函数Vxt,当函数满足条件

此时认为此异步动态系统是稳定可靠的。当公式(11)满足不等式矩阵组

那么系统就是稳定的,E和F为两个正定矩阵,系统变量λ1>0,λ2>0,网络传输的数据丢失比率为γ。

把Δ1=A,Δ2=A-LC代入公式(18),定义F=LTE

3.2.3 MTBF计算

综合监控系统设备的总运行时间可以拆分为MTBF和MTTR,通过计算MTBF和MTTR的数值,得出系统有效性指标。

综合监控系统主要设备采用冗余热备的架构方式并行连接,因此系统的控制部分MTBF取平方值

以表1中的指标为计算数据,则

MTBF工作站=1×105h

与其他主要设备不同的是,磁盘阵列是放置在历史服务器的机柜中,与历史服务器为串行连接方式,它的MTBF为

MTBF服务器系统≈Min(MTBF服务器,MTBF磁盘阵列)=

1.67×105h

综合监控系统前置机FEP、历时服务器、实时服务器、磁盘阵列、网络交换机、系统工作站组成的串联控制系统中,当系统中有一个或一个以上的设备失效时,系统就失效,所以主要设备中的最小无故障运行时间即为系统的平均无故障运行时间。

根据上述公式,综合监控系统控制部分MTBF计算为

3.2.4 MTTR计算

根据可靠性理论的MTTR计算公式,平均故障修复时间=系统故障总修复时间/系统故障次数,综合监控系统的MTTR可以通过设备故障率λ和故障修复时间的加权平均关系来表示[15]

MTTR=(MTTR1×λ1+MTTR2×λ2+MTTR3×

λ3+MTTR4×λ4+MTTR5×λ5)/

将综合监控系统主要设备的MTBF数值代入公式(20),公式(21)中,可得

以表1中的MTTR指标可得前置机FEP:MTTR1=1;服务器:MTTR2=1;磁盘阵列:MTTR3=1;交换机:MTTR4=0.5;系统工作站MTTR5=1。

经计算,

MTTR=(MTTR1×λ1+MTTR2×λ2+MTTR3×

λ3+MTTR4×λ4+MTTR5×λ5)/

(λ1+λ2+λ3+λ4+λ5)≈0.99h

据系统有效性公式(1),得出综合监控系统的有效性为

计算得出的综合监控系统有效性的数值高达99.997 8%,能够保证系统的可靠运行,但不是100%。通过对系统的数学建模和函数方程的求解,推导出综合监控系统适用于MTBF和MTTR公式计算的依据,从而得出综合监控系统的有效性数值。

该有效性值是基于表1中关键设备可靠性指标的数据计算得出的。由于设备供应商的不同,设备的设计和工艺的差异,可靠性指标会有差别。因此计算出的MTBF和MTTR值也是不一样的,有效性A的数值是随着MTBF和MTTR的变化而变化,是一个变量。

4 结论

(1)综合监控系统是地铁运营生产不可或缺的部分,数据的丢失以及系统的失效将会给运营生产安全、运输效率以及社会服务造成重大影响,利用冗余、改变网络连接架构等技术对系统进行改进和优化,对提高可靠性和安全性具有十分重大的意义。

(2)考虑到故障率、修复响应时间等多种因素对冗余系统可靠性的影响,经分析可知设备故障率对系统达到平稳运行状态所需时间的影响较大,系统恢复到正常运行状态的可靠性由平均无故障时间和平均故障修复时间两个指标的比值关系来表示,增加无故障运行时间和减少维修时间是提高系统可靠性的有效方法。

(3)在综合考虑硬件系统多种失效方式的基础上,将综合监控系统抽象为一个离散的异步动态系统,建立数学模型分析其可靠性,并提出利用Lyapunov函数的分析方法求解,可以得到在任意时刻系统处于各状态的概率,通过对系统可靠性进行分析,验证了硬件在不同程度失效时对系统可用度的影响。

[1] 李强.地铁综合监控系统应用发展研究[J].自动化与仪器仪表,2015(10):112-116.

[2] 程媛.轨道交通综合监控系统区域式构成方案研究[J].城市轨道交通研究,2011(3):44-50.

[3] 徐杰.城市轨道交通综合监控平台系统集成的研究[J].铁道学报,2007(6):107-112.

[4] 刘爱民.关于可修复系统的MTBF和MTTR[J].电子学报,1998(1):70-72.

[5] 中华人民共和国住房和城乡建设部.GB50157—2013地铁设计规范[S].北京:中国建筑工业出版社,2014.

[6] 孙建平.控制系统可靠性分析与设计[J].华北电力学院学报,1995(4):39-44.

[7] 陈鹏.平均无故障时间(MTBF)的概述与应用[J].电子产品可靠性与环境试验,2012(5):272-276.

[8] 章扬.地铁综合监控系统的可靠性、可用性、可维修性、安全性设计[J].城市轨道交通研究,2009(4):64-66.

[9] 吴钦木,李叶松,秦亿.网络控制系统稳定性分析和控制方法[J].电气传动,2006(36):8-15.

[10]孙海燕,侯朝桢,赵奇.基于模型的网络控制系统稳定性[J].控制与决策,2005(4):412-416.

[11]樊卫华,蔡骅, 陈庆伟,等.基于异步动态系统的网络控制系统建模[J].东南大学学报,2003(3):194-196.

[12]RABELLO A,BHAYA A. Stability of asynchronous dynamical sys-teems with rate constraints and application[J]. IEEE Proceeding on Control Theory Application, 2003(5):546-550.

[13]李金娜,张庆灵,于海斌.网络控制系统稳定性的图理论[J].控制理论与应用,2009(11):1309-1315.

[14]莫毓昌,杨孝宗,崔刚,等.一般阶段任务系统的任务可靠性分析[J].软件学报,2007(4):1068-1076.

[15]王婷婷.城市轨道交通综合监控系统数据规模和系统性能分析[J].无线互联科技,2015(1):165-167.

Reliability Analysis of Integrated Supervisory & Control System in Metro Based on Asynchronous Dynamic

WANG Yi

(China Railway First Survey and Design Institute Group Co., Ltd., Xi’an 710043, China)

To study the Integrated Supervisory & Control System(ISCS), a reliability mathematical model is established for the control of the main equipment of the system, which is regarded as a discrete asynchronous dynamic system based on the study of the overall architecture of ISCS. The reliability of the model is proved with the analysis of Lyapunov function, and the mean fault-free time and mean fault recovery time of the comprehensive monitoring system are calculated based on the control theory of network reliability, and the reliability of the system in different degree of failure is verified.

Metro; Integrated supervisory control system; Reliability; Analysis

2016-05-23;

2016-07-14

王 毅(1985—)男,工程师,2010年毕业于中国铁道科学研究院交通信息工程及控制专业,工学硕士,E-mail:894402933@qq.com。

1004-2954(2016)12-0128-04

U231+.6

A

10.13238/j.issn.1004-2954.2016.12.028

猜你喜欢

系统可靠性可靠性服务器
大口径舰炮弹药储供系统可靠性研究
试析提高配网系统可靠性的技术措施
通信控制服务器(CCS)维护终端的设计与实现
PowerTCP Server Tool
合理使用及正确测试以提升DC/DC变换器可靠性
智能变电站继电保护系统可靠性分析
GO-FLOW法在飞机EHA可靠性分析中的应用
5G通信中数据传输的可靠性分析
论如何提高电子自动化控制设备的可靠性
计算机网络安全服务器入侵与防御