APP下载

基于动态故障树的LTE-R通信系统可靠性分析

2020-09-18虎丽丽陶慧青

计算机工程 2020年9期
关键词:失效率交织元件

虎丽丽,徐 岩,陶慧青

(兰州交通大学 电子与信息工程学院,兰州 730070)

0 概述

LTE-R无线通信系统是继GSM-R通信系统之后应用于铁路干线的下一代移动通信系统[1],其为列车运行提供数据传输支持。当列车行驶速度较快或处于较恶劣环境时,为保证车辆运行安全与铁路通信网络正常工作,无线通信系统应具备更高的时效性和可靠性。因此,需要对LTE-R系统安全性进行分析、评估与符合性验证。

目前,国内外关于LTE-R系统安全性的研究较少。文献[2]采用专家打分法和灰色算法对LTE-R系统安全性进行评价,发现专家打分法中较多人为因素会影响系统结构计算准确性。文献[3]采用静态故障树和Markov法对LTE-R系统手持设备、链路和切换等影响因素进行安全性分析,但由于未考虑所有设备影响,因此其计算结果不能真实反映整个LTE-R系统的安全性。文献[4]从网络安全角度对铁路通信系统进行安全性分析,发现基于长期演进(Long Term Evolution,LTE)的方案对下一代铁路移动通信系统具有适用性。文献[5]采用静态故障树和Markov法相结合的方法对列车之间的LTE-R系统进行可靠性分析,但未研究整体LTE-R系统。

静态故障树法通常用于核能、电子等关键领域LTE-R系统的可靠性分析[6],但其不能体现出系统设备失效时故障修复、时序相关的故障处理以及热冷储备等动态特性。Markov方法虽然能对系统动态特性的随机过程进行描述,但是随着系统规模和状态空间指数级增长,计算过程会趋于复杂和无序[7]。将传统静态故障树和Markov模型相结合可形成一种新的研究方法,即动态故障树(Daynam Fault Tree,DFT)分析法,该方法引入具有时序逻辑关系的动态逻辑门来扩充传统静态故障树,再进行动态故障树分析,从而能对动态系统进行可靠性和安全性分析[8]。

本文提出一种基于动态故障树的LTE-R系统可靠性分析方法。对系统冗余网络建立DFT可靠性分析模型,采用Markov方法和二元决策图(Binary Decision Diagram,BDD)方法分别计算模型的动态和静态部分,根据两部分计算结果对整个系统进行可靠性分析。

1 LTE-R通信系统

1.1 LTE-R系统网络结构

LTE-R系统主要由演进分组核心网(Evolved Packet Core Internet,EPC)、演进通用陆基无线接入网(Evolved Universal Terrestrial Radio Access Network,E-UTRAN)、用户终端设备(User Equipment,UE)等组成[3],其网络结构如图1所示。其中:EPC主要由移动管理实体(Mobility Management Enity,MME)、服务网关(Serving Gateway,SGW)、分组网关(Packet Gateway,PGW)、归属地用户服务器(Home Subscriber Server,HSS)、策略与计费规则功能(Policy and Charging Rules Function,PCRF)、GPRS服务节点(Serving GPRS Support Node,SGSN)以及公共数据网(Public Data Networks,PDNs)服务等组成,其主要功能是实现业务承载与LTE接入[2];E-UTRAN由射频拉远单元(Radio Remote Unit,RRU)和基带处理单元(Building Baseband Unit,BBU)等eNodeB功能实体组成,用以支持LTE-R系统的无线网络覆盖。为实现LTE-R系统无线网络对铁路干线的完全覆盖,RRU和BBU采用光纤进行带状连接后安置在铁路两侧,RRU之间采用交织冗余方式连接,RRU和BBU之间存在环型、星型和线型3种组网方式[9]。

图1 LTE-R系统网络结构Fig.1 LTE-R system network structure

在列车高速行驶情况下,LTE-R系统在技术要求范围内可接入下行峰值速率为100 Mb/s的无线宽带[10]。由于LTE-R系统为扁平化结构,因此其相较GSM-R系统故障发生率更低、传输时延更短,且组成的网络更有弹性。LTE-R系统的高可靠性可通过冗余组网来实现。

1.2 LTE-R系统冗余结构

1.2.1 单网交织冗余结构

单网交织冗余结构是指在单网覆盖基础上,通过增加铁路干线周边相邻小区网络重叠覆盖面积而形成的冗余覆盖结构,如图2所示。若某个基站发生故障,则由相邻2个基站协作处理该失效基站承载的业务,列车不受单个基站故障的影响,仍能正常运行。

图2 单网交织冗余结构Fig.2 Single network interleaved redundant structure

1.2.2 双网交织冗余结构

为增加LTE-R系统可靠性[11],铁路干线两边使用双网交织冗余结构进行网络覆盖,如图3所示。LTE-R系统利用2套基站子系统进行布网,采用1+1 EPC冗余组网方式,2个EPC互为备份且与eNodeB共同连接,若其中1个基站出现失效,则启用另1个基站以保证通信系统正常服务。

图3 双网交织冗余结构Fig.3 Dual network interleaved redundant structure

1.2.3 RRU交织冗余结构

RRU交织冗余结构是指相邻RRU之间场强覆盖形成能满足越区切换重叠区的结构,其中,每个RRU场强可独立完成全覆盖[12]。假设铁路可使用频率资源为nMHz,则同频交织冗余结构中RRU频率相同,其信道带宽为nMHz,异频交织冗余结构中RRU频率不同,其信道有2个,带宽分别为n1MHz和n2MHz,且n1+n2=n[13]。同频交织冗余结构和异频交织冗余结构的差别主要是网络结构不同。

1)同频交织冗余结构

同频交织冗余结构采用多个RRU形成冗余,若结构中某个RRU出现失效,则相邻RRU将代替其为基站提供服务,不会使业务出现中断。其中,冗余RRU无线信号频率相同会给终端设备造成同频干扰,而由于无线信号来自不同小区,BBU在每个逻辑小区中只有1台,小区内BBU在失效或检修时会影响整个网络的可用性和可靠性,因此采用多点协作和分布式基站共小区等方法避免同频干扰。

2)异频交织冗余结构

异频交织冗余结构中BBU和RRU数量与同频交织冗余结构不同,其均采用冗余技术。根据异小区原理对RRU进行冗余布置,若某个RRU失效,则由相邻RRU代替其承担传输业务;若BBU失效,则由冗余BBU代替其提供业务,从而避免发生通信中断。图4为RRU异频交织冗余结构,其中,标号为1、3、5小区的RRU频率相同,标号为2、4、6小区的RRU频率相同,在1、3、5小区和2、4、6小区分别使用不同频率RRU是为了避免在无线信号覆盖重叠区产生同频干扰,同时简化网络配置,保障小区边缘速率[14]。与同频交织冗余结构相比,采用异频交织冗余结构可减少设备成本和维护工作量,因此,本文对RRU异频交织冗余结构的可靠性进行建模分析。

图4 RRU异频交织冗余结构Fig.4 RRU cross frequency interleaved redundant structure

2 改进的动态故障树分析法

2.1 动态故障树分析

在工业功能安全标准IEC 61508、IEC 61511中[15],故障树分析法使用最广泛。故障树分析法包括静态故障树分析法和动态故障树分析法。其中,静态故障树分析法较常用,但该方法不能体现失效相关、序列相关和冗余等特性。动态故障树分析法虽然可描述出系统可靠性的动态特点,但该方法在系统规模增加时,其动态过程的复杂度会呈指数级增长,并引发状态组合空间爆炸问题,从而使计算难度加大。针对上述问题,本文建立DFT分析模型,对该模型中的动态和静态模块分别采用Markov方法和BDD方法进行计算和分析,最终结合两部分结果得出整个系统的可靠性。采用上述方法可减少系统可靠性的建模复杂度,提高分析效率,而且该方法结合了冷热备份、故障处理等多种动态特征,使得LTE-R系统的可靠性分析更加全面。

2.2 BDD分析

BDD分析是指将函数不交化图形的2个不同分支组成1个节点,该节点表示为(V,N),其中,V为节点集,N为指标集[16]。节点包括叶结点和非叶结点,叶节点有明确节点值,表示为value(v)∈{0,1};非叶节点只有指标值index(v)∈N,无明确节点值。将根据节点指标形成的对应关系映射到布尔变量中,对BDD中的(V,N),设V={v1,v2,…,vm},N={1,2,…,n},给定布尔变量x1,x2,…,xn,若index(vi)=j∈N,i∈(1,2,…,m),则vi对应的布尔变量为xj,BDD和布尔函数f=f(x1,x2,…,xm)相对应。

BDD可用香农(Sannon)方法分解,计算公式为:

(1)

其中,f1=f1(x1,x2,…,xi-1,1,xi+1,…,xn),f0=f0(x1,x2,…,xi-1,0,xi+1,…,xn),xi为父节点,f0、f1分别为二叉树结构的左、右分支。

2.3 Markov状态分析

建立LTE-R系统DFT模型时引入逻辑门,逻辑门包括“与”门和“或”门等静态逻辑门,以及热储备门和冷储备门等动态逻辑门[17]。上述逻辑门的符号和功能如表1所示。

表1 不同逻辑门的符号和功能Table 1 Symbols and functions of different logic gates

维修系统设备是提高系统可靠性常用方法之一,LTE-R系统大部分元件都具有可修复性,可靠性指标的计算与元件失效率和修复率有关。当多个元件故障可修复时,根据其失效率是否相同,设元件失效率λ和元件修复率μ均为常数且μ相同,Δt为元件修复时间间隔,分2种情况进行Markov状态分析如下:

1)失效率相同。假设2个元件失效率λ相同,存在e0、e1、e23种状态:e0状态表示2个元件和整个系统都处于正常状态;e1状态表示其中1个元件处于失效状态,但对系统无影响;e2状态表示2个元件都处于失效状态并导致系统失效。失效率相同时Markov状态转移过程如图5所示。其中,各状态之间箭头上的表达式为状态转移概率。

图5 失效率相同时Markov状态转移图Fig.5 Markov state transition diagram with same failure rate

由图5得到如下表达式:

Pe0(t+Δt)=Pe0(t)Pe0e0(Δt)+Pe1(t)Pe1e0(Δt)+

Pe2(t)Pe2e0(Δt)

(2)

Pe1(t+Δt)=Pe0(t)Pe0e1(Δt)+Pe1(t)Pe1e2(Δt)+

Pe2(t)Pe2e1(Δt)

(3)

Pe2(t+Δt)=Pe0(t)Pe0e2(Δt)+Pe1(t)Pe1e2(Δt)+

Pe2(t)Pe2e2(Δt)

(4)

对式(2)~式(4)求极限,得到矩阵如下:

[P′e0(t)P′e1(t)P′e2(t)]=[Pe0(t)Pe1(t)Pe2(t)]Q

(5)

其中,P(t)为转移概率矩阵,Q为转移强度矩阵。Q表示为:

(6)

2)失效率不同。假设存在2个元件,元件1失效率为λ1,元件2失效率为λ2,存在e0、e1、e2、e3、e45种状态:e0状态表示2个元件和整个系统都处于正常状态;e1状态表示元件1处于正常状态,元件2处于失效状态,系统处于正常状态;e2状态表示元件1处于失效状态,元件2处于正常状态,系统处于正常状态;e3状态表示元件1处于维修状态,元件2处于待修状态,系统处于失效状态;e4状态表示元件1处于待修状态,元件2处于在修状态,系统处于失效状态。当失效率不同时Markov状态转移过程如图6所示。

图6 失效率不同时Markov状态转移图Fig.6 Markov state transition diagram withdifferent failure rates

由图6得到如下表达式:

Pe0(t+Δt)=Pe0(t)Pe0e0(Δt)+Pe1(t)Pe1e0(Δt)+

Pe2(t)Pe2e0(Δt)+Pe3(t)Pe3e0(Δt)+

Pe4(t)Pe4e0(Δt)

(7)

Pe1(t+Δt)=Pe0(t)Pe0e1(Δt)+Pe1(t)Pe1e1(Δt)+

Pe2(t)Pe2e1(Δt)+Pe3(t)Pe3e1(Δt)+

Pe4(t)Pe4e1(Δt)

(8)

Pe2(t+Δt)=Pe0(t)Pe0e2(Δt)+Pe1(t)Pe1e2(Δt)+

Pe2(t)Pe2e2(Δt)+Pe3(t)Pe3e2(Δt)+

Pe4(t)Pe4e2(Δt)

(9)

Pe3(t+Δt)=Pe0(t)Pe0e3(Δt)+Pe1(t)Pe1e3(Δt)+

Pe2(t)Pe2e3(Δt)+Pe3(t)Pe3e3(Δt)+

Pe4(t)Pe4e3(Δt)

(10)

Pe4(t+Δt)=Pe0(t)Pe0e4(Δt)+Pe1(t)Pe1e4(Δt)+

Pe2(t)Pe2e4(Δt)+Pe3(t)Pe3e4(Δt)+

Pe4(t)Pe4e4(Δt)

(11)

对式(7)~式(11)求极限并化简后得到转移强度矩阵如下:

(12)

3 可靠性特征量定义

3.1 系统有效度

有效度是系统在某个时刻t正常运行的概率,通常用A(t)表示,是表征系统性能的重要指标之一。有效度分为瞬时有效度和稳态有效度。本文假设元件失效率λ为常数,各元件生命周期为指数分布。

定义1(瞬时有效度) 在某个时刻t,待修元件正常工作的概率为瞬时有效度,其与t时刻下元件状态有关,反映了该时刻下元件有效性[18]。瞬时有效度的表达式为:

(13)

定义2(稳态有效度) 在稳态条件下,系统达到相对稳定运行状态时的概率为稳态有效度,其表达式为:

(14)

其中,πi表示当系统在i状态时的概率,πi(i∈W)满足如下条件:

(15)

对于1个元件,其稳态有效度表示为:

(16)

当2个元件失效率相同时,系统的稳态有效度表示为:

(17)

当2个元件失效率不同时,系统的稳态有效度表示为:

A=π0+π1+π2

(18)

3.2 故障频度

定义3(故障频度) 故障频度指在[0,t]时间段内,系统发生的故障总次数除以总时间,用符号M(t)表示,其表达式为:

(19)

其中,πk(k=1,2,…,w)由式(15)计算得到,qkj为矩阵Q中的元素。

3.3 其他指标

定义4(平均开工时间) 平均开工时间(Mean Up Time,MUT)是系统在稳定状态下保持正常运行的平均时间。

定义5(平均故障时间) 平均故障时间(Mean Down Time,MDT)是系统在稳定状态下发生故障的平均时间。

定义6(平均故障间隔时间) 平均故障间隔时间(Mean Time Before Failure,MTBF)是系统发生多次可修复故障,在每次故障维修后正常运行的平均时间。

定义7(平均故障修复时间) 平均故障修复时间(Mean Time To Repair,MTTR)是系统从发生故障到完成修复故障之间的平均时间[15]。

在使用DFT模型计算时,将可修复系统动态故障子模块的MUT、MDT指标转换为MTBF、MTTR指标后进行迭代计算。各指标之间的关系可表示为:

(20)

(21)

4 计算结果与分析

由于目前国内LTE-R系统主要应用于朔黄铁路和京沈铁路试验段,在其他铁路干线应用较少,而朔黄铁路主要以货运为主,因此本文以京沈铁路试验段为研究对象调查LTE-R系统产生故障的原因。京沈铁路LTE-R试验段全长约170 km,从乌兰木图站出发,途经阜新站、黑山北站、新民北站到达沈阳西站。LTE-R系统失效主要由EPC、eNodeB、UE、车地之间无线传输链路等失效引起。在车地之间无线传输链路中,根据列车通信系统列控业务建立车地通信系统服务质量(Quality of Service,QoS)指标[19-21],该指标对列车运行的影响如表2所示。 其中,不同指标衡量因素不同,横杠表示该项指标参数不存在。

表2 QoS指标对列车运行的影响Table 2 Impact of QoS indexes on train operation

由表2可以看出,当列车在正常行驶状态下,影响列车运行的主要因素是无线链路中断和越区切换失败,其他因素对列车运行影响较小,在对系统可靠性指标进行计算时可忽略不计。结合LTE-R系统网络结构,运用DFT对LTE-R系统进行建模。根据文献[2,4]及大唐移动通信设备公司所提供的LTE-R系统设备失效率,对LTE-R系统单网、双网与RRU交织冗余结构可靠性指标进行对比分析。平均故障修复时间为0.5 h,LTE-R系统中不同设备失效率如表3所示。

表3 LTE-R系统中不同设备失效率Table 3 Failure rates of different equipments inLTE-R system

4.1 单网交织冗余结构可靠性指标计算

图7为单网交织冗余结构可靠性DFT模型框架。使用动态逻辑门描述各子系统的交互部分故障,图7中圆框表示底事件,方框表示顶事件或中间事件。其中,B1模块~B2模块、C1模块~C5模块为故障树底事件,B3模块~B4模块为故障树中间事件,A1模块为故障树顶事件。在该结构中系统故障主要由EPC、UE、RRU、BBU、越区切换及链路等失效引起。假设各设备修复率μ=2。在该模型中,交织冗余的BBU和RRU数量分别为1和6,不同RRU之间采用环型结构连接,光纤链路失效率为0。由式(2)~式(6)计算得到B3模块失效率为1.11×10-5,将该模型中所有设备失效率代入式(1)可得单网交织冗余结构失效率为3.15×10-5,稳态有效度为99.993 69%。

图7 单网交织冗余结构可靠性DFT模型框架Fig.7 Framework of DFT model for reliability of singlenetwork interleaved redundant structure

4.2 双网交织冗余结构可靠性指标计算

图8为双网交织冗余结构可靠性DFT模型框架。其中,C1模块~C4模块、C7模块~C8模块、D1模块~D6模块为故障树底事件,B1模块~B4模块、C5模块~C6模块为故障树中间事件。将LTE-R系统中不同设备失效率代入式(6)、式(15)和式(17)~式(21)得到:B1模块平均开工时间为1.44×1011h,平均故障时间为0.5 h,失效率为6.93×10-12;B2模块平均开工时间为1.00×1010h,平均故障时间为0.5 h,失效率为1.00×10-10。B3模块冗余子网A、B分别采用环型、星型结构,其RRU和BBU数量均分别为6和1,由式(2)~式(4)、式(11)计算得到冗余子网C5的失效率为1.11×10-9,冗余子网C6的失效率为1.30×10-9,按照上述计算方法得到B3模块的平均开工时间为6.81×1017h,平均故障时间为0.5 h,并分别作为平均故障间隔时间与平均故障修复时间代入式(1)进行迭代计算,得到双网交织冗余结构失效率为2.78×10-6,稳态有效度为99.999 86%。

图8 双网交织冗余结构可靠性模型框架Fig.8 Framework of DFT model for reliability of dual network interleaved redundant structure

4.3 RRU交织冗余结构可靠性指标计算

图9为RRU交织冗余结构可靠性DFT模型框架。其中,B2模块、C1模块~C2模块、C5模块~C6模块、D1模块~D4模块为故障树底事件,B1模块、B3模块~B4模块、C3模块~C4模块为故障树中间事件。由于RRU与BBU之间以环型结构连接,因此光纤链路失效率为0。EPC采用热备动态冗余方式,由式(2)~式(6)和式(17)~式(21)计算得到B1模块平均开工时间为1.44×1011h,平均故障时间为0.5 h。冗余子网A、B中RRU和BBU数量分别为6和1,由式(7)~式(12)计算得到冗余子网A、B的失效率均为1.11×10-9,由式(2)~式(6)、式(15)和式(17)~式(21)计算得到B3模块平均开工时间为9.00×108h,平均故障时间为0.5 h,并分别作为平均故障间隔时间与平均故障修复时间代入式(1)进行迭代计算,得到RRU交织冗余结构失效率为1.28×10-5,稳态有效度为99.997 44%。

图9 RRU交织冗余结构可靠性模型框架Fig.9 Framework of DFT model for reliability ofRRU interleaved redundant structure

4.4 结果分析

由表4可以看出,在双网交织冗余结构中,EPC、eNodeB和UE均为并行冗余结构,在eNodeB中RRU和BBU采用星型和环型结构,提高了网络可靠性,其稳态有效度在3种结构中最高,但该结构使用设备较多,会增加成本费用。此外,双网交织冗余结构以接入网为切入点进行冗余以增加系统可靠性,由于同站址双网交织冗余结构的2套基站在同一个站址中,而异站址双网冗余结构的网络中的2套基站安装在不同的地址,因此同站址的安装成本比异站址低。但如果2套基站在同一个站址中,则冗余的接入网在自然灾害发生时会出现故障,并导致该区域内无线网络停止服务,且同站址模式存在站址选择困难、设备安装成本高等问题。如果2个基站安装在不同站址,则不仅在一定程度上增加系统容灾能力,还能提升系统可靠性。单网交织冗余结构的稳态有效度比其他2种结构低,一旦EPC、UE和eNodeB等设备出现故障,将会引起网络瘫痪。此外,在单网冗余交织覆盖下,相邻两个小区切换处存在3个基站的信号,会产生乒乓效应增加、越区切换等问题,但单网交织冗余结构简单,且成本较低。RRU交织冗余结构的稳态有效度位于其他两种结构之间,该结构eNodeB中的RRU和BBU采用环型结构来保证网络可靠性,较单网交织冗余结构可靠性更高、系统更安全。

表4 不同网络结构的可靠性指标结果Table 4 Reliability index results of differentnetwork structures

5 结束语

本文提出一种基于动态故障树的LTE-R通信系统可靠性分析法。针对LTE-R系统单网、双网和射频拉远单元3种交织冗余结构建立可靠性DFT模型,采用Markov方法和二元决策图方法分别计算模型的静态和动态部分,根据计算结果得到整个系统的可靠性指标。分析结果表明:双网交织冗余结构可靠性最高,单网交织冗余结构可靠性最低。在未来LTE-R系统布网选择中,可根据铁路场景的不同要求选用相应冗余组网方式。随着LTE-R系统在铁路干线的全面运用,下一步将采用实测数据对其进行可靠性分析,以使结果更准确,同时还将结合铁路通信网络空间安全进行系统可靠性分析。

猜你喜欢

失效率交织元件
承压类特种设备受压元件壁厚测定问题的探讨
Archimedean copula刻画的尺度比例失效率模型的极小次序统计量的随机序
“新”与“旧”的交织 碰撞出的魅力“夜上海”
交织冷暖
深入理解失效率和返修率∗
基于改进龙格-库塔法反舰导弹贮存寿命研究
金融骗局虚实交织
中核北方核燃料元件有限公司
带扰流孔波纹板蓄热元件的分析
奥运梦与中国梦交织延展