APP下载

考虑抑制耦合关系的5G业务故障分析方法

2022-05-23吴祥蔚赵静萌

系统工程与电子技术 2022年6期
关键词:耦合概率逻辑

陈 琨, 黄 宁,2,*, 吴祥蔚, 赵静萌

(1. 北京航空航天大学可靠性与系统工程学院, 北京 100191;2. 北京航空航天大学可靠性与环境工程技术重点实验室, 北京 100191)

0 引 言

相较于传统系统,第五代移动通信(5th-generation, 5G)网络系统的特点在于能够在同一套基础网络设施上动态部署和运行多业务,而网络切片(network slicing, NS)、网络功能虚拟化(network functions virtualization, NFV)等新技术的应用,也使得5G业务相较于传统业务具有以下新机制:① 网络频谱资源的灵活重用机制;② 虚拟网元的按需调度和重分配机制;③ 配备“自治化”的边缘计算与本地管理控制平台。

这些网络设施、资源上的共用和自控机制也使得5G业务在发生故障时并不像传统业务一般,能满足独立失效假设,而是存在业务故障间的特定关联关系,本文称之为“耦合关系”。其中,抑制耦合作为5G网络系统中广泛存在的一类耦合关系,对业务的可靠与否具有重大影响。“抑制耦合”概念最早出自生理学,用以描述“当支配肌肉的运动神经元受到传入冲动的兴奋,而支配其拮抗肌的神经元则受到这种冲动的抑制”的生理活动现象。对于5G业务故障而言,这种耦合关系描述了业务故障间此消彼长的负相关关系。当若干个业务故障间存在抑制耦合关系时,其中一个业务的功能或性能下降会带来其他业务的功能和性能的同步增长,这种此消彼长的关系可能由以下原因产生:

(1) 业务本身的逻辑关系所带来的故障间抑制耦合。如由于早期的长期演进(long term evolution, LTE)网络取消了电路交换域(circuit switching domain, CSD),因而不支持语音业务,在有电话业务接入时系统会自动断开4G信号,回落到2G/3G网络完成语音通话。这个切换时间在2 s左右,因而在信号切换的时间里,用户的上网业务断开。在后续的通话业务过程中,用户的上网业务会降级。在5G的初期商用阶段,在部分偏远地区仍然存在通过回落到2G/3G来完成语音通话的现象,即同样存在通话业务的调用会抑制上网业务正常运转的情况。

(2) 由于5G业务间对某类网络构件或网络资源的调用关系带来的故障间抑制耦合。如当两个处于同一网络环境下的用户需要同时通过一个客户前置设备(customer premise equipment, CPE)向5G基站传输信号时,他们之间存在对网络基础设施的同时共用,从而其业务故障间存在抑制耦合关系。上述两个传输业务会对网络基础设施的共用带来如下结果:当两个业务都处于正常状态时,两个业务在传输时可能会带来意料之外的延迟,从而使得两个业务都因为不能按时交付而故障。当其中一个业务由于终端设备故障等原因无法对网络基础设施进行调用时,另一个业务则能够从中获益,从而在规定的时间内完成业务请求。

(3) 业务调用的构件本身带来的故障间抑制耦合。在“5G+远程控制”业务场景中,底层电气设备工作时会产生电磁干扰(electromagnetic interference, EMI),体现在骚扰源设备由于电磁感应产生共模电流和差模电流,这些干扰电流对其周边一定范围内的敏感设备产生影响,使得敏感设备的性能降级甚至功能失效。

传统意义上的故障分析方法包括可靠性框图(reliabi-lity block diagrams,RBD)和故障树分析(fault tree analysis, FTA)方法。其中RBD通过方框和连线来表示构件单元间的物理连接关系,基于此来估算系统的可靠与否;传统FTA包括故障树建模、故障树定性分析、故障树定量评估3个方面。通过逻辑门来表征构件间的逻辑关系。总之,上述传统故障分析方法对系统故障的考察多基于底层设施之间的调用关系,其故障逻辑相对简单且假设底层构件独立失效,无法描述业务故障间的相互影响关系;后续的动态FTA (dynamic FTA, DFTA)对传统故障树进行拓展,并可以支持表示组件之间的动态依赖关系。动态逻辑门允许对序列依赖关系(优先与门,PAND)、功能依赖关系(功能相关门,FDEP)以及备用管理和分配(冷备件门,CSP)进行建模。可以看到DFTA中动态逻辑门已经对构件的功能逻辑以及顺序逻辑作了相应的考虑。但由于动态逻辑门中仅对特定故障模式进行描述,其故障模式中忽略了对抑制耦合的描述,因而动态故障树在应用于存在抑制耦合的业务故障分析时,同样无法有效描述其故障逻辑。除此之外,自20世纪 60 年代以来,各界学者先后提出描述共因失效的模型与方法,如-因子模型、BP(basic parameter)模型、MGL(multiple greek letter)模型、-因子模型以及平方根模型。共因失效分析拓展了底层故障输入的相关性,描述了由特定的单一事件引发若干个部件同时失效的情况,并通过共因失效组来对这种相关性进行建模分析。但共因失效分析本质上描述的是构件间“一损俱损”的故障逻辑,而抑制耦合与之相反,是故障间“此消彼长”的逻辑,因而共因失效也无法用于描述业务故障间的相互抑制关系。

综上,5G网络系统业务故障之间存在抑制耦合,以致同样基础设施网络上的业务故障受抑制耦合关系影响而更为复杂。但当前的故障分析方法并不能对抑制耦合进行有效的描述。当前缺乏一种能够有效分析抑制耦合关系影响下业务故障的方法。

针对上述问题,本文提出了考虑抑制耦合关系影响的5G网络业务故障分析方法。其中的抑制耦合关系是指业务故障间的一类特殊的相互影响关系,体现了业务故障间此消彼长、相互抑制的关联关系,极大程度上影响着业务的运行情况。我们把传统故障分析方法无法描述的抑制耦合关系作为建模的重点。为此,我们首先明确了抑制耦合关系的含义、符号以及特征。进一步在传统故障树的基础上扩充对抑制耦合关系的描述,提出了耦合FTA,并基于耦合FTA实现了对考虑抑制耦合关系影响的网络系统业务故障的分析研究。通过5G 轮胎吊(rubber-tyred container gantry crane, RTG)案例分析,验证了该方法在工程实际中的适用性。

1 抑制耦合关系分析

为了区别于传统构件故障,首先给出业务故障的定义如下:

业务故障为网络系统层面上单个或多个业务功能无法满足用户需求的状态。相较于传统故障,业务故障更加关注系统层面网络业务提供的服务状态变化,其不再发生在具体的某一构件上,而是多构件故障复杂动态耦合产生的系统级故障。根据其故障所在业务层级的不同可以进一步划分为顶层业务故障、子业务故障、业务中间件故障以及叶子级业务故障,这里描述的业务故障层次是逐层降低的。

进一步给出业务故障间独特的抑制耦合关系的定义。

抑制耦合关系是业务故障间的一种特定相互影响关系,由于业务对网络功能的动态调用而产生。表现为其中一个业务的故障状态变化一定概率上会引起与其存在抑制耦合的业务的同步且异向的故障状态变化。

业务故障由于其抑制耦合特征导致前一个子业务的完成好坏会一定程度地影响后一个子业务的完成,其原理类似于传统工业生产中的“紧前”、“紧后”工序。本文中的抑制耦合关系表示方法如图1所示。

图1 抑制耦合关系符号

一个耦合关系包括如下元素:

(1) 一个触发业务故障(可能是一个基础事件或其他逻辑关系的输出事件);

(2) 一个或多个从属业务故障;

(3) 一个从触发业务故障指向从属业务故障的连接。当该连接为有向连接时,其箭头代表着抑制耦合的方向;当该连接为无向连接时,代表着抑制耦合关系没有方向(即对耦合关系连接的两个业务产生同步影响)。

从属业务的故障在逻辑上依赖于触发业务的故障,当触发业务发生故障时,其故障将对从属业务产生影响,这种影响体现在从属业务故障概率的变化上。

当一个业务故障同时受多个耦合关系影响时,它同时担任了耦合关系中的触发业务故障以及从属业务故障,这时候我们称之为中间业务故障,如图2所示。

图2 涉及中间业务故障的抑制耦合关系符号

2 耦合FTA

FTA是从故障角度出发研究系统与构件之间故障关系的逻辑图,是系统各层业务及其可靠性意义下连接关系的图形表达,表示各层业务的正常或失效状态对顶层业务状态的影响。FTA依靠逻辑门和连线的布置,绘制出系统的特定部分发生故障时对系统输出事件(通常为顶层业务故障)发生与否的影响,来显示系统的失效逻辑,进而分析系统中每一个成分的失效率对顶层业务的影响,以帮助评估顶层业务的可靠性。传统FTA只考虑了以构件故障及其映射为代表的构件-单元-系统层面的分析,缺乏对同层事件间相互影响因素的考虑。然而,针对复杂的网络系统,同层事件间的相互影响同样也会导致顶事件故障概率的变化,也使得在分析系统可靠性时同样需要对同层事件间的故障逻辑进行分析。因此,我们在传统的FTA的基础上,将故障分析的对象由构件(包括软硬件)故障扩展到调用系统功能的业务故障,而将传统的构件故障间的串并联关系扩展到业务故障间的映射关系,并提出基于耦合关系来分析同层业务间的故障逻辑。

耦合故障树定义了系统中各故障(包括上下层以及同层故障)的逻辑交互,不仅能够兼容传统的FTA,同时可以弥补FTA只反映各个构件故障之间的串并联关系的不足,支持更为复杂的业务间的故障关系,从而更完整和真实地帮助评估顶层业务对象的可靠与否。

2.1 耦合故障树定义及符号

为了从可靠性的角度,更加直观地表达网络中各业务故障之间的相互关系及业务故障间的相互关系对业务可靠性的影响。我们在传统的故障树分析的基础上,提出耦合故障树的概念,将业务故障间的抑制耦合以规定的符号形式加载到故障树上,用以描述同层故障间的关联关系,从而使得原本的故障逻辑由于抑制耦合关系的补充而得到进一步拓展。

所涉及元素的基本定义如下:

事件:对网络系统业务及其子业务、中间件业务状态的描述。包括业务正常(业务或子业务等能够完成规定功能,从而满足用户需求)和业务故障(业务或子业务等不能完成规定功能,从而不能满足用户需求)。在耦合故障树中,事件发生(故障),用逻辑值1表示;事件不发生(正常),用逻辑值0表示。

底事件:位于耦合故障树最底层的事件,是某个逻辑门的输入事件。

顶事件:位于耦合故障树顶端的事件,即系统不希望发生的顶层业务故障。

逻辑门:描述上下层事件之间故障关系的逻辑符号,包含例如“与门”、“或门”、“非门”等经典FTA方法中的逻辑门。

耦合关系:描述同层事件间逻辑关系的逻辑符号。包含“单向抑制耦合”和“交互抑制耦合”两种耦合关系,如表1所示。

表1 耦合故障树中的新增符号

分析步骤如下:

分析业务系统的结构和工作原理。广泛收集系统业务的设计、业务运行资料、业务流程图、设备技术规范和描述系统有关状态的技术数据。

选择和确定顶事件。通常为顶层业务故障。

寻找引起顶事件发生的直接原因。通常为子业务故障,将顶事件作为输出事件,将所有直接原因作为输入事件,根据事件间的逻辑关系,用适当的逻辑门来连接输入事件。

分析每一个与顶事件直接相联系的输入事件,即子业务故障,如果该事件还能进一步分解为更下一层的子业务故障,则将其作为下一级的输出事件(子模块的顶事件)。

重复步骤4,逐级向下分解,直到所有的输入事件不必再分解为止。此时可建立起针对顶事件的树形结构故障逻辑图。

基于本文对抑制耦合关系的定义和分类,逐步分析步骤5中同层故障间的耦合关系。

当所有层的抑制耦合关系都分析完成,将耦合关系符号加入FTA中,从而将树状的故障逻辑进一步扩充。

2.2 基于耦合故障树的业务故障解析评估

2.2.1 同层的业务故障解析评估

本文采用结构因果模型(structural causal model, SCM)来表达一个业务通过耦合关系对另外一个业务的影响,这种影响本身就是带有因果性的。

(|=,do(=))

(1)

式中:是一组观察到的已知变量;是观测到的的值。综上,一个SCM估计(|=,do(=))的方式为:完成对原有模型的介入do(=)之后,得到一个新的模型。随后,在新的模型上估计由业务故障带来的业务的故障概率。

基于业务故障间抑制耦合关系,将业务故障耦合关系的分析结果应用于同层业务故障的分析过程中,具体在于:对于处在同一业务层次的某一业务故障概率,其数值上等于该业务先验故障概率与耦合关系影响下的故障概率的加总。例如,对业务而言,其受到耦合影响后的故障概率为

′(=1)=(1-)(=1)+∑(=1|=,=1)

(2)

式中:是耦合强度调和因子;=1表明与业务具有耦合关系的业务处于故障状态。

222 上下层业务故障解析评估

对于特定业务系统而言,当我们通过如上方法得到每一层的受耦合关系影响后的业务故障概率时,我们采用布尔运算来定义其不同层业务故障间的计算方式。

AND:所有子业务都发生故障,上层业务才发生故障。其布尔运算表达式为

=∩∩…∩

(3)

OR:只要有一个子业务发生故障,上层业务就发生故障,其布尔表达式为

=∪∪…∪

(4)

因而,对于AND连接的上下层业务而言,其上层业务故障概率的计算方法如下:

(5)

对于OR连接的上下层业务而言,其上层业务故障概率的计算方法如下:

(6)

可以看到,相较于传统FTA,基于耦合故障树的业务故障分析方法存在以下几点优势:

(1) 传统FTA仅由上往下进行演绎式失效分析,而本文所提的耦合故障树不仅可以支持自上而下的失效分析,也可以支持对同层间的故障相互影响关系的分析和量化。

(2) 传统FTA仅利用布林逻辑组合低阶事件,分析系统中不希望出现的状态。因而传统故障树分析事故原因是强项,但应用于原因导致事故发生的可能性推测是弱项。而本文所提的耦合故障树则可以支持采用条件概率的组合及结构因果模型来表达故障之间存在因果性的相互影响。这无疑更能够较好地刻画真实的故障因果逻辑。

(3) 传统FTA往往是针对一个特定事故作分析,而不是针对一个过程或设备系统作分析,因此具有局部性。而本文所提耦合故障树提出以“耦合关系”来描述同层部件之间的故障间相互影响,使得故障树能够支持复杂系统各同级部件之间的故障关联关系的描述,并以“抑制耦合”为重点来完善其定义及计算。这一定程度上能够支持故障树方法在更顶层的系统级故障分析时的应用。

3 案例分析

3.1 案例系统描述

为适应自动化码头的发展趋势,上海洋山港口进行了RTG 5G 远控改造验证。通过在洋山冠东码头部署中国移动 5G 虚拟园区网,保证远控业务的低时延、高可靠要求。经过改造,目前主要在1 500 m的区域内架设了3个5 G基站,来实现对区域内约50台RTG的自动控制。平均每个操控人员能控制4~6台RTG。一台RTG配备2个并行工作的客户端设备CPE,以及2个备份CPE,共4个。一台RTG可能会负责多个堆场。从CPE到基站为一跳传输,即CPE直接连接基站。一个基站可以同时支持约3台RTG的信号传输。

完整的基于5G网络系统的RTG远程操控业务中包含以下5个子业务: 大车就位、小车空载、吊具抓箱、小车负载、吊具放箱。上述子业务都有着相似的业务调用流程,如图3所示。其中,,,…,是采集终端,负责现场视频信号的收集,终端信号收集完成后,经由编码器编码后通过CPE(此案例为CPE1/CPE2的备份冗余)连接到基站经由5G骨干网、核心网传输至远端控制中心,经由中心内部交换机及解码器处理后在控制台终端进行显示,由操作人员根据视频信号通过控制端可编程控制器(programmable logic controller, PLC)发出控制指令,控制指令同样经由解码器、交换机后连接到5G网络,通过基站间的信号传输最终到达现场,经由CPE接收、解码器解码后传达到现场设备端PLC进行作业。

图3 业务调用流程

在洋山港5G RTG应用场景中,管道提供商首先需要论证5G RTG业务的可靠性。通过计算其业务故障概率,并与标准值进行对比来进行分析。若业务故障概率小于标准值则可以认为5G RTG满足要求。而在故障概率的计算过程中,如何考虑并发多RTG业务间的相互影响关系成为重点,也是其难点所在。

3.2 案例故障概率计算

我们以RTG业务故障为业务层顶事件,通过基于先验经验的迭代,逐层向下分析得到5个子业务故障、并以Sa1-1,Sa1-2,Sa1-3,Sa1-4,Sa1-5分别代表大车就位故障、小车空载故障、吊具抓箱故障、小车负载故障、吊具放箱故障。其中,由于5个子业务在业务逻辑上的相似性,分析大车就位子业务的业务故障逻辑,而对其他4个子业务故障不再做额外的分析。对于大车就位子业务,我们继续向下分解得到业务中间件故障。以Sa1-1大车就位子业务故障为例,对大车就位子业务中的视频信号上传和控制指令下传两个关键步骤进行分析,得到Am2-1:Cloud Vision业务中间件故障(为5个子业务重复调用的一个具体的视频信号上传业务所对应的故障);Am2-2:移动控制业务中间件故障(为5个子业务重复调用的一个具体的控制指令下传业务所对应的故障)作为两类典型中间件故障类型;同样地,由于两类业务中间件故障逻辑上的相似性,为了简化过程,这里对除了Am2-2之外的业务故障不再做额外的分析。

以Am2-2继续向下分解得到如下7个叶子级业务故障,包括 M1(控制台故障)、M2(控制端PLC故障)、M3(编码器故障)、M4(交换机故障)、M5(5G基站-CPE无线传输故障)、M6(解码故障)、M7(设备端PLC故障)。

在对RTG业务故障分析分解完毕后,从定性的角度分析其业务故障间可能存在的抑制耦合关系。

(1) 对于叶子级业务故障而言,由于M2和M7对应的均为PLC设备,且PLC工作时会对周边设备产生强电磁干扰,一定程度上会使得同一电箱内的编码器、解码器的性能降级甚至功能失效。

(2) 对于业务中间件故障而言,虽然Am2-1、Am2-2对叶子级业务调用顺序正好相反,但它们之间同样存在对叶子级业务共同调用,这种对某类网络构件或网络资源的共同调用关系,会带来故障间的抑制耦合。

(3) 对于子业务故障而言,本案例中的Sa1-1、Sa1-2、Sa1-3、Sa1-4、Sa1-5之间具有明确的时间先后顺序,即只有当第一步大车就位正常之后,才会继续进行小车空载等子业务。因此,对于单RTG业务场景而言,其对应的子业务故障由于时序关系并不直接存在抑制耦合关系;而对于多RTG业务场景而言,由于不同的RTG在作业时并不完全同步,因而其对子业务的调用顺序并不具有明确的时序关系。特定时刻下,这些子业务故障间可能会存在抑制耦合关系。

假设在分析业务层的故障逻辑之前,已经获取到了包括M1~M7在内的7个叶子级业务的独立故障概率, 如表2所示。

表2 叶子级业务故障概率

基于前期RTG业务运行故障数据的积累,可以给出部分业务故障发生的CPT条件概率分布表,表3仅列举了条件概率与初始概率不同的情形,对于未在此列出的条件概率,其条件概率与初始概率均相同。

表3 条件概率表

应用本文中的同层业务故障分析,结合初始统计数据来分析业务故障间是否存在抑制耦合关系,得到其耦合故障树,如图4所示。其中层次1为业务层顶事件故障,层次2为子业务故障,层次3为业务中间件故障,层次4为叶子级业务故障。

图4 5G RTG 耦合故障树

按照本文提出的方法逐一计算由抑制耦合关系带来的故障概率的变化。以存在抑制耦合的M2~M4为例。由后门准则的定义可知,图4中路径集合均满足SCM中的后门准则,因而

(=1|do(=1))=(=1|=1)=0006

(7)

此时,M3受抑制耦合关系影响后的故障概率为

′(=1)=(1-)(=1)+(=1|do(=1))=09×001+01×0006=0009 6

(8)

式中:取值在[0,1],这里取=01。同理,可根据故障树逻辑逐层向上计算,最终得到顶层RTG业务故障发生概率。

(9)

3.3 影响规律分析

(1) 与不考虑抑制耦合影响所得到的故障概率相比,考虑抑制耦合的顶事件发生概率的相对误差为

(10)

由计算结果可以看出,对于5G RTG 远程控制这种可靠性和安全性至关重要的业务场景来说,若不考虑抑制耦合的影响,则得到的故障分析结果误差显著。这说明抑制耦合对RTG业务故障的发生具有显著的影响,如果在5G RTG远程控制业务的设计、分析和运行中不考虑这种影响,将会误判事故发生的概率,从而造成经济上和安全上的损失。

(2) 通过选取不同的耦合强度调和因子的值,来比较其故障概率变化情况。

在不同的耦合强度因子下,5G RTG业务故障概率的取值会随之发生变化,该概率对于衡量5G RTG业务可靠与否具有重要价值。这一部分进一步通过仿真研究了不同耦合强度调和因子与5G RTG业务故障发生概率的取值间的关系。

基于当前案例中的耦合RTA结果,底层叶子级业务故障的发生概率不变,其耦合强度调和因子由0变化到1时,对顶事件发生概率的影响如图5所示。

图5 耦合强度调和因子影响

可以看到,随着耦合强度调和因子的增大,从属业务故障的概率越发受到抑制耦合的影响,从而导致RTG业务故障的概率不断减小。即对于特定业务而言,随着耦合强度调和因子的增加,故障间的抑制耦合关系在一定程度上反而会使得业务的不可靠度降低。

4 结 论

5G技术对频谱资源、底层物理资源等的灵活重用使得其业务故障逻辑中不可避免地出现大量的抑制耦合(源于业务对公共资源的排他式调用)。耦合关系的出现使得业务故障机理更为复杂,从而极大程度上影响业务的交付质量。当前尚无能够直接针对这种5G业务及其故障间耦合关系进行分析和评估的方法。

为了量化这种抑制耦合关系对业务故障的影响,本文给出了对抑制耦合关系的符号化描述和定性分析,并在传统FTA的基础上,增加了对同层业务故障间抑制耦合关系的考虑,进一步提出了耦合故障树,从而实现了对抑制耦合关系影响下的业务故障的定量计算。通过对5G RTG案例的影响规律分析,证明了抑制耦合关系对业务故障的发生与否具有显著影响:与不考虑抑制耦合关系相比,考虑抑制耦合关系的顶事件发生概率要减少6.31%。同时进一步分析了在不同耦合强度调和因子影响下的业务故障概率。证明了本方法在完成网络系统业务故障分析的同时,能够实现对同层业务故障耦合关系的描述,进而将传统的树状故障结构进一步扩充。通过量化分析业务故障间的抑制耦合关系,能够促进对故障发生的成因和故障之间的相互影响关系的深入研究。进一步为后续通信网络乃至其他基础网络的业务可靠性设计与优化提供了理论基础。

猜你喜欢

耦合概率逻辑
刑事印证证明准确达成的逻辑反思
基于增强注意力的耦合协同过滤推荐方法
概率统计中的决策问题
概率统计解答题易错点透视
擎动湾区制高点,耦合前海价值圈!
逻辑
复杂线束在双BCI耦合下的终端响应机理
创新的逻辑
概率与统计(1)
概率与统计(2)