基于SOM和关联规则的民机运行风险
2022-11-30熊明兰王华伟倪晓梅蔺瑞管
熊明兰,王华伟,倪晓梅,蔺瑞管
(南京航空航天大学 民航学院,南京 211106)
随着中国国产大飞机项目的不断推进,C919已取得中国民航局适航认证,ARJ-21已进入持续载客运营阶段,对民机系统的安全保障能力提出了更高的要求。认知运行风险的基础是数据,但民机作为特高安全性和可靠性系统,难以采集到直接的事故信息,两者之间的矛盾更增加了运行风险分析的难度。因此,为及时识别安全风险,实现安全关口前移,就有必要从事故数据中充分挖掘出有价值的风险信息。
事故分析是实施危险识别和安全管理的基本前提。重大民机事故(major civil aircraft accidents,MCAA)的发生往往不是单一风险因素导致,而是多种风险因素的耦合。通过对风险因素的有效识别,可以反映出民机在运行过程中存在的安全问题,实现事故预防及风险管控[1]。相关学者从不同角度研究了如何准确认知安全风险。Imai等[2]分析了传感器数据错误对飞行安全的影响,并提出使用容错数据流处理可以减少传感器软件错误的风险。Kelly和Efthymiou[3]对50次飞机受控飞行进入地形进行分析,强调人为因素是受控飞行进入地形事故的重要原因。Pan等[4]提出一种多分类信息融合方法对结构性风险进行评估,为结构的健康状况及关键风险因素的深入分析提供了方案。Chen等[5]在概率基础上对设备故障进行风险评估,所提出的方法可在紧急情况下为设备提供早期预警。董雷霆等[6]提出可以结合数字孪生技术,对飞机的结构疲劳风险进行管控。
随着数据可用性和计算能力的提高,越来越多的学者采用可视化数据挖掘的方法[7]对事故进行研究。Moura等[8]将人工神经网络方法用于重大事故数据集分析,提出从事故中学习、增强事故沟通风险的方法。余冠华[9]基于人工智能中的自组织映射方法分析了事故的规律及关键致因,并提出相应的改进措施。Zaranezhad等[10]通过集成人工神经网络、模糊系统和元启发式算法,提出了用于早期事故预测的最佳模型。Asgary等[11]开发了一种简单新颖的飞机风险地图,为深度调查飞机坠毁原因提供基础。李哲等[12]通过对飞行安全参数进行风险预测,借助仿真手段为事故演化提供了可视化的分析方法。Zhang等[13]利用深度学习的方法对事故进行分析和提取特征,进一步提高了事故检测的准确性。
重大民机事故的风险信息分散在不同来源的文本、视频、音频等非结构化数据资料中,不利于风险信息的准确获取。以上方法为重大民机事故的研究提供了一定的方法和技术,但不利于增强对民机运行风险信息挖掘的研究,也不利于提高其可读性和解释性,不能快速有效的传输相关风险信息。
本文通过分析收集到的MCAA数据,针对民机运行特点,改进认知可靠性和失误分析方法(cognitive reliability and error analysis method,CREAM),得出MCAA的40个风险因素。提取的40个风险因素系统、全面地表征了民机运行过程中的风险致因,通过逆向挖掘运行风险的深层次特征,探知导致事故的根本原因,实现事故的预防。构建的MCAA多属性技术数据集作为模型输入空间样本,实现非结构化数据与结构化数据的转换,结合自组织映射(self-organizing maps,SOM)模型输出民机运行事故2D聚类地图,使得风险因素有效集成,以更直观的方式对民机运行风险进行分析与控制,同时利用关联规则(association rule,AR)识别出各风险因素间的影响及关联关系。研究结果表明,本文所提出的方法可以直观、快速的传递民机运行风险信息,深入解析风险要素间的关联关系,挖掘风险致因间的演化规律,为民机运行风险研究提供一种新的技术和手段。
1 基本方法
1.1 MCAA-CREAM模型
美国学者Hollnagel提出了CREAM的概念[14],用于事故案例原因调查和预测可能发生的不安全事件,为大多数工业领域事故风险因素的调查提供了有效途径。然而,现有的CREAM是一种通用模型框架,考虑到民机运行具有区别于一般领域的自身特性,直接将CREAM运用到民机运行风险因素分析的效果并不理想,因此需针对民机运行特点对其进行改进。
通过分析收集到的MCAA数据,并结合民机运行的风险理论及特殊性,对原有的CREAM进行事故因素的删除、增加等修改,得到适合民机运行风险研究的MCAA认知可靠性和失误分析方法(major civil aircraft accidents-cognitive reliability and error analysis method,MCAA-CREAM)模型。设计出的模型保留了原有CREAM的3个经典组别:人、技术、组织,如图1(a)~(c)所示。图中白色框图表示原有CREAM存在的因素,灰色填充框图表示增加的因素,虚线框图表示与原有因素功能相近的类别,删除的因素没有在模型中体现。
图1 MCAA-CREAM模型Fig.1 MCAA-CREAM model
1.2 SOM模型数据挖掘流程
数据挖掘的目的是揭示事故的通用结构及重要特征。SOM模型是一种包含无监督学习的过程[15],可通过训练学习[16]将高维数据转化到低维空间,并保留数据的拓扑结构[17]。将SOM模型用于事故分析[18],可以更加直观地展示事故数据信息。其算法原理[19]由以下4个步骤组成:
1)初始化和归一化。对所有权向量进行随机初始化,设η(0)为初始学习率,r(0)为初始邻域半径。
2)竞争。通过欧氏距离式(1)可以寻找获胜的输出神经元节点j*,其权向量对应记为wj*。
式中:xi=(xi1,xi2,…,xim)为输入向量,设有m个样本;wj=(wj1,wj2,…,wjn)为各神经元对应的权向量;d(t)为计算出的距离。
3)合作。得到获胜神经元后,使用领域函数Nj*(t)定义相邻神经元的最佳匹配单元,通常是高斯函数方程,如下:
式中:η(t)为学习率;r(t)为邻域半径。
4)适应。由于η(0)、r(0)的初始值较大,输出的结果并不好,而在SOM模型适应过程中,所有相邻神经元的权重都将按顺序更新,η(t)与r(t)不断衰减。通过不断迭代,地图会逐渐收敛,同时神经元根据权向量wj逐渐趋于聚类中心,规则如下:
其中,学习率η(t)随时间的推移逐渐减小,如下:
1.3 民机运行风险关联规则
关联规则可以挖掘事故风险之间的耦合关系[20],识别数据中一些关联性较强的规则。目前的关联规则算法主要采用支持度和置信度作为评价指标[21],而由于在MCAA事故数据集中特别重大事故数据占比较少,且大多为军机击毁、劫机等意外情况,事故致因单一,因此,将此关联规则方法运用到MCAA数据集时发现往往会得到一些无效甚至错误的强关联关系。为解决这一问题,采用考虑提升度及事故等级间权重差异的关联规则方法[9]。
需要指出的是,民机运行相较于其他运输方式更容易受到天气等不可控环境的影响,风险机制更加复杂,产生的事故影响及逃生可能完全不同。尤其是人为因素,往往受到组织因素的影响;同时又与其他因素发生耦合机制及动力学机制。将SOM方法和关联规则应用到民机运行安全研究中,能从纷繁复杂的多因素致因机制中,挖掘出潜在的深层次特征,有效识别风险,提升安全风险控制的精准性。充分考虑了民机所特有的风险致因因素,关注在民航安全风险表征的基础上挖掘深层次风险特征,改进后的模型对民机运行安全的研究更具适用性,为民机运行风险研究提供一种新的思路。
设I={i1,i2,…,im}为项目集合,D={t1,t2,…,tn}为聚类后的MCAA事故数据集,由多个事故组成,每个事故ti(i=1,2,…,n)均包含项集I中的一项或者若干项,满足ti∈I,风险因素A与风险因素B之间的关联规则表达形式为A→B,其中A,B∈I且A∩B≠∅。将重大事故等级权重设为1,特别重大事故等级权重设为2,则事故数据集D中的事故对应等级权值为W={w1,w2,…,wk,…,wn},wk∈[1,2]且wk为整数。A的加权支持度为所有包含A的事故ti对应的等级权值wi之和除以事故数据库中所有事故对应的等级权值之和。相关等式如下:
式中:Ws为加权支持度;Wc为加权置信度;Wl为加权提升度。设Wmins为最小支持度,Wminc为最小置信度,若在事故数据库D中,Ws(A→B)≥Wmins,Wc(A→B)≥Wminc,则A→B为 强 关 联规则。
2 基于SOM和关联规则的民机运行风险研究算法设计
2.1 重大民机事故多属性技术的数据集构建
根据改进的MCAA-CREAM模型,对收集到的MCAA进行数据处理和信息提取。在1.1节中,将民机运行风险因素分为7个技术风险因素,19个人为风险因素,14个组织风险因素,共计40个民机运行风险因素特征。利用上述40个风险因素对241个案例进行分析,形成241个案例样本、40个风险因素的特征矩阵,将这一矩阵称为重大民机事故的多属性技术事故(major civil aircraft accidents-multi-attribute technological accident,MCAA-MATA)数据集,记为M,其表达式为
该数据集能清晰的描述所有收集到的MCAA案例及其风险因素特征,为后续的可视化数据挖掘提供了基础。
2.2 基于SOM和关联规则的民机运行风险研究算法流程
基于SOM和关联规则的民机运行风险研究算法流程如图2所示。其算法流程如下:
图2 基于SOM和关联规则的民机运行风险研究算法流程Fig.2 Operational risk algorithm of civil aircraft based on SOM and AR
1)结合MCAA-CREAM模型将收集到的MCAA非结构化数据转化为结构化数据,形成MCAA-MATA数据集M。
2)根据1.2节中的SOM模型数据挖掘流程,将数据集作为样本输入,经过多次迭代计算最终得到民机运行事故聚类结果。
3)针对得到的每一聚类结果,根据1.3节中计算各聚类类别中风险要素的关联规则,通过计算候选项集、频繁项集、加权支持度、加权置信度以及加权提升度得到有效的强关联规则。
3 实例分析
数据主要来源于:美国联邦航空管理局(FAA)、美国航空安全网官方网站(ASN)、航空安全报告体系(ASRS)。根据国际民航组织(ICAO)对事故的定义,选取的MCAA均为民机重大事故及以上的案例,发生时间为1972年12月—2020年1月,共 计241个MCAA案例。
3.1 聚类结果
民机运行风险的SOM模型是通过相似性将MCAA进行聚类,事故越相似,在输出空间中的位置就越接近。利用Viscovery SOMine®软件,为了保证算法的收敛性,通过多次训练,当高斯领域半径设为0.5,学习率为0.5对样本进行训练时,学习率和优胜邻域值都随着迭代次数增加而不断减小,算法逐渐收敛,映射结果良好。可将241个MCAA事故案例分为3类(C1,C2,C3),以可视化的图形形式增强风险因素的可读性。如图3所示,显示了输入空间[数据集M(241×40)]在输出空间2D地图中的可视化表示。
图3 2D聚类地图Fig.3 2D cluster map
为验证聚类的可靠性,Viscovery SOMine®软件提供了聚类质量指标直方图,通过为每种可能的聚类安排一个索引来对可能的分组进行分类。如图4所示,当群集聚类结果为3时,其质量指标最高为73,表示其解释更具有可靠性,因此选取3个聚类对民机运行风险因素进行聚类分析。
图4 聚类质量指标Fig.4 Cluster quality indicator
在此聚类条件下,数据频率和量化误差会均匀分布在整个地图上,表明网络训练映射效果良好。对MCAA的聚类基本信息进一步分析,可得表1所示的聚类信息结果。
表1 聚类特征Table1 Clusters feature s
类别C1包含111个MCAA,占比最大,为46.06%。事故风险因素在1~12个之间波动,平均风险因素为5.16个,中位数为5,在该类别中多数案例包含风险因素为4个。
类别C2包含93个MCAA,占比38.59%。风险因素在1~12个之间波动,与类别C1不同的是,该类别中事故平均风险因素为3.67个,中位数为3,多数事故包含风险因素为2个,表明该类别中的事故风险因素较为分散。
类别C3包含37个MCAA,占比15.35%,是最小的类别。事故风险因素在3~15个之间波动,案例平均风险因素为8.5个,中位数为8,在该类别中多数事故包含风险因素为7个与8个,是3个类别中包含风险因素最多也是最集中的类别。
3.2 聚类解释
图3显示了具有相似特征的MCAA在地图中的分布结果,表2为数据集M中各个风险特征聚类的统计结果。经过分析,3个类别具有鲜明的风险水平特征,主要体现在风险致因因素的明显区别上,这3种风险致因因素对事故的作用机制、致因规律与表现形式上均有所不同:
表2 风险特征聚类统计结果Table2 Characteristic clustering statistical results of each risk factor
1)在类别C1中,主要以组织因素为主,其中由于不利天气/地形(60.40%)引起的MCAA占主导因素。此外,在C1类中,还严重受到运营人管理问题(35.10%)及飞行员技能/知识不足(32.40%)的影响。从技术角度看,设备故障(18.90%)是主要原因;人为因素中飞行员决策错误(29.70%)、分心/粗心(28.80%)也是重要的风险原因。
2)类别C2中,技术因素中的设备故障(40.09%)及设计缺陷(39.80%)是该类别的首要风险因素。管理问题(38.70%)及质量控制不足(35.50%)并列为第二大风险影响因素;该分类主要考量技术原因包括鸟击/军机击毁/劫机等意外情况(31.20%)。
3)类别C3中最突出的是人为组织原因,如管理问题(73.00%)、团队支持不足(67.60%)、任务分配不足(62.20%)。此外,人为因素在该类别中也占有很大影响,如认知方式(56.80%)、没有按手册执行(48.60%)、心理/精神压力(43.20%)。
3.3 主要风险要素分析
对MCAA进行重新组织以地图形式呈现时,主要以事故案例中的风险因素相似性进行聚类,可以识别民机运行风险并显示数据集中事故特征的重要联系。将影响民机运行的风险因素划分为40个因素(具体因素见MCAA-CREAM模型),由于篇幅限制无法一一呈现。现展示241个MCAA案例中影响比较大的8个风险因素地图(见图5),包括管理问题、不利天气/地形、没有按手册执行、设计缺陷、分心/粗心、决策错误、技能/知识不足、设备故障,其他风险因素以文字进行说明。图5中:深灰色表示不存在该特征,灰色表示存在该特征,浅灰色是多个类别交集的边界。风险因素地图在于通过事故表征和基本描述,挖掘事故致因与事故之间的深层次关联,在此基础上为识别潜在风险源,控制事故提供依据。通过对风险因素地图分析,可将实际事故与图像直接关联起来,从而快速传递民机运行风险,增强事故信息可读性、全面性和系统性。
由图5(a)可以看出,组织因素中管理问题,在每一类中都占有很大的比例,因此不是事故聚类的依据。
图5 MCAA中8个风险因素可视化地图Fig.5 Visual maps of8risk factors in MCAA
1个组织因素(不利天气/地形)及3个人为因素(分心/粗心、没有按手册执行、技能/知识不足)占据了C1的大部分区域,意味着这些是导致分组C1聚类的主要因素。此外,传递信息错误、错误预测、用错方式覆盖了C1面积的1/3左右;人为因素中错误预测、没看到、执行时间错误、执行顺序错误、信息传递错误,及技术因素中设备信息模糊、设备信息不完整、设备信息显示错误都主要分布在C1,可见技术设备的缺陷与人为错误的联系十分紧密。大量的人为错误划分到这一类,表明有效的培训策略不应只是书面程序的形式,还应适当培养在紧急情况下需要的决策技能和重点关注对象,采用适当的操作流程等。
技术因素中设备故障、设计缺陷及组织因素中质量控制不足占据了C2的大部分区域,可以看出设备故障往往与设计缺陷/组织能力有关,且设备问题常伴随质量控制问题和设计缺陷。维修失效虽然完全被划分在C2,但可以通过图形看出,不能将加强维修能力看作是减少设备故障可能性的唯一解决方案。此外,设备设计复杂、设备设计错误主要分布在C2,可见设备的风险管控与技术因素的关联性较高。
组织因素中任务分配不足、团队支持不足及人为因素中认知方式是C3聚类的主要事故原因,占据大部分面积。人为因素中的延迟措施、用错执行设备、没看到、认知方式、计划不充分、优先级错误、看错、记忆失效、疲劳、心理/精神压力、交流障碍、身体疾病、技能/知识不足、决策错误主要分布在C3区域。这表明人的组织管理对民机运行安全有着重要的影响。
3.4 关联规则分析
根据2.2节中关联规则的算法流程,经过多次试验,将MCAA中各事故类别最小支持度设为0.10,最小置信度设为0.60,利用关联规则对各聚类群进行分析,得到关联规则集。图6中数字1/数字2代表该关联规则的支持度/置信度。由图6可知,在事故聚类群1中不利天气/地形条件下最容易暴露民机运行中存在的安全问题,通过关联规则有效挖掘出了不利天气/地形情况下关联的7个强致因,其中人为因素是造成C1类MCAA发生的主要因素,包括:执行时间错误、设备信息模糊、传递信息错误、分心/粗心、技能/知识不足及管理问题;同时有效挖掘出了其他3个强关联规则:执行时间错误导致延迟措施、设备信息模糊导致信息传递错误、分心/粗心造成的执行顺序错误,技能/知识不足往往是由于培训不足导致。
事故聚类群C2中主要项集为技术因素中的设备故障,挖掘出了3个与设备故障具有强关联规则的事故致因项:设计缺陷、设计复杂及决策错误。这证明在飞机设计过程中,飞机上的使用设备的缺陷会在运行过程中暴露出来,设计缺陷及设计于复杂会导致设备故障或致使机组人员做出错误决策。
如图6(c)所示,事故聚类群C3中存在4条人为因素致因链:①执行时间错误—延迟措施—用错执行设备;②没有按手册执行—错误预测—用错执行设备;③没有按手册执行—用错执行设备;④没有按手册执行—决策错误—用错执行设备。以此有效挖掘出了用错执行设备的4个主要致因,并阐明没有按手册执行将会带来的不利影响,因此需加强对机组人员的管理与培训,实际操作时必须根据飞机机型结构按照手册严格执行。
图6 事故聚类群强关联规则可视化Fig.6 Visualization of AR in accident clustering group
4 结 论
结合SOM模型,将重大民机事故的多属性、复杂结构化高维数据转化为2D可视化地图,为民机运行风险信息的获取提供了新的手段。通过对重大民机事故的研究,可以得出以下结论:
1)利用关联规则在SOM模型可以从重大事故中进行学习,可以快速传递民机运行风险,增强事故信息可读性,充分理解事故现象挖掘出深层次的致因特征。
2)风险地图为研究者提供直观、清晰的视觉理解,在输出空间中完全保留输入数据,并可以检索数据集记录,帮助研究者将事故与图像进行联系。
3)提出的方法有助于理解重大事故原因之间的关系。如需加强飞行员在不利天气环境下的操作技能和培训;先进的维护手段也不能保证设备不出现故障,需进一步采取措施;人的组织管理对民机运行安全有着重要的影响。
4)加权关联规则更有助于挖掘风险致因间的演化规律,为民机的安全运行保障提供科学借鉴。
通过关联分析与可视化技术为解析事故发生的深层次特征进行了探索,随着数据提取挖掘及主动学习技术的深入,还可以通过集成、增强学习技术等,提升信息挖掘的深度和广度,为制定安全管理对策提供支持。