基于随机森林的航空安全因果预测新方法
2023-03-09岳珠峰崔利杰
任 博, 岳珠峰, 司 勇, 崔利杰, 曾 航
(1. 空军工程大学装备管理与无人机工程学院, 陕西 西安 710052; 2. 西北工业大学力学与土木建筑学院,陕西 西安 710129; 3. 中国人民解放军913129部队, 北京 100076)
0 引 言
通过研究航空事故与因果因素的内在关系,预测航空安全,确定事故规则,能实现对未来飞行安全趋势的预测[1]。精确航空安全预测模型对于实现航空安全智能管理、事前决策及应急管理等具有重要意义[2]。多家航空公司已经充分认识到数据对安全管理的重要性,数据分析结果(超限事件、免责信息分析、安全监控等)已经初步应用于航空安全管理中,提升了管理安全效率,减少了事故损失[3-4]。
然而,航空事故发生是由各种因素相互交织影响所造成的,包含飞机因素、管理因素、环境因素、人为因素、外在因素等诸多不确定性因素。航空事故诱因复杂,具有低频性、随机性、时变性和高维性等特点,预测建模难度大。目前,航空安全预测主要是时间序列预测,大多采用参数、非参数、贝叶斯网络、人工智能[5-7]等方法建立航空安全时间序列开展预测。王衍洋等[8]用样条插值函数对航空安全综合指数进行预测分析,研究人为因素与航空安全的影响关系,提高了对非线性数据的适用性。甘旭升、丁松滨、吕雪梅等[9-11]利用误差反馈神经网络、自回归移动平均等方法对飞行事故进行研究。然而,上述模型都属于“黑箱”[12]模型,输入和输出内部机理未知,输入对输出影响难以确定,预测变量解释不清晰,无法实现根据输出预测结果的逆向分配,支持航空安全管理力度有限。
随机森林(random forest, RF)模型是以分类树[13-14]为支撑的机器学习算法,具有分类、回归、预测等功能,且该模型广泛应用于参数优化、变量排序及分析解释方面。目前,该方法在生态、气象、电力及农业预测等方面成功应用,然而,RF方法在航空安全预测的能力尚未得到充分认识,相应参考文献较为缺乏。
本文针对航空安全态势感知、智能管理[15]的迫切需求,构建RF模型,以某航空公司2017~2019年安全数据为对象,研究航空安全态势预模型构建、预测变量贡献度量以及航空安全中飞机、管理、环境、人为、外在等因素对航空不安全事件的影响关系,为航空安全预测、预警及事故预防提供了理论依据。
1 航空安全因果预测
1.1 航空安全因果关系定义
航空安全因果预测[16]基于事故致因理论,建立致因因素与事故后果之间的因果对应关系,在一定样本基础上,用参数、非参数、贝叶斯网络、人工智能等方法建立事件后果和致因因素之间的替代模型,进而研究输入和输出的映射关系,完成航空安全预测。模型定义为
Y=G(X)
(1)
式中:Y=(Y1,Y2,…,Yn)表示n种不同类型航空安全不安全事件,如Y1为一等飞行事故,Y2为二等飞行事故,Y3为航空事故症候;X=(X1,X2,…,Xm)表示导致航空不安全事件发生的致因因素,如X1为外来影响事件、X2为设施设备不安全事件、X3为环境因素,X4为管理因素,X5为人为因素(飞行和地面人员)等。此外,Y和X是时间的函数。
1.2 基于Bow-tie模型的航空安全致因变量关联辨识
Bow-tie模型[17]是结合故障树及事件树,综合考虑事故起因、后果、防控措施等建立的事故前后、基本事件和后果的关系。Bow-tie模型示意图如图1所示。其中,BE:基本事件;IE:中间事件;CE:顶事件;SE:控制事件;OE:后果事件。
图1 Bow-tie模型示意图Fig.1 Schematic diagram of Bow-tie model
(2)
(3)
基于Bow-tie模型开展航空事故机理的致因分析,可以得到确定航空安全的事故致因变量,结合某航空公司安全监察数据,如表1所示。由此可见,在Bow-tie模型基础上构建航空安全预测模型,难点在于:① 航空事故致因因素多,高维建模难;② 事故样本少,量化难;③ 致因因素受环境影响大,具有复杂高维非线性关系,建模难度大。值得注意的是,航空安全分析、因果预测的基础在于数据变量的甄选[18]。考虑较多变量会造成数据冗余,从而降低预测效率,疏忽关键变量则会造成预测精度降低。文献[19]指出,RF方法在参数优化、变量排序以及后续变量分析解释等方面优势明显,能将航空致因变量特征集进行袋外求解,计算每个特征重要性,按照重要性降序排列,完成重要变量的确定和冗余变量的剔除,确定核心的关键“安全数据”。
表1 基于Bow-Tie模型的航空安全关键风险及危险源分析
2 数据与方法
2.1 研究数据
本文数据来源于某航空公司质量安全监察数据库。基于Bow-tie模型分析结果,建立航空安全数据清单,统计航空公司2017~2019年不安全事件数据,如表1所示。本文将部分数据作为训练样本,另外部分作为测试数据,验证算法精准度和效率。选取5个航空安全致因因素来说明对航空安全影响,如表2所示。
表2 变量指标
训练和验证的数据分布如图2所示,其中散点表示样本中参数的值,箱线图中有样本均值、最大值、最小值、中位数等分布信息。
图2 训练和验证数据库样本分布Fig.2 Database sample distribution in training and validation
图2横轴为航空安全致因因素输入变量Xi及输出变量Y,纵轴用箱线图表示各输入变量Xi及输出变量Y的样本分布。由于不同类型航空不安全事件具有不同量纲,所有变量进行无量纲化,具体方法如下:
(4)
式中:xj为归一化后数据;xj.max,xj.min分别为最大值和最小值。
RF是一种机器学习方法,可用于样本分类,模型生成决策树数目(Ntree)和选择分裂属性个数(Mtry),在样本分类中起着关键作用,影响结果准确性。RF回归对噪声数据容忍度较高,对高维数据具有良好预测能力[20-21]。由一组无关回归决策树{h(x,θk),k=1,2,…,K}构成K棵集成决策树,表示为
(5)
式中:X为安全致因因素;k为决策树数量;θk为独立同分布随机向量。
2.2 模型构建
基于RF的航空安全预测模型为提高模型的预测精度,结合袋装法和随机子空间法对模型进行了构建[20-22]。
(1) 袋装法:从样本集中多次放回采样大小为N的K个训练集,对于每个训练集建立回归模型。假设样本容量为N,则每次放回抽样,每个样本不被抽中的概率为(1-1/N)N,未被选中的样本称为袋外数据(out of bag, OOB)。同时,由于训练样本集元素各不相同,这就保证了回归树模型的差异性。
(2) 随机子空间法:对生成的回归树进行节点分裂,选取Mtry个变量作为当前节点分裂子集,根据决策树方法选择最优的分裂方式进行回归树的构建,该方法降低了各回归树之间的相关性,增加了其构建时的随机性。
本文构建航空不安全事件RF的流程如图3所示。
图3 基于RF的回归航空安全态势预测流程图Fig.3 Flow cart for regression aviation security posture prediction based on RF
(3) RF回归模型不但能精确地估测航空安全态势,而且还可给出各个变量的重要性评分、输入对输出影响程度。基于基尼系数和基于OOB误差是常用的变量重要性评分统计量,本文中基于OOB误差得到各变量的重要性。若xj(j=1,2,3,4)为输入变量,则在第k棵树上的重要性Ik为随机置换变量前后OOB估测误差的差值[23]。其计算公式为
(6)
变量xi在整个随机森林中的重要性得分为
(7)
考虑预测模型具有随机性,每次预测的I(xi)具有一定差异性,通过对20次计算结果取均值即为各变量权重。
2.3 模型检验
本文综合考虑采用决定系数、均方根误差、相对均方根误差来评估模型的预测能力,同时绘制预测值和实测值间的1∶1关系图,相关指标表达式如下所示。
决定系数:
(8)
均方根误差:
(9)
相对均方根误差:
(10)
式中:mean表示样本均值;X(i)表示数据集中第第i个样本;X(i)P表示X(i)所对应的预测样本点(i=1,2,…,n)。
3 结果与讨论
3.1 回归模型参数优化
在回归树模型中,采用的是决策树方法对节点自上向下进行随机分裂,直到分支到叶节点,预测值由叶节点输出,RF模型由所有回归树构成。根据模型输出的航空安全态势预测值求平均值即得到最终航空安全预测结果。以某航空公司2017~2019年航空安全数据为研究对象,基于RF构建航空安全预测模型,如图4所示。
图4 航空安全RF模型图Fig.4 RF model diagram of aviation safety
RF使用默认参数即可得到不错结果,其调参过程是确定决策树个数Ntrees和每棵树分裂时最大特征数Leaf,优化算法可搜索参数全域来确定算法最优参数。本文对RF模型参数的优化过程及结果如图5所示。
图5 RF模型参数优化结果Fig.5 RF model parameter optimization results
图6 航空安全RF模型的误差估计图Fig.6 Error estimation plot for aviation safety RF model
图6横轴为随机森林树个数,纵轴为模型均方误差。随着树数量增加,模型误差逐渐递减,可以看出当K为150时,OOB误差趋于平稳,故将K设为150。因此,本文航空安全预测模型树数量确定为150。
3.2 航空安全预测模型变量筛选
RF预测模型变量筛选的主要指标是变量对提高模型预测精度的贡献能力,通过对指标进行排序,从而获得各变量的重要性排序,指标值越大,则变量越重要。针对本文航空安全预测模型变量进行重要性排序,排序结果如图7所示。
图7 RF回归模型变量筛选Fig.7 RF regression model variable screening
图7横轴为针对影响航空安全的输入变量,纵轴为预测输入变量的重要性。由图7可知,本文对“X1为外来影响事件、X2为设施设备不安全事件、X3为环境因素、X4为管理因素、X5为人为因素(飞行和地面人员)”等变量对航空安全影响的重要性进行度量。图7中,环境因素对航空安全的影响最大,需要重点监控,比如需增加驱鸟频次,降低鸟撞因素对航空安全影响,加强恶劣天气环境的预报预测,及时告知飞行人员做出应对,建议指挥员变更计划,要求机务人员采取特殊天气环境的飞机适应性措施(除冰,防沙尘等);人为因素和设施设备对航空安全影响的重要性次之,且两者影响程度相当;管理因素对航空安全预测结果影响较小,为降低模型复杂度和提高计算效率可忽略。
3.3 航空安全预测精度分析
基于随机RF进行变量选择,分别按飞机因素、管理因素、环境因素、人为因素、外在因素等开展训练。图8为由RF方法预测航空安全与实际值间的散点关系图。图8横轴为航空不安全事件(X1为外来影响事件、X2为设施设备不安全事件、X3为环境因素、X4为管理因素、X5为人为因素(飞行和地面人员))实测值,纵轴为基于RF模型航空不安全事件的预测值。结果表明,由本文预测模型得到的预测值和实际值相关性较高,其中决定系数、均方根误差、相对均方根误差等指标也较为理想,这表明利用RF来预测航空安全态势是可行的。
图8 基于RF模型航空安全预测估算情况Fig.8 Prediction and estimation of aviation safety based on RF model
3.4 航空安全RF预测优势
航空安全预测中,采用预测响应变量与致因输入变量间的关系来阐述航空安全的影响机理以及实现航空安全在空间或时间维度上的预测,如人工神经网络、支持向量机等被用于航空安全预测。然而,航空安全变化规律受多种不确定性的影响,各变量之间表现为较为繁杂高维的非线性关系,预测建模难。以该航空公司为研究对象,本文又基于神经网络[25]、相关向量机[26]开展预测,并和RF方法进行了对比,结果如表3所示。
表3 3种预测模型效果对比
如表3所示,在相同样本规模情况下,RF模型不论是决定系数还是预测效果都比较好,决定系数达到0.91,均方根误差达到9.7%。比相关向量机和神经网络更适合建立航空安全预测模型。神经网络和相关向量机在建模方面的弊端主要表现在难以解释航空安全内部的实际影响机理,也无法知道输入致因变量对航空安全总体的重要性大小。相反,RF模型具有筛选重要性变量的能力,同时为防止过度拟合,引入了两个随机参数(k,m)。因此,在航空安全态势预测中,可考虑引入航空安全度量指标(强制不安全事件)为划分依据的RF模型。
4 结 论
机器学习是开展航空智能管理及辅助决策的重要手段。在诸多机器学习算法中,RF模型相对于神经网络、相关向量机模型具有较为明显的优势,更适用于航空安全趋势及致因因素预测。
(1) 基于Bow-tie模型组合的RF算法用于航空安全因果预测能有效预测航空安全关键因素及航空安全态势的变化趋势。预测精度达到90%以上,表明RF能够很好地描述航空安全致因变量与航空安全之间的非线性关系。
(2) 本文所提航空安全因果预测通过研究致因因素(飞机因素、管理因素、环境因素、人为因素、外在因素)变化关系,进而研究事故变化规律,解决了事故样本少、难于度量的问题。需要说明是,本文收集样本数量有限,在后续工作中将增加致因因素模型维数(>20),收集更多样本,进一步验证和提高RF预测航空安全的能力。
(3) 航空安全变量重要性分析结果显示,环境因素对2017~2019年航空安全影响最大,需要重点管控;反之,管理因素对于航空安全影响最小,可忽略。