基于XGBoost- GRA- DEMATEL面向任务携行航材消耗预测方法
2021-09-18宋传洲王瑞奇刘天庆刘克殷文广
宋传洲 王瑞奇 刘天庆 刘克 殷文广
摘 要: 为提高执行任务时航材携行数量保障的科学性, 充分考虑任务中各类影响因素, 采取XGBoost算法对携行航材需求进行预测。首先, 分析不同任务中影响航材消耗的各种因素, 按照全面系统、 科学简明等原则建立预测特征体系; 其次, 采用GRA, XGBoost, DEMATEL对特征重要性和相关度进行定性和定量分析并筛选, 建立精简版特征集合; 再次, 用网格搜索法调参, 提高模型预测的准确率和运行效率; 最后, 通过算例分析, 并与GBDT, SVM算法对比分析, 验证该方法在样本数据有限、 影响因素多的情况下, 可降低预测误差, 避免过拟合, 有较好的实用性和高效性。
关键词: XGBoost; 面向任务; 携行航材; 消耗预测; GRA; DEMATEL; 预测方法
中图分类号: TJ760.4 文献标识码: A 文章编号: 1673-5048(2021)04-0088-09
0 引 言
近年来, 随着异地执行飞行任务的增多, 转场携行保障不可避免, 特别是持续时间长、 任务强度大的需异地执行的专项任务以及随舰护航保障任务、 重大演习任务等, 都需要不断提高航材携行保障能力, 主要是在有限的保障资源、 保障能力和空间的前提下, 科学确定携带的航材品种和数量[1]。各类任务复杂多变, 对航材需求的影响因素以及各因素之间的影响程度都在发生变化, 航材自身的可靠性是主要的影响因素, 任务模式、 任务环境、 人员因素等都对航材的消耗产生影响, 使航材消耗的不确定性增强。以往按照经验携带航材, 或为了确保万无一失数倍携带, 或考虑不周携带不足, 一定程度上影响了任务完成的质效, 且产生经济负担。
随着预测方法的发展, 各类算法在航材预测中都有很多尝试, 常见的有基于历史数据统计值来研究航材时间发展趋势的方法, 如移动平均预测法[2]、 指数平滑预测法[3]、 ARMA预测法[4]、 灰色系统预测法[5]、 Croston法[6]等及其改进方法; 有运用统计学方法研究故障率、 可靠性和寿命拟合的曲线规律进行预测[7]; 也有采用机器学习算法, 如神经网络[8]、 支持向量机[9]等及其改进或者组合算法预测。这些方法在考虑多维影响因素上有所欠缺, 且在解决多影响因素非线性问题时缺乏高效通用的方案。本文采用XGBoost 算法, 面向任务的多影响因素, 对航材消耗进行预测。
XGBoost算法是以Boosting 的集成学习为基本思想提出的一种超级梯度提升树算法, 近年来在许多领域的应用中都获得良好成效[10]。当前, 国内外将 XGBoost 算法应用到航材领域的较少, 尤其是在携行航材消耗预测方面的应用就更少。XGBoost 算法较传统算法, 先进性表现在预测准确度、 运算效率、 算法修正的容错性等诸多方面, 可根据实际情况给出的不同条件有针对性地进行算法调优, 特别是对其超参数的优化。XGBoost模型可解释性强, 对特征取值要求较低, 因此可把任务中各种影响因素视为特征标签变量, 突出携行航材任务的消耗特点进行预测。特征的数量对模型有很大影响, 一定程度上减少非重要特征数量, 可以提高模型运算效率和准确率[11], 因此综合使用定量分析方法XGBoost和GRA [12] 定性分析方法DEMATEL[13]对特征重要性进行排序, 并综合排名结合实际筛选简化特征集合[14], 既可从定量分析中发现影响因素间的内在客观规律, 又可发挥专家从实际研究中得到的宝贵经验, 有利于提高特征精简的科学性, 最后将该模型与SVM, GBDT进行对比实验以验证该模型的实用性和高效性。
1 基本理论
1.1 XGBoost的基本理论
XGBoost算法[15-16]通過对其损失函数进行2阶泰勒展开, 同时保留1阶导数和2阶导数的综合信息, 使模型在训练集上的收敛时间缩减, 此外, 引入列抽样和在损失函数中加入可优化的正则项, 既能够对模型复杂度有效控制, 又可避免出现过拟合。其原理如下: 航空兵器 2021年第28卷第4期
宋传洲, 等: 基于XGBoost- GRA- DEMATEL面向任务携行航材消耗预测方法
设D={(xi, yi)}(|D|=n, xi∈Rd, yi∈R), 其中n为航材样本数, 每件航材包含特征数为d, xi为第i个航材的消耗数。
y^i=φ(xi)=∑Kk=1fk(xi), fk∈FF=f(x)=ωq(x)(s: Rd→T, ω∈RT) (1)
式中: φ为样本xi和预测值y^i的函数关系; F为所有分类树的集合; fk为第k棵树的函数模型; s为xi相应叶节点序列所标记的映射; T为叶子节点的数目; RT为叶子节点权重ω的空间; 每一个独立ωq(x)映射得到一个f(x)。在目标函数中加入正则化后得到损失函数:
L(φ)=∑il^(y^i, yi)+∑kΩ(fk)Ω(f)=γT+12λ‖ω‖2 (2)
式中: l为可微凸损失函数, 用以表示y^i和yi之间的差异; γ和λ分别为叶子数目和叶子权重的正则化参数, γ的取值限制节点继续分裂, 令Ω(f)成为惩罚项, 控制模型复杂度, 避免过拟合发生。通过加法运算, 将式(1)预测值y^i递推展开, 得到新的预测值, 从而得到最小化损失函数L(t), 一个新的第t棵树的目标函数:
L(t)=∑ni=1l(yi, y^(t-1)i+ft(xi))+Ω(ft)(3)
式中: y^(t-1)i处用泰勒公式一阶二阶展开得到
L(t)≈∑ni=1l(yi, y^(t-1)i)+gift(xi)+12hif2t(xi)+Ω(ft)(4)
式中: gi=l(yi, y^(t-1)i)y^(t-1)i; hi=2l(yi, y^(t-1)i)2y^(t-1)i。 令Ii=iq(xi)=k, 得到损失函数:
L(t)=∑ni=1gift(xi)+12hif2t(xi)+γT+12λ∑Tj=1ω2k=∑Tk=1(∑i∈Ikgi)ωk+12(∑i∈Ikhi+λ)ω2k+γT(5)
由于q(x)固定, 可以求得ωk, 使用贪心算法进行迭代, 分裂叶节点, 进而得到最优目标函数值。
1.2 GRA原理
GRA是灰色关联度分析[12]的简称, 具体原理如下:
(1) 确定比较特征和参考变量。
影响携行航材消耗需求的参考变量就是历史任务消耗量, 表示为x0=[x0(1), x0(2), …, x0(n)], 比较特征表示为xi=[xi(1), xi(2), …, xi(n)]。 其中: i=0, 1, 2, …, 15, 表示特征表里的特征数n为样本数。
(2) 计算x0与xi的关联系数, 记作ξ0i。
ξ0i=
minminx0(k)-xi(k)+ρmaxmaxx0(k)-xi(k)x0(k)-xi(k)+ρmaxmaxx0(k)-xi(k)(6)
式中: ρ为分辨系数, ρ∈(0, 1)。
(3) 计算灰色关联度并排序, 记作γ0i, 称作xi对x0的灰色关联度。
γ0i=1n∑nk=1ξ0i(k)(7)
可以得到关联度序列R=(γ01, γ02, γ03, …, γ0i), 对序列值进行排序, 可清楚地看出各特征变量与消耗数量之间的关联程度, 直观地对特征集合进行分析和筛选。
1.3 DEMATEL分析法
DEMATEL[13]是决策实验室分析法的缩写, 该方法采用图论和矩阵理论, 可充分发挥专家的知识和经验对复杂系统进行定性分析, 从而为决策提供参考。其最终得到反映特征影响的重要程度的中心度, 以及反映特征影响的因果方向的原因度, 以此分析判断各特征在系统中的重要程度。其具体原理如下:
(1) 建立矩阵Y表示影响特征量之间的直接影响, aij表示特征i对特征j的影响程度, 当i=j时, aij=0。
Y=(aij)n×n=a11…a1nan1…ann(8)
(2) 对矩阵Y进行标准化处理得到标准化影响矩阵X, max∑nj=1aij为矩阵各行影响特征量之和的最大值。
X=(xij)n×n=Ymax∑nj=1aij(9)
(3) 矩阵变换后得到综合影响矩阵T。
T=(tij)n×n=lim(X+X2+…+Xk)
T=(tij)n×n=X(I-X)-1(10)
式中: I为单位矩阵。
(4) 分别求出单个特征的影响度ri、 被影响度ci、 中心度βi, 若αi>0, 表示特征i為原因因素, 反之表示特征i为结果因素。
ri=∑nj=1tij, ci=∑nj=1tij, i∈綆+
αi=ri-ci, βi=ri+ci(11)
2 建立XGBoost预测模型建模流程
(1) 分析任务中影响携行航材消耗的各类因素, 提取具有代表性的特征, 建立特征指标体系。
(2) 统计收集处理与航材消耗相关的历史数据, 对特征进行赋值取值, 并使用GRA, DEMATEL和XGBoost对特征集合进行重要性综合分析, 筛选特征, 构建简化版特征集合。
(3) 将数据集分为训练集和测试集, 构建XGBoost预测模型。
(4) 采用网格搜索法优化模型部分参数, 使用K折交叉法对XGBoost模型进行训练。
(5) 使用测试集对调参后的XGBoost预测模型进行测试并进行评价。
(6) 将预测结果与SVM, GBDT等预测结果和真实消耗值对比, 分析预测结果的特点及预测方法之间的差异。模型构建流程如图1所示。
3 携行航材消耗预测特征集合和取值
3.1 建立特征体系
通过查询飞行记录、 维修记录、 查阅文献、 咨询专家后, 分析归纳出内在因素、 环境因素、 任务因素、 人员因素、 经济因素、 其他因素等6个方面的影响因素, 并按照全局系统、 鲜明稳定、 科学简明、 操作灵活、 数据可靠等5个原则选取特征, 如表1所示。
3.2 提取特征集合
结合实际数据情况和后续研究方便, 对特征进行分析后, 将飞行员能力、 维修员能力、 管理员能力、 维修资源合并为人员因素一个特征, 将可更换单元和通用性合并为可更换性一个特征。设有m个影响携行数量的特征变量, 特征值记作T{T1, T2, T3, …, Tm}, m取值为15, 历史消耗量记作Y。具体取值情况如表2所示。
3.3 数据来源
(1) 分类变量取值
T1, T6, T7, T8, T13, T15等均属于分类变量, 通过10个专家和15名部队保障人员问卷取值。
(2) 飞机起落架次的取值
通常飞机起落架次是指离地起飞到落地成功算一次, 但军用飞机有着地没有成功再次紧急起飞的特殊情况, 较为常见的是航空母舰舰载机的着落, 或者专门训练落地连续起飞的技能, 每一次起飞都算一个起落架次, 另外, 还存在只启动飞机并没有起飞的情况, 此时应统计在飞机启动次数中, 所以飞机起落架次和启动次数是前者少于后者。本文为了后续研究方便将每次启动飞机都算作一次起落架次。
(3) 人员因素取值
人员因素中特别是飞行员能力对航材消耗影响较大, 其他人员也对航材消耗产生不同程度的影响。由于能够实际获得的任务次数有限, 样本数据少, 为了后续研究方便和提高模型学习的效率和准确率, 对人员相关特征进行降维, 整合飞行员能力、 管理员能力、 维修员能力、 维修资源四个维度, 合成人员因素一个维度。 人员因素特征指标体系如表3所示。 区分等级: 将A1、 A2、 A3区分 {一级、 二级、 三级}, B1、 B2、 B3、 B7、 B8區分 {多、 中、 少}, B4区分{高级、 中级、 初级}, B5、 B6区分{优、 良、 合格}, 将B9区分{高、 中、 低}。采取模糊层次分析评价法[10], 获得各次任务中人员因素综合量化取值。
(4) 故障率取值
任务中航材的故障率可视为失效率, 根据不同航材类别分属不同的分布函数[7]。 可通过先统计任务中航材的MTBF和故障次数, 拟合分布曲线后, 获得参数带入公式计算获得航材的故障率。计算方法如表4所示。
(5) 地理环境取值
参见文献[17]和相关记录对不同属性的携行航材和地形、 地貌、 气候等进行分类, 并依据其属性采用层次分析法对其量化, 该特征体现环境因素中气压、 空气密度、 光照强度、 天气状况、 温度、 湿度等的综合影响。具体如表5所示。
4 算例分析
4.1 样本数据和处理
选取已确定的携行航材中消耗数量较多的航材作为研究对象。收集2010~2019年203次任务的样本数据, 以与起落架次紧密相关的电子元件J为例, 部分数据如表6所示。
4.2 特征重要性测试和特征筛选
4.2.1 GRA特征重要性排序
对航材消耗来讲, 本文所提取的特征已经考虑了方便取值和根据综合分析影响作用较大的特征, 即便如此, 影响因素复杂多变且相互作用, 是信息不完全的典型的灰色系统。因此, 使用灰色关联度分析法计算所提取的特征和航材消耗之间的关联度, 进而对特征进行分析和筛选, 具体如表7所示。 4.2.2 XGBoost特征重要性排序
使用XGBoost中gain参数进行特征重要性排序, 其中横坐标为F-score评价值, 纵坐标是特征序号。gain排序表示增益值的排序, 即模型进行特征分裂时平均训练损失的减少量累加后取值得到的排序, 如图2所示。
4.2.3 DEMATEL特征重要性排序
取值(0, 1, 2, 3)分别对应(无影响、 弱影响、 中度影响、 强影响)表现因素之间的直接影响程度。邀请10名航材研究领域专家, 15名勤务保障人员根据经验打分, 判断各特征间的影响关系, 得到直接影响矩阵, 进一步求得影响度r、 被影响度c、 原因度n、 中心度m, 如表8所示。
4.2.4 特征重要性综合分析和精简
对上述排序汇总四舍五入取平均值, 如表9所示。对比排序结果结合实际情况进行分析。
(1) 三种方法重要性排序结果大部分特征总体相差不大, XGBoost和GRA排序结果基本一致, 三种方法T2,
T3, T4, T5, T14相差较大。T7, GRA与DEMATEL排序相同。 T8, XGBoost与DEMATEL相差不大。 T2、 T3和T14, XGBoost与GRA排序相差不大。
(2) T2和T3两个特征对航材消耗影响较大, 即使是定性分析也应该排序靠前, 但DEMATEL排序靠后, 这正显示出该方法如果只参照中心度分析的弊端, 因为这两个因素均是影响因素, 而且仅影响T4, 稍微影响T6, 不受其他因素影響, 结果会排名靠后, 因此需结合定量分析避免这种偏差。
(3) T4主要表现航材内部可靠性水平的影响因素, T5几乎对除去温度一类客观因素之外其他特征都产生影响, 在定性分析时都给予了足够的重视, T14是温度、 湿度等综合量化的特征, 也是同样的情况, 数据分析时, 因为实际任务执行环境变化不大, 数值变化较少, 定量分析结果排序靠后。
(4) T7和T8在定量分析时因为是分类数值, T8由于是电子元件各类任务中安装时的寿命时期和可更换性相对一致, 数值变化不大, 这与电子元件寿命规律符合指数分布的实际相符, 而T7排在最后是因为已经确定携带的航材对可更换性能的高低被认为并不重要, 且电子元件体积较少, 拆卸安装携带都比较方便。
(5) 综合排序, 综合定性分析和定量分析的结果, 可得到新的排序。为提高模型预测效率, 充分分析排序后, 可去掉T6, T7, T8, T13, T15等5个特征, 得到精简版特征: T1, T2, T3, T4, T5, T9, T10, T11, T12, T14共10个。
4.3 XGBoost模型调参和训练
对XGBoost模型利用交叉验证法和网格搜索法对数据集训练和参数寻优, XGBoost 模型参数取值情况如表10所示。调参后利用训练好的模型分别进行了60个样本、 40个样本、 20个样本的测试, 得到对比图和调参前后的预测图, 具体如图3~8所示。可以直观看到测试集数量越少, 预测结果相对越好, 参数调优后, 预测准确率得到提高。
4.4 试验结果对比和分析
利用训练好的XGBoost模型与实际值以及GBDT, SVM等预测结果进行实验对比。采用较常用的均方根差RMSR、 平均绝对误差MAE、 均值百分比误差MAPE, 进行对比。从表11、 图9~10可以直观看到三个指标XGBoost模型都比其他两种方法要好。
5 结 束 语
本文通过综合考虑任务中对携行航材消耗的各类影响因素, 提取特征后, 采用XGBoost, GRA与DEMATEL等方法定性和定量相结合, 对特征进行重要性分析和筛选, 精简特征集合, 建立基于集成学习XGBoost算法的携行航材消耗预测模型。一方面, 该模型可综合考虑多因素非线性影响问题, 在样本数量不够多的情况下, 通过网格搜索法调参可有效避免过拟合且提升准确率; 另一方面, 使用精简后的特征集合和调参后的XGBoost模型, 其预测效果相比于GBDT和SVM模型, 效率和精度都得到提升。但本文的数据集仍稍显不足, 在后续研究中, 需加强数据的收集或结合相关算法科学扩增数据, 这将进一步提升预测的准确性和可靠性; 此外, XGBoost模型参数优化方法不限于网格搜索法, 可在后续研究中进行其他优化方法的尝试, 可能取得更好的效果。
参考文献:
[1] 宋传洲, 王瑞奇, 刘战. 面向任务携行航材消耗影响因素研究[J]. 航空维修与工程, 2020(8): 68-71.
Song Chuanzhou, Wang Ruiqi, Liu Zhan. Research on the Influencing Factors of Consumption for Mission-Oriented Carrying Aviation Materials[J]. Aviation Maintenance & Engineering, 2020(8): 68-71.(in Chinese)
[2] 张金. 金汇直升机航材采购管理研究[D].上海:东华大学, 2018.
Zhang Jin. The Research of Kingwing Aircraft Spares Purchasing Managment[D]. Shanghai: Donghua University, 2018. (in Chinese)
[3] 郭峰, 刘臣宇, 李卫灵. 基于指数平滑法的航材消耗定额预测研究[J]. 计算机与现代化, 2012(9): 163-165.
Guo Feng, Liu Chenyu, Li Weiling. Research on Spares Consumption Quota Prediction Based on Exponential Smoothing Method[J]. Computer and Modernization, 2012(9): 163-165.(in Chinese)
[4] 赵建忠, 徐廷学, 葛先军, 等. 基于小波变换和GM-ARMA的导弹备件消耗预测[J]. 北京航空航天大学学报, 2013, 39(4): 553-558.
Zhao Jianzhong, Xu Tingxue, Ge Xianjun, et al. Consumption Forecasting of Missile Spare Parts Based on Wavelet Transform and Revised GM-ARMA Model[J]. Journal of Beijing University of Aeronautics and Astronautics, 2013, 39(4): 553-558.(in Chinese)
[5] 趙建忠, 徐廷学, 尹延涛, 等. 基于改进GM(1, 1)模型的导弹备件消耗预测[J]. 装备环境工程, 2012, 9(3): 48-51.
Zhao Jianzhong, Xu Tingxue, Yin Yantao, et al. Consumption Forecasting of Missile Spare Parts Based on Improved GM(1, 1) Model[J]. Equipment Environmental Engineering, 2012, 9(3): 48-51. (in Chinese)
[6] 张永莉, 梁京. 航材需求预测方法研究综述及启示[J]. 中国民航大学学报, 2014, 32(1): 92-96.
Zhang Yongli, Liang Jing. Overview and Enlightenment of Demand Forecasting Method Research about Aircraft Spare Parts[J]. Journal of Civil Aviation University of China, 2014, 32(1): 92-96.(in Chinese)
[7] 车飞, 陈云翔, 高山, 等. 基于作战任务的多机种故障备件需求模型[J]. 火力与指挥控制, 2012, 37(7): 80-83.
Che Fei, Chen Yunxiang, Gao Shan, et al. Failure Spares Demand Model for Multi-Type Aircraft Based on Operational Mission[J]. Fire Control & Command Control, 2012, 37(7): 80-83.(in Chinese)
[8] 邵雨晗, 辛后居, 高辉, 等. 基于灰色神经网络的航空装备作战携行量预测[J]. 数学的实践与认识, 2016, 46(20): 62-68.
Shao Yuhan, Xin Houju, Gao Hui, et al. The Prediction of Aviation Equipment Carried Quantity in Wartime Based on Gery Neural Network[J]. Mathematics in Practice and Theory, 2016, 46(20): 62-68.(in Chinese)
[9] 王梓行, 韩维, 苏析超. 多因素影响下舰载机备件需求的组合预测[J]. 海军航空工程学院学报, 2016, 31(4): 456-460.
Wang Zihang, Han Wei, Su Xichao. Combination Forecast of Spare Parts Demand for Carrier-Based Aircraft under Influence of Multiple Factors[J]. Journal of Naval Aeronautical and Astronautical University, 2016, 31(4): 456-460.(in Chinese)
[10] Parsa A B, Movahedi A, Taghipour H, et al. Toward Safer Highways, Application of XGBoost and SHAP for Real-Time Accident Detection and Feature Analysis[J]. Accident Analysis & Prevention, 2020, 136: 105405.
[11] 肖跃雷, 张云娇. 基于特征选择和超参数优化的恐怖袭击组织预测方法[J]. 计算机应用, 2020, 40(8): 2262-2267.
Xiao Yuelei, Zhang Yunjiao. Terrorist Attack Organization Prediction Method Based on Feature Selection and Hyperparameter Optimization[J]. Journal of Computer Applications, 2020, 40(8): 2262-2267. (in Chinese)
[12] Teng Y X, Zhao H G, Yang J, et al. Water Traffic Safety Evaluation Based on the Grey Correlation Grade Analysis[J]. Applied Mechanics and Materials, 2014, 571/572: 295-298.
[13] Yazdi M, Khan F, Abbassi R, et al. Improved DEMATEL Methodology for Effective Safety Management Decision-Making[J]. Safety Science, 2020, 127: 104705.
[14] 王名豪, 梁雪春. 基于CPSO-XGboost的个人信用评估[J]. 计算机工程与设计, 2019, 40(7): 1891-1895.
Wang Minghao, Liang Xuechun. Personal Credit Evaluation Based on CPSO-XGboost[J]. Computer Engineering and Design, 2019, 40(7): 1891-1895.(in Chinese)
[15] Chen T Q, Guestrin C. XGBoost: A Scalable Tree Boosting System[C]∥Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016: 785-794.
[16] Li C B, Zheng X S, Yang Z K, et al. Predicting Short-Term Electricity Demand by Combining the Advantages of ARMA and XGBoost in Fog Computing Environment[J]. Wireless Communications and Mobile Computing, 2018, 2018: 1-18.
[17] 陳博, 徐常凯, 任佳成. 基于灰色神经网络的携行航材消耗预测[J]. 指挥信息系统与技术, 2018, 9(5): 86-90.
Chen Bo, Xu Changkai, Ren Jiacheng. Consumption Prediction of Carried Aviation Material Based on Grey Neural Network[J]. Command Information System and Technology, 2018, 9(5): 86-90.(in Chinese)
A Mission-Oriented Aircraft Spare Parts Carried Consumption
Prediction Method Based on XGBoost-GRA-DEMATEL
Song Chuanzhou1*, Wang Ruiqi1, Li Tianqing1, Liu Ke1, Yin Wenguang2
(1. Naval Aviation University, Yantai 264000, China;
2. Unit 91423 of PLA, Yantai 264000, China)
Abstract: In order to improve the scientificity of the quantity guarantee of aircraft spare parts carried during the mission and fully consider all kinds of influencing factors in the mission, the XGBoost algorithm is adopted to predict the demand of aircraft spare parts carried. Firstly, various factors affecting aircraft spare parts consumption in different missions are analyzed, and a predictive feature system is established according to the principles of comprehensiveness, systematization, science and conciseness. Secondly, GRA, XGBoost, DEMATEL algorithm are used to analyze and screen the importance and relevance of features, and a simplified version of feature system is established. Thirdly, the grid search method is used to adjust parameters to improve the accuracy and efficiency of model prediction. Finally, through example analysis and comparative analysis with GBDT, SVM algorithms, it is verified that this method can reduce the prediction error and avoid over fitting in the case of limited sample data and many influencing factors, and has good practicability and efficiency.
Key words: XGBoost; mission-oriented; aircraft spare parts carried; consumption prediction; GRA; DEMATEL; prediction method