联合投送任务规划方案智能集成评估
2023-04-24郭志明刘天宇
郭志明 高 亮 叶 军 刘天宇 乔 虎
1.中国兵器科学研究院 北京 100089 2.解放军31306部队 四川 成都 610000 3.国防科技大学 湖南 长沙 410073 4.西安工业大学 陕西 西安 710021
联合投送,是指部队为争取战略斗争主动权和形成良好的行动姿态,在中央军委和战区领导下,利用国家战略资源和部队的整体运输能力,组织战斗部队由战略腹地或作战纵深至特定地域,进行的高速、立体、远距离联合军事行动[1]. 联合投送已成为达成战略威慑、影响战争胜负和完成非战争军事行动的一个重要环节[2],在某种意义上影响了战斗规模、进度,从而决定了战斗的成败. 联合投送任务规划是指部队在经过特定方式(一般包括公路、铁路、水路和航空等4 种方式)进行联合投送的过程中,对投送部队进行过程控制的指挥决策活动,联合投送任务规划方案质量的好坏直接影响着联合投送任务能否实现,因为联合投送任务规划方案的数据具有多样化、随机性大、非线性、高维等特点特征[3],采用传统的评估技术方法已经无法满足联合投送任务的需求.
随着人工智能理论的发展与计算机算力的提升,深度学习已经广泛应用到军事领域的评估中,深度学习算法是一个多层多元的神经网络,可以逼近任何非线性函数关系[4],也被广泛用来处理更复杂的非线性现象. 文献[5]等将深度学习应用到兵棋实体决策效果评估上,提出一种基于堆栈自编码器的智能评估模型,通过模拟人类决策推理的思维模式和学习决策推理的知识经验,实现了对决策效果的智能评估. 文献[6]以兵棋推演和仿真试验床产生的海量数据为基础,提出一种基于深度学习的防空作战体系能力回溯分析方法,实现了网络化指标体系涌现关系的形式化表示、体系功能指标涌现机理分析及其对使命任务相对贡献度的计算. 文献[7]提出基于层次情节性元强化学习的敌方对抗行为评估方法,把环境知识和经验集成到学习算法,提出基于层次情节性元强化学习的敌方对抗行为评估方法,协同加快强化学习速度,进而提高评估效率. 但还未见应用深度学习对联合投送领域进行评估的文献报道.
联合投送任务规划方案评估的影响因素众多[8],并且这些因素之间、因素与评估结果之间都存在着复杂的线性或非线性的关系. 而传统的评估方法,如解析法[9]、TOPSIS 法、德尔菲法、层次分析法等,难以深度挖掘变量与指标间复杂的耦合关系,无法处理这类非线性评估问题. 深度学习拥有较强的学习能力和较好的鲁棒性,对于处理这种非线性多维度大样本评估问题具有较强优势. 因此,本文引入深度学习与群智能优化集成的方法,尝试建立联合投送任务规划方案评估模型,对联合投送任务规划方案进行评估,提高联合投送任务规划方案评估的合理性和科学性.
1 联合投送任务规划方案评估指标体系
1.1 联合投送任务规划方案评估原则
联合投送任务的本质要求是快速、精确、经济[10]. 速度是联合投送任务必须追求的首要效能目标,而精准是联合迅速投送任务的根本目的,其要义为“适时、适地、适物”,经济目标是在能够完成投送任务的大前提下,力求经济效益达到最佳,节约经费开支. 联合快速投送的3 种本质要求,确定了联合快速投送效能所对应的3 种核心属性: 效率、质量和效益.
评估联合投送任务规划方案,需要构建度量其时效性、精准性、经济性的指标体系. 指标体系是从不同的侧面反映运输能力和效率所具有某种特征大小的度量[11],是建立运输方案评估模型的依据,将直接影响到评估结果的有效性. 本文在建立指标体系时主要考虑以下3 个原则:
1)系统性原则. 系统性是对联合投送任务规划方案评估指标体系构建的基本要求,要把联合投送的整体性、系统的协同作用和与环境的联系整体考虑,从而能够反映出联合投送最基本的、最本质的特征,指标体系应与需求分析的目标相一致[12],这是正确评估联合投送任务规划方案的基础.
2)客观性原则. 设计联合投送任务规划方案评估指标体系时,尽量避免加入个人的主观意愿,客观反映联合投送任务过程,真实提取能够真实、明确、简练地描述快速、精准和经济的相关指标,使构建的评估指标体系具有实用价值.
3)可测性原则. 可测性是指标值容易量化,能够通过测试或实验等方法直接获得,或再通过数学计算求得. 构建联合投送方案评估指标体系时,应尽量避免那些概念不明、数量关系模糊不清的指标[13],不容易量化的指标要能够用模糊数学的方法进行处理,在数量上可以得出明确的结论.
1.2 联合投送任务规划方案评估指标体系构建
基于前述3 个原则,结合联合投送任务规划的评估机理和内在逻辑,围绕效率、质量和效益的评估目标,本文建立的评估指标体系,如图1 所示.
图1 联合投送任务规划方案评估指标体系Fig.1 Evaluation index system of joint delivery mission planning scheme
1)任务完成时间
式中,T总表示该规划执行投送的整体完成时间; tz为部队在起始出发地的装载时间; ty为部队在路网上的运送时间; th为部队路网运送过程中的换乘时间; tx为到达目的地后的卸载时间.
2)重点部队投送完成时间
式中,tb为部队的装载起始时间; te为部队在目的地的卸载完成时间,重点部队可以为侦察类、指挥类、打击类和保障类等.
3)1/3 时间部队完成比例
式中,M1/3为1/3 时间部队完成比例; S1/3为1/3 任务完成时间内达到的部队数; Sf为所有投送部队数.
4)2/3 时间部队完成比例
式中,M2/3为2/3 时间部队完成比例; S2/3为2/3 任务完成时间内达到的部队数; Sf为所有投送部队数.
5)投送资源利用率
式中,U 是投送资源利用率; Vp为实际利用值; Vt为理论能力值.
6)铁路运输占比
式中,St为铁路投送里程数; Sa为投送总里程数.
7)公路运输占比
式中,Sg为铁路投送里程数; Sa为投送总里程数.
8)航空运输占比
式中,Sk为铁路投送里程数; Sa为投送总里程数.
9)水路运输占比
式中,Sw为铁路投送里程数; Sa为投送总里程数.
10)投送总费用
式中,cz为部队的装载费用; cy为部队在路网中各节点之间的运输费用; ch为部队投送过程中产生的换乘费用; cx为部队在各节点之间的卸载费用.
11)联合投送效费比
效费比为综合评价指标,计算公式为
式中,T 是联合投送完成时间; Q 为联合投送完成质量;C 为联合投送整体费用; T、Q、C 为归一化后的数据.
2 基于深度置信网络和布谷鸟优化的联合投送任务规划方案评估
2.1 深度置信网络理论
联合投送任务规划需要处理大量路网数据,具有网状化、非线性、搜索空间爆炸的特点,深度学习很适合解决这类问题[14]. 深度置信网络(deep belief networks,DBN) 是多层受限波尔兹曼机(restricted Boltzmann machine,RBM) 和一层反向传播(back propagation,BP)神经网络组成的深度神经网络[15],提供了一个无监督与有监督学习的集成网络,基本构造如图2 所示.
图2 DBN 模型的网络结构Fig.2 Network structure of DBN model
在DBN 的实现中,多层RBM 网络使用无监督的学习方式,而BP 网络使用有监督的学习方式. 自下而上,每一层级的RBM 都对输入数据加以提炼、抽象,并把最后一级RBM 网络的输出信息交给BP 神经网络,作为输入信息. 因为每一层级RBM 的训练目标都只能达到该层级网络参数的局部最优,而并没有使整个模型达到全局最优,所以需要用有监督学习的方法调试整个网络,最终得出了对输入结果的计算结果. 这样结果既保证了准确性,又不失可靠性.
训练DBN 包括无监督训练和有监督调整两个过程[16]. 在训练过程中,将重构误差函数作为目标函数,对RBM 逐级的训练;在调整过程中,可以使用带标记的样本训练拟合程序,把已调过的数据当作修改的初始值,再利用随机梯度下降算法或利用最大化对数似然函数的方法学习得到网络中的参数,从而获得了更精确的样本特征. DBN 模型是一种生成式的训练模型,DBN 模型由多个RBM 所构成,每一个RBM 都包含了一个显示层与一个隐藏层,显示层和隐藏层之间相互连接,但各层内部没有连通[17]. 隐藏层神经元也被用于训练捕捉显示层高阶数据的相关性,在DBN 中最顶端的两层是一个模式判断层,相较于传统的深层sigmoid 信念网,更易于学习层与层之间的权值. 在DBN 网络的训练过程中,RBM 的数量是一项关键的因素[18]. 通过重构误差法处理是一个很有效的办法,设重构误差ERROR 值:
其中,n 为数据集的条数; m 为输入的维度数量; p 为模型计算的数据; d 为实际数据. 规定如下: 一旦ERROR 值超过了某个阈值,就多设一层RBM,并继续训练,否则,就交给BP 网络执行反向调整,过程如图3 所示. 因为样本的实际数据是能够提前获得的,在实现过程中可以通过直接计算得到ERROR 值,从而将准确率维持在90%以上.
图3 DBN 的深度计算流程Fig.3 Deep calculation process of DBN
2.2 布谷鸟优化算法
2009年,剑桥大学的YANG 和拉曼工程大学的DEB 模拟布谷鸟的寻巢与产卵活动,研究提出了一个新型群智能优化技术[20]: 布谷鸟搜索算法(cuckoo search algorithm). 布谷鸟算法也是元启发型的方法[21],具有元启发型架构的智能计算方法,启发型算法的求解都有如式(13)的迭代方程:
式中,δx代表步长; s 代表比例关系; Xi代表上一代的可能解; Xi+1是更新后的可能解.
布谷鸟是常见的同巢寄生鸟,它将自己的卵产在其他鸟的巢穴内,由巢穴的主人孵化并养育布谷鸟. 为减少自己的鸟卵被寄居的巢穴的主人发现的可能性,布谷鸟也可以将自己的卵在相似的鸟的巢内,但仍可以被巢穴的主人所察觉,当巢穴的主人发觉有布谷鸟卵在自己的巢穴内时,就将布谷鸟卵破坏或是抛弃在自己的巢穴,然后再重新筑巢. 根据布谷鸟巢内寄生的机理形成模型,就可以构造出布谷鸟算法,具体来说基于以下3 个理想化的规则[22]:
1)每只布谷鸟每个诞生一只蛋,并随意挑选寄生巢来孵化它.
2)在随机选定的一组寄生巢穴中,最好的寄生巢将会被保留到下一代.
3)可使用的寄生巢总量是恒定的,每一只寄生巢的主人能找到一只外来鸟蛋的几率都是pa.
布谷鸟算法新解的改进基于莱维飞行原理,莱维飞行中的二维坐标示意图在图4 中显示,不难看出莱维飞行的优点是在空中时能够意外的以90°转向,而这种飞行能够帮助动物们更高效地寻找到食物. 莱维飞行不但应用在动物界和昆虫中,而且在人类世界中的一些行为上(如市场价格波动、打猎等)也符合莱维飞行的特点.采用莱维飞行原理的解的迭代方程是:
图4 莱维飞行示意图Fig.4 Sketch map of Levy flight diagram
式(14)中,pj代表上一代可行解; pj+1代表更新后的可行值; randn[D]为比例系数,值为[1,D]范围内的某个均匀分布的随机数; D 默认为约束变量的个数,而stepsizej为步长,由式(15)确定.
式(15)中,ω 为常数,用于控制步长大小,默认取0.01;υ= randn[D]; u=δ·randn[D]; δ 由式(16)确定. 其中,q为常数,默认取3/2,pbest 为当前最优解.
一旦布谷鸟蛋被外来鸟类看到,则布谷鸟的迁徙按如下调整:
式中,rand 为(0,1)区间内满足均匀分布的某个随机数; pj,r1和pj,r2为第j 代中的两个随机解. 在迭代生成新的鸟窝位置后,把pa与随机数r~U(0,1)进行比对,若r>pa,则按式(17)进行更新,否则解维持不变.
2.3 联合投送任务规划方案评估模型
依据前面所述的DBN 算法以及评估指标体系,利用布谷鸟群优化算法全局优化能力,解决DBN 参数确定难问题,通过DBN 和布谷鸟优化算法来建立联合投送任务规划方案集成评估模型,评估模型的生成过程如图5 所示. 在对DBN 优化过程中,学习率、输入层节点的数量和隐含层节点的数量的调整等都会对DBN 的计算结果产生较大的影响. 目前,DBN 算法大多是凭借经验或者通过耗费大量时间多次调参来确定网络结构[19],基于此,本文引入群智能优化算法的全局搜索能力,利用布谷鸟群优化算法来解决DBN 参数,通过DBN 和布谷鸟优化来建立联合投送规划方案集成评估模型.
图5 联合投送任务规划方案集成评估模型生成过程Fig.5 Generation process of integration evaluation model of joint delivery mission planning scheme
主要过程如下:
1)采集联合投送任务规划过程的数据信息,包括投送任务清单、路网连接及能力和运输工具能力信息等组成原始数据集.
2)建立与联合投送任务规划过程的数据库,然后对所收集到的数据进行无量纲处理后,再按一定比例分成测试集和训练集.
3)外部利用重构误差法确定DBN 的深度,在内部则通过布谷鸟优化方法对DBN 模型进行参数的寻优,包括学习率、输入层节点的数量以及隐含层节点的数量等.
4)基于集成了布谷鸟优化算法的DBN 模型,建立联合投送任务规划方案集成评估模型,并利用训练数据生成联合投送任务规划方案集成评估模型. 通过共轭梯度方法改变权重矩阵来增加训练收敛效率,从而得到误差函数达到了最小的网络权重矩阵.
5)在测试阶段,把测试数据注入到经过训练后的联合投送任务规划方案集成评估模型中,计算联合投送任务规划方案的评估结果.
2.4 模型评价指标
对评估模型性能的评价指标有很多,本文选择3 种可量化的指标对评估模型的性能进行评估.
1)均方根误差(root mean square error,RMSE)
2)平均绝对误差(mean absolute error,MAE)
3)决定系数(R2)
3 个指标中,评估数据的长度为l; yi代表第i 个评估数据的权威专家经验值; yi′代表第i 个评估数据的评估值. 由于RMSE 反映评估值和实际值之间的平均偏离程度,因此,其对评估中出现的过大或过小的误差很敏感[23],其值大于等于0,当该值为0 时,说明评估的精度最高. MAE 是平均绝对误差,其值越小,说明评估值和实际值之间的差值越小[24]. 决定系数R2的值同样是大于等于0,当R2的值等于1 时,说明评估值和实际值之间没有误差,评估精度最高.
3 案例应用
3.1 实验环境与参数设置
以某西部地区联合投送为场景开展案例实验,采用了基于开源的深度学习工具箱DeepLearnToolbox 中的DBN 模块(https://github.com/rasmusbergpalm/DeepLearnToolbox)编程实现. 试验硬件环境为:内存32 G,CPU Inte(lR)Core(TM)i7-4790 8*3.60 GHZ,GPU GeForce GTX Titan X. 联合投送任务规划方案评估数据集通过所搭建的联合投送任务规划训练仿真系统生成,该系统一方面用于部队实际投送训练,一方面可用于仿真投送任务规划过程,系统如图6 所示.
图6 联合投送任务规划训练仿真系统Fig.6 Training simulation system of joint delivery mission planning
实验前按照一定的比例将评估数据分为训练数据集和测试数据集,训练集用于训练联合投送任务规划方案评估模型(占总数据70%),测试集用来测试模型的泛化能力(占总数据30%),并对数据集进行无量纲处理,处理完的数据如表1 和表2 所示. xi为评估指标值,yi为权威专家经验值.
表1 部分训练数据示例Table 1 Some training data examples
3.2 试验结果分析
实验中将RBM 的层数分别初始化为2、3 和4,将隐藏层的节点数量设定为5、9、12、18 和24. 训练中单个RBM 模型参数设定: 学利率为0.9,BP 网络的学习率为0.9,动量为0.5. 在实验过程中,利用布谷鸟方法优化寻优输入层节点数和隐藏层节点数;然后添加新的隐藏层,判断隐藏层的增加对模型性能的影响,进而确定网络最佳的节点数,同时也设定了新隐藏层的层数. 最后通过利用布谷鸟算法优选,得到性能较好的DBN 网络隐含层神经元数量设置为200,微调循环次数设置为50. 利用十折交叉验证法完成模型的校验后,将训练数据集分割为10 份,并分别把任意9 份用于模型训练学习,剩下的1 份作为测试数据. 训练集用来完成网络模型的建立、参数调节和生成;测试集用来完成网络模型准确率的评估. 反复训练获得的学习参数是: DBN 模型的层数为3,每层节点数为11,最后一层的神经元数目为3(3个综合评估指标),每迭代次数为50,平均学习速度为0.000 1,在微调阶段的平均学习速度为0.01.
利用训练数据对联合投送任务规划方案评估模型进行训练,得到模型的评估结果,与训练真实值对比如图7 所示.
图7 中y1′、y2′、y3′为模型评估值,可以看出,训练数据与模型评估值相差较小,误差绝对值均不大于0.05. 表3 给出测试数据的真实值与模型评估值.
图7 训练数据与模型评估结果对比Fig.7 Comparison of training data and model evaluation results
从表3 可以看出,联合投送任务规划方案评估模型的评估值与真实值之间波动率较小,样本平均绝对误差都在10%以内. 此外,模型整体RMSE 和R2分别为0.051、0.91,误差都在可以承受的范围以内.联合投送任务规划方案评估模型的误差范围满足使用需求,具备了较强的学习能力和泛化能力,该方法用于联合投送的任务规划方案评估合理有效.
表3 测试数据与模型评估结果对比Table 3 Comparison of test data and model evaluation results
4 结论
本文研究了联合投送任务规划的评价原则,构建了联合投送任务规划方案评价的指标体系. 利用深度学习的非线性学习能力和群智能优化的全局搜索能力,建立一个集成深度置信网络与布谷鸟优化技术的联合投送任务规划方案评估模型. 实验结果显示,该方法能够合理精确地评估联合投送任务规划的方案,为处理复杂的非线性评估问题提出一个新途径. 文中的指标体系主要面向的场景是平时的情况,如何在指标体系和模型构建中考虑战时复杂场景下的随机性和多样性是下一步的研究重点.