基于对抗进化的联合火力打击任务规划*

2019-10-14张晓海

指挥控制与仿真 2019年5期

刘昊,朱宁,2,张晓海

(1. 国防大学联合作战学院,河北石家庄 050000;2. 陆军工程大学石家庄校区,河北石家庄 050000)

联合火力打击任务规划是联合作战组织筹划的重要环节,通过对联合火力打击中目标、兵力和弹种的动态分配,运用辅助工具对火力打击行动进行筹划计算,包括评估兵力弹药满意度、辅助制定联合火力打击方案计划、预测作战效果等[1]。其核心问题是解决联合作战中的动态火力分配问题,即根据战场态势和敌我动态博弈情况感知目标打击清单,进而实现火力打击力量和目标之间的分配,以期联合火力打击效能最大化的过程[2]。难点在于动态博弈情况错综复杂,敌我火力分配的细微差别会造成最终火力打击结果的千差万别,极大地增加了任务分配推演计算的复杂度和算法实现的难度。

国内外研究人员已经针对联合火力打击中的任务规划问题探索了多种解决方法,特征评估法[3-5]通过算法公式计算影响战果的评估指标,效率高但推广性差;改进遗传算法[6-8]利用生物进化思想寻找当前状态下的全局最优解,构造简单但环境依赖性大;动态博弈法[9-11]通过博弈论构建敌我之间的纳什均衡,动态适应性强但计算复杂性剧增;神经网络法[12-14]模拟智能体自学习能力依靠经验解决问题,理论完美但训练数据来源受限。上述方法普遍关注静态条件下对我方火力打击效能的评估,而非将敌我双方纳入对抗体系实施推演。本文在总结前人方法基础上,借鉴自然界物种间对抗进化机理,在遗传算法基础上设计智能对抗进化算法,实现敌我任务规划的无上限对抗进化,产生当前态势及未来可能态势下解决联合火力打击任务规划问题的最优个体,并通过仿真实验验证了该方法的自我学习能力以及在解决联合火力打击任务规划问题上的可行性。

1 问题描述

任务规划系统在联合作战筹划中具有广泛的应用需求,本文主要探讨联合作战火力打击阶段的任务规划问题。设敌我双方均可同步获取对方的目标打击清单并分配火力打击力量,为构建动态博弈模型,将火力打击区分多个波次,以动态生成的目标打击清单为各波次分界点,则第f波打击的毁伤比率设为p(f),损失比率为q(f),弹药消耗为d(f)。构建敌我双方兵力损耗B(f)和弹药消耗H(f)的数学模型如下所示:

B(f)=B(f-1)×p(f)×q(f)

(1)

D(f)=D(f-1)-d(f)

(2)

问题的难点是，发现概率决定了目标打击清单,目标打击清单决定了单波次火力打击的任务分配结果,任务分配造成了敌我兵力和弹药的不同损耗,同时又调整了发现概率,这就构成了一个闭合的动态博弈模型,任何微小的火力分配调整都会影响模型最终结果。因此构造评分算法统计胜负结果,以及评估火力打击任务规划的优劣是解决联合火力打击任务规划问题的难点[15]。构建模型所需表格如表1-表4。

表1 敌我目标态势表示例

表2 营指挥所的目标关联表示例

表2为以营指挥所为中心,列举了各目标与其关联情况。其中，0表示联通,1则表示不通。

表3 火力打击属性表示例

表4 炮兵阵地的火力毁伤能力表示例

表4为以炮兵阵地为火力打击力量对各目标类型实施火力打击,能够达成规定毁伤程度所需的打击次数。

2 算法构建

智能对抗进化算法是以遗传算法为基础,引入双种群对抗进化机制,在初始个体手工确定的基础上,实现敌我种群间的动态对抗,在多代迭代后产生能够解决联合火力打击任务规划问题的最优个体,并将其作为任务规划的最优解输出。算法流程图如图1所示。

图1 智能对抗进化算法流程图

2.1 OODA评估指标

OODA循环是将火力打击过程分解为“观察-判断-决策-打击”环路,强调提升己方环路效率,同时破坏敌方环路以达成制胜目的。基于该理论,本文将目标区分为观察单元、决策判断单元、信息传输单元、行动单元、其他单元等5类;按照各目标的信息属性区分,构建出侦察情报网、指挥控制网、信息传输网、火力打击网,并在各子网络的基础上构建作战超网络,在超网络体系内分析各行动单元的OODA循环节点,进而计算出OODA评估指标。图2是以敌方战场态势信息构建的超网络图示例。

图2 敌方作战超网络示例

设与第i个行动单元相连接的观察单元数目为m,判断决策单元数目为n,信息传输单元数目为k,重要程度指标为zi,机动能力指标为di,已毁伤程度指标为hi,则观察节点效率G计算公式如下

(3)

判断决策节点效率C计算公式如下

(4)

信息传输阶段效率S计算公式如下

(5)

OODA评估指标POODA计算公式如下

POODA=log(max{G,1})×log(max{C,1})×log(max{S,1})

(6)

2.2 目标打击清单

确定目标清单模块用于在敌我动态对抗中获取战场实时感知的敌我双方火力打击目标数据。首先根据超网络计算各节点的发现概率,生成初始目标清单;而后根据敌我对抗情况修订目标发现概率和毁伤程度,动态更新目标打击清单,具体算法如下。

1)计算超网络中各节点的初始发现概率f计算公式为

(7)

2)生成初始目标打击清单。按发现概率由大至小排序目标,选取fi>5%的目标作为初始打击目标。

3)动态更新目标打击清单。

每次对抗评估后,导入发现概率超过80%的目标,删除毁伤程度>80%的目标。fi计算公式为

fi=fi-1+rand{G,C,S}×rand{10,…,30}

(8)

此外,每波打击中随机对某个目标的发现概率赋初值100。

2.3 个体生成与转录

本文中个体定义为具备一定智能程度的任务规划基本单元,在确定当前状态的目标打击清单条件下,能够对应输出联合火力打击任务分配结果。个体结构如表5所示。

表5 个体数据结构

本文中的DNA特指由随机整数组成的二维动态数组,用以模拟生物种群中的DNA变异和进化的自然特征。转录特指在输入目标打击清单后,个体DNA数组通过算法计算,产生对应的任务规划表的过程。具体算法如下。

1)穷举所有可能的火力分配任务。每个火力分配任务包含“打击目标编号、使用部队编号、火力打击起止时刻”;

2)数据非线性推演。为每个火力分配任务和DNA数组对应计算logsig函数并留存计算结果。设火力分配任务输入值为目标重要程度n,DNA数组初始维数为10,对应数组值为d,推演公式如下

(9)

若为首段输入,则输入打击目标的重要程度;

若为第i段输入,则以ni=logsig(ni-1)代入logsig函数计算;

3)判定是否实施该火力分配任务。若结果logsig(ni)<50则不实施;反之则实施;按logsig(ni)分值由大到小排序选取前10的火力分配任务。

4)去冗余操作。去除超程任务;去除弹药不足任务;去除兵力不足任务;去除执行冲突任务;输出最终的火力分配表。见表6。

表6 个体对应火力分配表示例

2.4 敌我对抗评估

敌我对抗评估用于在敌我双方个体固定的情况下,通过OODA评估指标确定各火力打击力量的打击先后次序,进而得到每次打击的兵力、弹药损耗,最终推演出敌我最终战损情况的过程。对抗评估算法流程如下。

1)计算敌我双方各行动单元的OODA评估指标;

2)按OODA评估指标确定敌我行动单元的火力打击先后次序;

3)按先后次序实施火力打击,更新打击目标的毁伤程度和打击力量的弹药消耗;设参与火力打击的部队毁伤能力为ki,兵力消耗比例为bi,毁伤程度hi计算公式为

(10)

4)单独计算飞行单元的毁伤程度和防空力量的弹药消耗;防空力量的弹药消耗要加入限制条件:飞行单元所要打击的目标要在防空力量的防御范围内;防空力量要保证有兵力和弹药剩余;

5)更新敌我各目标的发现概率;

6)更新目标清单。

7)重复1)-6),引入结束条件:一是若个体转录出的任务分配为空,则退出对抗;二是若敌我平均弹药消耗和兵力消耗相比于上一次无改变,则退出对抗。设目标数为n,行动单元数为m,第i个行动单元的额定火力打击次数为ei,以完成火力打击次数为ci,平均弹药消耗D计算公式如下

(11)

设第i个行动单元的毁伤程度为hi,平均兵力损耗B计算公式如下

(12)

8)判断胜负。本文将弹药投放效率作为获胜依据,即在投放相同弹药数量情况下,以对目标产生的毁伤情况判断胜负。设目标数为n,第i个行动单元的火力打击次数为ci,额定打击次数为ei,毁伤程度为hi,重要程度为zi,胜负评分Z计算公式如下:

(13)

(14)

(15)

(16)

2.5 个体繁殖变异

繁殖变异用于产生新生个体,通常以优秀个体作为父代,通过千分之一的随机变异操作产生不同于父代的子个体。繁殖变异算法流程如下。

1)在种群中找到最高分个体,如最高分个体为多个,则全部取出;

2)从取出个体总选中父个体,父个体是所有选中个体中遗传次数最少的个体;

3)从种群中随机抽取1个个体作为母个体;

4)父母个体DNA数组中的一部分随机进行互换或拆补,产生子个体;设个体Am和个体An在第k位上对应的基因分别为amk和ank,b取[0,1]之间的随机整数,b=0表示基因不交换,b=1表示基因交换;则交换的具体方法为:

(17)

设基因拆补为将amk拆下,插补到ank后,b=0表示基因不拆补,b=1表示基因拆补;则拆补的具体方法为

(18)

5)输出该个体作为新个体。

2.6 种群优胜劣汰

优胜劣汰模块用于构造敌我动态对抗的环境,在对抗中胜者留存并繁衍后代个体,败者淘汰并释放资源。优胜劣汰算法流程如下。

1)随机选出敌我各自某个个体,进行对抗评估计算;

2)根据对抗评估结果,赢的个体胜利次数+1,同时删除输的个体;

3)在失败方种群内遗传变异并产生新个体替代已删除个体;

4)重复1)-3),直至达成退出条件:我方最优个体的胜利次数超过某一阈值。

5)输出我方最优个体作为联合火力打击任务规划结果。

3 仿真分析

仿真实验计算机配置:联想笔记本电脑运行MFC程序,配置:Intel酷睿双核处理器T7300 2.0 GHz;3G内存;32位Win7操作系统;vc6.0编程环境。实验主要用于验证该算法的无上限对抗进化特性和智能性,用探讨大数据在人工智能算法中的作用机理。最后运用该算法设计制作“智能联合火力打击任务规划软件”以服务于作战筹划实践。

3.1 自我学习能力分析

为了验证算法的自我学习能力,实验设计在敌我态势不变情况下,对敌我双种群实施自由对抗,每次对抗记为1代,共推演400 000代,分析敌我种群间的胜败比率,以此判断个体是否具备自我学习能力。敌我胜利次数统计如图3所示。

图3 敌我胜利次数统计

实验结果表明,敌我胜败比例不存在绝对差别,胜者不可能一直压制败者,败者可通过改造自身积累足够获胜机会,随时翻盘。相比于遗传算法在进化一定代数后存在收敛上限的情况,智能动态对抗算法由于其评估环境处于敌我动态变化中,因此不存在收敛上限,这就客观上导致了个体可通过大量的敌我对抗数据积累获胜经验改造自身,从而获得在火力打击任务规划中分析解决问题的能力。

3.2 解决问题能力分析

为了验证通过多代进化获得的最优个体的任务规划能力,实验设计随机生成1000个敌方个体作为对抗对象,使用各代最优个体和敌方个体逐一对抗并记录胜负,以此判断该算法在解决任务规划问题上的效果。各代最优个体胜利次数统计如图4所示。

图4 各代最优个体胜利次数统计

实验结果表明,随着进化代数的增加,各代最优个体对敌个体对抗获胜的次数逐渐提升,并最终全部获胜。最优个体确实能够通过经验积累获得解决任务规划问题的能力,并可以应用于联合作战任务规划实际。

3.3 算法受限条件分析

图5为各代最优个体自身数据存储容量的统计,图6为各代最优个体进行对抗的时间消耗统计。

图5 最优个体容量统计

图6 最优个体对抗评估时间消耗统计

实验结果表明,随着进化代数的增加,各代最优个体的数据结构呈指数级增长,并因此导致对抗评估时间消耗相应增大。因此高代数最优个体普遍存在解决问题能力提升,但自身数据结构复杂度相应提升、对抗时间消耗增大的情况,对抗进化算法并非是越高代数越好,而应在应用时效性和可用性之间达成可接受的平衡。

3.4 算法应用

根据智能对抗进化算法,本文设计“智能联合火力打击任务规划软件”,软件为联合作战指挥员提供火力打击筹划阶段的辅助决策建议,便于指挥员和相关机构席位制定更科学合理的联合作战火力打击任务规划。

1)模块设计。软件设计了导入数据模块、对抗进化模块、辅助决策模块。导入数据模块用于导入生成联合火力打击任务规划的相关表格;对抗进化模块内部嵌入了智能对抗算法,软件通过智能对抗进化完成自我学习的过程,后台生成各代最优个体的文本文件;辅助决策模块用于产生最优个体对应的辅助决策建议,便于指挥员理解敌我态势和做出相应决策。软件操作界面如图7所示。

图7 软件操作界面

2)结果显示。生成辅助决心建议如下:依据当前敌我态势以及目标打击清单,我火力打击综合胜率为XX%,不能完成火力打击任务,建议补充兵力弹药/能够完成火力打击任务;建议使用X号个体作为火力打击任务分配算法,其综合胜率达XX%;预计执行完火力打击任务时,我火力打击部队兵力剩余XX%,弹药剩余%。

4 结束语

本文通过对抗进化思想建立了基于遗传算法的进化平台,通过敌我个体间的优胜劣汰和遗传变异,实现联合火力打击任务规划的自我进化和迭代,产生了符合作战实际需求的任务规划。创新点:一是引入敌我态势信息构建基于体系的超网络,以模拟联合火力打击中的体系破击战法；二是引入对抗评估算法,并以此判断出最终胜负；三是将双种群对抗进化机制引入遗传算法,使种群具备了无上限的自我学习和进化的能力。仿真实验结果表明,该方法相比于标准遗传算法具备更大的灵活性,具备解决特定问题的人工智能算法基础。