APP下载

空天预警探测系统关键技术发展思考

2022-07-12李博骁李奇峰

中国电子科学研究院学报 2022年4期
关键词:红蓝探测系统空天

李博骁, 张 峰, 李奇峰

(1.中国电子科学研究院,北京 100041; 2.清华大学,北京 100084)

0 引 言

伴随新战争形态的演变发展,未来战争将是强敌介入下导弹突防、临近空间打击和电子战综合运用,空天对抗愈加激烈。

世界主要军事强国通过作战概念创新、先进装备研发,推动了空天作战能力的突飞猛进。美国为谋求其领先地位,极力推动空天攻防力量的建设,试图保持其在空天领域的发展优势,获得在未来战争中的绝对战略优势,积极发展空天新型攻防装备,开展大量空天攻防技术装备的试验验证[1]。

针对空天作战呈现的战场时空跨度大、目标突防手段多、探测装备种类广等特点,作为空天作战的核心力量,空天探测的及时性和准确性,是保证后续指挥决策和作战行动有效实施的先决条件。

空天预警探测系统由探测装备、信息系统、网络通信等要素构成,其中信息系统是体系的核心,主要承担任务筹划与装备管控、信息处理与应用、交战管理等任务。

1 军事需求

空天预警探测主要作战过程是,接收上级指挥机构下达的作战任务,开展情报研判,组织调度各类探测装备对来袭目标进行探测,对各类信息进行汇集融合,生成并发布空天综合态势与目标指示信息,保证后续指挥决策和作战行动的有效实施。

随着天基网络、人工智能等新技术的飞速发展,使得全球分布的各类探测装备、信息系统由独立单元构成了紧密交联、密切协同的复杂网络,对探测信息接收处理、态势认知预测、行动快速应变等要求将远超现有系统能力,给未来空天预警探测系统提出了严峻挑战。

一是传统的系统架构难以适应新功能的迭代更新与新技术的集成应用。对于空天预警探测,各类探测装备由圄于国土的独立节点构成了遍布全球、密切协同的复杂网络,对系统时效性、精准性、联动性提出了很高要求。空天预警探测系统是复杂巨系统,传统探测系统主要采用事先制定的规则,采用串行处理流程实现,难以适应未来空天作战大时空、高精度、灵活多变的复杂场景[2]。

二是空天威胁探测数据复杂导致目标识别难。空天战略袭击武器一旦发生误判会导致灾难性后果,虚警率要求小于十万分之一,必须解决多源异构探测数据关联融合问题。探测装备在作战过程中生成的各种探测数据的动态变化规律难以掌握,且相互之间的印证关系错综复杂,依靠人工手段无法构建可靠的空天目标识别模型。并且由于空天威胁探测数据样本少,无法使用传统方法进行训练[3]。因此,亟需探索小样本条件下目标识别模型构建与训练方法。

三是空天威胁的高复杂性导致传感器调度管控难。空天武器平台速度快,具有短时爆发、高动态等特点,一般洲际弹道导弹飞行时间20 min~30 min,留给传感器引导交接、协同调度的决策时间只有几秒。同时,探测装备数量种类多、参数多样化,通过天地信息链路构成了复杂的传感器网络,加之空天威胁目标与探测装备之间复杂的观测对应关系,多要素互相交织耦合,都极大地增加了探测装备任务管理和资源调度问题的难度,导致传感器调度属于NP困难问题[4]。因此,需要探索如何在极其有限的时间及计算资源的条件下,动态给出最优探测装备调度管控策略。

2 国外发展现状

近年来,美国在相关领域开展了大量研究,积极推动在军事领域的应用,旨在重塑作战体系结构,提升资源管控、目标识别等核心作战能力。

在分布式体系结构方面,美国防部高级研究计划局实施了“黑杰克”计划[5]、美太空军实施了“赌场”项目[6],均考虑通过分散融合和低轨大规模星座提升体系弹性和对战区作战的扁平信息服务能力。在信息系统方面,美太空军正在开发“企业化太空作战管理和指挥控制”系统[7],在当前指挥中心所在地建立并行运行的“影子作战中心”,边开发、边试验、边部署、边训练,通过红蓝对抗演习和推演实现系统能力进化。

在目标识别方面,2014年,DARPR启动了“对抗环境下的目标识别与自适应”项目[8],旨在帮助飞行员更快地完成目标识别,提升他们在任务执行期间的态势感知能力。通过将人工智能技术引入到飞机座舱,降低了目标识别算法的计算资源消耗,构建了实时、精确的目标识别系统,提升了飞行员对机内机外信息的解读能力。

在资源调度方面,DARPA于2018年启动了“指南针”项目[9],旨在通过利用大数据分析、博弈对抗等方法帮助作战人员确定敌方真实作战意图,制定并选取己方最有效的行动方案。该项目试图从两个角度来解决问题:首先,试图确定对手的行动和意图;然后,确定对手如何执行这些计划,如地点、时机、具体执行人等。但在确定这些之前必须分析数据,了解数据的不同含义,为对手的行动路径建立模型,然后在重复的博弈论过程中使用人工智能技术在对手真实意图的基础上确定最有效的行动选项。

3 空天预警探测技术发展重点

面向空天作战特点和空天预警探测面临的挑战,我们应努力抓住科技进步创造的发展机遇,应用人工智能等新技术,重塑空天预警探测系统架构,促进探测资源调度、目标识别等核心能力提升,有效支撑作战人员进行快速、精准、全方位的判断和决策。空天预警探测技术发展重点如图1所示。

图1 空天预警探测技术发展重点

一是重塑空天预警探测系统架构,实现系统能力迭代优化。打破传统基于人为制定规则和处理流程的系统架构,打造基于分布式多节点“学习-认知-自我进化”的分布式网络化空天预警探测系统架构,以适应不断涌现的新威胁和持续发展的预警探测新技术。

二是显著提升目标识别能力,实现空天威胁自主感知。通过对综合情报信息和多感知信息进行融合,进一步地挖掘多模态特性,迁移、融合相关目标识别知识模型,建立可靠的战场目标识别模型,提升目标识别准确率。

三是强化探测资源调度能力,实现空天威胁探测感知全链条协作运用。通过加强信息获取与装备运行的铰链,减少人为设计规则的干预,依托前向辅助和反向反馈,逐步增强装备调度策略,实现空天预警探测系统从被动探测到主动感知的转变。

此外,针对空天预警探测系统核心处理算法,需要结合仿真和实装手段,验证核心算法的准确性和有效性,促进系统能力的螺旋迭代提升。

3.1 空天探测系统分布式网络化架构技术

面向天基网络、分布式系统等技术的广泛应用,分布在陆海空天的单节点传感器在作战时可形成复杂的传感探测网络。在分布式网络化系统架构下,每个传感器节点均具备自主感知、自主规划调度和自主执行全部或部分能力。系统可根据传感探测节点的资源情况和任务要求,按照一定策略生成各传感器网络的协同组网运用方式。主要的协同组网运用方式包括集中式、完全分布式和混合式三类。

1)集中式协同。如图2所示,在集中式组网协同运用方式中,有一个伪中心节点作为各传感器网络的控制节点,完全控制其他传感器节点的行为。在这种协调方式下,主节点有强大的决策处理能力,由它来完成任务的规划调度和分配,消解各从节点之间出现的冲突,形成全局一致性。该协同运用方式可保证多源传感器预警探测网络的整体一致,个体节点的控制和管理较为容易,整个系统运行效率高,易于实现全局最优;但对节点的要求高,且每次网络拓扑结构变化时都需要进行协同探测参数的重新计算,适用于传感器节点稳定的预警作战环境。

图2 集中式组网运用方式

2)完全分布式协同。如图3所示,在完全分布式协同组网运用方式中,不存在中心控制节点,系统中各节点处于平等地位,无主次之分,每个传感器可看成具有完整功能的、独立决策能力的个体节点,又称分散式协同。各节点之间可以交互自己的探测信息和可用资源,根据自身的推理机制和交互规则进行协商,得到各节点的任务分配任务集,协作完成所需执行的任务。这种结构具有较好的灵活性和稳定性,可快速实现探测节点的随遇接入,探测网络的稳定性和鲁棒性较强,但是节点间的通信网络拓扑与信息交互关系较为复杂,对协同探测策略及算法要求较高,适用于传感器节点频繁动态变化的预警探测作战环境。

图3 完全分布式组网运用方式

3)混合式协同。混合式多节点系统具有集中和分布两种特点,包含了全局节点控制,主节点与从节点采用集中协调模式,主节点负责对从节点进行管理,划分任务,消解冲突,各从节点之间相互平等,完成各自的任务。

三类协同组网运用方式,需要根据实时感知的目标情况和状态环境,结合各传感器节点状态,以及不断变化的任务要求进行动态调整。如何评价不同场景下协同组网运用模式动态切换的效益,以及如何生成达到最优作战效能的网络拓扑结构,是后续需要重点关注的问题。

3.2 样本不足条件下的空天威胁目标智能识别技术

X-37B无论对于传统基于规则的识别模板还是基于深度学习的智能算法,均需要大量的数据。对于样本缺失条件下的军事目标识别问题并没有有效的解决方法。目前主要空天威胁目标探测数据量很少,为实现对目标的快速有效识别,应重点研究小样本和零样本条件下的目标识别方法。

3.2.1基于深度学习和迁移学习的小样本目标识别

传统深度学习依赖于海量训练数据,导弹目标由于其发射成本高、探测条件有限,海量数据采集难以实现,具有样本数量较少的特点。而在轨空间目标数量庞大,低轨目标数小时即能绕地球飞行一周,使得可能积累大量的空间目标探测数据。同时,从传感器探测角度,空间目标探测数据具有与导弹目标探测数据相似的特征属性,因此可以将空间目标探测数据作为训练样本,采用基于迁移学习的方法解决导弹目标小样本识别问题。

如图4所示小样本条件下导弹目标识别总体思路是,通过大量的与导弹目标具有相似特征的空间目标传感探测数据和少量可获取的导弹目标的传感探测样本,采用基于深度学习和迁移学习的方法,实现从空间目标探测的相似数据到导弹目标探测的真实数据的跨域学习,形成能够面向真实场景下多种复杂情形的、鲁棒性高的导弹目标识别算法。

图4 小样本条件下导弹目标识别总体思路

第一阶段是空间目标探测数据的预训练。首先,针对大量空间目标探测数据,进行人工初步筛选,过滤掉不可用的数据,并对剩下的数据进行数据处理,通过对目标数据的分类与标注,构建形式化的空间目标探测数据集;然后,根据空间目标探测数据的相关特性,设计深度卷积网络,通过预训练的方式提取目标的特征参数,构建空间目标识别模型。

第二阶段是导弹目标识别模型自适应跨域迁移,如图5所示。首先,构建空间目标-导弹目标跨域任务,利用空间目标-真实导弹跨域变换网络对源域数据进行处理,建立目标语义知识表达,保留源域中的高层语义特征,得到与导弹目标探测数据具有相似低层特征的数据;然后,将低层的特征跨域变换到目标域上,利用少量导弹目标探测数据对训练网络进行微调,实现导弹目标识别网络模型构建。

图5 基于深度学习和迁移学习的跨域小样本导弹目标识别技术

3.2.2基于生成对抗网络的零样本目标识别

对于无探测数据的空天威胁目标,基于目标语义信息,可采用基于生成对抗网络技术,实现零样本条件下的目标识别。

总体思路是,通过构建目标语义辅助信息,让系统对未知目标进行语义理解,由生成器产生未知目标的伪特征数据,与判别器进行对比判断。经过不断的自我博弈,在没有先验信息的前提下也可以较好的去学习,从而不断提升生成数据的置信度,实现对未知目标的分类和识别。

以美国空天飞行器X-37B为例,如图6所示,首先,通过情报等信息,完成对目标的语义描述,如目标属性、结构、飞行轨道、攻击特征等,建立辅助信息标签;然后,构建包含有上述语义信息的目标训练数据集如各类型卫星、弹道导弹、飞机等,通过X-37B的语义标签和噪声信号,生成目标伪探测数据的多维度特征,并与训练集中提取得到的真实特征,如卫星的轨道数据、弹道导弹再入段轨迹、飞机结构特征等,进行对比判断,不断训练伪特征数据,最终建立未知目标X-37B的分类模型,实现在零样本条件下对其进行准确识别。

图6 基于生成对抗网络的零样本目标识别技术

3.3 多维空间对抗博弈条件下的探测装备优化调度技术

随着空天威胁目标种类、型号、数量、攻击样式的不断剧增,需要持续突破高维空间寻求全局最优解技术,实现在多方向多目标饱和攻击场景下,通过装备资源的优化配置和调度,保证来袭目标不漏警、重点目标连续跟踪。假设有M个探测装备,N个作战目标,装备与目标之间有2MN种探测组合关系,状态空间呈指数增长,寻优过程非常复杂。相比于传统寻优方法,可用强化学习等人工智能技术,实现多传感器多目标的动态匹配,如图7所示。

图7 多传感器多目标动态匹配问题

如图8所示,基于强化学习的多传感器多目标决策,总体思路是,将多传感器多目标动态匹配问题建模为强化学习经典模型,针对特定场景数据,提出特征设计和特征编码方法,通过设计“目标-传感器”状态表达空间以及传感器动作表达空间,设置基于传感探测效果的奖励机制,实现学习模型在动态环境中对多目标的实时决策,解决传统多目标分配算法无法进行动态决策导致决策效率大大下降的缺陷[10]。

图8 基于强化学习的多传感器多目标决策技术

(1)空天预警探测对抗过程建模

空天作战是红蓝双方博弈的过程,通过构建红蓝对抗双方的状态空间、动作空间、状态转移、效用函数等要素,支撑博弈决策模型的学习与建立。其中,状态空间是对空天战场的完整描述,主要包括环境信息、蓝方目标信息、红方资源信息等;动作空间是蓝方目标动作和红方传感器资源调度动作所构成的空间;状态转移是空天作战过程中根据红蓝双方实施的动作将当期状态转移到下一个新状态;效用函数用于评价红蓝双方博弈过程中不同状态的效用。

(2)初始决策模型建立

以假定的蓝方作战攻击策略和红方事先生成的探测预案以及传感器资源管控策略为基础,建立蓝方初始决策和红方初始决策模型,推进红蓝双方博弈过程。初始决策模型构建的是迭代学习之前的初始决策,是空天威胁对抗博弈过程中红蓝双方的行为动作策略,作用于博弈模型状态空间,产生新的状态转移。红蓝双方的初始决策由假定的作战想定来描述,在推演博弈过程中,分别由红蓝双方的目标仿真模型、传感器仿真模型、信息系统仿真模型执行相应的初始决策,完成相应的作战行为和作战状态转移。

(3)红蓝双方决策策略和共享值函数的联合学习

首先,研究联合状态和动作的双方决策策略模型构建、联合状态和价值的共享价值模型构建,综合考虑当前状态、历史状态、资源约束,为最优行动搜寻提供支撑;然后,研究决策策略、价值模型的联合学习方法,提升双方决策策略模型、共享价值模型的泛化能力;最后,研究空天探测博弈的课程学习方法,包括场景划分方法、模型训练方法,从而产生适用于不同复杂度场景的学习模型。

(4)面向空天预警探测的同步博弈决策

首先,研究面向同步决策的蒙特卡洛树搜索方法,通过对搜索树结构、搜索树关键步骤的改进,实现空天预警探测博弈问题对抗过程的准确建模;然后,研究博弈知识与搜索过程的动态结合,通过改进双方决策函数、共享值函数、搜索算法的结合方式,实现博弈知识引导下的高效搜索;最后,研究结合知识的启发式优化,利用搜索过程积累的内部信息建立优化规则,实现搜索计算效率的有效增强。

(5)决策策略和值函数的迭代增强

首先,研究决策策略、值函数的数据增强方法,采用同步博弈蒙特卡洛树搜索产生增强样本,实现调度战术动作层面的策略增强;然后,研究面向探测装备的策略增强方法,借助多智能体强化学习思路,采用策略迭代方式实现战术执行动作层面的策略增强;最后,研究决策策略、值函数、探测设备策略模型的联合增强方法,最终实现作战过程中针对多目标的多传感器动作策略的最优选择。

3.4 虚实结合多模态核心算法验证技术

面向当前空天预警探测系统主要以人工方式处理核心业务的现状,针对空天预警探测系统核心功能迭代升级慢、空天预警作战战法研究和应用欠缺等问题,引入人工智能等新技术,在当前作战值班中心系统旁边建立并行系统,与值班系统并行运行,一方面通过红蓝对抗、超实时推演、数据挖掘分析、并行运行等技术手段,支持多算法并行验证、迭代更新,另一方面通过同时运行多种算法,在线比较多种处理结果,辅助指挥员进行更加谨慎的研判,从而进一步避免虚警误判,提高信息支援准确性。

1)针对空天预警探测系统中目标识别、资源调度等核心功能模块,充分应用人工智能、高性能计算、虚拟现实等技术,通过对作战数据的高效管理和应用,提升空天预警探测系统的智能化、自动化、可视化水平。

2)针对实战场景缺、实战经验少等问题,搭建空天作战红蓝对抗仿真推演平台,针对复杂的、不可预知的空天作战场景,通过红蓝对抗推演、多并行推演等方式,对红蓝双方可能的攻防策略进行模拟,从而优化装备调度方法、核心算法参数、应急处置策略,为战法研究和人员训练提供支撑。

3)针对核心功能迭代慢的问题,构建一套多算法对比评估平台,在平台上部署新研或改进的资源调度、信息融合、目标识别、态势生成等核心算法,利用仿真数据和实测数据,快速对新算法、软件进行测试、优化、验证。

在网络化智能化架构下,空天预警探测系统具备4种工作模式,如图9所示。

图9 空天预警探测系统工作模式

1)仿真条件下的系统自我进化。空天预警探测系统通过高保真仿真推演环境中进行的红蓝模拟仿真对抗博弈,达到自我学习和进化的目的,主要分为两个阶段。第一阶段是模仿学习,系统按照作战人员设定的作战规则,学习和模拟红蓝双方的作战策略、作战行动以及应对措施,通过在不同作战场景下的仿真推演,实现对现有作战规则及战法的学习。第二阶段是强化学习,系统以学习到的红蓝双方策略为初始策略,通过打破现有规则和战法的新的策略尝试,与仿真环境进行自我对抗博弈,从而达到获得最大收益和最佳行为决策的目的,实现系统的自我进化。

2)日常值班下的系统优化。空天预警探测系统引接各类侦察监视、预警探测和环境探测装备,获取主要空天威胁目标小样本和不完全样本探测数据,实现对系统数据集的扩充和对智能模型的训练分类;通过对其作战行动和作战意图的分析,不断进行博弈推演,推动系统的自我学习和强化学习能力。

3)实战模拟条件下的系统优化。空天预警探测系统引接实战演习战场环境内的各类型侦察监视、预警探测和环境探测装备,获取近实战条件下的空天目标完整探测数据,实现对系统数据集的扩充和对智能模型的训练分类;通过事后获取实战演习下蓝方的作战行动和作战意图,验证系统的信息融合能力,实现系统的进一步优化。

4)实战条件下的系统应用。交战状态下,空天预警探测系统引接各类侦察监视、预警探测和环境探测装备,获取空天战场信息,实现威胁目标的实时识别,并结合目标模型、作战策略等资源,对战场信息进行深度关联和综合处理,形成对空天战场态势的智能认知和理解,在此基础上,实现预警资源综合调度方案的智能生成,为预警作战人员形成智能化的战场辅助决策。

4 结 语

当前,以物联网、区块链、元宇宙为代表的新技术在密码保护、游戏等领域得到了广泛应用。我们相信,通过技术理论创新和新技术迁移,能够大幅提升空天预警探测能力和预警作战人员指挥效率,促进空天预警探测新质战斗力的生成和国家空天安全体系建设的发展。

猜你喜欢

红蓝探测系统空天
美国空天防御作战指挥体系现状及启示
俄罗斯空天防御作战指挥体系现状及启示
空天之远
最爱红蓝饭
民用飞机货舱烟雾探测系统研究
高可靠性火灾探测系统设计
追梦空天
某探测系统偏压电源分析与设计
红蓝饭飘香