弹群分布式一致误差约束自适应最优协同拦截方法

2023-10-07刘大卫孙景亮龙腾何镜王晓悦

兵工学报 2023年9期

刘大卫, 孙景亮, 龙腾, 何镜, 王晓悦,2

(1.中国兵器科学研究院, 北京 100089; 2.北京理工大学宇航学院, 北京 100081;3.北京理工大学重庆创新中心, 重庆 401120)

0 引言

随着现代科技的飞速发展,无人机、巡航导弹等具备飞行速度快、机动能力强等特点的先进飞行器给拦截制导系统带来了巨大技术挑战。传统的一对一拦截制导方式已难以满足低成本、全方位、饱和攻击能力需求,一定程度上降低了拦截制导系统对机动目标的拦截概率[1]。协同拦截制导能够通过弹间信息交互、战术配合,完成对机动目标的饱和同时或者序贯攻击,对降低机动目标的拦截脱靶量、提升动态环境下制导系统的鲁棒性和可靠性,具有重要的理论和工程价值。

现有协同制导方式主要包括隐式协同制导和显式协同制导两类。隐式协同制导主要通过预先设定协同变量(攻击时间、攻击角度等)以及各发导弹独立控制的方式进行。该协同制导方式不存在弹间的信息交互与配合,本质上属于一对一单弹制导[2]。显式协同制导主要通过弹间信息的交互与协调,实现协同变量的协调一致,达到同时攻击或者序贯攻击的协同目的。因此,显式协同制导方式得到了国内外学者的广泛关注与青睐,并取得了较好的研究成果。

针对显式协同制导,文献[3]针对地面静止目标提出了导弹剩余时间一致的分布式协同制导律。文献[4]考虑舰炮制导弹药的协同攻击问题,通过设计扩张状态观测器,提出了非奇异终端滑模自适应控制器,实现了有限时间内舰炮趋同攻击,提升了对机动目标的协同制导性能。进一步,为了避免剩余时间估计误差对协同制导精度的影响,文献[5]考虑机动目标协同拦截制导问题,将导弹与目标之间的相对距离设计为协同变量,并基于多智能体一致性理论,设计了有限时间一致收敛的分布式预设性能协同制导律,实现了多弹对机动目标的协同打击。总之,近年来针对静止/机动目标的多弹协同制导方法已取得了较好的研究成果[6-8]。但现有大部分方法均关注于闭环系统的稳定性和协调变量的一致性问题,对协同制导最优性缺乏考虑,降低了协同制导性能。

基于此,最优协同制导以及微分博弈协同制导问题得到部分学者的关注[9-12]。例如,文献[9]将协同制导问题描述为考虑模型不确定的线性多智能体微分博弈问题,基于领航-跟随协同控制理论,通过对标称模型进行纳什均衡解的解析计算,获得近似最优的协同制导律。但上述方法均采用线性化假设,基于线性二次调节器理论进行推导。在考虑目标大机动特性时,该类方法通常难以满足小扰动线性化假设,降低了对机动目标的打击概率。另一方面,由于复杂战场环境以及目标机动干扰导致的协同制导系统模型部分未知问题,进一步降低了协同制导性能。因此,考虑目标机动特性,研究模型部分未知条件下非线性最优协同制导方法,对提升系统鲁棒性、降低协同制导脱靶量,具有重要工程价值。但非线性最优协同制导律的设计通常涉及耦合偏微分哈密顿-雅可比-贝尔曼(HJB)方程的求解。考虑该HJB方程通常难以获得其解析解,限制了非线性最优协同制导律的设计。

自适应动态规划(ADP)技术作为一种类脑智能控制方法,近年来通过与反步控制方法相结合,已被应用于非线性最优协同控制/微分博弈问题的求解[12-14],并展现出较大的发展潜力。在ADP拦截制导领域,文献[15-17]研究了拦截制导系统模型部分未知、过载饱和以及状态、输出限制等约束条件下的拦截制导问题,通过将ADP技术融入反步控制设计中,实现了对机动目标的拦截。但上述研究仅针对一对一拦截制导问题,难以满足多弹协同一致收敛拦截制导需求。文献[18]考虑未知机动目标的协同拦截制导问题,设计了分布式自适应反步最优制导律,实现了过载饱和约束下视线角协同一致拦截制导。上述研究均将非线性制导控制问题通过反步法设计思想转化为等效最优制导控制问题,采用ADP技术实现了全局最优制导控制。但在虚拟控制量的设计过程中并未考虑控制量的最优化问题。基于此,文献[19-21]在反步控制设计架构下,考虑输入、状态约束,通过构建执行-评价网络,在线逼近了最优虚拟和实际控制量。然而,上述结果仅适用于单个非线性系统的最优控制问题,尚不能满足非线性协同最优控制问题的求解。考虑协同制导问题中目标机动干扰导致的模型部分未知、输出约束受限等问题,如何借鉴该设计思想实现对非线性协同制导律的在线求解,估计非线性模型未知干扰,补偿约束受限影响,提升协同制导问题的鲁棒性和可靠性,仍有待进一步深入研究与探讨。

本文将ADP技术与反步法有机融合,构建“前馈补偿+反馈优化”的复合协同制导架构,研究目标未知机动下分布式一致误差约束的协同拦截制导问题。主要创新点为:

1)设计了统一障碍Lyapunov函数非线性约束映射机制,放松了对传统方法误差约束存在性的限制,提升了拦截制导系统的鲁棒性;

2)设计了线性反馈增强的非线性自适应最优拦截制导律,实现了虚拟控制量的最优在线迭代求解,提升了误差一致收敛速率。

1 多弹协同制导建模

1.1 协同拦截制导问题描述

考虑发导弹协同拦截一个机动目标的情形,在二维平面上,其协同拦截制导几何关系如图1所示。图1中,Oxy为平面直角坐标系,M1,M2,…,MN表示N发导弹,T表示机动目标,vi、αi、θi分别表示第i发导弹的飞行速度、航迹角和视线角,i=1,…,N,ri为第i发导弹与目标在视线方向的相对距离,ui为第i发导弹垂直于速度方向的控制输入,vT、β分别表示目标的飞行速度和航迹角,uT表示目标垂直于速度方向的控制输入。假设所有导弹与目标的飞行速度均为常值,且各导弹之间主要依靠拓扑网络进行通信,即第i发导弹只能与其邻域内的导弹进行通信。

图1 多弹协同制导几何关系

协同拦截相对运动学关系为

(1)

(2)

(3)

基于以上分析可知,所设计分布式协同拦截制导律需满足以下3个条件:

1)保证所有导弹最终能够击中目标,即ri→0 m;

(4)

基于式(4),多导弹协同制导问题就可以转化为非线性多智能系统的协同控制问题。本文主要通过设计分布式自适应最优控制律,保证系统中状态变量xi一致收敛于0,从而实现多弹协同制导。

导弹与目标自动驾驶仪均为如下1阶动态系统:

第i发导弹质心运动方程为

(5)

式中:(xMi,yMi)表示导弹的位置坐标信息;ai表示导弹侧向加速度;τMi为第i发导弹的自动驾驶仪时间常数,τMi=0.1 s。

目标质心运动方程为

(6)

式中:(xt,yT)表示机动目标位置坐标信息;aT为目标侧向加速度;τT表示目标自动驾驶仪时间常数,τT=0.1 s。

由式(1)可知,当导弹接近目标即ri→0 m时,非线性动力学趋于无穷大。此时,非线性协同拦截制导系统式(4)不可控。但考虑到实际拦截制导系统中由于测量设备的物理限制,总是存在一个弹-目最小距离ε0。当拦截制导脱靶量满足ri≤ε0时制导过程结束,之后导弹将以惯性力飞向目标,实现拦截。此外,由式(4)可知,当|αi-θi|=0°,|β-θi|=0°时,拦截制导系统输入矩阵为零,目标机动输入矩阵也为零,此时拦截制导系统已不再满足可控性条件,无法为其设计协同拦截制导律。因此,本文设计的协同拦截制导律的可行域范围可定义为

(7)

考虑来袭机动目标的物理特性以及推力限制,基于式(4),给出如下普遍性假设条件:机动目标垂直于速度方向的控制输入uT是有界的,即存在一个未知正常数ζv>0,使得不等式|uT|≤ζv成立。

1.2 图论知识

1.3 协同拦截制导问题转化

基于式(4),多弹协同拦截制导问题可描述为一类由N个跟随者和1个领导者组成的严格反馈非线性多智能体系统的协同控制问题,其中每发导弹均可看作是一个独立可控的智能体:

(8)

通过对上述协同拦截制导问题的描述,制导律的设计可转化为设计分布式控制律,抑制系统式(8)的输出信号违背约束,从而保证系统的闭环稳定性。

考虑协同拦截制导系统实际物理特性,结合式(4),可知gi,q(·)=[0,sin(αi-θi)]T,显然,gi,q(·)为有界矩阵。此外,rd(t)为参考轨迹,在本文中表示领弹输出的弹-目拦截轨迹,因此必然为连续可导的光滑信号。基于此,本文可给出如下假设[22]:

1.4 统一障碍Lyapunov函数设计

为有效补偿输出约束,设计如下障碍Lyapunov函数(BLF):

(9)

传统形式VCBLF[23]为

(10)

(11)

(12)

2 分布式自适应最优控制器设计

通过定义如下动态误差面,构建前馈补偿+反馈优化的复合控制架构:

(13)

式中:λi,q为1阶滤波器输出信号。滤波器设计如下:

(14)

基于复合控制架构,分布式控制律设计如下。

2.1 设计虚拟控制输入

对误差动态面zi,1求导,整理可得

(15)

(16)

式中:Θi,q∈RL×m为观测器理想权值;Φi,q(zi,q)∈RL为激励函数,L为神经元个数;ζi,q为观测误差,‖ζi,q‖≤ζi,qM,ζi,qM>0。

因此,式(15)可转化为

(17)

定义Lyapunov函数为

(18)

对式(18)求1阶导数,通过不等式变换,可得

(19)

(20)

(21)

式中:li,1>0为可调节参数。

将式(20)、式(21)代入式(19),整理可得

(22)

(23)

(24)

式中:γi,q,q=1,…,ni为预先给定的参数。

(25)

基于最优控制理论,定义哈密顿函数为

(26)

(27)

且相应的HJB方程为

(28)

(29)

式中:Wi,1∈RLi,1为理想权值;σi,1(zi,1)∈RLi,1为激励函数;εi,1为评价网络逼近误差。

进一步考虑理想权值Wi,1未知,采用估计值代替:

(30)

因此,估计的虚拟反馈控制律可表述为

(31)

相应估计的HJB方程变化为

Hi,1(zi,1,i,2,i,1)=

(32)

基于梯度下降法,考虑闭环系统稳定性,设计评价网络权值自适应更新律为

(33)

基于上述设计,定义式(34)所示Lyapunov函数,分析zi,1子系统的稳定性:

(34)

对式(34)求1阶导数,可得

(35)

(36)

(37)

基于式(36)、式(37),式(35)可整理为

(38)

(39)

此时,式(39)可变换为

(40)

式中:λmin(Mi,1)表示矩阵Mi,1的最小特征值。

2.2 设计虚拟控制输入

(41)

(42)

式中:li,q>0、ρi,q>0均为设计参数。

同理,第q步的估计虚拟反馈控制律i,q+1和评价网络权值自适应更新律分别设计为

i,q+1=

(43)

(44)

此外,考虑zi,q子系统闭环稳定性证明过程与zi,1子系统相似,省略详细推导过程,可得Lyapunov函数的1阶导数形式为

(45)

2.3 设计实际控制输入ui

(46)

(47)

式中:li,ni>0、ρi,ni>0为设计参数。

(48)

(49)

同理,经理论推导,可得zi,ni子系统的Lyapunov函数1阶导数形式为

(50)

3 系统稳定性分析

基于第2节每个子系统的理论分析与虚拟和实际控制输入设计,给出如下定理。

定理1针对非线性多智能体系统式(8),设计前馈控制输入式(46),自适应权值更新律为式(47);同时设计估计的反馈控制输入为式(48),评价网络权值更新律设计为式(49)。通过选择设计参数,可保证闭环系统协同一致误差有界,且输出信号满足约束条件,同时能够最小化给定的性能指标。

证明选择Lyapunov函数为

(51)

(52)

(53)

基于式(53),式(52)可变换为

(54)

(55)

或

(56)

由式(55)、式(56)可知,通过调整设计参数li,min、C1i,k、C2i,k和ki,k,可保证μi和λi,min(Mi)足够大且κi足够小,从而保证闭环信号收敛域缩小,实现协同跟踪误差的最终收敛。然而,在控制律设计中需要选取的主要参数较多,如li,q、γi,q、ki,q、ηi,q、C1i,k、C2i,k等,其中li,q和ki,q为反馈增益系数,较大的li,q和ki,q可保证系统响应速度加快,同时也导致较大的过载要求。γi,q主要用于权衡收敛误差和控制输入,一般可选取为1。ηi,q为学习率,取值范围为ηi,q∈(0,1)。C1i,k、C2i,k为评价网络权值更新律参数,为保证矩阵Mi,q正定,通常选取较大的C2i,k和较小的C1i,k。

4 数值仿真

假设目标机动形式为正弦蛇形机动[28],可表述为aT=100sin(2t)m/s2。考虑由1发领弹M0和2发从弹M1、M2对目标进行协同拦截。其中,3发导弹在拦截过程中可进行信息交互,其通信拓扑结构如图2所示。

图2 弹间信息交互拓扑图

各弹初始位置和初始航迹角信息如表1所示。

表1 弹-目初始参数

领弹采用比例导引法给出弹-目相对距离参考轨迹,作为从弹1和从弹2的期望输出轨迹。从弹和目标的速度分别为:vi=600 m/s,vT=400 m/s。

对于从弹1,设计参数选取为:前馈输入中,l1,1=200,l1,2=1 000,ρ1,1=0.8,ρ1,2=0.4,Σ1,1=I,Σ1,2=0.05I;反馈输入中,γ1,1=γ1,2=1,k1,1=0.2,k1,2=20,η1,1=η1,2=0.5,C11,1=120·[1,1,1,1]T,C21,1=8I,C11,2=10·[1,1,1,1]T,C21,2=0.2I。

对于从弹2,设计参数选取为前馈输入中,l2,1=50,l2,2=1 000,ρ2,1=2,ρ2,2=0.08,Σ2,1=Σ2,2=I;反馈输入中,γ2,1=γ2,2=1,k2,1=0.5,k2,2=120,η2,1=η2,2=0.5,C12,1=20·[1,1,1,1]T,C22,1=2I,C21,2=200·[1,1,1,1]T,C22,2=0.05I。

仿真结果如图3～图6所示。图3给出了3发导弹协同拦截机动目标的轨迹,可直观看到3发导弹在不同初始位置上,经过协同调整,完成了对蛇形机动目标的同时拦截。由于从弹1和从弹2的初始位置相较于领弹距离目标初始位置更近,在匀速飞行状态下,拦截时间更短。因此,为了保证3发导弹同时拦截,2发从弹均通过增加航程的方式调整轨迹,达到弹间协同的目的。图4给出了各弹与目标的相对距离变化曲线,可直观地理解对弹-目剩余距离的调整。

图3 多弹协同拦截轨迹

图4 弹-目相对距离

具体脱靶量和拦截时间参数见表2。从表2中可知,3发导弹均能够实现对目标的拦截制导,且三者之间的拦截时间最大误差为0.01 s,能够满足同时打击性能要求。当然,也可通过调整设计参数,在牺牲一致性的前提下降低拦截制导精度。图5给出了弹-目相对速率曲线。考虑从弹1和从弹2的初始位置距离目标较近,在导弹速度恒定的前提下,为了实现3发导弹的同时拦截,从弹1和从弹2均通过绕路的方式增加航程。此时,由于从弹1只接收领弹的输出信号,而从弹2同时接收领弹和从弹1的输出信号,2发从弹通过信息交互,协调弹-目相对距离,导致在制导开始的大约0.8 s内,弹-目相对速率发生了较大抖振,但随后快速收敛并保持相对稳定的负值,表明导弹始终朝目标方向抵近。图6 给出了从弹的视线角速率变化曲线。由图6可以看出,各弹的视线角速率在经过制导初始阶段的抖振后,始终维持在0 rad/s附近直到制导结束时刻,其呈现发散状态。图7给出了分布式一致邻域误差曲线,表明误差能够始终满足输出约束要求。