Q-learning强化学习协同拦截制导律

2022-10-09王金强苏日新刘玉祥龙永松

导航定位与授时 2022年5期

王金强，苏日新，刘莉，刘玉祥，龙永松

(江南机电设计研究所，贵阳 550025)

0 引言

随着飞行器技术的不断发展，现代战争呈现出智能化、信息化、多样化的特点，体系与体系的对抗将贯穿战争始终，尤其是以精确制导武器为主的攻击体系和以地空舰导弹为主的防御体系之间的对抗，在上述情况下，传统的单导弹作战模式已难以满足实际作战需求。弹群协同作战是将所有参战导弹组成一个作战网络，在指挥中心的调控下，实现弹间信息通信和共享，具有更高的作战效能，是未来智能导弹的重点发展方向。

I.Jeon等在制导律设计中引入时间约束，提出了一种可变攻击时间的协同制导律，并通过数值仿真验证了算法的有效性。Chen Y. 等在时间控制的基础上，进一步考虑了存在末端攻击角度约束的情况。李强针对协同制导问题，分别在视线方向和视线法向设计了有限时间收敛滑模制导律。H. B. Oza等为提高运算效率，设计了考虑末端多约束的模型预测静态规划制导律。Liu X. 等为处理制导过程中存在的不确定性，基于李雅普诺夫稳定性理论，提出了一种自适应滑模协同制导律，但该方法存在系统抖振的问题。宋俊红等基于超螺旋滑模控制算法，设计了一种双层协同制导律，有效改善了制导控制系统的暂态特性。肖惟等研究了多枚过载受限的弱机动导弹拦截强机动目标的协同拦截问题，提出了基于标准弹道的分布式协同拦截策略设计方法。Zhai C. 等为提高协同拦截的成功率，设计了一种基于覆盖的拦截算法。虽然上述算法具有良好的控制效果，但在设计过程中均需预先指定期望攻击时间，各枚导弹间没有信息交互，并没有实现真正意义的智能协同作战。

随着人工智能领域的迅猛发展，强化学习算法作为一种智能决策算法，在导弹制导控制、智能任务规划和故障诊断等方面取得了显著成果。B. Gaudet等为提高制导律鲁棒性，基于神经网络设计了一种强化元学习制导律。张秦浩等基于Q-learn-ing强化学习算法设计了最优拦截制导律。南英等则对传统Q网络进行改进，提出了一种基于Markov决策过程的制导律，且不需要训练样本，可自主搜索奖励值最大的动作并完成训练。陈中原等提出了一种基于深度确定性策略梯度的强化学习协同制导律，引入Actor和Critic网络选取动作和奖励值的逼近。上述算法虽然使导弹具有自主决策能力，但运算量大，现有的弹载计算机难以满足要求。

为解决上述问题，本文以传统比例制导律为基础，引入智能决策，提出了一种Q-learning强化学习协同拦截制导律，并通过数值仿真验证了算法的有效性和优越性。

1 协同拦截模型

图1给出了导弹平面拦截几何，其中为惯性系，M和T分别代表导弹和目标，表示速度，表示弹道倾角，表示视线角，表示前置角，表示法向角速度，表示弹目相对距离。

图1 导弹拦截平面几何Fig.1 Planar interception geometry of missile

基于坐标转换得到导弹与目标的非线性相对运动方程为

(1)

随后，建立导弹非线性协同拦截模型，其示意图如图2所示，其中M,表示第枚导弹的最大机动区域，为目标的最大机动逃逸区域，记为逃逸域，为导弹最大机动过载，表示目标的逃逸加速度，定义为=+，其中为标准拦截弹道下目标期望逃逸加速度，为小量，且||越大，拦截弹道越弯曲。为简化非线性模型，便于数学处理，此处假设为常值。因此，基于文献[16]中标准弹道的思想和逃逸域理论，弹群协同拦截模型的构建过程如下：

图2 弹群协同拦截策略Fig.2 Cooperative interception strategy of multiple missiles

2 协同拦截制导律

本章将结合Q-learning强化学习算法进行协同制导律设计。首先，基于标准弹道的思想，以导弹的最大机动区域M,中的标准弹道拦截机动的目标，以非标准弹道拦截+机动的目标，则协同制导律M,可设计为

(2)

随后，定义导弹与目标飞行过程中的零控脱靶量为

(3)

同理，导弹以标准弹道拦截机动目标过程中的零控脱靶量,s定义为

(4)

式中，为一个小量，且>0，用于避免求解式(5)中,s,,s和M,,s时发生奇异。

(5)

则偏置项自适应调节律可设为

(+1)=

(6)

式中，,0为预先设定偏置项；为偏置系数，定义为=exp(-,s)；为一个小量，且>0，Δ=exp(-,s)。

(7)

式中，为导弹终止时刻弹目相对距离；为导弹命中目标所需最小弹目距离，常取=1，即表示在拦截过程中，奖励值随弹目距离的减小而增大，若最终命中目标，则得到一个更大的奖励，若没有命中目标则奖励值为0。

综上，基于Q-learning强化学习算法的目标策略设为

(,)]+(,)

(8)

行为策略为-greedy策略，即

(9)

式中，为学习效率参数；为折扣率参数；ϖ为策略参数，即导弹以ϖ的概率在动作空间中进行随机选择，则以1-ϖ的概率会选择得到最大值的动作。Q-learning强化学习算法流程如图3所示。

图3 Q-learning强化学习算法流程Fig.3 Flow chart of Q-learning algorithm

3 拦截区域分配

本章基于逃逸域覆盖理论进行多弹拦截区域分配算法设计。为方便推导，定义归一化的目标加速度为=，导弹覆盖区域M,和目标逃逸域可分别归一化为[,low,,up]和[-1，1]。

所设计拦截区域分配策略如图4所示，导弹1的拦截区域左边界与目标逃逸域左边界对齐，导弹拦截区域M,右边界与目标逃逸域右边界对齐，每枚导弹覆盖范围相同。

图4 拦截区域分配模式Fig.4 Allocation modes of intercept area

为实现上述分配策略，首先求解个导弹的拦截区域{M,|=1,2,3,…,}，其中的左边界与-1对齐，M,的右边界与1对齐，M,-1和M,不重叠相接，M,-1与M,可重叠相交，即=-1，,up=1，-1,up=,low，-1,up-,low≥0。同时，为使每枚导弹拦截覆盖区域均匀分布，此处将重叠区域[,low,-1,up]均匀分配到其余子区域上，即将覆盖区域～M,-1分别向左移动(-1)(-1)× (-1,up-,low)长度，算法具体伪代码如表1所示。

表1 拦截区域分配的实现算法

4 数值仿真分析

本章分别针对多弹齐射(模式1)和子母弹分离发射(模式2)两种作战模式，对上述协同制导律的有效性进行数值仿真验证。在多弹齐射作战模式下，假设导弹速度方向与轴线重合，即攻角、侧滑角和前置角均为0，因此其初始阵位约束为

(10)

子母弹分离作战模式下，忽略子弹和母弹间的动态过程，并假设初始时刻目标前置角和弹目的距离相同，因此其初始阵位约束为

(11)

仿真环境下假设导弹数目为3，分别记为、和，弹目初始相对距离设为60km，导弹速度为7，最大机动过载3，目标速度为6，最大机动过载5，有效导航比由Q-learning算法在线计算，学习率参数设为0.01，折扣率参数则设为0.99。

针对目标最大正机动(=1)、不机动(=0)和最大负机动(=-1)的协同拦截仿真结果如图5～图10所示。图5和图7所示分别为两种作战模式下的拦截轨迹，从中可知，针对上述三种目标机动形式，本文所提协同制导律可确保至少有一枚导弹成功命中目标，证明了算法的有效性。图6和图8所示分别为两种作战模式下的导弹过载曲线。图9和图10所示分别为导弹1最大负机动(=-1)条件下的有效导航比曲线和均值曲线，从中可知，在制导过程中有效导航比可进行自适应调节，且随着训练的进行，均值逐渐收敛。

图5 作战模式1的拦截弹道Fig.5 Interception trajectory under mode 1

图6 作战模式1的导弹过载Fig.6 Acceleration of missile under mode 1

图7 作战模式2的拦截弹道Fig.7 Interception trajectory under mode 2

图8 作战模式2的导弹过载Fig.8 Acceleration of missile under mode 2

图9 有效导航比N曲线Fig.9 Curve of effective navigation ratio N

图10 Q均值收敛曲线Fig.10 Convergence curve of the mean of Q

针对目标做=-sign(sin(π/2))蛇形机动的仿真结果如图11～图14所示。图11和图12所示分别为两种作战模式下的拦截轨迹，从中可知，引入偏置项可使导弹在拦截过程中更加接近目标，有效提升了拦截效果。图13和图14所示为零控脱靶量曲线，可以看出，与传统比例制导律相比，本文设计的协同制导律零控脱靶量更低，具有更强的工程实用价值。