自适应动态规划算法在飞行器追逃中的应用
2016-12-21刘念刘春生孙景亮
刘念, 刘春生, 孙景亮
(南京航空航天大学 自动化学院, 江苏 南京 211106)
自适应动态规划算法在飞行器追逃中的应用
刘念, 刘春生, 孙景亮
(南京航空航天大学 自动化学院, 江苏 南京 211106)
针对飞行器追逃对抗的二人零和微分对策问题,提出基于数据的积分策略迭代自适应动态规划算法,以求解数学模型未知系统的控制律。该算法利用固定时段内有效的状态和输入信息,建立数据模型,并对其进行基于值函数和控制策略的算法迭代,在平面拦截系统完全未知的情况下得到追逃双方的近似最优策略。仿真结果表明,所得到的双方控制策略能在有限界内无限接近最优解,验证了所提出算法的有效性。
追逃问题; 零和微分对策; 策略迭代; 自适应动态规划
0 引言
随着时代的进步,航空航天技术逐步进入一个崭新的发展时期。提高空军的作战能力已经成为世界众多军事强国追求的共同目标,空中军事竞争也渐渐成为一个备受关注的方向,这涉及到无人机格斗[1]、卫星拦截[2]、导弹制导[3]等多方面的问题。飞行器追逃问题被描述为具有利益冲突的双方之间的对抗,可以在广义上代表此类双方对抗型最优控制问题。
近年来,追逃拦截制导律的研究吸引了国内外学术界的广泛关注。对于这类冲突对抗问题,微分对策理论被引入并用于解决双方或多方最优策略问题[4]。多数制导律求解的研究都基于系统精确的模型信息,而实际系统不可避免地会受到多种因素的影响,很大程度上造成其模型未知或部分未知,例如追逃拦截中目标的机动时间常数未知问题[5]。而设计控制律所依赖的动力学模型信息,将直接影响制导性能,从而决定了能否成功拦截。对于模型未知系统的控制问题,已有不少学者发表了相关的文章。文献[6]对一类稳定未知系统基于工作点上的阶跃响应信息构造参考模型,实现自适应控制。文献[7]对于一类模型未知系统采用模糊神经网络辨识其动力学特性,从而实现控制。不同于构造参考模型或进行模型辨识的研究方法,自适应动态规划(ADP)是一种基于数据的具有学习和优化能力的智能控制方法[8],它的引入对模型未知系统的控制研究有了进一步的深入。关于博弈类问题,文献[9]考虑系统的部分动态未知情况,利用ADP求解微分对策鞍点解。文献[10]基于ADP利用内外迭代步骤对系统完全未知的微分对策求解。
本文针对一类平面导弹拦截飞机问题,在未知系统模型情况下,利用状态和输入数据信息驱动迭代步骤,基于ADP算法求解追逃双方的最优控制策略。该算法的显著优点是不需要系统的模型信息,避免了系统模型的辨识。
1 飞行器追逃问题描述
飞行器追逃问题主要涉及两方:追捕者和逃避者。尽管拦截问题是非线性的,但从初始视线(LOS)的原理去线性分析[11]也是合理的。图1为导弹拦截飞机的平面示意图。图中,x轴沿初始视线方向;M和A分别为追击者(导弹)和逃避者(飞机);φ和(x,y)分别为双方的弹道倾角和位置坐标;aM,aA分别为垂直于速度uM,uA的加速度。
图1 导弹拦截飞机平面示意图Fig.1 Planar interception geometry betweenmissile and aircraft
(1)
这里,飞机相对于导弹的位置在y轴的投影为x1=y=yA-yM;x2为相对横向速度;x3和x4分别为飞机和导弹的横向加速度;τA,τM分别为飞机和导弹的机动时间常数。此外,导弹和飞机的横向指令加速度分别设为控制向量u(t)和v(t)。基于线性二次微分对策理论,式(1)可以写为:
考虑到环境的复杂性,以及双方自身受到的各种影响,追逃拦截系统的准确模型一般难以获得。这里,假设对策系统模型完全未知,即认为A∈Rn×n,B1∈Rn×m,B2∈Rn×q为未知常值矩阵,系统写为:
(2)
定义系统性能指标为:
(3)
式中:Q=QT≥0;R=RT>0;γ为衡量导弹和飞机相对机动能力的权重参数。导弹的目的是保证系统渐近稳定的同时,通过控制向量u缩小性能指标(3),而飞机的目的则与之相反。
若存在控制策略u=u*和v=v*满足J(x,u*,v)≤J(x,u*,v*)≤J(x,u,v*),则称u*和v*为微分对策鞍点,即追逃双方的最优对策。由最优控制理论可知:
(4)
(5)
式中:K*和G*分别为追逃双方的最优反馈增益矩阵;P*为对称正定矩阵,由求解代数Riccati方程得到:
(6)
根据假设条件,即等式(6)中系统的动特性矩阵A,B1,B2完全未知,这给求解过程造成了极大的困难,利用传统的求解方式是无法解决的。因此,本文采用基于数据的积分策略迭代自适应动态规划算法来求解此类问题。
2 系统模型未知的最优策略求解
2.1 基于积分策略迭代ADP的算法
迭代ADP算法是由初始稳定的控制策略开始, 通过求解一系列李雅普诺夫等式, 不断改进控制策略使其达到最优的过程。
首先,假设初始稳定的控制矩阵K0∈Rm×n,G0∈Rq×n,定义迭代过程中值函数V=xTPkx,以及对策双方控制策略u=-Kkx和v=Gkx。将系统(2)重新写为如下形式:
(7)
式中:Ak=A-B1Kk+B2Gk。对系统(7)的值函数求导,并在区间[t,t+δt]内积分得:
x(t+δt)TPkx(t+δt)-x(t)TPkx(t)
(8)
可以看出,对比式(6),式(8)在完全未知对策系统动态A,B1,B2时,仅需要利用[t,t+δt]时间段内的状态和输入数据信息,就可求解双方近似最优策略。算法具体步骤如下:
步骤1:初始化。取u=-K0x+e1,v=G0x+e2作为初始输入(e1,e2作为探测信号,保证系统存在持续激励);
步骤2:策略评价和提高。利用式(8) 求解Pk,Kk+1及Gk+1;
步骤3:判断。如果‖Pk-Pk-1‖≤ε(常数ε>0为预设临界值),则u=-Kkx,v=Gkx作为对策双方的近似最优策略,否则返回步骤2。
2.2 基于数据的算法实现
定义以下两个操作:
由张量积形式,式(8)中各部分有以下形式,其中,vec(·)为将矩阵变换为列向量的线性变换:
xTQkx=(x⊗x)vec(Qk)
(xT⊗uT)(In⊗R)]vec(Kk+1)
γ2(xT⊗vT)]vec(Gk+1)
此外,对于正整数l,定义矩阵:
,
同样有Ixu及Ixv(0≤t0 对于任意给定的稳定增益矩阵Kk和Gk,式(8)有以下矩阵形式: (9) 其中: Y=-Ixxvec"(Qk) 基于最小二乘理论,若X列满秩,式(9)有唯一解: (10) 算法实现流程图如图2所示。 图2 算法流程图Fig.2 Flowchart of algorithm 本节将对上述提出的算法用于导弹拦截飞机问题中双方对策系统模型完全未知的情况进行仿真验证。针对第1节中描述的导弹-飞机拦截模型,初始条件为:飞机相对于导弹的位置关于y轴的投影为2 000 m;相对横向速度为200 m/s;飞机和导弹双方横向加速度分别为60 m/s2和-40 m/s2,Q和R分别为合适维数的单位矩阵;τT=τM=0.5;γ=3.5。 仿真过程中,0~2 s 内探索信号e1,e2分别选择为[12]: 式中:i=1,…,100;ω1i,ω2i为[-500,500]中的任意值。在[0,2]s内,间隔0.01 s进行状态采集和信息输入,计算得到δxx,Ixx,Ixu,Ixv,在t=2 s开始算法迭代,经过4次迭代后P4,K5,G5值分别为: P4= 而利用包含全部动态信息的式(6)直接求解系统的代数Riccati方程,得到最优值P*,K*,G*如下: P*= 可见,算法在4次迭代后收敛到最优解,Pk,Kk,Gk在迭代过程中与最优值P*,K*,G*差的范数如图3所示。 图3 Pk,Kk,Gk与最优值P*,K*,G*的收敛度Fig.3 Convergence of Pk,Kk,Gk to the optimal values P*,K*,G* 由图可知,在迭代过程中,Pk,Kk,Gk的值不断向最优值收敛直至完全达到,且收敛速度较快,时效性较好。系统的各状态随时间响应的曲线及双方控制输入曲线分别如图4和图5所示。 图4 追逃拦截系统状态曲线Fig.4 Curves for states of interception system 图5 双方控制输入曲线Fig.5 Curves for the control inputs of both sides 由图4和图5可知,系统于0~2 s内计算并建立状态及输入数据模型,2 s后开始收敛,如果定义成功拦截的标准为1 m以内,则导弹在7.7 s左右成功地拦截到飞机目标,并且系统状态满足最终一致渐近稳定。0~2 s双方的控制输入为保证系统持续激励的余弦信号和,2 s 后其开始收敛为0,过程中无较大抖动,且飞机的最大制导指令不大,避免了飞机的指令被限幅。仿真结果验证了在追逃拦截问题中系统模型完全未知时,所提出的算法是有效的。 本文从追逃问题出发,建立了基于零和微分对策的线性拦截模型,采用基于数据的积分策略迭代自适应动态规划算法,求解对应的代数Riccati方程;该算法的显著优点是放松了对系统模型已知的要求,不仅可以用于飞行器追逃,还可应用于更广泛的对抗型模型。由于本文算法基于线性追逃对抗模型,这与实际模型存在一定的误差,故在进一步的研究中,需要针对具体的非线性模型展开讨论。 [1] 祝小平,周洲.作战无人机的发展与展望[J].飞行力学, 2005,23(2):1-4. [2] 马丹山,王明海,鲜勇,等.逆轨道拦截卫星轨道设计与优化[J].飞行力学,2009,27(5):63-65. [3] 尹永鑫,杨明,吴鹏.空地导弹滑模制导方法研究[J].飞行力学,2010,28(1):44-46. [4] Fu L,Wang X.The analysis of differential games theory and present status [C]//2010 International Conference on Intelligent Control and Information Processing.Dalian,2010:290-294. [5] 陈兴林,花文华.机动时间常数未知目标的拦截方法研究[J].航天控制,2011,29 (4):8-13. [6] 曾海燕.一类未知系统的低阶模型参考自适应控制[C]//2007中国控制与决策学术年会论文集.沈阳,2007:199-202. [7] 任海鹏,刘丁.一类模型未知系统的辨识和混沌化控制[J].控制理论与应用,2003,20(5):737-740. [8] 张化光,张欣,罗艳红,等.自适应动态规划综述 [J].自动化学报,2013,39 (4):303-311. [9] Vrabie D,Lewis F.Adaptive dynamic programming for online solution of a zero-sum differential game[J].Journal of Control Theory and Applications,2011,9(3):353-360. [10] Praveen P,Bhasin S.Online partially model-free solution of two-player zero sum differential games [C]//Preprints of the 10th IFAC International Symposium on Dynamics and Control of Process Systems.Mumbai,India,2013:696-701. [11] Zarchan P.Tactical and strategic missile guidance[M].Fifth Edition.USA:American Institute of Aeronautics and Astronautics,2007:889. [12] Jiang Y,Jing Z P.Robust approximate dynamic programming and global stabilization with nonlinear dynamic uncertainties[C]//In Proceeding of Joint IEEE Conference on Decision and Control and European Control Conference.Orlando,FL,USA,2011:115-120. (编辑:方春玲) Application of adaptive dynamic programming algorithm in the pursuit-evasion of aircraft LIU Nian, LIU Chun-sheng, SUN Jing-liang (College of Automation Engineering, NUAA, Nanjing 211106, China) To solve the problem of two-player zero-sum differential games in the pursuit-evasion of aircraft, a novel approach for obtaining the control laws of a system with unknown mathematic model is proposed using data-based integral policy iteration adaptive dynamic programming (ADP). The algorithm uses available datderailmenta of state and input on fixed time interval to build up the data models. By using them, iterations are conducted based on the value function and control strategies to get the proximate optimal strategies of both under the circumstance of a completely unknown planar interception system. Simulation results show that both control strategies are approximate to their optimal solutions infinitely in a limited range and confirm the effectiveness of the proposed method. pursuit-evasion; zero-sum differential game; policy iteration; adaptive dynamic programming 2016-04-11; 2016-09-05; 时间:2016-09-22 14:55 国家自然科学基金资助(61473147) 刘念(1991-),女,江苏镇江人,硕士研究生,研究方向为微分对策在飞行控制中的应用。 V249.1 A 1002-0853(2016)06-0045-043 仿真验证
4 结束语