高超飞行器自适应动态规划的控制系统设计
2021-05-31郭建国苏亚鲁
郭建国, 苏亚鲁
(西北工业大学精确制导与控制研究所, 陕西 西安 710072)
0 引 言
高超声速飞行器主要是指飞行速度大于5马赫的飞行器。由于飞行速度快、飞行包线大、作战距离长等特点,这类飞行器已成为世界各国航空航天领域的重点发展方向[1]。然而,高超声速飞行器的复杂特性使其飞行控制系统设计面临严峻挑战。
国内外学者基于高超声速飞行器的建模和控制问题已开展了广泛研究并取得一定成果,包括反馈线性化、反步法、滑模控制、自适应鲁棒控制等[2]。文献[3]在反步法框架下设计了姿态跟踪鲁棒控制器,同时采用一种基于新型跟踪微分器的非线性干扰观测器估计参数摄动、外部干扰等不确定性。文献[4]采用反馈线性化和干扰观测器相结合的方法,研究了输入受限条件下高超声速飞行器的速度和高度跟踪问题。文献[5]针对带有非最小相位特性的高超声速飞行器控制问题,借鉴正则形式变换,提出了一种纵向输出跟踪控制方法。文献[6]利用干扰观测器和神经网络研究了风干扰下的高超声速飞行器的控制问题。文献[7]通过匹配化变换实现了高超声速飞行器的滑模姿态控制。上述各种先进控制方法保证了系统的鲁棒性、稳定性和抗饱和能力,然而鲜有文献涉及到满足性能指标要求的优化控制问题。
高超声速飞行器这类非线性系统优化控制的难点是求解哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程。自适应动态规划(adaptive dynamic programming, ADP)利用一个函数近似结构近似性能指标函数,采用离线迭代或在线更新的方式获得系统的近似最优控制,成为最优化领域的研究热点[8]。文献[9]基于策略迭代提出了一种在线自适应方法,并在理论上证明了算法的稳定性。文献[10]采用积分强化学习技术求解连续时间非线性系统的最优跟踪控制问题。上述方法均采用评价网络和控制网络,而且为了保证系统的稳定性,往往要求给定一个初始稳定控制。为了放松这两个条件,文献[11]只使用一个评价网络估计系统的性能指标函数,同时采用一种新型的参数训练方法,克服了对初始稳定控制的要求。文献[12]采用一种新型的策略迭代方法求解非线性系统的全局最优控制问题。文献[13]针对高超声速飞行器的鲁棒控制问题,设计滑模控制器来保证系统整体稳定性,同时提出一种基于数据的辅助控制器在线自适应补偿干扰和不确定引起的系统振荡。文献[14]基于积分滑模和ADP方法实现了近空间飞行器的最优姿态跟踪。需要指出的是,上述关于ADP的研究主要基于仿射非线性系统,不能直接应用在具有严格反馈形式的模型。
综合以上分析,本文针对高超声速飞行器的纵向模型,提出了一种反步法和ADP相结合的非线性优化学习控制方法。首先,采用反步法设计稳态控制器以保证稳态阶段系统跟踪误差趋近于0,并由此得到系统的误差模型。然后,基于单个评价网络的ADP方法,通过在线调整评价网络的权值,设计最优反馈控制器,最终使系统实现近似最优跟踪。
1 高超声速飞行器模型
考虑高超声速飞行器纵向动力学模型[15]为
(1)
(2)
式中,β为发动机节流阀开度。
由式(1)知,可以将模型分解成速度子系统和高度子系统,令x1=V,u1=β,速度子系统为
(3)
式中,当u1>1时,
而当u1≤1时,
(4)
式中,kp和ki为待设计的正常数。
假设 1[16]模型式(1)中推力项Tsinα相对升力L很小,因此忽略不计。
令x2=γ,x3=α+γ,x4=q和u2=δe,考虑到假设1,高度子系统可以写成严格反馈形式:
(5)
2 自适应最优控制器设计
控制器的设计目标是使速度子系统和高度子系统分别准确跟踪速度指令x1d和航迹角指令γd,同时满足给定性能指标最优。自适应最优控制器设计成稳态控制和最优反馈控制两部分,稳态控制项保证跟踪误差在稳态阶段趋向于0,最优反馈控制实现暂态阶段对指令信号的最优跟踪。
2.1 稳态控制器设计
针对速度子系统,控制输入u1设计成两部分:
(6)
定义速度跟踪误差e1=x1-x1d,对e1进行求导,并考虑式(3)和式(6),得
(7)
(8)
(9)
则系统式(3)的最优跟踪问题就可以转化为误差系统式(9)的最优稳定问题。
(10)
将式(8)代入式(10)得
(11)
证毕
高度子系统是具有严格反馈形式的三阶系统,可以采用反步法设计控制器。首先,定义误差如下:
(12)
式中,x2d=γd;x3d和x4d为虚拟控制输入。
步骤 1对e2求导,并考虑式(5)和式(12),得
(13)
(14)
将式(14)代入式(13)得
(15)
步骤 2对e3求导,并考虑式(5)和式(12),得
(16)
(17)
将式(17)代入式(16)得
(18)
步骤 3对e4求导,并考虑式(5)和式(12),得
(19)
(20)
将式(20)代入式(19)得
(21)
(22)
则系统式(5)的最优跟踪问题就可以转化为误差系统式(22)的最优稳定问题。
(23)
证毕
2.2 自适应最优反馈控制器设计
基于定理1和定理2,这部分研究速度误差系统式(9)和高度误差系统式(22)的最优稳定问题,可将式(9)和式(22)写成统一形式:
(24)
首先,针对式(24),定义无限时间性能指标函数:
(25)
式中,τ表示时间;Q和R为正定对称矩阵。
基于式(24)和式(25),定义Hamilton函数:
(26)
(27)
从而得最优控制输入:
(28)
将式(28)代入式(27),得到
(29)
为了获得最优控制,必须求解式(29),但是式(29)是一阶非线性偏微分方程,很难获得解析解。
假设 2存在关于E的函数η(E),使其满足:
(30)
引理 1[17]针对系统式(24)和性能指标函数式(25)设计最优控制式(28),则有如下结论成立:
结论 1Lyapunov函数J1(E)满足:
(31)
(32)
采用单层评价网络估计性能指标函数
V*(E)=WTφ(E)+ε(E)
(33)
式中,W∈Rl是理想权值;φ(E)∈Rl是激活函数,且φ (0)=0,l是隐含层的节点数;ε(E)是估计误差。
对式(33)求导可得
(34)
由式(28)、式(29)和式(34)得
(35)
(36)
式中,
D=G(X)R-1GT(X)
(37)
从而最优控制和Hamilton函数的估计为
(38)
(39)
(40)
(41)
式中,
ρ=σTσ+1
(42)
高度子系统在反步控制设计过程中,进行虚拟控制量求导运算时存在“微分膨胀”问题。本文采用如下一阶滤波器解决这一问题:
(43)
式中,x3c和x4c为滤波器的输入;τ3和τ4为时间常数。
3 稳定性证明
证明选取Lyapunov函数
J=α2J1(E)+J2
(44)
对J2求导,并考虑式(36)、式(39)和式(41),得
(45)
经化简整理,可得
(46)
对式(46)前两项取范数,并考虑Dm≤|D|≤DM,有
(47)
考虑到
(48)
(49)
从而得
(50)
(51)
下面分两种情况讨论。
(52)
由假设2得
(53)
(54)
考虑到假设2和引理1,有
(55)
由式(33)、式(35)、式(37)和式(38)得
(56)
(57)
bWφM+εM=εr1
(58)
(59)
式中,λmax(R-1)为矩阵R-1的最大特征值。
证毕
4 仿真验证
为验证本文所提出的控制方法的有效性,对高超声速飞行器纵向模型进行闭环系统仿真。速度和高度参考指令分别由幅值为30.48 m/s和304.80 m的阶跃信号通过如下滤波器给出:
(60)
评价网络的权值更新过程如图1所示,由仿真结果可知,在经过约25 s的学习后,评价网络的权值收敛。为了验证本文方法对控制性能的提升,将所设计的自适应优化控制方法与文献[18]中反步控制方法进行对比分析,仿真结果如图2~图6所示。
图1 评价网络的权值更新Fig.1 Weight updating of critic network
图2 速度跟踪曲线Fig.2 Curve of velocity tracking
图2为速度跟踪曲线,从图中可以看出,在所设计控制方案下,闭环系统对速度指令具有很好的跟踪精度,且相对反步法收敛速度更快。由图3的高度跟踪曲线可知,所提方法能够实现高度的精确跟踪。图4为航迹角、攻角和俯仰角速度的响应曲线,与传统的反步法相比,本文所设计的控制方法可以使系统在更短的时间内趋于稳定状态,从而改善系统的响应特性。图5和图6为控制输入的变化曲线,发动机节流阀开度和升降舵偏转角均保持在合理范围内。
图3 高度跟踪曲线Fig.3 Curve of altitude tracking
图4 系统状态响应曲线Fig.4 Response curve of system states
图5 发动机节流阀开度曲线Fig.5 Opening curve of engine throtte
图6 升降舵偏转角曲线Fig.6 Curve of elevator deflection
为进一步说明所提方案的优越性,在80 s≤t≤150 s时分别向速度子系统和高度子系统加入以下扰动:d1=10sint,d2=0.05sint。系统在干扰作用下的速度和高度跟踪结果如图7和图8所示。可以看出,本文所提出的方法仍能保证闭环系统的稳定且具有较高的跟踪精度,这主要是因为评价网络可以利用权值更新律实时调整权值,从而提升控制器的控制性能,降低外界干扰对系统的不利影响。
图7 干扰作用下的速度跟踪曲线Fig.7 Velocity tracking curve with disturbance
图8 干扰作用下的高度跟踪曲线Fig.8 Altitude tracking curve with disturbance
5 结 论
本文设计了一种基于ADP的高超声速飞行器优化学习控制方案。首先借助反步法得到稳态控制输入,同时建立系统的误差模型,将最优控制问题转化为最优稳定问题。在误差模型的基础上,采用单个评价网络的ADP方法设计最优反馈控制输入。理论分析和仿真结果均表明所设计的控制方法不仅可以实现对指令信号的稳定精确跟踪,而且可以改善系统的动态特性。