基于积分强化学习的四旋翼无人机鲁棒跟踪
2023-10-07杨加秀李新凯张宏立王昊
杨加秀, 李新凯, 张宏立, 王昊
(新疆大学 电气工程学院, 新疆 乌鲁木齐 830017)
0 引言
四旋翼无人机因其易于操作、灵活机动、机械结构简单等优点,广泛用于执行各种重要任务,如货物运输[1]、地形勘测[2]以及电力巡检任务[3]等。相比于固定翼无人机,四旋翼无人机具有独特的悬停和垂直起降的能力,因此研究四旋翼无人机及其可靠的控制方法具有现实意义。然而,由于四旋翼无人机具有较强的非线性、强耦合和欠驱动的特点[4],以及其在飞行过程中会受到外部环境干扰、内部系统参数摄动、未建模动态等复合影响,使得其位置轨迹跟踪控制系统的设计具有很大的挑战性。
为了解决四旋翼无人机位置轨迹跟踪控制系统设计所面临的挑战,国内外众多研究人员结合线性、非线性以及智能控制方法提出了很多有效的控制方案。针对四旋翼无人机具有较强的非线性和强耦合性,文献[5]提出了一种鲁棒反馈线性化方法,将四旋翼无人机解耦为4个线性的标称子系统模型,而耦合和非线性、参数摄动及输入干扰被视为不确定性,然后针对每个子系统设计了一种解耦的鲁棒控制器。文献[6]基于反步法和鲁棒补偿理论设计了一种鲁棒级联控制器,用以解决具有时滞的不确定性四旋翼无人机的鲁棒轨迹跟踪问题。文献[7]采用基于测量反馈和状态反馈的非线性H∞算法,设计了一个鲁棒控制器-估计器框架。文献[8]设计了一个扩张状态观测器,用以观测四旋翼无人机系统受到的多源干扰。文献[9]设计了一个基于参数估计的自适应鲁棒控制器,估计模型中的陀螺效应因子和风阻系数。文献[10]为了抑制外界扰动和参数不确定性的影响,分别设计了基于动态内模法的位置控制器和基于高阶滑模的姿态控制器。文献[11] 基于自适应控制方法对未知动力学参数和外界干扰进行估计,提出了一种双闭环预设性能控制方法。文献[12]提出了一种模糊自适应动态面跟踪控制策略,来处理四旋翼无人机动力学中的系统不确定性和未知外界干扰。但是基于自适应控制的控制方法只能保证有界的跟踪误差,并且有可能导致较差的动态和瞬态性能。上述文献中的鲁棒控制方法以及智能控制方法都是为了抑制四旋翼无人机中的非线性、参数不确定性和外部扰动,但是这些方法具有模型依赖性,而在四旋翼无人机的实际飞行中,无人机精确的数学模型很难获得,因此需要设计一种不依赖四旋翼无人机系统动力学模型的控制方法。
强化学习最优控制(RLOC)理论可以用来解决具有未知模型动态的最优控制问题[13-16]。目前,RLOC理论已应用于控制系统的最优输出调节、最优输出跟踪、复杂过程工业控制和先进航天器控制等领域。文献[17]研究了具有外部干扰和系统不确定性的离散时间部分线性系统的最优输出调节问题。文献[18]基于输出反馈控制提出了一种改进的带有神经网络观测器的强化学习算法,以解决线性连续时间系统的跟踪控制问题。文献[19]研究了部分非线性系统存在输入约束和不可测状态的最优跟踪问题。文献[20]基于RLOC理论,研究了复杂过程工业控制中浓密机的底流浓度在线控制技术。文献[21]基于积分强化学习(IRL)方法,研究了有效载荷抓捕后具有不确定动态的空间绳系统的平动控制问题,控制系统的代数黎卡提方程可以在没有已知动力学的情况下在线求解。综上所述,RLOC理论能够解决系统中存在外部扰动和系统模型动态不确定的控制问题。
在上述研究的基础上,本文基于RLOC理论中的IRL技术,结合H∞控制理论和神经网络自适应技术,针对系统模型动态不确定和受外部干扰的四旋翼无人机系统的位置轨迹跟踪控制问题设计了一个自适应IRL的H∞控制器,所提出的控制方案能够实现对期望轨迹的渐近跟踪并抑制外部干扰。与已有的研究相比,本文的贡献体现在如下3个方面:
1)使用四旋翼无人机增广系统的输入输出数据代替了复杂的四旋翼无人机动力学模型,利用RLOC理论设计的H∞控制器,使四旋翼无人机系统能够在不依赖系统动力学模型的情况下完成鲁棒跟踪任务。
2)在价值函数中加入了折扣因子,通过调节折扣因子的大小可保证价值函数的有界性。
3)在不依赖系统动力学模型的强化学习算法在线求解时,使用单网络演员-评论家结构同步更新控制和扰动策略,减少了计算成本。
1 预备知识
1.1 无人机系统模型
四旋翼无人机通过改变4个旋翼中电机的转速(升力)差来完成各种机动任务。为了对四旋翼无人机的位置和姿态进行描述,设OGxGyGzG为固定在地球上的惯性坐标系,OBxByBzB为四旋翼无人机自身的机体坐标系。若将四旋翼无人机视为刚体,则无人机质心坐标系与机体坐标系的原点重合,其模型结构如图1所示。图1中,θ、φ、ψ分别为四旋翼无人机的俯仰角、横滚角和偏航角。
图1 四旋翼无人机的模型示意图
文献[5]将具有强非线性的四旋翼无人机系统划分为4个子系统,并为每个子系统设计了一个线性和解耦的标称动力学模型,但文献[5]中的模型没有考虑四旋翼无人机受到外部干扰的情况。设P=[pxpypz]T∈3×1表示四旋翼无人机在惯性坐标系中3个维度的位置信息;Ω=[θφψ]T∈3×1表示四旋翼无人机在机体坐标系中的姿态信息;u=[uθuφuzuψ]T∈R4×1表示四旋翼无人机4个子系统相应的控制输入;d=[dxdθdydφdzdψ]T∈6×1表示四旋翼无人机4个子系统相应的扰动输入。因此,针对飞行过程中受到外部干扰的无人机系统,完整的无人机系统模型表述如下:
纵向子系统模型:
(1)
横向子系统模型:
(2)
高度子系统以及偏航子系统模型:
(3)
式中:a1j1~a5j1、bj1为标称参数,j1=x、y;a1j2~a2j2、bj2为标称参数,j2=z、ψ,由四旋翼无人机的配置和负载条件决定,并通过系统辨识过程获得。并且有
需要说明的是,无人机标称动力学模型是为了给强化学习算法提供一个交互环境,用以在线生成输入输出数据。
依据式(1)~式(3),将四旋翼无人机的各个子系统模型重写为如下状态空间形式:
(4)
式中:x∈Rn×1表示无人机各个子系统的状态向量,且假设无人机所有状态完全可测;u∈Rm×1为控制输入;d∈Rm×1为干扰输入;y∈Rp×1表示无人机各个子系统的输出(向量维数n=4或n=2,m=1,p=1);A=AN+ΔA,AN为标称系统动力学矩阵,ΔA为由参数扰动产生的不确定性动态系统矩阵;B和D分别表示四旋翼各个子系统的控制输入矩阵和干扰输入矩阵。
1.2 问题描述
为了使四旋翼无人机系统式(4)实现对期望轨迹的鲁棒跟踪,本节通过状态重构的方法构建了一个包含外部干扰的四旋翼无人机增广系统。将四旋翼无人机系统的状态变量与期望跟踪轨迹的状态变量合到一起作为新构建增广系统的状态向量,把四旋翼无人机的鲁棒跟踪问题转化成镇定问题。从而解决了当时间变为无穷大时,传统方法[22]中期望参考轨迹必须接近于零的问题。
四旋翼无人机系统的期望跟踪轨迹如下:
(5)
式中:xr∈Rnr×1为期望跟踪轨迹系统的状态变量,nr为状态变量维度;yr∈Rpr×1为期望轨迹,pr为期望轨迹输出变量维度;Ar和Cr为适当维度的常数矩阵,用以设计不同的期望跟踪轨迹。
结合式(4)和式(5),可以得到四旋翼无人机增广系统动力学如下:
(6)
对于四旋翼无人机的鲁棒跟踪控制问题,可以将其转化为对相应标称无人机系统的最优控制问题。由于外部干扰d会影响四旋翼无人机增广系统的轨迹跟踪性能,要予以抑制。因此首先定义能够反映控制系统输出对于外部干扰输入敏感程度的L2-增益。
(7)
式中:Q≥0,R>0,分别为系统状态权重系数和控制输入权重系数。式(7) 表示外部扰动d对参考轨迹跟踪性能的影响至少可以衰减到γ的一定程度。然后定义如下价值函数:
(8)
价值函数式(8)中的正折扣因子α进一步保证了价值函数的有界性,与文献[23]类似,它也表明当前的累计回报对价值函数的影响较大,而未来可能的回报对价值函数的影响将被削弱。
2 控制方案设计
2.1 哈密顿-雅克比-艾萨克方程及最优解
本节给出与式(8)中价值函数相关的无人机鲁棒跟踪贝尔曼方程和哈密顿-雅克比-艾萨克(HJI)方程。由于求解满足干扰抑制条件式(7)的最优控制输入u等价于最小化价值函数式(8),沿着四旋翼无人机的增广系统轨迹式(6)对V(yerr,u,d)求导,得
(9)
根据式(9),可得贝尔曼方程
H(V,u,d)
(10)
(11)
式中:V*满足下述HJI方程
H(V*,u*,d*)
(12)
2.2 四旋翼无人机跟踪误差的渐近稳定性
证明由式(10)~式(12)可得
(13)
再结合式(12)中的H(V*,u*,d*)=0,并将u=u*代入式(13),可得
(14)
(15)
为了还原出带有折扣因子的价值函数形式,将式(15)的两边同乘以e-αt,再对其两边同时积分,
(16)
式中:T为积分采样时间。
由于V*(·)≥0,下述不等式成立
(17)
由式(17)可以发现,四旋翼增广系统利用式(11)中的最优控制率u*满足干扰抑制条件,结合式(14),当d=d*=0时,
(18)
(19)
将式(19)的左右两边同乘以e-αt,可得
(20)
由此可见,通过求解HJI方程式(12),可得到V*和对应的u*和d*,从而完成四旋翼无人机系统对参考轨迹的鲁棒跟踪控制任务。
2.3 IRL控制算法
首先引入基于四旋翼无人机系统动力学的强化学习算法,该算法是后面提出的不依赖系统动力学模型IRL算法的基础。
算法1基于系统动力学的强化学习算法。
步骤1初始化:给定初始容许控制u0和干扰策略d0,i=0,i表示迭代次数;
步骤2策略评估:给定控制律ui,使用四旋翼无人机增广系统的贝尔曼方程求解价值函数Vi+1;
(21)
步骤3策略改进:更新控制输入和扰动输入策略;
(22)
步骤4令i=i+1,如果满足收敛条件‖Vi-Vi-1‖≤ε,则停止迭代,否则返回步骤2。
从式(21)、式(22)中可以看出,算法1需要完整的系统动力学模型来对价值函数Vi+1进行评估,并改进策略ui+1和di+1。而在实际应用中四旋翼无人机的精确系统动力学参数很难获得,且直接求解HJI方程式(21)困难,因此接下来将通过设计一种基于IRL的在线同步策略更新算法来得到最优控制输入u*和扰动输入d*,实现四旋翼无人机在欠驱动、系统动力学模型动态不确定、和外部干扰影响下的鲁棒轨迹跟踪控制。
算法2不依赖系统动力学模型的IRL算法。
针对四旋翼无人机标称动力学模型飞行过程中产生的输入输出数据样本集,IRL算法强调在探索新的输入输出样本和利用已有数据样本之间达到平衡。鉴于此,将式(9)的两边同乘以e-αt,再对其两边同时在t到t+T(T为采样周期)之间积分,可得无人机增广系统的IRL贝尔曼方程如下:
(23)
图2 算法2流程图
如算法2所示,可以将策略评估与策略改进结合起来去求解IRL贝尔曼方程。由定理2可知,算法1与算法2等价,因此算法2的收敛性可以得到保证。
定理2算法1和算法2的等价性。算法2中,通过IRL方法求解IRL贝尔曼方程得到的(Vi+1,ui+1,di+1)与算法1中由式(21)、式(22)求得的值相同。
证明对算法2中的IRL贝尔曼方程两侧求微分并求极限,有
(24)
根据洛必达法则,
(25)
(26)
然后将式(25)和式(26)代入式(24),可得
(27)
证毕。
2.4 算法2的在线实现
演员-评论家框架广泛应用于强化学习背景中,本节基于该框架提出一种四旋翼无人机控制器的在线求解方法,系统控制框图如图3所示。
图3 基于演员-评论家结构的系统控制框图
在策略评估时,评论家依据观测得到的系统状态、奖励和两个演员的策略进行价值评估。在策略迭代时,两个演员依据从环境中观测到的系统状态和从评论家处获得的价值,来分别调节控制策略u(x)和扰动策略d(x)。如果使用神经网络来分别近似价值函数、控制策略和扰动策略,则需要3个神经网络,由于同时训练3个神经网络需要较大的计算成本,本节推导一种基于IRL的单网络同步策略更新方法。
由于神经网络可以逼近任意函数,算法2中的价值函数Vi+1可以近似表示为
(28)
(29)
然后有
(30)
相应地,算法2中的控制和扰动策略可以近似为
(31)
(32)
(33)
现给出算法2基于单网络演员-评论家结构在线实现的伪代码,如图4所示。
1.初始化
4.在线收集数据过程:
7.收集系统的数据信息,积分采样时间T;
8.if rankX=l
9.简化采样数据集X,Y;
10.else
11.继续收集系统数据信息;
12.end if
13.IRL学习过程:
16.break
17.end if
18.end for
19.获得最优控制u*和干扰输入d*;
20.stop
图4 算法2基于神经网络在线实现的伪代码
Fig.4 Algorithm 2 pseudo-code for online implementation based on neural networks
2.5 收敛性分析
基于IRL的同步更新神经网络方法是用于求解算法2中IRL贝尔曼方程的。由定理2可知算法2中的IRL贝尔曼方程和式(21)相等,即基于IRL的同步更新神经网络方法是在数学上求解式(21)。式(21)与文献[25]中的Lyapunov方程从纯数学的角度是等价的,因此直接使用文献[25]中的结果得到引理1。
引理1表明,基于IRL的同步更新神经网络方法可以实现对贝尔曼方程式(21)解的一致逼近。
定理3如果引理1中的条件成立,则∀ζ>0,∃i0,l0,当i≥i0,l≥l0时,有
(34)
定理3进一步证明了基于IRL的同步更新神经网络方法的一致收敛性,即该算法所求得的价值函数Vi+1可以收敛于式(21)的最优解V*。
3 仿真结果
设置两组仿真算例来说明本文基于IRL算法控制器的有效性及优越性。第1组仿真实验选择较为常规的三维螺旋线作为期望参考轨迹,第2组仿真实验则设定更为复杂的蝴蝶形快速飞行轨迹。首先构建一个虚拟的外部环境为强化学习算法生成系统数据,在虚拟外部环境中采用的四旋翼无人机模型的标称参数如表1所示。
表1 四旋翼无人机模型的标称参数
3.1 算例1
四旋翼无人机系统期望跟踪的三维螺旋线轨迹由以下动力学系统生成:
(35)
(36)
算例1的仿真如图5~图9所示。图5表示四旋翼无人机4个子系统IRL过程中神经网络权重的收敛情况,从中可以看出,经过4~5次迭代后神经网络的权值实现了收敛,说明价值函数收敛到了最优值,控制器的解趋于稳定。与演员-评论家三网络结构相比,四旋翼无人机每一个子系统都只有一个神经网络需要训练,可以在有限机载资源下简化神经网络个数,减少计算成本。
图5 算例1中神经网络权重的收敛性
从图6中可以更直观地看出,算法2通过实时采集四旋翼无人机飞行过程中产生的输入输出数据,最终跟踪上了预先设定的三维螺旋线轨迹,在具有外部干扰和不依赖无人机系统动力学模型的情况下,完成了对最优控制器的学习。从图7和图8中可以看出,在IRL过程中,四旋翼无人机的的纵向和横向子系统在经过3次的控制器更新后在18 s左右基本实现了对期望参考轨迹的跟踪,并且其姿态响应横滚角θ和俯仰角φ同样在18 s左右实现收敛并趋于稳定。高度和偏航子系统由于其增广系统中的未知参数较少,所需样本数据步长较短,在5 s左右就基本完成了跟踪任务。由图9可以明显看出,在6 s和12 s时,对四旋翼无人机纵向子系统和横向子系统的控制器进行了更新。
图6 算例1中无人机IRL过程中的三维轨迹跟踪曲线
图7 算例1中IRL学习过程中的位置跟踪
图8 算例1中IRL学习过程中的姿态响应
图9 算例1中IRL学习过程中无人机4个子系统控制输入
通过算例1,可以基本证实本文通过四旋翼无人机标称模型在初始容许控制下飞行产生的数据,在线学习到的控制器在轨迹跟踪和抗干扰等方面的有效性。
3.2 算例2
在实际四旋翼无人机小范围电力巡检的飞行过程中,由于外界指令或复杂的线路,四旋翼无人机在电力巡检过程中需要对故障点进行盘旋式多方位检测。因此仿真算例2选择在x轴、y轴方向发散的且更为复杂的蝴蝶形轨迹作为无人机期望跟踪的参考轨迹,该轨迹由以下动力学系统生成:
(37)
(38)
算例2的仿真如图10~图15所示。由图10~图15可知,当期望参考轨迹设定为x轴、y轴方向发散的且更为复杂的蝴蝶形轨迹时,四旋翼无人机系统仍能在算法2的作用下,在具有外部扰动和不依赖无人机系统动力学模型的情况下,利用无人机飞行过程中产生的输入输出数据,实现对最优控制器的学习和更新,并最终实现对复杂期望参考轨迹的跟踪及维持自身姿态的稳定。
图10 算例2中神经网络权重的收敛性
图11 算例2中IRL学习过程中的位置跟踪
图12 算例2中IRL学习过程中的姿态响应
图13 算例2中IRL学习过程中无人机4个子系统控制输入
为了说明本文设计控制方法的鲁棒性能,在18~20 s 加入如下干扰d=[sintcostsintsintcost0.2sint]T,并将本文基于IRL的算法2所学习到的控制器与传统基于模型的LQR控制器和文献[21]的控制方法进行对比。对于3种控制器的参数Q和R,都设计为相同的参数值。将LQR控制器和文献[21]的控制器也作用于本文所设计的轨迹跟踪增广系统上。
从图14及图15中可以看出:3种方法均能使四旋翼无人机跟踪上期望参考轨迹。但基于LQR和文献[21]的控制方法在18~20 s施加外部干扰时,会出现明显的位置波动,而本文基于IRL的控制器的控制性能没有明显变化,表明本文基于IRL的控制方法具有更好的鲁棒性;算法2在期望参考信号的跟踪初始阶段比其他两种控制方法的响应更为平稳,表明基于IRL的控制方法相比其他两种方法还具有更好的收敛速度和较小的超调量。更重要的是,当无人机的工作点及自身的质量发生变化时,基于无人机系统动力学模型信息的LQR控制器不能自适应地对控制器进行调整,控制性能自然会随之下降。而本文算法2能够不依赖自身系统动力学模型信息自适应地学习到一个新的控制器。由此,结合算例1,可得出基于IRL的控制器相比LQR控制器和文献[21]控制器具有更加优良的控制性能。算例2进一步展示出算法2具有较强的跟踪控制性能和抗扰能力。结合算例1,可以证明算法2在多个场景下具有较强的稳定性。
图14 算例2中无人机的三维轨迹跟踪曲线
图15 算例2中四旋翼无人机4个子系统的跟踪误差
4 结论
本文针对存在系统模型动态不确定性和外部干扰的四旋翼无人机系统鲁棒位置跟踪问题,提出了一种不依赖四旋翼无人机系统动力学模型的单网络IRL控制方案,使四旋翼无人机有效地完成了轨迹跟踪任务。该控制方案结合RLOC理论和H∞控制理论,将四旋翼无人机系统的鲁棒轨迹跟踪控制问题进行了转换。然后通过单网络演员-评论家结构降低了算法复杂度,并利用四旋翼无人机增广系统的输入输出数据对控制器在线求解。仿真结果表明,本文设计的控制方案不仅保证了受扰四旋翼无人机在不依赖系统动力学矩阵A的情况下的高精度轨迹跟踪,而且提高了四旋翼无人机跟踪期望轨迹时的响应速度和控制性能。