APP下载

基于自适应动态规划的四旋翼无人机分布式最优协调控制

2020-12-16池文浩吉月辉

科学技术与工程 2020年31期
关键词:领航者跟随者协调控制

池文浩, 高 强, 吉月辉

(天津理工大学电气电子工程学院, 天津 300384)

多智能体系统的分布式协调控制因其在电力系统[1]、无人机[2]、移动机器人[3]等领域的广泛应用而受到普遍关注。在过去几十年里,多智能体的协调控制取得了大量的研究成果[4-5]。最优协调控制问题是使各智能体的状态达成一致,而且将能量利用率降到最低,已成为研究热点之一。

在文献[6-7]中,作者提出最优协调控制依赖于耦合的哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman, HJB)方程的解,但这种方程的解析解难以准确求取。为了解决这一问题,在文献[8]中提出了一种自适应动态规划(adaptive dynamic programming,ADP)方法。自适应动态规划方法融合了强化学习算法,自适应评价和动态规划理论[9-10],自适应动态规划及其相关领域的研究越来越受到重视[11-12]。在文献[11]中,采用迭代自适应动态规划算法求解一类具有控制约束的非线性离散系统的近似最优控制问题。为了研究连续时间HJB方程,文献[12]提出了一种基于ADP的数据驱动自适应跟踪控制方法。同时,利用ADP求解多智能体微分图形游戏的耦合HJB方程[7-13]。在上述ADP算法的应用中,均实现了系统的稳定性和良好的控制性能。

为此,现提出一种基于ADP算法的四旋翼无人机分布式最优协调控制方法。根据贝尔曼最优性原理,建立多无人机的性能指标和耦合HJB方程。为了求解相关的HJB方程,采取基于模糊双曲模型的评价神经网络(critic neural network, CNN)[8]来逼近值函数以实现控制策略的设计。与文献[10]中的评价-行为(critic-actor)神经网络相比,由于网络结构更加简单,系统更新次数相对较少,能够进一步提高策略迭代的效率,因此在多无人机系统中使用单个评价神经网络的框架是有效的。

1 问题描述

首先介绍符号和代数图论,然后推导分布式协调误差的动态表达式。

1.1 符号

1.2 代数图论

1.3 局部协调误差动态系统表示

将编号为1,2,…,N的N个无人机组成一个多智能体系统。每个无人机由通信图G中的节点表示。这些节点的动力学模型为

(1)

领航者的动态模型为

(2)

式(2)中:领航者的状态为x0∈Rn;f(x0)是一个微分函数。

(1)这里的领航者可以被视为一个命令生成器,它生成所需的信号以供跟随者跟踪。为了使所有无人机与领航者保持同步,设计了局部相邻协调误差来描述协调团队的目标期望。第i个无人机的局部相邻协调误差定义为

(3)

式(3)中:ci≥0表示连接增益。

(2)在通信图G中,必须保证领航者可以与部分跟随者进行通信。如果第i个跟随者与领航者之间有沟通,那么连接增益ci>0,否则,ci=0。

对局部相邻一致协调控制误差[式(3)]进行微分得:

(di+ci){f(xi)+gi(xi)ui-

(di+bii)[f(xi)+gi(xi)ui-f(x0)]-

(4)

2 基于ADP的分布式协调控制器设计

设计了一个基于ADP的协调控制器,使所有无人机与领航者同步,同时优化他们提供的性能指标。通常,多智能体的最优协调控制设计被认为是耦合HJB方程的解。为了获得局部耦合HJB方程,设计了依赖于局部相邻一致性误差和协调控制策略的性能指标函数。定义与i关联的局部性能指标为

(5)

为了理解完整的状态信息与反馈控制策略之间的最终协调控制,引入一个容许控制策略的定义。

定义1(容许协调控制策略)。在集合∈Rn上,定义反馈控制策略ui,i∈Ω为关于式(5)的容许协调控制,如果ui是连续的,ui(0)=0,则ui能够稳定系统[式(4)],并且局部成本函数[式(5)]是有限的。

(6)

可以得到局部耦合HJ方程:

(7)

(8)

(9)

因此无人机i的局部最优协调控制策略为

(10)

3 耦合HJB方程的策略迭代算法

现提出一种策略迭代(policy iterative)算法用来求解每个无人机的耦合HJB方程。一般而言,策略迭代算法包括两个步骤:策略评估和策略改进。重复这两个步骤,直到策略改进的结果不再改变控制策略,且值函数只需通过容许控制策略进行评估。

算法1多无人机分布式协调控制策略迭代算法。

(11)

第3步:(策略改进)使用式(12)更新N个控制策略。

(12)

重复第2步,直至收敛。推导一个定理,以证明策略迭代算法对多智能体的收敛性。

(13)

(14)

为了使不等式(14)成立,必须保证:

(15)

根据Vi的定义,可知Vi()=0。通过对在区间[t,)上积分,能够得到:

(16)

根据局部值函数式(6)的定义可知:

(17)

当l→时,又因为得到因此值函数成立。同时,可以得到

与文献[7]相比,只考虑更新无人机i的控制策略,而其他无人机的控制策略保持不变的情况。

4 基于ADP算法的分布式协调控制

采用在线ADP技术求解耦合的HJB方程[式(9)]。为了实现所提出的ADP技术,利用基于模糊双曲模型的评价神经网络(CNN)对值函数进行逼近,并帮助计算控制策略。由于CNN网络结构更加简单,系统更新次数相对较少,因此更适用于解决多无人机系统的最优协调控制问题。

在评价神经网络中,对神经网络的权值估计进行了更新,提出了利用模糊双曲评价逼近器逼近无人机i的值函数,表示为

(18)

(19)

选择激活函数Φi[zi]来逼近值函数,并且满足Φi(0)=0。对于无人机i, HJB方程误差可以定义为

(20)

给定任意容许协调控制策略,为使残差平方和最小,设计为

(21)

更新律表示为

(22)

为了推导出权值估计误差,将式(18)代入式(7),可以改写为

(23)

也就是说,可以得到式(24)。

(24)

(25)

为了使评价网络权值估计误差收敛到零,激活函数Φi[zi]必须满足激励条件的持续性。

根据值函数的预估和权值更新律,可计算出容许协调控制策略为

(26)

在给出评价神经网络权值估计误差的一致最终有界之前,需要给出以下定义和假设。

用定理2来证明评价神经网络的权值估计误差是UUB的。

Lyapunov函数候选项为

(27)

对Li1求导,得到:

(28)

(29)

结合式(28)和式(29),计算Lyapunov函数的导数为

(30)

(31)

5 仿真模拟实验

实验1为了证明所提协调控制算法的有效性,利用一个领航者和3个跟随者组成一个多无人机系统,在MATLAB的Simulink仿真环境中搭建动态系统进行仿真分析。每个跟随者的动态描述如下:

(32)

无人机之间的切换通信拓扑G={G1、G2、G3}如图1所示。通信图在第10秒和第20秒的时候按照G1→G2→G3的方式切换。领航者的动力学模型是r(t)=r4(t)=y4(t)=10。

图1 一组由3个跟随者(F1~F3)和一个领航者(L4)构成的切换通信拓扑图Fig.1 Switching communication topologies for a group of three followers (F1 to F3) and one leader (L4)

在仿真中,各跟随者(F1、F2、F3)的初始状态在不同位置,评价神经网络的初始权值在[-1,1]区间随机初始化,具体初始设定如表1所示。 仿真结果如图2~图4所示。

表1 跟随者(F1、F2、F3)的初始设定

图2 输出跟踪轨迹Fig.2 Output tracking trajectory

由3个跟随者和一个领航者所构成的编队系统,其输出跟踪轨迹如图2所示。仿真结果表明3个跟随者能够在3.5 s的时间内与领航者保持状态一致。

图3 协调控制误差轨迹 Fig.3 Cooperative control errors trajectory

协调控制误差的轨迹δi=yi-r(t)(i=1,2,3)如图3所示,表明协调控制误差可以在短时间内收敛到原点的一个小邻域内。

图4 值函数曲线Fig.4 Value function curve

由值函数变化曲线(图4)可知,3个跟随者系统在较短时间内经过策略迭代,权重更新趋于停止,即可与领航者保持状态一致。

图5 一组由4个跟随者(F1~F4)和2个领航者(L5,L6)所构成的切换通信拓扑图Fig.5 Switching communication topologies for a group of four followers (F1 to F4) and two leaders (L5, L6)

在仿真中β=2,各跟随者(F1、F2、F3、F4)的初始状态在不同位置,评价神经网络的初始权值在[-1,1]区间内随机初始化,具体初始设定如表2所示。仿真结果如图6~图8所示。

表2 跟随者(F1、F2、F3、F4)的初始设定

图6和图7给出了4个跟随者和2个领航者组成的多无人机系统的仿真结果。结果表明该算法能使多无人机系统中服从切换拓扑的所有追随者的系统输出收敛到领航者所张成的凸空间。

图6 输出的跟踪轨迹Fig.6 Output tracking trajectory

图7 系统状态轨迹Fig.7 System state trajectory

图8 值函数曲线Fig.8 Value function curve

由值函数变化曲线(图8)可知,4个跟随者系统在较短时间内经过策略迭代,权重更新趋于停止,即可与领航者保持状态一致。

实验1和实验2的仿真结果表明,所提出的控制策略保证了闭环系统的稳定性,并在切换通信拓扑存在的情况下,保证了多无人机编队系统良好的控制性能。

6 结论

采用自适应动态规划的方法对多无人机分布式系统在有向通信切换拓扑的方式下进行最优协调控制。通过两个仿真实例验证了该方法的有效性,并得到以下结论。

(1)策略迭代算法是基于分布式异步结构系统来实现的,它不仅减少了相邻无人机之间的通信传输,而且只需要第i个无人机更新其控制策略,而相邻无人机保持不变。

(2)针对每架无人机引入一个独立的评价神经网络来近似值函数。与传统的评价-行为网络(critic-actor network)框架相比,它简化了网络结构,减少了更新权值的次数。

在以后的研究工作中,为了使成果更加完美,将增加相应的硬件实验。通信时延在多智能体系统中是不可避免的问题,也是今后的研究工作。

猜你喜欢

领航者跟随者协调控制
渔船的“领航者”和“安全卫士”
“益源庆”打造中国高品质食醋领航者
IC访谈:“智慧政府”领航者——新华三集团
由城市台的“跟随者”到县域“三农”媒体的 “领导者”
做纯棉数码印花领航者
多个MFD 子区边界协调控制方法
从“跟随者”到“引领者”
—— 瓮福集团PPA项目成为搅动市场的“鲶鱼”
跟随者
出口跟随者会受益于开拓者吗?——来自中国工业企业的证据
省地县三级AVC系统协调控制及实现