APP下载

切换拓扑下测量受限多智能体系统一致性迭代学习控制

2023-10-04陈引娟宁小刚魏永东李宗刚

控制理论与应用 2023年8期
关键词:拓扑图跟随者领导者

陈引娟,宁小刚,魏永东,李宗刚

(兰州交通大学机电工程学院,甘肃兰州 730070;兰州交通大学机器人研究所,甘肃兰州 730070)

1 引言

近年来,随着计算机网络、人工智能、控制工程、系统科学等领域的相互交叉渗透,多智能体系统(multi-agent systems,MASs)已成为当前控制学科领域的研究热点.在MASs的诸多研究范畴中,尤以MASs协同控制方面研究广泛,涉及群集控制、编队控制和一致性控制等,已取得了丰硕的成果[1-5].

在MASs协同控制的研究中,由于迭代学习控制方法(iterative learning control,ILC)能够充分利用过去的控制经验来改善系统的控制性能,并可以在给定时间区间内快速地跟踪期望的轨迹,因此常被用来解决MASs一致性问题[6-9].文献[10]从二维系统的角度(以时间步长和迭代次数为自变量)构建了两类分布式ILC协议,解决了MASs有限时间输出一致性问题.文献[11]在可重复运行环境下,基于有向固定通信拓扑结构,应用ILC方法对MASs进行了一致性跟踪研究.文献[12]基于沿有限时间轴和无限迭代轴两个方向双变化的切换拓扑结构,利用个体智能体所能获得的最近邻居信息设计了分布式ILC算法,实现了MASs以指数速度形成期望编队.文献[13]研究了MASs在切换拓扑和时变通信时延下的高精度一致性跟踪问题,通过利用ILC方法设计了分布式一致性跟踪算法,精确地实现了所有智能体在有限时间间隔内的输出一致性.值得注意的是,在上述文献中,所有个体智能体都能获得其邻居和自身之间传输的全部信息,这显然属于理想情形,在实际系统应用中通常很难满足.比较常见的一种情形是: 由于传感器测量范围有限,使得智能体接收或发送信息时可能出现饱和,这一问题无疑对MASs能否达成一致性带来了挑战.针对具有测量受限的MASs一致性研究已取得了一些成果.文献[14]针对具有输出饱和的非线性MASs的一致性跟踪问题,提出了一种分布式ILC算法,实现了跟随者对期望轨迹的完美跟踪.文献[15]研究了具有输入饱和的不确定非线性MASs的领导-跟随一致性协调控制问题,设计了一种完全分布式自适应ILC协议,实现了有限时间内的全局一致性跟踪.文献[16]针对具有随机噪声和测量范围限制的MASs的一致性跟踪问题,通过利用先前迭代的最近邻居测量信息,为个体智能体设计了一种分布式ILC算法,实现了系统在固定拓扑和沿时间轴动态变化的切换拓扑下的一致性收敛.文献[17]针对测量受限线性MASs的通信拓扑同时沿有限时间轴和无限迭代轴切换的情况,设计了基于ILC方法的分布式输出一致性协议,解决了测量受限MASs一致性跟踪控制问题,且给出了可解一致性问题的充分性条件.文献[18]针对一类非线性重复MASs,利用不完全通信数据设计了一种新的分布式ILC算法,并提出了系统收敛的充分条件,达成了多智能体在饱和约束、数据丢失和切换拓扑下的一致性跟踪.然而,需要指出的是,文献[14,16-18]所研究的MASs都有一个共同点,其通信拓扑在切换过程中始终含有以虚拟领导者为根顶点的生成树,这个条件相对比较苛刻.因此在MASs通信拓扑不能时刻具有以虚拟领导者为根顶点的生成树的情况下,如何实现基于切换拓扑的输出测量受限MASs一致性成为该领域亟需解决的一个重要问题.

基于以上分析,本文在文献[17]的基础上,针对通信拓扑同时沿有限时间轴和无限迭代轴切换的测量受限线性MASs的输出一致性跟踪问题继续展开了深入的研究.与文献[17]中的系统通信拓扑相比,本文对MASs通信条件进行了放松,要求系统通信拓扑至少含有一个沿迭代轴的联合生成树,这就解决了在实际应用中,由于网络通信条件的复杂多变,MASs通信拓扑很难时时刻刻都满足以虚拟领导者为根顶点的生成树的情况.当然,传感器的测量范围有限,通信拓扑沿时间轴和迭代轴的双变化以及通信拓扑至少含有一个沿迭代轴的联合生成树,这些都为MASs达成一致性增加了困难.

本文的主要贡献有以下3点: 1)针对测量受限线性MASs的通信拓扑同时沿有限时间轴和无限迭代轴切换的情况,利用跟随者所能获得的局部信息设计了分布式输出一致性ILC算法;2)设计的分布式ILC算法恰好能通过迭代方式实现对切换拓扑的有效联合,可以保证系统通信拓扑有一个沿迭代轴的联合生成树的要求;3)对MASs通信条件进行了放松,解决了由于实际网络通信环境的复杂多变,MASs通信拓扑很难时时刻刻都满足以虚拟领导者为根顶点的生成树的情况下的系统一致性收敛问题.

2 问题描述

MASs中个体之间的通信拓扑用有向图表示,记为G=(V,E,A),V={v1,v2,···,vN}为顶点集合,N为智能体的个数,N∈N+,E ⊆V×V为边集,A=[aij]∈RN×N为邻接矩阵,aii=0.当(vj,vi)∈E时,表明智能体vi可以获得智能体vj的信息,此时aij>0,否则aij=0.Ni={vl ∈V|(vl,vi)∈E}表示智能体vi的邻居集.图G的度矩阵表示为D=diag{d1,d2,···,dN},其中图G的Laplacian矩阵定义为L=D-A.如果图G中存在一个特殊的顶点vi,其有通向图中所有其他顶点的路径,则认为图G含有生成树,这个特殊顶点被称为根顶点.此外,I表示单位矩阵,diag{·}表示对角矩阵,“⊗”表示矩阵的Kronecker积,ℓN={1,2,···,N},N+={1,2,···},1N=[1 1··· 1]T.

下面考虑由N个跟随者和1个虚拟领导者组成的MASs,其跟随者vi的动力学方程为

其中:i ∈ℓN,k∈N+为迭代次数;t∈[T1,T2](0 ≤T1

MASs中的虚拟领导者用v0表示,其动力学方程形如(1)式,系统矩阵A(t),B(t),C(t),D(t)保持不变,相应的期望输入、期望状态和期望输出分别为ud(t),xd(t)和yd(t).考虑MASs中只有部分跟随者能够直接获取虚拟领导者的信息,这里用hi,k(t)表示在t时刻第k次迭代时的跟随者vi和虚拟领导者v0之间的连接关系.当vi可以直接得到v0的信息时,取hi,k(t)=1,否则hi,k(t)=0.定义Hk(t)=diag{h1,k(t),h2,k(t),···,hN,k(t)},hk(t)=[h1,k(t)h2,k(t)···hN,k(t)]T为t时刻第k次迭代时所有跟随者与虚拟领导者的关系矩阵.

考虑跟随者存在输出测量受限,可设r0>0为一给定常数,跟随者传感器的量程为[-r0,r0],虚拟领导者输出yd(t)的元满足此时,跟随者vi与邻居之间的通信方式如图1所示.

图1 跟随者vi通信方式Fig.1 Communication mechanism of follower vi

定义跟随者vi的跟踪误差为

则所求解一致性问题可以转化为设计一个分布式控制律ui,k(t),使得对MASs中的每一个跟随者,均有

成立.为此,在设计基于ILC的控制律之前,先给出关于系统的两个假设和需要的3个引理.

假设1对由式(1)给出的输出测量受限MASs,每次迭代时所有智能体的初态均能重置,即有xi,k(T1)=xi(T1)=xd(T1)成立.

注1对于具有重复运行性质的系统,在ILC中,初态重置假设是个基本条件,它是轨迹能够完美跟踪期望的保证[9].该方法引入MASs 领域后,初态重置的条件也普遍存在[4,11-12,14].

假设2对于所考虑的具有虚拟领导者的MASs,其通信拓扑为(t).各智能体间所有可能的通信拓扑集合为,k∈N+.假设存在一个常量s∈N+,使得对于任意t∈[T1,T2],v∈N+,拓扑图,即

λ>0且可任意取值.

3 多智能体系统一致性分析

为实现控制目标(4),针对跟随者个体设计基于ILC的控制律为

跟随者的控制律(5)写成紧凑形式为

定理1考虑由式(1)给出的具有虚拟领导者的输出测量受限MASs,若跟随者每次迭代初态满足假设1,系统通信拓扑满足假设2,跟随者个体基于ILC的控制律由式(5)给出.那么,如果学习增益γk(t)满足不等式

其中Γξ(t)=(Lξ(t)+Hξ(t))⊗(D(t)γξ(t)),则随着迭代次数k的不断增加,系统所有跟随者的输出均收敛到虚拟领导者的输出,即式(4)成立.

证由跟踪误差的定义可得

通过式(8),由递推有

对式(10)两端取范数可得

此外,由式(1)可得

由假设1,并对式(12)两端取范数可得

将式(14)代入式(13)可得

根据引理2,式(15)可进一步写为

给式(16)两端同乘e-λt可得

根据定义1可知,λ可任意取值,故当λ取值充分大时,式(18)不等号右边的项取值将接近于无穷小,则‖ℜk(t)‖λ可忽略不计.故对式(11)来说,不等号右边除第1项外的其他所有项可忽略不计.因此,当时,对于所考虑的MASs(1),随着迭代次数k的不断增加,ek(t)将不断地趋于0,即实现目标(4).证毕.

需要指出的是,在根据定理1的条件实时求解迭代学习增益γk(t)时始终需要获得σk(t)信息,由于该信息是全局的,因而导致系统很难在切换拓扑情形下实现分布式控制.此外,条件(7)中的连乘形式也为设计学习增益带来不小的困难.为此,通过限定迭代学习增益γk(t)的形式,给出一个可分布式实现的结果.

定理2考虑由式(1)给出的具有虚拟领导者的输出测量受限MASs,若跟随者每次迭代初态满足假设1,系统通信拓扑满足假设2,跟随者个体基于ILC的控制律由式(5)给出.当设计γk(t)使得D(t)γk(t)=ϱk(t)Im成立,且ϱk(t)满足

证由假设2和引理1可知

则有

对于某个跟随者vi,由式(8)可有

类似于式(8)到式(11),有

由式(12)可以得出

对第k次迭代的每个时刻t,ej,k(t)和ei,k(t)之间有某合适的倍数关系,即存在某合适的数值ϕij,k(t)使得ej,k(t)=ϕij,k(t)ei,k(t).则有

对式(28)不等号两边同乘e-λt有

综上可知,‖ei,k+s(·)‖λ将随着迭代次数k的增加而不断减小.如果跟随者vi除了v0之外没有邻居,ei,k(t)将直接降为0;如果跟随者vi至少有一个如vj,j ∈Ni的邻居,ei,k(t)将不会直接降为0.由于对‖ej,k+s(·)‖λ而言,也有形如式(25)的存在,则‖ej,k+s(·)‖λ也将随着迭代次数k的增加而不断减小,这将促使ei进一步减小.同理,el,l ∈Nj将促使ej进一步减小,进而使ei更进一步趋于减小.所以,在这个迭代过程中,每个跟随者的跟踪误差e之间都会相互影响,并逐渐降为0.这意味着所考虑MASs(1)中所有跟随者的输出将收敛于虚拟领导者的输出,即式(4)最终成立.证毕.

注2当MASs每经过s次切换的联合拓扑图具有相同结构,即矩阵(t)+(t)固定不变时,根据定理2中的条件(19)求得的参数ϱk(t)为一常数.也就是说,在系统运行前即可根据ϱk(t)获得学习增益γk(t),因此定理2所给出的条件在这种情形下是分布式的.

注3当MASs每经过s次切换的联合拓扑图具有不同结构,即矩阵(t)+(t)不断变化时,此时根据条件(19)所确定的ϱk(t)也是时变的,因此无法实现分布式计算.但经过分析表明,如果将系统每经过s次切换的联合拓扑图视为完全图时,根据条件(19)所求得的ϱk(t)为区间中的某一常数,且能够使系统在通信拓扑图满足假设2的条件下收敛,此时可在系统运行前根据ϱk(t)获得学习增益γk(t),从而使定理2所给出的条件是分布式的.需要说明的是,这种处理方法会使系统的收敛速度变慢,带来一定的保守性.

注4由于D(t)列满秩,因此对于学习增益γk(t)中的某一列,可由D(t)γk(t)=ϱk(t)Im列出p个线性无关方程联立求解得出.同理,其他列元素也可分别求出.

注5与定理1相比,定理2在求解迭代学习增益γk(t)时,只需根据条件(19)求得合适的ϱk(t),而不受全局信息σk(t)的影响,因此可实现算法的分布式.

4 仿真

本节对所得结果进行仿真验证.考虑由5个跟随者和1个虚拟领导者组成的MASs,各智能体之间构成的有向通信拓扑状态及切换机制如图2所示.

图2 4种状态的有向拓扑图和切换机制Fig.2 Directed topology graphs and switching mechanism of four states

由图可见,每种状态的拓扑图各自没有生成树,但4种状态的拓扑图集含有以虚拟领导者为根顶点的联合生成树.为了分析简单,每条连接边的权值取为1.设t∈[T1,T2]=[1,3],s=4,r0=8.另外,假设每次迭代后MASs的通信拓扑会自动切换到下一个状态,并且假设在时间段1∼1.5 s内,通信拓扑从Ga开始切换,而在1.5∼2 s,2∼2.5 s,2.5∼3 s的3个时间段内可以分别从4个状态中的任意一个开始切换.这样,智能体之间的通信拓扑同时沿迭代轴k和时间轴t变化.由于空间的限制,这里不对联合拓扑图的拉普拉斯矩阵和关系矩阵等进行给出.

取系统矩阵为

取虚拟领导者的初始状态为xd(T1)=0,期望输入ud(t)为

当ϱk(t)=0.3,t∈[1,3]时,所提控制算法下,MASs的输出一致性收敛情况如图3-4所示.图3和图4分别为系统在第10、第80、第140次迭代时各智能体的第1维和第2维输出轨迹及相应的系统跟踪误差沿迭代轴的变化趋势.由图可见,在迭代前期各跟随者会出现输出饱和受限现象,但随着迭代次数不断增加,跟随者输出均被控制到了系统测量阈值范围内.此外,系统跟踪误差在第140次迭代后趋于0并保持稳定.可以表明,经过140次的迭代学习,系统每个跟随者的输出均能够在时间区间[1,3]上很好地跟踪虚拟领导者的期望输出.

图3 在第10、第80、第140次迭代时各智能体的输出y1和系统跟踪误差范数(ϱk(t)=0.3)Fig.3 Output y1 of each agent at the 10th,80th,140th iteration and the norm of system tracking error(ϱk(t)=0.3)

图4 在第10、第80、第140次迭代时各智能体的输出y2和系统跟踪误差范数(ϱk(t)=0.3)Fig.4 Output y2 of each agent at the 10th,80th,140th iteration and the norm of system tracking error(ϱk(t)=0.3)

当ϱk(t)=0.1,t∈[1,3]时,所提控制算法下,MASs的输出一致性收敛情况如图5-6所示.图5和图6分别为系统在第10、第80、第140次迭代时各智能体的第1维和第2维输出轨迹及相应的系统跟踪误差沿迭代轴的变化趋势.由图可见,在迭代前期各跟随者同样会出现输出饱和受限现象,但随着迭代次数不断增加,各跟随者输出依然被控制到了系统测量阈值范围内.不同的是,系统跟踪误差在第400次迭代后趋于0并保持稳定.可以表明,经过400次的迭代学习,系统各跟随者的输出均能够在时间区间[1,3]上很好地跟踪虚拟领导者的期望输出.

图5 在第10、第80、第140次迭代时各智能体的输出y1和系统跟踪误差范数(ϱk(t)=0.1)Fig.5 Output y1 of each agent at the 10th,80th,140th iteration and the norm of system tracking error(ϱk(t)=0.1)

图6 在第10、第80、第140次迭代时各智能体的输出y2和系统跟踪误差范数(ϱk(t)=0.1)Fig.6 Output y2 of each agent at the 10th,80th,140th iteration and the norm of system tracking error(ϱk(t)=0.1)

通过分别对比图3和图5、图4和图6,可以发现,当取ϱk(t)=0.3和ϱk(t)=0.1时,系统的每个跟随者都能在所提出的分布式算法下很好地跟踪虚拟领导者的期望输出,但当ϱk(t)=0.1时,系统输出一致性收敛速度变慢,系统跟踪误差趋于稳定需要的迭代次数增多,系统控制的保守性增大.

5 结论

工程应用实际中,MASs大量存在输出测量受限和通信拓扑时变情况.本文针对一类具有虚拟领导者的连续线性MASs,研究了系统在输出测量受限和联合连通切换拓扑下的基于ILC的输出一致性问题.通过利用饱和函数对系统输出测量受限情形进行建模,并在系统通信拓扑至少包含有一个沿迭代轴的联合生成树且同时沿有限时间轴和无限迭代轴切换的条件下,根据跟随者所能获得的局部信息设计了一种分布式输出一致性ILC算法.此外,给出了使所有跟随者的输出可以很好地跟踪虚拟领导者输出的两个充分条件,其中第2个条件避免了全局信息σk(t)对学习增益设计的影响,实现了算法的分布式.从仿真结果看,本文很好地解决了联合连通切换拓扑下输出测量受限线性MASs的输出一致性问题.

猜你喜欢

拓扑图跟随者领导者
低压配网拓扑图自动成图关键技术的研究与设计
简单拓扑图及几乎交错链环补中的闭曲面
基于含圈非连通图优美性的拓扑图密码
闭目塞听,才是领导者的第一大忌
由城市台的“跟随者”到县域“三农”媒体的 “领导者”
从“跟随者”到“引领者”
—— 瓮福集团PPA项目成为搅动市场的“鲶鱼”
真诚是领导者的最高境界
跟随者
出口跟随者会受益于开拓者吗?——来自中国工业企业的证据
金圣节能清净剂 节能减排领导者