多智能体技术发展及其应用综述
2018-05-08谢光强黄向龙
李 杨,徐 峰,谢光强,黄向龙
LI Yang,XU Feng,XIE Guangqiang,HUANG Xianglong
广东工业大学 计算机学院,广州 510006
School of Computing,Guangdong University of Technology,Guangzhou 510006,China
多智能体技术(multi-agent technology)的应用研究起源于20世纪80年代并在90年代中期获得了广泛的认可,发展至今,已然成为分布式人工智能(Distributed Artificial Intelligence)领域中的一个热点话题,其智能性主要体现在感知、规划、推理、学习以及决策等方面。多智能体系统(multi-agent system)的目标是让若干个具备简单智能却便于管理控制的系统能通过相互协作实现复杂智能[1],使得在降低系统建模复杂性的同时,提高系统的鲁棒性、可靠性、灵活性。目前,采用智能体技术的多智能体系统已经广泛应用于交通控制、智能电网、生产制造、无人机控制等众多领域。
1 多智能体系统
智能体(Agent)是处于某个特定的环境下的计算机系统,该系统可以根据自身对环境的感知,按照已有的知识或者通过自主学习,并与其他智能体进行沟通协作,在其所处的环境自主地完成设定的目标。通常,单个智能体求解问题的能力通常是十分有限的,但是将多个自治的智能体组合起来协作求解某些问题的能力通常很强大。多智能体系统就是指可以相互协作的多个简单智能体为完成某些全局或者局部目标使用相关技术组成的分布式智能系统[2],其中,多智能体技术在构建多智能体系统中充当至关重要的作用。多智能体系统提供一种新的方法来控制大规模分布式和自适应复杂系统,如过程控制、智能人机交互、分布式计算。目前多智能体系统主要研究两个方面:(1)如何利用该技术建立一个灵活、可扩展的软硬件系统;(2)如何利用该技术进行建模[3]。
多智能体系统的主要具有以下的特点:
(1)自主性。在多智能体系统中,每个智能体都能管理自身的行为并做到自主的合作或者竞争。
(2)容错性。智能体可以共同形成合作的系统用以完成独立或者共同的目标,如果某几个智能体出现了故障,其他智能体将自主地适应新的环境并继续工作,不会使整个系统陷入故障状态。
(3)灵活性和可扩展性。MAS系统本身采用分布式设计,智能体具有高内聚低耦合的特性,使得系统表现出极强的可扩展性。
(4)协作能力。多智能体系统是分布式系统,智能体之间可以通过合适的策略相互协作完成全局目标。
2 多智能体技术的发展综述
从20世纪70年代出现分布式人工智能后,早期的研究人员主要将研究重心放在分布式问题求解(Distributed Problem-Solving Systems)中,试图在系统设计阶段便确定系统行为,对每个智能体预先设定各自的行为。但这种封闭性和确定性的设计理念使得系统的自适应性、鲁棒性和灵活性等方面表现不足,限制了DAI的工程应用[4]。20世纪80年代,研究人员逐渐将重心转移到多智能体系统,在智能体分析建模上不再基于确定行为的假设,Rao在Bratman的哲学思想的基础上提出了面向智能体的BDI(Belief-Desire-Intention)模型,使用信念-愿望-意图哲学思想描述智能体的思维状态模型,刻画了最初的MAS系统智能体的行为分析,提高了智能体的推理和决策能力。与此同时,相关研究学者为了解决传统的分布式问题求解领域无法很好地对社会系统进行建模等相关问题,也将注意力集中在智能体社会群体属性上,从开放的分布式人工智能角度出发,重点研究多智能体的协商和规划方式,如G.Zlotkin和J.Rosenechein提出的基于对策论的协商策略,使得各智能体在仅拥有局部信息的前提下依旧可以进行冲突消除,麻省理工大学的S.E.Conry等人提出的多级协商协议同样是使用局部信息对非局部状态的影响进行推理,以适应环境的改变。
伴随着多智能体技术在无线传感器滤波、生物医学、无人机编队控制等各领域的深入应用,该技术也遇到了诸多瓶颈,例如对复杂系统建模规模的过程引入庞大的智能体数量而引起的通信代价过大实时性不够等问题,而当系统本身的计算资源和存储资源极度受限下的情况下,如何保证智能体之间的正常协作规划也是一个具有挑战的问题。近年来,为了克服这些局限,研究学者们在计算机软硬件发展的大趋势下,提出了大量的研究成果,取得了许多突破性的进展,主要体现在如下方面。
2.1 多智能体一致性研究
近十几年来,由于集群控制领域,如无人机控制领域、水下协同作业和机器人编队控制等相关领域的发展,一致性问题逐渐成为广泛学者的关注的重点,不同类型的多智能体一致性协议体现了多智能体技术在各领域应用中的不同需求。大量的学者针对不同的应用场景提出了许多衍生的一致性协议,在本文中,将选取工程应用中常需要考虑的带时滞一致性、有限时间一致性和领导者跟随者一致性问题展开讨论。
2.1.1 带时滞的一致性问题研究
通信是多智能体协作的重要基础,但在实际的应用过程中,由于控制器性能、网络带宽及传输信道的差异通常会使得系统网络出现各种不理想状况,按照网络影响因素的不同可将一致性研究约束划分为[5]:通信时滞、输入时滞、测量噪声、数据丢包、量化误差。其中,通信时滞在工程应用中最为常见,也是影响系统稳定的关键因素之一,如无线传感器网络信息融合中的网络信道时延、水下协同作业的传输介质时延等。研究通信时滞对系统收敛性的影响是多智能体技术在工程中应用的重要基础,接下来重点阐述各阶系统在通信时滞下的一致性问题。
在一阶多智能体系统中,Olfati-Saber等人[6]较早地对有向固定拓扑、有向切换拓扑以及无向网络在带时滞情况下对其收敛性进行分析,得出一阶固定无向网络在时滞条件下智能体收敛到平均一致的充要条件,当时滞不超过一定的上限阈值时,系统仍能保持稳定。随后,Lin等人[7]在具有时滞的联合连通拓扑二阶多智能体系统中利用线性矩阵不等式(LMIs)得到系统平均一致性的充分条件。Zhang等人[8]将包含噪音、时变时滞以及数据包丢失的二阶多智能体通信网络中引入排队机制,使得该智能体系统被建模成具有随机切换拓扑的固定时滞系统,并得出系统均方鲁棒一致性的充要条件。在研究高阶集群系统时,Xi等人[9]利用状态空间分解法将具有时变时滞和高阶群集系统状态空间分解为一致子空间和互补一致子空间,将高阶系统一致性问题转化为不带时滞和外部干扰多个子系统同时稳定的问题,并在此基础上给出了具有时变时滞高阶系统一致性函数的显式表达式,同时,Zhou等人[10]证明在已知时滞的情况下,可以利用全状态反馈和基于观测器的输出反馈控制协议解决任意大有界时滞的一致性问题,此外,王振华等人[11]在闭左半平面的高阶多智能体系统中给出了与时滞无关和与时滞相关的两种趋同条件,并揭示了智能体系统结构、通信时滞和网络拓扑的关系。而在扩展到非线性多智能体系统时,Chen等人[12]使用Lyapunov-Krasovskii函数和Young不等式消除时滞的影响并引入鲁棒控制项处理外部干扰,设计出基于神经网络的分布式自适应鲁棒控制协议获得非线性多智能体系统在外部噪声和时间延迟下的一致性。但是随后,Wang等人[13]指出了Chen所使用的技术将会导致分布式控制算法中的奇异性,进一步提出使用σ函数以克服该技术的局限性。此外,国内的明平松等人[14]在随机时滞多智能体一致性研究上展开了详细的总结和梳理。
2.1.2 有限时间一致性问题研究
多智能体一致性按照收敛速度可划分为渐进时间一致性、有限时间一致性和限定时间一致性。相比渐进时间一致性,有限时间一致性需要系统状态在某一限定时间内收敛到某一范围内,使得系统更快实现一致同步。许多实时控制的应用场合对收敛速度的要求都比较高,特别是控制领域,所以研究有限时间一致性更具有工程意义。而相比于有限时间一致性,使系统在固定时间内收敛的限定时间一致性的相关研究目前尚处于起步阶段,因此,接下来重点对有限时间一致性的技术发展进行阐述。
在2006年,借助连续系统和非连续系统的有限时间稳定性理论,Cortés[15]在非平滑稳定性分析的基础上,率先提出非平滑梯度流在有限时间一致性协议,能保证一阶离散多智能体系统在有限时间能达到收敛范围。Wang等人[16]将有限时间的控制思想扩展到具有单积分器动力学的多智能体系统中,提出了基于连续状态反馈的一阶多智能体系统有限时间控制模型,并将有限时间李雅普诺夫稳定理论应用到有限时间一直性理论和分析中。随后,基于李雅普诺夫方法和齐次性,Wang和Hong[17]进一步提出面向二阶多智能体网络的有限时间一致性协议,该协议保证系统在有限时间内实现一致。与此同时,Cao等人[18]提出分散滑模估计器实现一阶和二阶的多自主车辆在有限时间编队跟踪。Li等人[19]在Wang和Hong研究的基础上针对二阶无领导多智能体系统提出基于加幂积分方法设计出基于连续有限时间一致性协议,能使系统在无干扰下实现有限时间的状态一致,并能在有干扰情况下实现任意两个智能体之间的稳态误差均能在有限时间达到一个区域。而Sun等人[20]研究由一阶和二阶智能体组成混合阶数的异构多智能体系统有限时间一致性问题,并得出切换拓扑和固定拓扑下有限时间一致性的一些充分条件。Du等人[21]将递归设计方法与加幂积分技术融合,使用递归方式构建李雅普诺夫函数,进而提出基于邻居的分布式高阶有限时间一致性协议,使领导-追随者系统能实现有限时间一致而不需要领导者的速度信息。另一个角度,Zhou等人[22]将非均匀控制方法与加幂积分技术融合,通过设计有限时间观测器,构建出基于输出反馈的高阶多智能体有限时间一致性协议。在非线性系统研究中,Zuo等人[23]利用李雅普诺夫函数构造无向网络的鲁棒有限时间一致性协议,并证明该协议的收敛时间在任何初始条件下均有上界。Defoort等人[24]在Zuo的基础上推导出一些条件选择一阶非线性系统的控制器增益,使得系统无论在何种初始条件下,均可在限定时间内收敛,达成限定时间一致性。
蒋国平等人[25]就国内外基于收敛速度的多智能体一致性研究进行了详细的总结及分析。
近年来,有限时间一致性研究已经扩展到了许多特定领域的应用中,如异构多智能体控制研究[26]、跟踪控制研究[27]等,但是在异构多智能体的有限时间一致性、不匹配扰动下的有限时间一致性以及限定时间一致性的相关研究均较少,值得学者们进一步研究。
2.1.3 领导跟随者一致性研究
领导跟随者控制方法是多智能体系统协同控制一致性的重要方法,所以领导跟随者一致性研究一直都是多智能体编队控制研究的热点。领导跟随者一致性控制的控制目标是多智能体系统内的各个智能体通过不断的衍化最终实现一致性,并且该一致状态是系统内一个或多个领导者的期望状态。
从领导者数量角度来看,按照领导者的数量可以将多智能体系统分为单领导者系统和多领导者系统,在仅具有较少智能体数量的系统中,单领导者设计会使得系统更开销更小并且一致性收敛速度更快,然而在具有大量智能体的中大型系统中,相比于单领导者而言,多领导者的系统可以使得每个领导者负担减小,能明显降低系统的通信和计算负荷,但是多领导系统设计上更为复杂,需要确定系统协同的共同目标。
由系统模型角度来看,领导跟随者一致性研究依旧沿着线性一阶、二阶、高阶到通用类型的思路进行。Hong等人[28]在一阶切换拓扑系统中研究单领导者追踪一致性问题,为了使得跟随者可以跟踪速度时刻变化并且无法直接测量的领导者智能体,在每个跟随者智能体控制器上设计基于邻居的状态估计规则,随后,Hong等人[29]将领导者速度无法实时测量的问题扩展到二阶切换拓扑多智能体系统中,设计出具有二阶分布式观测器的追随者智能体,并借助全局的Lyapunov函数证明了在嘈杂环境中也可以估计系统的跟踪误差。Peng等人[30]进一步的在领导者速度无法实时测量的研究中考虑时变时延问题,利用Lyapunov-Krasovski函数分析出在领导者邻接矩阵时不变和时变两种情况下系统跟踪误差一致并最终有界的充分条件。Zhu等人[31]研究固定和切换拓扑、非均匀时变时滞的二阶多智能体领导跟随者一致性问题,给出了固定拓扑下实现一致性的充要条件,并给出在假设领导者全局可达总周期足够大的条件下实现一致性的充分条件。Ni等人[32]使用图论、Riccati不等式和Lyapunov不等式研究高阶线性多智能体的领导跟随者一致性问题,详细分析了单领导者一致性问题在固定和切换拓扑下的控制协议与信息交互。Wen等人[33]在高阶线性多智能体中研究跟随者偶然丢失控制输入的一致性问题,通过构造切换拓扑下的Lyapunov函数以及M-矩阵理论,给出了实现分布式一致性追踪的充分条件。Sun等人[34]研究高阶多智能体在未知干扰的条件下鲁棒一致性跟踪问题,提出一种连续鲁棒状态反馈控制算法,给出了半全局渐进一致跟踪的充分条件。Qin等人[35]基于静态反馈控制器设计通用的线性多智能体系统中领导跟随一致性协议。
目前,领导跟随者一致性的相关研究主要集中在线性系统,而带领导者的非线性系统一致性问题研究相对较少。在实际应用场景中,如机器人编队控制中,智能体大多具有很强的非线性,所以面向非线性系统的领导跟随者一致性研究也具有极其重要的实际意义。
2.2 基于事件触发机制的控制策略
在多智能体的协同控制中,智能体之间通常需要借助通信网络频繁的交换自身局部信息,传统的网络采样控制方法时基于时间的周期采样方式,而在事件触发机制中控制器的采样时刻由设计者定义的特定事件控制。周期性采样方式是采用类似轮询方式,控制器在某个间隔中交换自身的信息并更新相应的控制输出,对系统的计算和通信能力要求较高。但是在实际应用过程中,特别是在无线传感器网络控制、嵌入式无人机协同控制等领域,存在网络带宽和计算节点资源相对有限等问题,资源开销较小的事件触发机制相比于时间触发方式更能满足这类型应用的需求。
早期,Åström等人[36]在一阶单闭环反馈控制系统中研究事件触发机制对控制效果的影响,控制器只有当测量误差超过某一设定值后才进行采样输出,实验表明基于事件的触发机制的控制效果优于时间触发机制。与此同时,Årzén等人[37]在PID控制中采用事件触发机制并进行了双容水箱控制实验,证明了该机制能有效降低控制器使用率。随后,为了解决微型控制器的调度稳定性问题,Tabuada[38]依赖于控制器的反馈机制提出了基于确定性事件触发的实时调度算法,研究如何在保证系统稳定和收敛性的情况下,放宽对控制器更新频率的要求。更进一步,Dimarogonas等人[39]在Tabuada研究的基础上提出了集中式、分布式事件触发机制的一阶多智能体系统一致性控制模型,这类的触发事件定义为特定的测量误差与状态函数范数的比率,此外,还设计根据上一次控制器更新时刻的自身与邻居状态值共同确定下一次更新时间的自触发式控制策略,在保证控制效果的同时有效地降低了智能体的通信与计算负荷。之后,大量的学者将事件触发策略广泛应用于各协同控制领域,例如采样数据一致性问题[40]、异构多智能体协同问题[41]等。
值得一提的是,虽然基于事件触发策略能有效降低智能体采样频率,但若是在很短时间内,事件条件被连续多次触发后,便形成Zeno现象,导致控制器输出不稳定。如何确定事件触发的最小时间间隔是该策略在应用过程中的关键性问题之一。
2.3 并行分布式多智能体仿真平台
多智能体技术常用来对复杂系统进行建模,当不具备任何实际经验的情况下,面向多智能体的仿真平台通常是研究人员探索复杂系统不可或缺的工具。但由于仿真系统规模庞大,智能体数量众多,在仿真过程中需要大量的计算,若采用NetLogo等传统的多智能体仿真平台,极易遇到计算瓶颈。近年,在分布式共享存储、多核CPU(如Xeon Phi)、并行GPU等分布式硬件平台日趋成熟的基础上,研究人员将并行计算相关技术运用在多智能体仿真中,提出PDMAS技术。PDMAS平台一方面将多智能体建模中出现的庞大计算量分散到计算集群中各计算节点中,突破计算瓶颈,另一方面对仿真人员屏蔽底层的并行计算实现细节,使得仿真人员在无需具备专业的并行编程能力的条件下依旧可以使用PDMAS平台提供的接口进行分布式并行仿真,降低MAS技术门槛。在串行MAS仿真平台中,研究人员重点关注如何模拟智能体结构、行为等方面,但向PDMAS过渡后,由分布式并行计算引入的负载均衡、智能体同步、关键路径优化等问题吸引了研究人员更多的注意力。近几年出现具有代表性的PDMAS仿真平台包括有:萨莱诺大学ISIS实验室设计的D-MASON、英国谢菲尔德大学设计的Flame和阿贡国家实验室设计的RepastHPC等。Rousset等人[42]详细介绍了目前主流的PDMAS平台并在性能方面对各仿真平台进行了全面的对比。
3 多智能体技术应用
多智能体技术主要用于系统的控制决策,提高系统的鲁棒性、可靠性、灵活性,因此几乎所有涉及智能推理、规划决策、协同控制等领域的相关问题均可以通过多智能体技术来处理,以下将主要介绍多智能体技术在工程技术领域的应用。
3.1 多智能体技术在机器人控制中的应用
伴随着人工智能的发展,机器人控制领域也将有新的突破,目前,将具有强大感知推理能力的多智能体技术应用于机器人控制领域已经屡见不鲜,其中最具代表性的是将智能体技术融入到辅助机器人中提高单个机器人的语义理解和认知能力,以及将多智能体一致性理论应用到机器人编队控制,用以提高多个机器人的协调协作能力。
3.1.1 智能辅助机器人的构建
在设计智能辅助机器人中,工程师通常将研究重心放在如何让智能机器人具备常识性的推理,具备与人类进行平滑交流的能力。以家居智能为例,为了使得机器人可以更加主动地使用自然语言与人进行交流,并根据周围环境情况辅助弱势群体完成复杂的日常生活活动,Ayari等人[43]针对智能机器人无法主动地辅助人类进行复杂活动的问题,在环境智能的基础上提出将自然语言处理领域的NKRL(Narrative Knowledge Representation Language)融入到多智能体框架HARMS(Humans,software Agents,Robots,Machines and Sensors)的混合模型。该模型使智能机器人具备更强的上下文语境认知能力,让机器人具备更强的感知和思考的能力,让智能设备和机器人为弱势群体提供合适的辅助服务(如图1[43])。Gemignani等人[44]在环境智能的基础上研究机器人系统的新式语义映射,通过人机交互的机制让机器人自主学习,并结合机器人当前所处的环境,增强智能机器人对外界的认知和推理决策能力。
图1 机器人与弱势群体交流
3.1.2 领导跟随者一致性在机器人控制中的应用
编队控制的目的是使多个机器人达到理想的队形并在此基础上协作完成一些特定的任务。按是否含有队形参考信息将编队控制分为不含参考信息的编队生成问题和含有参考信息的编队跟踪,其中,领导者跟随者一致性理论常用于编队跟踪问题的相关研究上,在拥有领导者的机器人系统中,领导者机器人往往承担接收系统输入的任务,而跟随者机器人从领导者获取信息,最终实现一致性编队控制。
针对大规模编队控制通信速度和带宽限制,Ren等人[45]率先提出一种新的分布式领导跟随者体系结构,该体系结构允许包含任意数量的领导者以及跟随者小组,在各智能体仅交换局部信息的条件下完成对组群的时变轨迹追踪,实现分布式一致性编队控制(如图2[45])。随后,Ren[46]还在固定领导下的有向固定网络拓扑和可变领导下的有向切换拓扑结构中分析了一致性跟踪的收敛性。进一步,在Ren的基础上,Chen等人[47]在研究带有摄像头的非完整移动机器人主从队形生成问题上,设计出一种不带距离状态的视觉编队形成策略,使得机器人在队形生成时不需要进行传统的距离估计,消除了估计误差对控制的影响。与此同时,徐志强等人[48]在群体机器人队形一致性控制上,为了克服系统中的噪声影响,将领导者和跟随者划分为多个子系统,并为每个子系统设计独立的一致协调控制器和观测器。另一方面,为了避免无人机在运动过程中发生碰撞,Kuriki[49]设计基于人工势场法的避免碰撞控制协议和一致性编队控制算法,并分析一致性编队控制算法的收敛性。张瑞雷等人[50]针对车式移动机器人的编队问题,利用反补法,构造轨迹跟踪的李雅普诺夫函数,并通过使该函数负定来实现机器人编队控制。
图2 多机器人编队控制
3.1.3 有限时间一致性在机器人控制中的应用
在实际控制过程中,许多诸如机器人足球比赛,飞行器的轨迹跟踪等实时控制场合对智能体系统状态收敛速度提出了较高的要求,有限时间一致性的理论研究有效地提高了系统的这方面性能。
在带领导者的多机器人有限时间一致性跟踪控制中,针对输入扰动等问题,Khoo等人[51]通过修改系统误差函数实现智能体之间相对状态的分离,实现二阶机器人系统的有限时间跟踪控制。进一步,Ou等人[52]在研究多个非完整轮式移动机器人有限时间跟踪的动态模型中,提出将跟踪动态误差转化为每个移动机器人内的两个子系统,并分别在两个子系统设计有限时间跟踪控制协议。随后,Ou等人[53]在非完整轮式移动机器人的基础上考虑基于视觉伺服的有限时间一致性跟踪问题,针对具有未知摄像头参数的移动机器人设计跟踪算法,使得移动机器人群体可以在有限时间内收敛到期望状态。同时,Zhang等人[54]使用级联控制方法设计移动机器人轨迹有限时间跟踪控制算法,并在仿真中证实了该算法具有良好的收敛性。Cheng等人[55]在领导者跟随者结构下研究具有高阶动态模型的多个非完整轮式移动机器人有限时间队形生成问题,在积分滑模控制方法的基础上设计出基于扰动观测器的有限时间反馈控制器。另一方面,Nair等人[56]提出一种基于积分滑模的有限时间事件触发编队控制策略,将新定义的测量误差作为事件触发的条件,并在先锋P3-DX和火鸟VI机器人中证明了该策略能在编队控制中避免Zeno现象,并提高系统的收敛速度以鲁棒性。
3.1.4 带时滞一致性在机器人控制中的应用
随着机器人控制策略的重心由集中式向分布式过渡,分散化的控制策略在极大地提高了系统的鲁棒性及容错能力的同时也放大了时滞对系统收敛性的影响,为了减少时滞对系统控制效果的影响,保障系统稳定运行,研究人员提出许多不同的时滞解决方案。
Ding等人[57]设计出在时变时延和自时延条件下的领导跟随者一致性协议,并使用李雅普诺夫函数和线性矩阵不等式证明当时滞处于某一界限下,所有无人机节点均可以达到渐进一致。李少斌等人[58]针对固定通信拓扑下具有时变通信时滞的无人机系统,提出分布式编队控制算法,并以线性不等式的形式给出了系统稳定的条件。同时,郭伟强[59]在无人机编队控制中给出了具有时变通信时滞的编队一致性控制算法,最终在仿真实验中验证了该算法在带时滞的环境下能够使得误差快速收敛。另一方面,魏瑞轩等人[60]针对复杂环境下无人机编队重构控制中存在通信时滞的问题,设计了基于信息滤波算法的信息补偿方法解决因通信延迟带来的信息不一致问题。
相对于众多的带时滞一致性理论的突破,该方面应用在实际工程中的案例却较少,在带时滞的一致性问题上出现了较明显的理论和应用脱节现象。其中,导致这现象的重要原因在于不同的工程领域会有不同的环境条件。理论研究往往研究某一类问题的简化模型,而工程应用中的常出现多类型时滞、时变时滞、不确定时滞、噪声干扰、通信节点不稳定等混杂的苛刻条件,此外,将理论应用于实际还需要考虑系统资源、通信成本等现实工程问题。
3.2 多智能体技术在无线传感器网络中的应用
鉴于多智能体技术具自主性、反应性、协作能力等特征,学者们尝试将多智能体技术融入到无线传感器网络中,提高传感器网络的节点的滤波效果以及整体的信息处理能力。但是将多智能体技术应用到仅拥有有限的计算和存储资源嵌入式传感器设备中并非易事,在部署无线传感器网络过程中,首要问题是如何降低智能体对物理资源的依赖。目前,克服该问题常见方法包括:设计基于事件触发的采样机制和优化智能体结构及其控制算法。
Dimarogonas等人[39]通过事件驱动策略减少控制器的更新频率及降低通信量,从而降低智能体对物理资源的依赖程度,Muldoon等人[61]使用基于Adopt和Max-Sum算法的多智能体分布式约束优化算法,降低了无线传感器网络自组织和协调过程中对感测设备的性能及功率上的要求。在材料整合结构健康和负荷监测系统中,Bosse等人[62]使用自组织移动多智能体系统和逆数值方法处理传感器收集的数据,考虑到传感器资源有限,在采样过程中采用事件触发方式采样而非周期采样,只有当特定传感器的值发生显著变化时才进行全局采样。另一方面,Chen等人[63]将事件触发机制和二进制一致性结合,并设定事件触发条件为传感器节点当前和最后一次广播的状态误差,降低了控制策略的能量损耗。Chelbi等人[64]无线传感器网络的信息路由协议研究中,提出动态事件聚类路由协议,通过将某一区域的传感器策略值进行聚类,确定事件发生的可信度,避免不必要的信息传递。
3.3 多智能体技术的其他应用
多智能体相关技术主要被应用于多智能体系统的协同控制和信息融合,故在设计复杂系统中,工程师常结合多智能体技术以解决实际中遇到的难题,提高系统各项性能。
在智能电网控制中,Cady等人[65]将有限时间一致性应用于孤岛交流微电网频率调节的分布式控制体系中。Chen等人[66]针对分布式电力系统出现的时滞问题,提出基于带时滞一致性的能源优化调度算法。Zhou等人[67]结合事件触发机制协调各节点间的有功功率,使得微电网间的关联连接器数量大大减少。此外,多智能体技术还被应用在航空航天控制[68]、工业生产[69]、故障诊断[70]、交通控制[71]、网络负载均衡[72]等各个方面。
4 发展与展望
目前,多智能体在各领域应用所面临的主要问题包括:(1)多智能体技术与现有系统的兼容性问题;(2)多智能体分布式控制算法复杂,对设备的通信、计算等资源要求过高;(3)多智能体系统对复杂环境的抗干扰能力稍显不足。
为进一步提高多智能体的推理决策和协作控制能力,将该技术更广泛的应用于工程领域,今后的多智能体技术应用研究方向重点集中在以下几个方面:
(1)带不匹配扰动的有限时间一致性理论研究。目前有限时间一致性上的研究重点集中在匹配扰动下的一阶或二阶有限时间一致性问题上,但是在无人机控制、军事协同作战和微电网控制等诸多领域上,系统工作中通常遇到不匹配扰动,极大地影响系统的收敛速度和稳定性,因此不匹配扰动下的有限时间一致性是这方面的未来的重点研究方向。
(2)多时滞一致性理论研究。在某些领域中,系统资源是相当有限的,比如交通信号控制、无线传感器网络控制,通常存在物理资源紧缺、设备异构等情况,导致系统出现诸如网络通信不良、信息处理能力不对称等问题,由此,难免会出现多种不同类型和不同大小的时滞,各智能体所受到的影响也各不相同。研究如何更好地处理多时滞以及不对称时滞等问题将会是非常有意义的工作。
(3)多智能体技术兼容性的应用研究。多智能体技术实际应用中,为了降低系统部署成本,需要考虑该技术与当前设备、装置的兼容性问题。比如在生产制造领域中,企业通常希望能在不更换现有设备、装置及生产线的条件下,提高企业的软硬件生产系统工作的灵活性、通用性及可扩展性。提高多智能体技术的兼容性是未来该技术在实际应用中进一步推广的关键环节。
(4)面向融合技术的应用研究。在多智能体技术在应用的过程中,往往可以融合其他技术提高系统各项性能。如故障诊断中使用多分类器提高故障识别率,在生产制造过程中借助大数据处理技术为智能体决策寻求最优解等。因此,多智能体技术和其他技术相融合是未来研究值得关注的一个方向。
5 结束语
多智能体技术是一直都是分布式人工智能领域中最重要的研究方向之一。在经历过去20年的多智能体技术高速发展时期后,如何结合实际的应用背景构建更加灵活、更具有适应性的多智能体模型、如何降低多层次复杂系统的协作和沟通代价成为了现阶段面临的迫切任务。相信多智能体技术经过不断地研究和完善,将会在智能控制、智能家居、智能故障诊断等诸多前沿领域发挥着至关重要的推动作用,进一步推动人工智能体的发展,为复杂系统的优仿真和控制提供更高效的方法。
参考文献:
[1]刘金琨,尔联洁.多智能体技术应用综述[J].控制与决策,2001,16(2):133-140.
[2]谢光强,章云.多智能体系统协调控制一致性问题研究综述[J].计算机应用研究,2011,28(6):2035-2039.
[3]He Yongjing,Wang Wei,Wu Xuezhi,et al.An overview of applications of MAS in smart distribution network with DG[C]//IEEE 2nd International Future Energy Electronics Conference,Taipei,China,2015:1-5.
[4]石纯一,王克宏,王学军,等.分布式人工智能进展[J].模式识别与人工智能,1995(s1):76-96.
[5]曹劼.基于事件驱动的网络化多智能体系统的一致性问题研究[D].江苏无锡:江南大学,2016.
[6]Olfati-Saber R,Murray R M.Consensus problems in networks of agents with switching topology and timedelays[J].IEEE Transactions on Automatic Control,2004,49(9):1520-1533.
[7]Lin P,Jia Y.Consensus of a class of second-order multiagent systems with time-delay and jointly-connected topologies[J].IEEE Transactions on Automatic Control,2010,55(3):778-784.
[8]Zhang Y,Tian Y P.Consensus of data-sampled multi-agent systems with random communication delay and packet loss[J].IEEE Transactions on Automatic Control,2010,55(4):939-943.
[9]Xi J,Shi Z,Zhong Y.Consensus and consensualization of high-order swarm systems with time delays and external disturbances[J].Journal of Dynamic Systems Measurement&Control,2012,134(4):041011.
[10]Zhou B,Lin Z.Consensus of high-order multi-agent systems with large input and communication delays[M].[S.l.]:Pergamon Press Inc,2014.
[11]王振华,徐娟娟,张焕水.受未知通信时滞影响的高阶多智能体系统的趋同[J].控制理论与应用,2015,32(3):295-303.
[12]Chen C L P,Wen G X,Liu Y J,et al.Adaptive consensus control for a class of nonlinear multiagent time-delay systems using neural networks[J].IEEE Transactions on Neural Networks&Learning Systems,2014,25(6):1217-1226.
[13]Wang D,Ma H,Liu D.Distributed control algorithm for bipartite consensus of the nonlinear time-delayed multiagent systems with neural networks[M].[S.l.]:Elsevier Science Publishers B V,2016.
[14]明平松,刘建昌.随机多智能体系统一致稳定性分析[J].控制与决策,2016(3):385-393.
[15]Cortés J.Finite-time convergent gradient flows with applications to network consensus[J].Automatica,2006,42(11):1993-2000.
[16]Wang L,Feng X.Finite-time consensus problems for networks of dynamic agents[J].IEEE Transactions on Automatic Control,2010,55(4):950-955.
[17]Wang X,Hong Y.Finite-time consensus for multi-agent networks with second-order agent dynamics[J].IFAC Proceedings Volumes,2008,41(2):15185-15190.
[18]Cao Y,Ren W,Meng Z.Decentralized finite-time sliding mode estimators with applications to formation tracking[J].Systems&Control Letters,2010,59(9):522-529.
[19]Li S,Du H,Lin X.Finite-time consensus algorithm for multi-agent systems with double-integrator dynamics[J].Journal of Tianjin University of Technology,2013,47(8):1706-1712.
[20]Sun F,Zhu W.Finite-time consensus for heterogeneous multi-agent systems with mixed-order agents[J].International Journal of Systems Science,2015,46(11):1961-1970.
[21]Du H,Wen G,Chen G,et al.A distributed finite-time consensus algorithm for higher-order leaderless and leaderfollowing multiagent systems[J].IEEE Transactions on Systems Man&Cybernetics Systems,2017,47(7):1625-1634.
[22]Zhou Y,Yu X,Sun C,et al.Higher order finite-time consensus protocol for heterogeneous multi-agent systems[J].International Journal of Control,2015,88(2):285-294.
[23]Zuo Zongyu,Tie Lin.Distributed robust finite-time nonlinear consensus protocols for multi-agent systems[J].International Journal of Systems Science,2016,47(6):1366-1375.
[24]Defoort M,Polyakov A,Demesure G,et al.Leader-follower fixed-time consensus for multi-agent systems with unknown non-linear inherent dynamics[J].Control Theory&Applications Iet,2015,9(14):2165-2170.
[25]蒋国平,周映江.基于收敛速率的多智能体系统一致性研究综述[J].南京邮电大学学报:自然科学版,2017,37(3):15-25.
[26]朱美玲,赵蕊,徐勇.异构多智能体系统有限时间一致性分析[J].计算机工程与应用,2016,52(18):46-50.
[27]Zhao Y,Duan Z,Wen G,et al.Distributed finite-time tracking control for multi-agent systems:An observerbased approach[J].Systems&Control Letters,2013,62(1):22-28.
[28]Hong Yiguang,Hu Jiangping,Gao Linxin.Tracking control for multi-agent consensus with an active leader and variable topology[J].Automatica,2007,42(7):1177-1182.
[29]Hong Y,Chen G,Bushnell L.Distributed observers design for leader-following control of multi-agent networks[J].Automatica,2008,44(3):846-850.
[30]Peng K,Yang Y.Leader-following consensus problem with a varying-velocity leader and time-varying delays[J].Physica A Statistical Mechanics&Its Applications,2009,388(2):193-208.
[31]Zhu Wei,Cheng Daizhan.Leader-following consensus of second-order agents with multiple time-varying delays[J].Automatica,2010,46(12):1994-1999.
[32]Ni W,Cheng D.Leader-following consensus of multiagent systems under fixed and switching topologies[J].Systems&Control Letters,2010,59(3/4):209-217.
[33]Wen G,Hu G,Yu W,et al.Consensus tracking for higherorder multi-agent systems with switching directed topologies and occasionally missing control inputs[J].Systems&Control Letters,2013,62(12):1151-1158.
[34]Sun C,Hu G,Xie L.Robust consensus tracking for a class of high-order multi-agent systems[J].International Journal of Robust&Nonlinear Control,2016,26(3):578-598.
[35]Qin J,Yu C,Gao H.Coordination for linear multiagent systems with dynamic interaction topology in the leaderfollowing framework[J].IEEE Transactions on Industrial Electronics,2014,61(5):2412-2422.
[36] Åström K J,Bo B.Comparison of periodic and event based sampling for first order stochastic systems[J].Proceedings of Ifac World Congress,1999.
[37] Årzén K E.A simple event-based PID controller[J].Proceedings of Ifac World Congress,1999.
[38]Tabuada P.Event-triggered real-time scheduling of stabilizing control tasks[J].IEEE Transactions on Automatic Control,2007,52(9):1680-1685.
[39]Dimarogonas V D,Frazzoli E,Johansson K H.Distributed event-triggered control for multi-agent systems[J].IEEE Transactions on Automatic Control,2012,57(5):1291-1297.
[40]Guo G,Ding L,Han Q L.A distributed event-triggered transmission strategy for sampled-data consensus of multiagent systems[J].Automatica,2014,50(5):1489-1496.
[41]Hu W,Liu L.Cooperative output regulation of heterogeneous linear multi-agent systems by event-triggered control[J].IEEE Transactions on Cybernetics,2016,47(1):105-116.
[42]Rousset A,Herrmann B,Lang C,et al.A survey on parallel and distributed multi-agent systems for high performance computing simulations[J].Computer Science Review,2016,22:27-46.
[43]Ayari N,Chibani A,Amirat Y,et al.A semantic approach for enhancing assistive services in ubiquitous robotics[J].Robotics and Autonomous Systems,2016,75(SI):17-27.
[44]Gemignani G,Capobianco R,Bastianelli E,et al.Living with robots interactive environmental knowledge acquisition[J].Robotics and Autonomous Systems,2016,78:1-16.
[45]Ren W,Sorensen N.Distributed coordination architecture for multi-robot formation control[M].[S.l.]:North-Holland Publishing Co,2008.
[46]Ren W.Consensus tracking under directed interaction topologies:Algorithms and experiments[C]//American Control Conference,2008:742-747.
[47]Chen X,Jia Y.Adaptive leader-follower formation control of non-holonomic mobile robots using active vision[J].Control Theory&Applications Iet,2015,9(8):1302-1311.
[48]徐志强,陈雪波.包含原理的群体机器人队形一致协调控制[J].智能系统学报,2015(2):301-306.
[49]Kuriki Y,Namerikawa T.Consensus-based cooperative formation control with collision avoidance for a multi-UAV system[C]//American Control Conference,2014:2077-2082.
[50]张瑞雷,李胜,陈庆伟.车式移动机器人动态编队控制方法[J].机器人,2013,35(6):651-656.
[51]Khoo S,Xie L,Man Z.Robust finite-time consensus tracking algorithm for multirobot systems[J].IEEE/ASME Transactions on Mechatronics,2009,14(2):219-228.
[52]Ou M,Du H,Li S.Finite-time tracking control of multiple nonholonomic mobile robots[J].Journal of the Franklin Institute,2012,349(9):2834-2860.
[53]Ou M,Li S,Wang C.Finite-time tracking control for multiple non-holonomic mobile robots based on visual servoing[J].Asian Journal of Control,2014,16(3):2175-2188.
[54]Zhang Y,Liu G,Luo B.Finite-time cascaded tracking control approach for mobile robots[J].Information Sciences,2014,284:31-43.
[55]Cheng Y,Jia R,Du H,et al.Robust finite-time consensus formation control for multiple nonholonomic wheeled mobile robots via output feedback[J].International Journal of Robust&Nonlinear Control,2017(9).
[56]Nair R R,Behera L,Kumar S.Event-triggered finite-time integral sliding mode controller for consensus-based formation of multirobot systems with disturbances[J].IEEE Transactions on Control Systems Technology,2017,PP(99):1-9.
[57]Ding Y,Wei C,Bao S.Decentralized formation control for multiple UAVs based on leader-following consensus with time-varying delays[C]//Chinese Automation Congress,2014:426-431.
[58]李少斌,陈炎财,杨忠,等.具有通信延迟的多无人机编队飞行控制[J].信息与控制,2012,41(2):142-146.
[59]郭伟强.基于一致性理论的无人机编队控制器设计[D].哈尔滨:哈尔滨工业大学,2013.
[60]魏瑞轩,茹常剑,祁晓明.通信延迟条件下无人机编队重构的自主安全控制[J].控制理论与应用,2013,30(9):1099-1108.
[61]Muldoon C,O’hare G,O’grady M,et al.Distributed constraint optimisation for resource limited sensor networks[J].Science of Computer Programming,2013,78(5):583-593.
[62]Bosse S,Lechleiter A.A hybrid approach for structural monitoring with self-organizing multi-agent systems and inverse numerical methods in material-embedded sensor networks[J].Mechatronics,2016,34:12-37.
[63]Chen Z,Huang Y,Li D,et al.Event-triggered binary consensus in WSNs with fading channels[C]//Control Conference,2016:8360-8365.
[64]Chelbi S,Duvallet C,Abdouli M,et al.Event-driven wireless sensor networks based on consensus[C]//2016 IEEE/ACS 13th International Conference of Computer Systems and Applications,2016.
[65]Cady S T,Dominguez-garcia A D,Hadjicostis C N.Finite-time approximate consensus and its application to distributed frequency regulation in islanded AC microgrids[C]//Hawaii International Conference on System Sciences,2015:2664-2670.
[66]Chen G,Zhao Z.Delay effects on consensus-based distributed economic dispatch algorithm in microgrid[J].IEEE Transactions on Power Systems,2018,33(1):602-612.
[67]Zhou J,Zhang H,Sun Q,et al.Event-based distributed active power sharing control for interconnected AC and DC microgrids[J].IEEE Transactions on Smart Grid,2017(99).
[68]He X,Wang Q,Yu W.Finite-time distributed cooperative attitude tracking control for multiple rigid spacecraft[J].Applied Mathematics&Computation,2015,256:724-734.
[69]Leitão P,Karnouskos S,Ribeiro L,et al.Smart agents in industrial cyber-physical systems[J].Proceedings of the IEEE,2016,104(5):1086-1101.
[70]Tian F,Yan Z,Bing X U,et al.Fault diagnosis based on multi agent system for active distribution system[J].Electric Power Automation Equipment,2016(6).
[71]Khamis M,Gomaa W.Adaptive multi-objective reinforcement learning with hybrid exploration for traffic signal control based on cooperative multi-agent framework[J].Engineering Applications of Artificial Intelligence,2014,29:134-151.
[72]Amelina N,Fradkov A,Jiang Y,et al.Approximate consensus in stochastic networks with application to load balancing[J].IEEE Transactionson Information Theory,2015,61(4):1739-1752.