水下自主潜航器集群协同围捕技术
2024-01-26王景璟王永越侯向往
王景璟 魏 维 王永越 侯向往 任 勇
AUV 是应用最广泛的一种水下机器人,其具备机动能力强、活动范围广、制造成本低等特点.AUV能够以舰船、潜艇等平台作为基地,实现数十甚至数百公里范围的水下情报收集、巡逻搜索、目标打击等军事任务,因此被誉为现代海军的“力量倍增器”[1].
由于单个AUV 作业能力有限,无法完成复杂的任务,与此同时,基于单AUV 的作业模式,鲁棒性往往较差.因此,近些年研究人员开始探索利用多个AUV 组成的AUV 集群协作执行任务,通过集群协同导航,进行路径规划,可以协同、高效地完成多项军事和民用领域中的水下任务.大量研究表明,相比于单AUV 的作业模式,AUV 集群协作[2]具有鲁棒性高、能力强、效率高等显著优势.因此,AUV 集群协作基础理论与关键技术研究成为了国际研究的热点问题.2009 年,欧盟发起了AUV 集群协同认知控制项目CO3AUVs,2016 年,美国提出了《到2025 年美国海军水下无人潜航器的发展需求》,经过十余年的发展,催生了大量优秀的成果.在AUV 集群协作的众多应用中,协同围捕任务无疑是最复杂、最能代表AUV集群协作水平的任务,其涉及AUV 集群感知、通信、编队、跟踪、抓捕等多项关键技术,被誉为是AUV集群技术“皇冠上的明珠”.
因此,本文旨在对AUV 集群协同围捕技术进行深入的剖析,以梳理总结国内外AUV 集群协同围捕技术的研究成果,并且指出AUV 集群协同围捕技术未来发展的方向.国内外科研人员针对多智能体协同围捕技术,在陆地机器人、无人机等领域的理论与应用进行了研究与综述.BAGHAEI 等针对机器人的资源、时间、能量,综述了多机器人系统的任务分配和通信方法[5].文献[6-12]基于群体的围捕问题,研究了多智能体的对抗与协作机制.DONG 等研究了决策和围捕策略[13],将围捕方法划分成3 类: 基于数学的方法、基于知识编码的方案、基于学习驱动的算法.张伟等研究了AUV 集群系统的发展现状和关键技术[14],李强等调研了体系层指挥控制和智能对抗的研究进展[15].
现有综述侧重于研究理想环境下围捕双方之间的对抗策略,很少考虑执行围捕任务的真实环境,更未有针对AUV 水下环境围捕任务的研究.此外,复杂的水下环境对AUV 集群感知、通信以及运动行为有着非常严重的影响.AUV 集群协同围捕技术必须将复杂恶劣的水下环境考虑进来.为了弥补现有文献的缺失,本文以水下AUV 集群协同围捕任务为研究对象,充分考虑水下环境对集群的影响,进行以下几个方面的研究和总结: 1)归纳总结了5 种典型的围捕场景.2)提出了一个全面的AUV 集群协同围捕任务的系统框架.3)指出了AUV 集群协同围捕技术的未来研究方向.
1 目标围捕任务的分类
1.1 目标围捕的基本定义
目标围捕问题是一种在分布式系统中多智能体合作和协调的问题,涉及到混合系统理论、计算机视觉、最优控制理论、通信理论和多智能体协调学科等知识.目标围捕问题本质上是围捕机器人通过搜索发现目标,以尽可能少的代价(移动距离或者能耗)对静态或者动态的目标实现小于某个距离的包围的过程.图1 描述了AUV 围捕任务的阶段划分: 1)AUV 集群系统在随机游走过程中检测到目标.2)集群AUV 内部通过决策算法选出群体中执行围捕任务的个体AUV.3)围捕者AUV 重新编队,前往目标,对动态行进的目标进行围捕.4)当AUV 距离目标小于围捕阈值距离并形成围势,目标围捕成功.
1.2 目标围捕场景分类
由于存在不同的围捕的目标状态和围捕环境,可将目标围捕任务场景划分为5 种不同的类型,具体来说:
1)根据目标的状态可以分为静态目标围捕场景和动态目标围捕场景.目标处于静态的情况下,围捕者在得知目标的位置和状态信息后,通过一定的任务分配和围捕方法对目标进行围捕,围捕过程中不用考虑目标位置和状态的改变.目标处于动态的情况下,目标大多为非合作状态,围捕者的围捕行为与目标的逃跑行为是一种动态博弈的关系,且每次实验由于目标行为的不确定性,目标的围捕轨迹、协同围捕的难度、围捕所需时间也动态改变.
2)根据围捕对象的数量,可以将围捕任务分为单目标围捕场景和多目标围捕场景.单目标围捕任务中围捕者团队只对单个目标执行围捕任务,由于围捕对象数量少,行为简单,逃逸能力有限,已有的求解方法较为成熟.多目标围捕任务需要考虑围捕对象能够通过局部交互通信获得超过单一个体的环境感知能力来对抗围捕者的围捕,即围捕对象通过相互合作可获得更强的逃逸能力.由于多目标围捕问题的复杂性,如何控制多机器人协同实现多目标围捕,是一个极具挑战的课题.
3)根据围捕环境是否已知,可以把围捕任务所处的环境划分为已知环境围捕和未知环境围捕.在已知环境中,地图已知,这类围捕任务侧重研究围捕者和目标的对抗策略,且预先定义的地图一般较为简单,常用的地图模型有栅格模型[16]和有限图模型[17].在未知环境中,围捕者在初始状态时对障碍物、目标等环境信息完全未知,往往采取一定的感知和识别技术,如装备主动声呐、水下照相机等,对探测范围内的水下环境进行识别,实时创建较为复杂的环境地图[18].
4)根据围捕环境模型的连续性,可以将围捕任务划分为连续环境围捕和离散环境围捕.离散环境围捕采取栅格模型或有限图模型等离散化的环境模型模拟AUV 执行任务的环境,由于离散环境下只考虑了AUV 和目标在有限个方向和位置上的运动状况,不能反映实际水下环境中AUV 真实的运动状况.在连续环境中结合AUV 状态、围捕者和目标连续的运动轨迹对围捕任务进行建模与仿真,更具有实际意义.
5)根据围捕环境模型的维数,可以将水下围捕任务的环境分为二维环境围捕和三维环境围捕两类.二维环境中的围捕任务是在模拟水下环境时不考虑AUV 和目标的上浮或下潜,只考虑AUV 和目标在水下同一深度的对抗.三维环境中围捕者和围捕对象可以在三维的海洋环境中,通过上浮或下潜等操作进行围捕和逃跑,对比二维环境中的围捕任务,三维环境中围捕者和目标增加了一个维度的运动方向,对围捕任务的建模更接近于真实的水下环境,也更具挑战性.
1.3 目标围捕阶段划分
AUV 水下围捕系统是一个复杂的任务系统,任务从开始到结束要经历多个决策过程,建模过程涉及到对围捕环境、AUV 运动状态、目标行为等建模,所以把对围捕任务的研究进行拆分是有必要的.针对AUV 集群协同围捕任务的系统框架,本文通过3个阶段进行研究:
1)第1 阶段是建模阶段.水下目标围捕任务建模部分可以分为环境建模、AUV 和围捕目标的运动建模以及AUV 编队3 个部分.水下环境建模需要考虑实际环境的连续性和仿真栅格的离散性,成熟的方法包括栅格法和Voronoi 法;AUV 作为主要的目标围捕任务执行者,需要建立满足实际任务需求的运动模型,例如六自由度模型和三自由度模型;而AUV 编队方式主要讨论了多AUV 协同围捕过程的队形选取.
2)第2 阶段是执行围捕任务阶段,可分为围捕任务分配、协同围捕方式选取以及目标行为分析3个部分.任务分配部分和协同围捕部分的解决方法都可分为非仿生和仿生算法.而目标行为分析主要研究了围捕目标的位置预测、逃逸策略以及防御策略.
3)第3 个阶段是评价阶段.为了评估水下目标围捕任务的完成情况,需要设计合理的AUV 围捕任务评价标准,来准确估计围捕任务系统性能.总结AUV 集群围捕任务系统框架如图2 所示,并在第3章进行详细的讨论.
图2 AUV 集群围捕任务系统框架Fig.2 The framework of AUV swarm hunting task system
2 水下AUV 协作围捕关键技术
2.1 水下环境建模
水声通信网络是以声波为信息传输载体,通过互连多个水下平台,协同完成信息采集、传输和共享的统一体系.水声通信网络能够在较大范围海域内分布式地获取水下设备的各类信息,提高了水下信息采集和处理能力.由于水声通信网络能够提供持续、网络化的信息传输服务,其应用前景十分广泛.此外,水声通信网络有以下3 个特点: 1)水声信号传播速度较低(约为1 500 m/s),在水声通信网络协议设计中需考虑传播时延,以保障网络吞吐量和端到端时延性能;2)受多径效应、多普勒效应影响,水声通信信道数据传输误码率高,常规的水声通信链路极易中断,需要更可靠的传输机制支持才能保证多跳网络中数据的成功交付;3)水声通信网络节点电池容量有限,需要采用高效的资源分配方案.
AUV 为了提供更好的水下信息传输与共享服务,需要采用合理的水声通信网络组网协议,匹配水声信道和水下环境的特点,以支持水声通信网络高效稳定地运行.本节从水声信道建模、未知环境建模、考虑海洋特性的环境建模和水下声通信建模4 个方面,来综述水下AUV 协作围捕环境建模技术.
2.1.1 水声信道建模
由于海水介质的不均匀性,声波在传播过程中由于散射、吸收等原因,会产生一定程度的衰减.水声的传播损失是研究水下通信的基础,常用的水下声信号的衰减模型为:.其中,l 为距离,f 为传输信道的中心频率,A0为一常数,k 为衰减因子,a(f)为吸收因子,对于高频信号,吸收系数如式(1)所示:
对于低频信号,吸收系数如式(2)所示:
水声信号在水下的传播速度约为1 500 m/s,受海洋环境影响,水下声音的实际传播速度与密度、温度、盐度、压力均有关,水声信号在水下的传播速度常用经验公式如式(3)所示:
其中,T 是温度;S 是盐度;P 是压强.由于水下声音通信速率较低,不能实时传输通信数据,数据接收延迟较为严重,在一定程度上影响了AUV 集群团队在水下定位的精准性和AUV 内部个体之间相对定位的精准性,同时AUV 之间的通信数据也存在滞后性,这也是水下AUV 集群团队协作完成围捕任务的难点之一.
受水下环境的影响,水声信号在水下传播时存在多径效应,如声信号在水面或水底会发生反射,在遇到由于温度、密度、盐度等影响下产生的海水分界面时,会产生反射或折射现象.声信号通过不同的直射、反射和折射路径,以不同的时间到达接收端,会发生多径效应.在AUV 集群系统通信中,多径效应会使水声信号产生复杂的衰变和时延,影响整个通信系统的可靠性.
2.1.2 未知环境建模
传统方法采用贝叶斯估计结合卡尔曼滤波将未知的围捕场景转换成已知的围捕场景,缺点是计算较为复杂.SEBASTIAN 等提出了一种采取极大似然估计的优化方法[19],在有噪声观测数据时,可以获得效果更好的环境地图.RENE 等考虑到围捕过程中先验地图的不准确性,将对目标的追捕和对地图的探索合并为一个问题,研究追捕者如何在追捕的同时进行环境建模[20].此外,Voronoi 图[21-24]也可以表达AUV的工作环境,它的优点是可以融合障碍物信息以及AUV 的位姿信息.
2.1.3 考虑海洋特性的环境建模
在对AUV 执行水下围捕任务的环境建模时,还应考虑海洋环境的特性,如温度、盐度、海流等影响水声通信的海洋环境因素.LIANG 等考虑了温度和盐度对AUV 协同系统的影响[25],LOLLA 等集成海洋建模、时间最优水平集和优化方案来预测海流[26].
2.1.4 水下声通信建模
由于水下带宽的限制和较低的传输速率,水声通信时延明显大于检测时间的延迟,在水下AUV 的围捕任务建模中,对水声通信中的延迟建模是很有必要的.XIAO 等建立了误差传播方程,针对水声通信时延问题进行研究,将时间滞后转换为AUV 观测方程中的测量偏置[27].LIANG 等提出一种精确水下定位方法解决水下声速变化的问题[28].REED 等通过实验讨论声学在浅水环境中维持高动态、多智能体任务的能力,比较了3 种不同通信配置的跟踪性能[29].
2.2 AUV 运动模型
常用的AUV 运动模型有质点模型和六自由度模型.质点模型忽略了不同方向上AUV 的流体力学特点,而无法反映真实AUV 运动受到水下时空复杂性影响.六自由度模型指AUV 可以相对于坐标系,进行3 个平移和3 个旋转运动,即有6 个自由度[30]: X方向的前冲、Y 方向的横移、Z 方向的升降、K 方向的横摇、M 方向的纵倾、N 方向的偏航.相比质点模型,六自由度模型可以更好地描述AUV 在水下的运动状态,更接近真实的水下情况.在实际应用中,为了降低六自由度模型带来的运动建模的计算复杂度,可以根据AUV 实际的工作环境和运动状态设置自由度的个数.如刘琨采用了三自由度模型,忽略了AUV的升降、横摇与纵摇方向上的运动[31].CAI 等采用了四自由度模型执行围捕任务,假设AUV 不能侧移和侧滚,忽略了横摇和横移方向上的运动[32].
2.3 AUV 编队模型
集中式/全局领导式编队结构如图3(a)所示,有一个领导者AUV,其他AUV 通过向领导者AUV 传递数据进行通信,再由领导者AUV 进行一定的决策过程统一分配任务,这对领导者AUV 的带宽和数据处理能力有一定的要求.优点是统一分配任务,不存在冲突的状况,缺点是抗干扰能力较差,一个AUV出故障可能影响到整个系统,且随着AUV 数量的增加,统一管理效率降低.局部领导者结构如图3(b)所示,多AUV 被分成若干组,每一组中选取一个领导者AUV,负责管理该分组内的数据通信和任务分配,相对于全局领导式,增强了单点的鲁棒性,容错率较高.分布式结构如图3(c)所示,个体AUV 之间地位平等,每个AUV 都对环境进行感知,并进行相应的决策.此外,许真珍等提出了一种基于多智能体系统的分层式编队体系[33].吴迪等将编队系统分为5 层: 感知层、协作规划层、协调控制层、行为控制层和通信层[24].AUV 采用分布式编队结构优点是提高了单点的鲁棒性,缺点是由于水下环境中AUV 之间存在通信延迟、多普勒频移等问题,多个AUV 之间的通信存在滞后性.
图3 常用的AUV 编队结构示意图Fig.3 The schematic diagram of commonly used AUV formation structure
2.4 围捕任务分配方法
2.4.1 非仿生算法
拍卖算法是AUV 围捕任务决策的主流方法,发现目标的AUV 自动成为拍卖者,其他AUV 作为竞标者.由拍卖者AUV 组建拍卖市场,其他的AUV 进行竞标[34-37,56].基于协商机制的决策方法AUV 个体之间通过协商机制,进行平等的任务分配,可以达到系统资源的合理分配.使用协商分配方法每个AUV 与其预期围捕点之间的距离是相近的.每艘AUV 都可以同时接近目标,提高了搜索效率[24,38,39].
基于能量的方法是一种循环调度的方法,使用能量平衡方法来循环调度多层AUV,可以实现系统运行过程的动态任务分配,提高系统的围捕效率[40-42].为了提高AUV 执行围捕任务的效率,也可以将决策任务的目标设定为得到最小的围捕时间——基于围捕时间的决策方法[43-44].该方法适用于动态目标围捕,在围捕过程中,当目标试图逃跑,AUV 对目标的预测围捕时间也会发生变化,围捕队伍会随之改变.
强化学习方法则适用于未知的、动态的、非结构化的任务系统中,可以通过奖赏值得到最优的分配策略.该方法不需要预先设计分配规则,但在大多数情况下,随着智能体数量和任务数量的增加,任务分配系统性能随之下降,这主要是因为智能体行为的选择是策略层面的,较难获取大量的训练样本,同时奖励设置的不合理也会导致算法表现不佳[36,45-46].此外,非仿生算法还有树搜索算法、引入了声誉机制的任务分配方法、基于领导者—追随者的联盟形成方法、基于模糊协同智能的分配优化算法和引入李雅普诺夫函数对候选目标赋值进行局部决策的任务分配方法[47-51].
2.4.2 仿生算法
遗传算法(genetic algorithm,GA)是一种模拟生物遗传和进化的仿生算法.它使用遗传算子搜索解的子空间,使用适应值来评价性能,因为它对复杂问题优越的求解能力,遗传算法在任务分配上具有出色的表现[52-55].粒子群优化算法(particle swarm optimization,PSO)是一种模拟鸟群的群体智能算法,在粒子的位置和速度上迭代改进候选粒子,从而完成任务分配,群体机器人通过周期性地运行算法控制底层的行动和决策,改进的粒子群算法可以实现多任务动态分配[56-60].蚁群优化算法(ant colony optimization,ACO)是模仿蚂蚁觅食行为的仿生算法,蚂蚁通过选择任务、分配机器人执行任务等行为选出任务分配的最优解,使用蚁群算法可以在高层寻找松耦合任务的最优分配,在低层完成紧耦合的任务[61-65].
仿生算法中的人工免疫算法、模拟退火算法、细菌优化算法、萤火虫优化算法、量子遗传算法、人工蜂群优化算法、果蝇优化算法和自组织映射神经网络也在目标围捕任务分配中得到了应用[45,66-72].
2.5 协同围捕方法
2.5.1 非仿生算法
现代博弈论起源于1944 年冯.诺依曼[73]的一本著作,结合博弈论可以解决完全信息博弈和不完全信息博弈两种情况下的AUV 围捕问题[24,74-78].强化学习可以让智能体在环境中,根据当前状态作出决策,获得最大收益,将强化学习用于多智能体的围捕,围捕任务系统也表现出了较好的性能[32,39,41,79-83].同时,在围捕模型的基础上结合运动轨迹预测方法设计基于预测的围捕模型,预测目标可能到达的位置,也可以实现对目标的围捕[31,42,84,85].此外,基于极限环的围捕方法[86]、创建一个可收缩的笼子[87]也被用于AUV围捕目标领域.
2.5.2 仿生算法
采用狼群算法的AUV 围捕将围捕过程分为3 个阶段: 随机游走、受到召唤围捕目标、围攻目标3个阶段[88-92],对于求解分布式集群协同问题具有重要意义.狮群算法研究了狮群成员间的协同捕猎关系,以及狮群与目标猎物的动态博弈关系,将围捕过程分为3 个阶段: 正面抵近阶段,协同包围阶段,协同收缩阶段,将围捕AUV 分为3 种角色: 伏击者,拦截者,佯攻者,进行对目标的围捕[35].鲸鱼优化算法(whale optimization algorithm,WOA)模拟了座头鲸的社会行为,WOA 是一种螺旋式的捕猎机制.但WOA算法的开发趋势是有限的.改进的WOA 方法将关联学习方法与局部爬山算法相结合,提高了开发过程[93-95].粒子群优化算法则适用于动态环境下的围捕,通过个体的局部相互作用来实现目标定位,当检测到目标时,就会出现集体围捕行为[96].
文献[38,97-102]在不同的水下环境中应用并测试了一种基于仿生神经网络的AUV 协同围捕算法.AUV 的三维工作环境以生物启发神经网络模型表示,利用神经元的活性值来指导每艘AUV 的导航和避障,最终将目标包围.CHEN 等提出了一种离散的生物启发神经网(glasius bio-inspired neural networks,GBNN)和置信函数相结合的算法[44].陈铭治等在GBNN 神经网络中,使用反比例函数代替指数函数计算神经元连接权值,提出加快两点神经元活性传播的改进措施,使其适用于实时动态围捕[43].CAO 等将SOM 神经网络与GBNN 相结合,处理了在有障碍物的水下环境中多目标围捕的情况[72].AGRAWAL 针对神经网络中重复寻优的问题,提出一种自适应仿生神经网络(adaptive bio-inspired neural network,ABNN),该网络具有对目标进行自适应寻优的能力[103].
在围捕过程的研究中,也可以利用人工免疫算法构建免疫网络模型,对抗原、抗体进行了数学化描述,通过对围捕过程的分析,构造出了抗原与抗体的亲和度,抗体之间的刺激系数与抑制系数等公式,通过求解抗体浓度来完成围捕任务[66,104].此外,遗传算法、栗翅鹰算法、黑猩猩优化算法和旗鱼优化算法等仿生算法也在AUV 围捕任务中得到了应用[76,105-107].
2.6 目标行为分析
针对围捕目标位置的预测,本质是以目标过去的行为状态为基础,利用统计学等方式找出规律,得到目标行为的预测模型.使用多项式拟合、马尔可夫模型、基于几何规则的跟踪导航数学模型、卡尔曼滤波器、分布式目标轨迹观测器等可实现对目标位置的预测[31,39,42,108-110].针对目标逃逸的建模,可以对目标的逃逸速度、逃逸方向等进行建模,丰富真实情况下目标的逃逸状态[43-44,111].文献[74,112]则研究了目标在抵抗围捕表现出的杀死、格斗、战斗力、支援、攻击、避让等拒捕行为.
2.7 衡量标准
在衡量AUV 围捕任务系统的性能时,常采用平均围捕时间衡量系统执行围捕任务的效率,采用围捕系统寿命衡量系统耗能情况,采用围捕成功率衡量围捕算法的性能,采用AUV 所花费的追捕距离和目标的逃逸距离等标准评价围捕者和目标的对抗策略.
图4 总结了本节涉及到的围捕阶段划分及技术的实现方法,表1 对本章提到的围捕的具体场景进行了分析与总结.由表可知,已有的围捕场景在三维连续环境下的研究较少,以二维离散为主;已有的研究考虑海洋环境特性较少;已有研究对AUV 的运动大多处理为质点,缺少AUV 六自由度运动模型的应用;已有研究考虑的目标行为较为简单,目标的智能性较低.
图4 围捕阶段划分及技术实现Fig.4 The hunting phase division and technology implementation
3 AUV 水下围捕的技术难点
3.1 引入强化学习的围捕方法
引入强化学习的围捕决策方法可以更好地得到围捕决策的全局最优解,且在算法的性能上有了明显的提高.以鲸鱼优化算法为例,鲸鱼优化算法对目标的围捕以三维螺旋方式进行,是一种适合三维连续动态围捕环境的方法,HEIDARI 等引入强化学习的方法对鲸鱼优化算法进行了优化,减少了算法陷入局部最优解的可能[94].在AUV 围捕中采用强化学习和仿生算法相结合,可能会获得更优的围捕方案.
3.2 引入能量补充的围捕方法
AUV 在进行决策、围捕目标和目标对抗的过程中会有一定的能量消耗,因此,AUV 的电池续航能力也是在设计围捕系统时应该考虑的内容,一方面可以采用水下对接充电方式,另一方面可以采用一定的决策方案,使AUV 在一定条件下返回陆地充电站进行充电.
3.3 引入路径规划与避障的围捕方法
AUV 在追捕目标时,应考虑合理的路径规划方式,以便可以快速追上目标,应考虑在追捕过程中如何避障、如何不碰撞群体中其他AUV,同时在未形成围势前,应避免进入目标能感知的范围,以避免触碰目标的逃跑机制.
3.4 考虑复杂目标行为的围捕方法
在已有的研究中,目标在围捕过程中表现出的智能较低,后续可以引入一定强化学习的机制,使目标可以智能学习逃跑策略,了解围捕者的位置和意图,增强其行为的智能性,提高围捕难度.也可以引入另一个集群智能的目标群体,进行两个群体之间相互对抗的围捕任务研究.
4 结论
针对多AUV 水下围捕任务的国内外研究进展,本文介绍了集群智能的发展背景和对多AUV 水下围捕任务研究的迫切性,讨论了多AUV 水下围捕的技术难点,通过横向、纵向的对比与分析后,总结出了已有研究在多AUV 围捕任务中存在的几点问题: 1)多AUV 协作系统使用多种仿生算法和非仿生算法对目标进行围捕,但很多已有的研究只是将其他领域的算法进行了简单的迁移,没有考虑复杂的水下环境,对算法的认识不够深入和全面.2)在多AUV 协作方面没有考虑水下多AUV 的通信方式,没有考虑多AUV 的协同定位,这不利于多AUV 在真实的水下环境中对目标进行定位并实施围捕.3)已有文献对目标行为的考虑较为简单,目标行为的非智能化在一定程度上降低了对围捕任务研究的难度,与现实中的目标行为相差较远.随着以上难点的逐步攻克,多AUV 协作系统技术将会走向成熟,基于多AUV 围捕任务的研究也会有更真实的应用场景和更广阔的应用前景.