APP下载

多机器人智能化协同技术研究进展

2021-12-31张迎雪陈金宝陈传志

载人航天 2021年6期
关键词:机系统协同机器人

张迎雪, 陈 萌,2*, 陈金宝, 陈传志

(1.南京航空航天大学航天学院, 南京 211106; 2.上海宇航系统工程研究所, 上海 201109)

1 引言

机器人技术多机系统突破了单个机器人负载和数据处理等方面的瓶颈,可加快执行速度,提高效率,并具有更强的环境适应能力和容错能力。协作是多机系统特色,系统中多个机器人既相互制约又相互配合[1],实现了“1+1>2”的效果。 团队中的异构机器人通过优势互补,为系统提供更丰富的解决方案,不仅满足多变的环境和严苛的需求,还可以降低整体制造成本,目前已被应用于工业自动化、军事国防、救援抢险、深空探测等众多领域[2-3]。

多机协同的系统架构主要分为集中式、分布式和混合式共3 种,详细对比见表1。

表1 多机协同体系结构Table 1 Architecture of multi-robot cooperative system

多机协同是集合多种功能于一体的复杂系统。 其中,同步定位与地图构建(Simultaneous Localization And Mapping,SLAM)是多机系统完成全自主移动的前提条件和复杂探索的必要基础;路径规划、任务分配是异构多机器人实现智能化探测和作业的核心关键技术;多机系统与强化学习的结合是未来多机协同发展的必然路径。 本文从以上4 个方面对多机协同系统进行分析和总结,归纳关键技术,探讨该领域目前存在的主要问题,并展望多机器人智能化协同技术未来的发展趋势。

2 多机器人系统的发展概况

多机系统的研究可以追溯到20 世纪80 年代。 日本对于多机系统的研究起步最早。 1988年基于分布式体系架构的CEBOT (Cellular Robotic System)[4]通过重构,组成能够实现学习的复杂机器人系统。 1989 年研制的Actress[5]异构机器人具备自主操作能力,并利用通信协议实现多机协同。

1994 年,美国加州大学开发的大规模分布式SWARM 系统通过机器人之间的交流获得群体智能[6]。 1998 年美国的ALLIANCE 异构机器人团队[7],利用焦躁和默许2 种类型的动机以此调节机器人的工作状态。 同年,欧盟研制出MARTHA混合式系统结构[8],通过相互协调进行路线规划和轨迹生成。

进入21 世纪,各国纷纷投身于多机系统的研究,并不断加大对该领域的投入。 2004 年美国DARPA 中MARS-2020 计划[9]的研究目标之一,就是在动态及危险环境中,通过地面与空中多机器人的团队协作实现通信侦查作业。 2006年该机构的另一个项目SDR[10]开发了由大约80 个机器人组成的异构机器人团队,旨在大型室内环境中探索,绘制空间地图并检测有价值的目标物体,实现保护等特定任务。 2013 年欧盟的AVERT 项目[11]研发用于搜救和干预危险行动的多机器人团队,在协同过程中完成紧耦合任务。 2014 年美国 NASA 研制的名为Swarmie 小型机器人[12],模拟蚁群的工作方式,用于搜救和侦查,并有望用于深空探测中寻找水源,如图1 所示。

图1 NASA 研制的Swarmie 小型机器人[12]Fig.1 Swarmie robot developed by NASA[12]

2015 年俄罗斯开始打造机器人卫星部队[13],以“整体打包,太空释放”的方式将其部署到近地轨道完成太空装配及检修任务。 2018 年美国明尼苏达大学MARS 实验室通过在不同机器人建立的地图之间增加点和线特征的几何约束构成大规模3D 环境地图[14]。

中国最早开展多机系统研究的是上海交通大学和中科院沈阳自动化研究所,研制的DAMAS[15]利用Petri 网建立了分布式的集中装配系统。 蔡自兴等[16]系统地阐述了多机系统,并提出利用遗传算法提升地图构建的效率和精确度,引入离散PSO 解决多机协同分配,并针对异构多机器人不同感知能力的特点设计了协同定位算法,增强系统位置预测能力[17]。 王浩等[18]提出分层追逃算法来处理多机系统中出现的追捕,以及如何解决追逃过程中的约束条件、追捕联盟等问题。 魏明珠[19]通过一致步长迭代和更新,实现了月面多机器人分布式协同定位,提升了月面定位的效率和精度。 于晓强[20]提出基于扩展一致性的拍卖算法,利用多航天器之间的协同,完成在轨装配的任务分配问题。

为提升空间探索效率,国际空间站的机械臂也由单臂向多臂协同发展。 国际空间站灵巧机械手SPDM 与机器人航天员R2 采用双臂构型,协同实现空间站装配与维修[21]。 日本实验舱机械臂JEMRMS[22],在小臂工作时由主臂接收能源和数据,形成串联构型,协同完成复杂灵巧操作任务,如图2 所示。

图2 日本实验舱机械臂JEMRMS[22]Fig.2 Japanese robotic arm JEMRMS[22]

天宫二号机械臂系统在空间实验室任务中顺利完成人机协同、在轨维修等关键技术的验证[23],见图3。 中国空间站为核心舱和实验舱分别配备2 套机械臂,2 套机械臂可独立或协同执行任务,也可串联成组合臂,扩大空间作业范围[24],如图4 所示。

图3 天宫二号航天员与机械手的人机协同试验Fig.3 Man-Machine Collaboration Test between astronauts and manipulator in Tiangong-2

图4 中国空间站核心舱与实验舱机械臂级联Fig.4 The core module and experimental module manipulator cascade in the Chinese space station

多机协同理念已被应用于中国空间站的建造,辅助或替代航天员完成在轨组装及维修等任务,大幅提高了空间操作的安全性,对于未来开展大规模集群操作,深空探测复杂任务等均具有重要意义。

3 多机器人同步定位与地图构建

SLAM 即机器人对其所在环境构建空间模型,并在该环境中迅速定位。 2004 年美国NASA发射的机遇号和勇气号火星探测器以基于视觉的SLAM(Visual-based SLAM)为主,完成了高精度的定位。 2021 年毅力号火星车搭载机智号火星直升机成功降落在火星表面,火星直升机将实时创建的地图发送给火星车,实现天地协同SLAM,如图5 所示。

图5 机智号火星直升机和毅力号火星车Fig. 5 Ingenuity helicopter and Perseverance Mars rover

目前,已将单机器人的SLAM 成功扩展至多机协同SLAM,通过融合各机器人观测信息,提升SLAM 的精度。 本文按照数据处理的主要方式,将多机器人SLAM 分为以下3 类。

3.1 基于滤波器的SLAM

基于滤波器的SLAM 常以扩展卡尔曼滤波(Extended Kalman Filter,EKF)算法通过更新以及预测不断迭代,解决地图和位姿估计。 随着机器人数量和所在环境逐渐扩大,累积误差会严重影响滤波效果。 Roumeliotis[25]将地图重叠问题转换成地标约束,减少地图对齐过程中因噪声引起的位置估计误差。 Huang[26]提出新的信息感知方法,用可观测性约束提升EKF 的一致性。 然而基于滤波的方法,其时间和空间复杂度均为o(n2),因此更适用于小规模地图环境的构建。

将协方差矩阵变为信息矩阵,可得到扩展信息滤波器(Extended Information Filter,EIF)EIFSLAM 算法。 奔粤阳等[27]利用联合分布状态和信息滤波参数的稀疏性,从时间和计算两方面减少复杂度,确保协同定位的精度和有效性。

不同于EKF-SLAM,粒子滤波器(Particle Filter,PF)可以处理任意噪声模型。 Roh[28]利用多假设分析的地图合并技术和粒子群优化算法,解决缺乏特征或局部极大值的多机器人地图合并,提高地图融合精度。 但是粒子的多样性会随时间推移而发生退化。 因此Havangi[29]提出了无迹Fast SLAM 算法,改进重采样步骤,让粒子集向概率密度函数值较大的区域移动,克服粒子贫化。

EKF-SLAM 是解决该问题的经典方法,然而受到算法一致性、数据关联问题以及计算成本三方面限制。 EIF-SLAM 由于信息的可加特性,更适合扩展至多机器人系统。 PF-SLAM 在处理非线性、非高斯系统上鲁棒性强,运算精度更高。

3.2 基于优化的SLAM

基于优化的方法中,图优化SLAM(Graphbased SLAM)利用约束条件和目标函数,把问题变为基于图的构建和优化。 Campos R[30]利用水下编队机器人,通过融合地理参考光和导航数据建立空间地图,并加入光学约束对地图进行优化。然而Graph-based SLAM 需要建立在正确数据关联的基础上,计算要求较高。

Submap-SLAM 中[31],子地图的匹配将局部地图融合,组成大规模全局地图,有效抑制了全局误差的累积。 Vidal-Calleja[32]利用滤波和平滑方法将协同地空多机系统中各自生成的3D 子地图进行组合拼接,成功解决了大型户外环境的SLAM 问题。 但是在利用Submap-SLAM 得到整体地图时,需要调整子地图的尺寸。

不同于滤波方法仅利用当前较少数据进行轨迹更新,基于优化的方法分析所有观测数据,更新整条轨迹。 通过对关键节点的维护,优化SLAM问题,具有计算量小且精度高等优点。

3.3 基于人工智能的SLAM

随着人工智能的兴起,利用智能化方法解决有关滤波和优化,提升SLAM 算法得到了快速发展。神经网络对于非线性模型具有强大的拟合能力。Omid 等[33]利用径向基网络弥补噪声假设和线性化过程中的系统误差,降低SLAM 的不确定性。Havangi 等[34]将模糊运算与滤波器相结合,用模糊推理系统监督无迹卡尔曼滤波的性能,用于特征位置估计,使算法具有更高的精度和鲁棒性。

近年来已有学者利用深度学习解决多机器人SLAM 中如闭环检测、语义地图的生成等问题。闭环检测的目标是识别移动机器人之前曾达到的场景,可显著降低随时间累加的位置误差,建立一致性地图。 张浩然[35]借鉴深度学习能够提取复杂图像中的抽象特征,将循环神经网络(Recurrent Neural Network,RNN)用于闭合检测,提升检测准确率的同时降低了运算量。 为绘制更加精确的空间地图,在包含环境的几何信息之外,还会加入语义信息的描述。 Mccormac[36]从多个视点中得到的卷积神经网络(Convolutional Neural Networks,CNN)语义预测融合到地图中,不仅能够建立稠密的3D 语义地图,而且可以改善仅使用单帧执行分割的基线方法。 将深度学习与SLAM 结合,展示了深度学习在精确度和复杂性方面的强大优势,提升了系统的学习能力和智能化水平,未来极具发展潜力。 多机SLAM 方法对比如表2 所示。

表2 多机SLAM 方法对比表Table 2 Comparison of multi-robot SLAM

在多机SLAM 中,机器人构建环境地图与协同定位相辅相成,高精度的定位手段搭配不同地图创建方式,是未来多机器人SLAM 的重要方向。目前多机协同SLAM 存在的问题有:

1)协同SLAM 中,需要较大的通讯量,如何降低通讯代价和复杂度;

2)如何提供更可靠、安全、抗干扰的定位服务,提高定位精度和实时性;

3)如何更好地利用人工智能、深度学习等手段,提升SLAM 的智能化水平,实现更高程度的人机交互。

4 多机器人任务分配

随着系统在规模和功能上的愈加复杂,多机器人任务分配(Multi-Robot Task Allocation,MRTA)成为多机协同研究的热点问题之一,其策略的优劣会对任务执行效果产生直接的影响。 MRTA 最初注重系统对任务的完成情况;近年来,在完成任务的前提下,更关注分配过程中的协调与合作。

早期任务分配方法多以集中式分配为主,基于运筹学的匈牙利算法、单纯形法等传统方法被应用于机器人之间的任务分配。 当任务规模和机器人数量不断扩大,遗传算法、蚁群算法等进化算法充分发挥了启发式算法的优势。 其中,蚁群算法[37]通过感知环境中信息素浓度,利用正负反馈机制来寻找最短路径,是一种全局优化算法。Zheng 等[38]提出了一种基于蚁群算法的集中式、离线优化策略,利用2 种信息素记录任务分配的倾向性和任务处理顺序,从而实现任务优化分配和调度。 遗传算法通过模拟生物进化过程,通过自然选择以及遗传学机理,最终得到系统最优解。Jose[39]面对复杂任务分配的组合优化问题时,在遗传算法中加入了两种贪婪策略,提高全局搜索能力。

集中式任务分配中,中小规模的分配问题可通过枚举得到全局最优,其最优解的获取大多以牺牲机器人的自主性为代价。 然而,MRTA 是一个非确定性多项式困难(Non-deterministic Polynomial-hard,NP-hard)组合优化问题,计算复杂度随机器人数量的递增,呈指数型增长,因此集中式分配不利于解决大规模任务分配。 此外,该方法普遍适用于机器人和环境均保持不变的情况,由于任务分配通常是一个动态的决策过程,因此在实际应用中存在一定的局限性。

分布式任务分配依靠各机器人自身传感器规划其行为,对动态变化环境适应性更强,反应速度更快。 基于行为和基于市场机制是较为常用的两种分布式分配方法。 基于行为的分配方式在状态信息与行为之间构成映射,通过设定的刺激,触发相应的行为。 Parker 提出的ALLIANCE 就是典型的采用激励行为的任务分配系统。 以利益最大化为准则,用更少的通讯实现协作属于市场机制的任务分配模式[40],其经典代表为合同网模型。Wang 等[41]在传统合同网方法中加入焦虑模型,提高任务分配效率。

拍卖算法使用更加明确的市场规则确定任务的分配,近年来用以改进传统合同网模型。 根据算法需要竞拍的回合数、每个回合能够参与机器人的数量以及参与竞拍的任务数量,可主要分为3 种类型[42]:组合拍卖(Combinatorial Auction)、并行拍卖(Parallel Auction)以及单项顺序拍卖(Sequential-Single-Item Auction, SSI)算法。

在组合拍卖中,每一个机器人都可以对目标子集进行投标,是唯一能够获得最佳解决方案的拍卖手段[43]。 Cui 等[44]将平衡判断公式和平衡评价因子引入到在线任务分配方法中,用于处理动态任务分配中的不平衡问题。

在并行拍卖中,拍卖只持续一轮,任务同时竞标,并立即分配。 Zhang 等[45]在并行拍卖的收益矩阵中加入修正函数,使得该算法在总成本和完成时间上取得更好的性能。

初始条件已知的情况下,标准的单项顺序拍卖算法考虑了目标之间的协同作用,通过多轮拍卖进行分配[46]。 Wei 等[47]为解决任务执行过程中出现的拍卖顺序约束条件,将SSI 算法扩展到动态分配。 由于分配任务的性质逐渐由传统单次、确定性向动态、再分配、不确定性转变,以分布式为主的任务分配结构适用范围更广。

基于行为和基于市场机制的策略均需要利用一定的先验知识来完成。 强化学习、神经网络等智能任务分配理论减少了对先验知识的依赖,因此得到了快速发展与广泛应用。 Dai[48]在合同网算法中加入BP 神经网络,用于融合多机器人拍卖时的竞标价格,提升动态任务分配的快速性和实时性。 强化学习在应用于多机器人时高维度的状态空间有时会引发维度灾难。 Kawano[49]采用分层强化学习巧妙解决了维度爆炸问题,逐步进行子任务的分解和学习。

表3 分析对比了不同分配方法的任务规模、适用类型以及优缺点等,可针对不同应用环境、任务需求,选择适当的分配方式,或组合其中算法,优化性能。 目前任务规划仍存在如下几个方面的问题:

表3 不同任务分配方法对比Table 3 Comparison of different task allocation methods

1)如何对异构机器人的能力进行定义和分类,任务分配时,如何根据异构机器人的能力划分任务。

2)面对机器人突发故障,或无法完成既定任务,如何撤销并及时调整任务;如何处理动态任务以及任务的再分配过程。

3)如何更好地平衡分配过程中的通讯成本,解决通讯延时与约束。

目前在该领域主要采取的是理论研究和仿真分析,实验验证正在逐步建立与丰富。 未来的研究方向如图6 所示。

图6 多机器人任务分配发展需求Fig.6 Development needs of multi-robot task allocation

5 多机器人路径规划

多机器人路径规划(Multi-Robot Path Planning,MRPP)不仅需要保证机器人均能顺利安全抵达目标点,还需要满足一定的优化标准[50],这是多目标、多约束的组合优化问题,体现了系统在复杂环境自主规划与组织协调能力。

集中式路径规划通过统一调度为每个机器人构造最佳无碰路径。 这种结构整体的协调性较好,但是容错性、柔性较差。 人工势场充分利用斥力场和引力场的相互作用力,寻找无碰自由路径,是一种实时考虑空间构型的规划手段。Matoui 等[51]采用集中式方法,用改进的人工势场解决多机器人在线避碰,提升对动态环境的适应性。

分布式路径规划中单个机器人均可自行安排运动路线,实现更加复杂的协同任务。 尽管系统整体柔性以及灵活性更强,但是全局规划能力较差。 夏清松等[52]将基于蚁群算法的全局路径规划与局部作业避障规则相结合,设计出较短、无碰的组合路径。 粒子群算法可用于多约束组合优化问题的求解,运行效率高,但是无法保证全局最优解。 Bilbeisi 等[53]设计了优化粒子群算法,无需先验知识,实现动态避障的同时,通过协同合作到达目标点。 D*算法是通过遍历全部节点,实现最短路径的全局规划算法。 Peng 等[54]利用改进的D*算法,通过机器人之间的交互快速重新规划,找到时间最短路径。 然而,该方法不适用于较大的空间搜索范围。 人工蜂群算法根据对蜜蜂觅食过程的观察,利用正负反馈机制寻找到更优质的食物源。 Wang 等[55]改进了蜂群算法中觅食和淘汰机制,保证能够同时实现多目标优化,提高了算法的运行效率。 该算法自组织能力强,能与其他启发式算法相结合,实现优势互补。 Zhao 等[56]开发了2 种模糊控制器,分别用于避障和目标定向,实现了多机系统未知动态障碍物环境下的路径选择。 将神经网络用于路径规划中,使系统拥有自学习能力,可应对动态变化环境以及较多障碍物情况,鲁棒性强。Zhang 等[57]将最短路径表示为线性规划问题,采用有偏一致性神经网络进行有效的分布式求解,得到最短的轨迹路线。

混合式路径规划中单个机器人不具备完全的自主能力,仍会依赖中央处理单元。 张丹露等[58]采用集中和分布控制相结合的方法,利用交通规则、预约表和改进的A*算法解决碰撞和死锁。其中A*算法是目前使用较多的一种启发式搜索算法,可用于全局路径规划。

表4 归纳总结了不同的规划算法。 通过融合多种路径规划,并引入智能及优化方法,以获得更强大的性能是新的发展趋势。

表4 路径规划方法对比表Table 4 Comparison of path planning methods

目前路径规划存在的问题主要体现在如下几点:

1)复杂环境下,全局路径规划实时性差,可能导致行动滞后于环境变化,导致避障失败。

2)大部分路径规划难以处理好可达性、安全性等性能指标的约束以及计算量、求解时间之间的平衡。

3)大多数的路径规划仅在仿真平台上进行验证,实物系统的发展有待加强。

因此,路径规划研究方向总结如图7。

图7 多机器人路径规划发展需求Fig.7 The development needs of multi-robot path planning

6 多机协同与强化学习结合的理论与方法

传统的机器人控制对先验知识的依赖性较强,这类机器人无法应对复杂变化或未知的环境。强化学习(Reinforcement Learning,RL)作为一种在线学习的方法,能够在智能体与环境的交互中,不断修正行为,获得对环境的适应性。 将RL 应用于多机系统,无疑会带来新的突破,进一步扩展其应用范围[59]。

多机协同的强化学习不仅是对独立机器人学习情况的简单叠加,更要考虑信息交互,协商与信度分配等问题[60]。 学习的难度和复杂度将远大于单机器人的学习。 多机强化学习系统按照结构划分,可分为集中和分布两种模式。

集中式RL 利用中央单元进行协同目标的统一学习。 群体中的单个机器人仅用作数据采集和执行任务的载体,并不具备独立学习的能力。 随着机器人数量增加而出现的灵活性差、维度灾难、难以收敛等问题,限制了集中式强化学习的发展。

在分布式RL 中,机器人自身即为一个独立主体,在相互通讯、协作中,不仅需要学习有利于个体的最优策略,也要兼顾全局的学习目标[61],实现更高层次的智能化。 分布式RL 学习中包含:中央RL、独立RL、群体RL 和社会RL。

在中央RL 系统中[62],单个机器人无法采取主动学习的方式,只能被动地接受学习结果,而由中央机器人承担全局性的学习任务(图8)。

图8 中央强化学习Fig.8 RL Centrally

独立RL 如图9 所示[62],虽然单个机器人可以感知周围环境,选择能够实现最大回报的动作策略。但是系统中的机器人仅依据自身利益选择动作,而不考虑团体的发展,因此这种学习方式很难实现全局最优的目标。 适合解决系统中包含个体数目较多并且松散耦合的任务情况。 其中根据智能体强化信号分配结构信度是亟待解决的难点问题。

图9 独立强化学习[63]Fig.9 RL Individually[63]

群体RL 系统如图10 所示[63],每个机器人在进行动作策略的选择时,都在维护系统的整体利益。 因此,该种学习方式中状态空间或动作空间的规模庞大,是机器人数目的指数倍,交互关系和学习难度会随之增加变得复杂,出现学习速度缓慢的情况。 群体强化学习系统还需要进一步优化数据结构,加快运算速度及收敛过程。 然而,状态空间和动作空间的维度灾难问题仍是群体强化学习的弱点之一。

图10 群体强化学习Fig.10 RL in Groups

社会RL 在系统里引入了社会或经济模型,从管理学、社会学的角度调节机器人之间的关系,实现系统整体的学习,以此提高智能化水平,其本质上是独立强化学习的扩展。 然而社会强化学习克服了独立强化学习中机器人之间自私的缺点,可以建立更加复杂的系统结构,动作策略选择更优。 不同强化学习之间的对比汇总如表5 所示。

表5 多机器人强化学习对比Table 5 Comparison of multi-robot RL

未来多机协同会更加注重群体智能、对最优策略的自学习以及对环境的自适应能力。 强化学习与多机器人的融合具有更为广阔的发展前景,未来该领域的发展趋势有:

1)有效化解机器人执行任务时的冲突,获得更合理的结构信度分配。

2)充分利用不同机器人的知识和经验,提升团队协作的效率。

3)设计在线强化学习算法,保证多机器人均能实现有限时间收敛,提升算法的实时性和快速性。

4)团队中开展多目标学习。 目标之间可以相互关联或存在冲突,不仅需要研究机器人之间的协同效应,还需研究目标之间的协调与决策。

7 总结与展望

多机器人协同系统利用机器人的相互协作实现更多复杂功能,在众多领域给人类社会带来巨大变革。 对于中国未来高效开展航天探测任务,实现大规模集群操作等目标影响深远。 未来多机系统的总体趋势体现在如下方面:

1)团队中的机器人能够形成更加紧密的协作,从单一功能向多功能发展,满足复杂多变的任务需求,不断提高系统整体性能,降低开发成本。

2)处理好异构机器人之间的通信,平衡好团队数量及工作质量,进一步提升团队协作效率。

3)充分应用人工智能、强化学习等技术提升团队自主判断、智能分析规划以及操作的能力是未来重要的发展方向。

猜你喜欢

机系统协同机器人
蜀道难:车与路的协同进化
手持式触摸测试机对闸机系统的维护研究
“四化”协同才有出路
三医联动 协同创新
经济、可靠的自动开关机系统
机器人来帮你
认识机器人
机器人来啦
认识机器人
京石高速公路自助发卡机系统的设计与应用