协作机器人智能控制与人机交互研究综述

2022-04-07黄海丰刘培森于欣波

工程科学学报 2022年4期

黄海丰，刘培森，李擎，于欣波

1) 北京科技大学自动化学院，北京 100083 2) 北京科技大学人工智能研究院，北京 100083 3) 北京科技大学顺德研究生院，佛山 528399

近年来，协作机器人在高端制造、航空航天、医疗健康、社会服务等各个领域逐渐得到了应用和发展.在我国，人机协作已列入《智能制造2025》和《新一代人工智能发展规划》重点支持研究计划，并成为当前智能机器人领域的重要发展方向[1-3].

国际机器人联合会定义了4种类型的人机协作：（1）共同存在：人和机器人存在协作，但工作空间相互隔离开；（2）顺序协作：人和协作机器人共享工作空间的一部分或全部，但不同时在零件或机器上作业；（3）共同作业：协作机器人和人同时在同一零件上操作；（4）响应协作：协作机器人实时响应人的动作实现协作.当前人机协作的主要形式仍然停留在协作机器人和人共享工作空间，独立地或顺序地完成任务，实现共同存在或顺序协作.响应协作以人的运动行为为中心，使协作机器人主动协作人类完成种类复杂的操作任务，是当下人机协作领域的研究重点和未来的发展趋势.响应协作对协作机器人与人的共融性提出了较高的要求，为此，近年来围绕协作机器人的智能控制方法与人机协作技术展开了广泛的研究.

本文围绕上述主题，对近年来协作机器人、协作机器人智能控制方法、人机协作技术的研究展开介绍.首先介绍常见协作机器人的基本情况；然后介绍协作机器人智能控制方法，包括视觉伺服控制、多模态融合控制、高精度跟踪控制、交互力控制等；接着介绍人机协作关键技术，包括人类意图估计和机器人技能学习技术；最后讨论协作机器人的发展方向.

1 协作机器人

传统工业机器人存在体型庞大、运行调试复杂、生产缺乏柔性的问题，并且出于安全考虑需要与人隔离开工作空间，这大大限制了机器人在高端制造和服务行业的应用.因此，协作机器人应运而生，协作机器人通常使用轻质材料并对速度和力进行了限制，具备良好的安全性，可以与人类在共享空间协同工作.协作机器人通常为6/7自由度（Degrees of freedom, DoF）的串联型机器人，得益于协作机器人部署灵活、操作简单、设计安全的特点，在智能制造、快递物流、家庭服务、医疗健康等领域具备良好的应用前景.

近年来国内外的各大厂商开始陆续推出自己的协作机器人产品.优傲（Universal robots, UR）公司在2008年推出的UR5是首款具有协作概念的商用机器人，并在随后更新迭代了UR3、UR10.受益于轻质、与人交互安全和精度较高的特点，在高端制造业得到了广泛应用，近年来UR公司又推出了控制精度更好，与人交互更安全的e系列机器人.KUKA、FANUC等知名工业机器人公司也推出了多款协作机器人，KINOVA公司的Jaco2、Gen3机器人在扶残助老、家庭服务中得到了良好的应用，Franka Emika推出的Panda协作机械臂在关节空间采用了全状态反馈控制，可以在复杂环境下实现精确碰撞检测，在安全协作方面性能优越.

近年来在国家相关政策的大力支持下，国内协作机器人理论与应用得到了良好的发展，国内市场上也涌现出大批国产协作机器人.沈阳新松（SIASUN）于2015年推出了七轴协作机器人，支持拖动示教、碰撞检测、视觉识别等功能，在工作空间紧凑、精度要求高的生产线中得到了有效的使用.近年珞石公司（ROKAE）推出了新一代xMate系列七自由度柔性协作机器人，具有高灵敏力感知，支持拖动示教、精准力控，在高端制造和辅助医疗行业具有良好的应用前景.艾利特（ELITE ROBOT）公司发布了全新的CS系列协作机器人，提供了可视化的交互界面的模块化的编程方式.节卡（JAKA）公司推出了All-in-one系列共融协作机器人，深度融合了视觉信息.Elephant Robotics发布了世界上最小的6轴机器人手臂myCobot，具有良好的可用性和安全性，而且噪音低.

表1、表2中分别列出了国外、国内厂家的几款协作机器人主要产品.协作机器人目前已经在多个领域展现出良好的应用前景，受到国内外学者的广泛关注，相信未来会有更多协作机器人出现，应用在各种工业生产、生活服务中.

表1 几款国外协作机器人Table 1 Introduction to collaborative robots from foreign manufacturers

表2 几款国内协作机器人Table 2 Introduction to collaborative robots from domestic manufacturers

2 协作机器人智能控制

2.1 视觉伺服控制

视觉伺服控制有效地拓展了协作机器人的应用领域.在协作机器人上安装摄像头，以实现机器人对目标的感知，进一步对目标特征信息进行处理，得到视觉反馈，并利用反馈信息对机器人进行实时控制，以实现精确的跟踪或定位，完成相应的工作.根据反馈信息的不同，机器人视觉伺服可分为基于位置的视觉伺服（3D视觉伺服）、基于图像的视觉伺服（2D视觉伺服）等.视觉伺服控制在机器人抓取任务中得到了重要的应用.基于位置的视觉伺服利用摄像机参数建立图像信息，从而得到机器人当前位姿与目标位姿之间的映射关系，把计算出的映射关系指令反馈给机器人关节控制器，最后实现机器人运动[4-6].随着Kinect等高性能深度相机的出现，文献[7]提出使用深度摄像机获取目标点云，然后通过提取快速点特征直方图描述子结合奇异值分解算法来估计目标位姿.基于图像的视觉伺服通过提取图像中的特征点，采用雅可比矩阵建立机器人运动与图像特征点运动的动态控制模型，并基于该控制模型得到控制指令.方勇纯等提出了一种基于二维三焦点张量的视觉伺服镇定控制方法，在图像特征识别方面体现出了更强的鲁棒性[8].李智军等开发了一种基于图像的视觉伺服控制策略，可以避免同源算法和基于基本矩阵的算法的模糊性和退化问题[9].Zhang等提出了一种新型的基于图像输出反馈的机器人自适应视觉伺服方法，在速度估计的准确性、跟踪精度和鲁棒性等方面具有优越性[10].Malis等提出的2.5D视觉伺服策略，成功地将图像信号与从图像中提取的位置/姿态信号相结合，并使用它们生成用于反馈的合成误差信号，增强了系统的稳定性[11].文献[12]提出了一种新2.5D视觉伺服方法，用于抓取无纹理的平面零件，使用混合视觉特征，将图像矩与笛卡尔空间中的三维旋转结合控制机器人的运动.

2.2 多模态融合控制

协作机器人在执行协作任务时，通常需要多种传感器模态的信息输入，协作机器人进行感知模态信息融合，尤其是视觉和触觉，对提升协作机器人操作的柔顺性和安全性具有显著意义，国内外很多学者针对多模态融合控制展开了研究.

Prats等通过融合视觉、触觉信息提出了基于感知信息的机器人控制框架，并设计完成了滑动门开关任务：机器人通过视觉信息可以定位到门把手位置，并通过触觉反馈信息调整视觉误差，实现最终位置匹配[13].Ilonen等釆用目标对称约束将视、触觉信息互补融合，通过状态估计实现三维重建[14].文献[15]将视觉-触觉传感器搭载于协作机器人系统并提出了基于图形与外力反馈的导航和操作任务集成表示方法.文献[16]提出使用视觉-触觉融合的物体三维重建方法，解决了仅用视觉产生的物体三维重建过程中的遮挡等问题.在获取全面、准确的信息后进行运动预测与意图辨识，以加强人机协作中机械臂的主动性.Li等提出利用视觉和触觉传感器进行数据采集，并用深度神经网络(Deep neural network, DNN)进行滑觉检测，服务于机器人实现稳定抓取[17].Zhang等[18]提出了一个用于机器人材料感知的视觉-触觉跨模式学习框架，在终身学习的背景下解决视觉-触觉跨模态学习的问题，利于逐步提高机器人跨模态材料感知的能力.文献[19]提出了一种基于视觉和力传感信息融合的框架，用于人-机器人协作任务，使机器人能够主动跟随人类伙伴减小控制难度，并在不使用力传感器的情况下，设计了一个力观测器来估计人体的力，并通过最小化估计的力来获得人体的运动意图.

2.3 高精度跟踪控制

提升协作机器人的鲁棒性和可靠性成为协作机器人应用和普及的关键难题，针对这一问题国内外学者开展了协作机器人高精度跟踪控制中的关键问题研究.协作机器人的高精度控制主要面临两方面的难题：其一是约束问题，约束是指控制系统的输入和状态满足一定的约束条件，它取决于实际物理器件限制、系统运行性能要求以及安全要求；其二是不确定性问题，协作机器人通常采用柔性关节作为驱动结构，柔性关节能够实现柔顺操作与碰撞保护，但柔性关节的引入会加大上层运动控制的复杂性，实际情况存在的因素会使柔性关节机器人出现模型不确定和受到未知扰动的情况，此时基于模型的非线性控制策略将失效.

2.3.1 机器人输入约束控制

输入约束是在实际工程应用中很重要的一个约束条件，包含有输入饱和、回滞、输入死区等.

在实际应用场景中，考虑到物理约束和安全性问题，机器人执行机构通常存在输出功率上限，即存在输入饱和问题，从机器人系统的安全性与稳定性出发，考虑控制器设计输入饱和非线性尤为重要，已经有国内外学者对此问题展开了大量研究.针对输入饱和通常有两种处理方式：一种是通过调节给定的输入信号解决输入饱和[20-21]；另一种是通过构造辅助系统，基于辅助系统对跟踪误差进行修正，进而处理输入饱和问题[22-25].

协作机器人系统是典型的复杂非线性系统，本体与执行器之间存在能量转换会引起时滞现象.文献[26]提出了时滞影响的数学模型.基于此，在文献[27]中，作者设计了一类鲁棒控制器，采用李雅普诺夫-克拉索夫斯基泛函(Lyapunov-Krasovskii Function, LKF)解决了时滞问题.文献[28]针对含时滞的协作机器人系统设计了一类速度观测器，同样采用LKF来处理未知时滞问题.Li等[29]通过利用有限时间稳定性理论、障碍李雅普诺夫函数（Barrier Lyapunov Function, BLF）和自适应反步法，提出了一种新型的自适应跟踪控制策略，解决了有死区的非线性系统的有限时间控制问题.

2.3.2 机器人输出约束控制

出于机器人系统安全性考虑，约束条件下通常需要对机器人位置、速度、加速度等状态设限.用于多关节协作机器人的常见的解决约束问题的方法主要有两种：

一种是基于函数变换的方法，即采用一类非线性函数将受限的系统直接转换为等效的不受限的系统，再针对不受限的系统进行控制设计.Zhang等[30]研究了一类带输出约束的不确定非线性系统的跟踪问题，通过设计非线性状态转换器，进一步给出了一类鲁棒控制器，实现了控制目标.文献[31]采基于非线性函数变换的方法研究了输出约束下的柔性关节机器人控制问题，基于该方法，许多学者通过结合自适应控制、神经网络控制等不同控制技术，解决了一类严格反馈系统的约束跟踪控制问题[32-35].

另一种是基于BLF的控制方法.通过设计合理的控制器保证BLF在闭环系统中保持有界，从而实现目标变量始终不超出预设范围.Tee等[36]提出在控制设计中采用障碍李雅普诺夫函数，在不违反约束条件的情况下实现了渐进跟踪.文献[37]通过使用反步法和神经网络构建了一种新型的自适应控制策略，其中一种新颖的积分障碍李雅普诺夫函数被用来克服违反全状态约束的问题.文献[38]考虑了具有全状态约束的机器人关节空间控制系统，利用BLF保证系统状态满足约束条件，并利用神经网络估计系统中的不确定项，实现了全状态约束下多关节机器人的关节空间轨迹跟踪控制.Liu等基于偏微分方程，引入了非对称障碍李雅普诺夫函数来处理非对称约束，提出了新的干扰观测器，以减弱边界干扰的影响[39].

2.3.3 不确定系统控制

由于机器人系统和实际环境存在多种不确定因素，精确的机器人动力学模型难以获取，会引起模型完全未知、模型不匹配、基于模型的非线性控制策略不适用于实际机器人系统等问题，针对如上问题，文献[40]提出使一类使用最小二乘法估计机器人未知动力学参数的方法.另一类重要的解决动力学模型不确定性的方法是利用机器人系统的输入输出数据采用神经网络估计未知的模型参数.

神经网络可以用于解决机器人系统的模型不确定性[41].文献[42]将径向基函数（Radial basis function, RBF）作为神经网络（Neural network, NN）隐含层激活函数，通过RBF神经网络估计动力学模型不确定项，结合反步法和李雅普诺夫稳定性理论，获得神经网络权重的自适应律，基于系统输入输出数据构造神经网络结构，实现跟踪误差的半全局最终一致有界.文献[43]结合反向传播算法，对机器人系统参数进行了调整，使用动态系统神经网络估计了机器人动力学模型中的不确定项.文献[44]利用自适应神经网络估计双臂机器人闭链动力学模型中的非线性不确定项，进一步提高了双臂机器人协调控制位置精度.文献[45]将自适应神经网络与阻抗控制结合，提出了一种基于神经网络的自适应阻抗控制策略，在控制器作用下使交互力满足理想阻抗模型.Ding等[46]提出了一种基于部分强化学习神经网络（Partial reinforcement learning neural network, PRLNN）的跟踪算法，解决轮式移动机器人跟踪控制的时变超前角问题.文献[47]中神经网络被用来估计和补偿系留空间机器人动态模型中的不确定性，并设计了一个自适应鲁棒控制器来克服空间系绳的影响并跟踪阻抗控制器产生的期望位置.文献[48]提出使用阻抗学习的自适应模糊神经网络控制，用于受制于未知的系统动力学、状态约束影响的机器人系统，使之表现出对未知环境的顺应性.Liu等[49]提出一种基于神经网络的滑模控制方法，可以用于参数不确定的机器人系统，并解决了传统滑模控制方法中控制输入的振颤和高速切换问题.

除此之外，还有多种方法被用于解决系统不确定性问题.文献[50]中，不确定性和干扰估计器（Uncertaintly and disturbance estimator, UDE）被用来在只知道部分信息的情况下对系统模型进行近似，所提出的可变阻抗控制可以帮助机器人完成与未知环境的交互任务，并提高系统的整体性能.文献[51]针对不确定非线性系统提出了一个基于多项式参考轨迹的简单线性滑膜面，使轨迹跟踪误差在有限时间内收敛为零.Zhang等[52]考虑具有未知干扰的非线性系统的事件触发跟踪控制问题.在控制器更新中考虑了事件触发机制，这在实践中减少了通信量，降低了控制器更新的频率.Sun等[53]提出在控制器设计中使用自适应神经网络抑制柔性机器人的振动.文献[54]提出一种摩擦力观测器，将电机侧的额定信号反馈到控制器中，在不使用摩擦模型的情况下解决了摩擦补偿问题且会对失速进行过度补偿.Chen等[55]提出了一种基于肌肉协同作用的神经肌肉控制方法，所提出的方法不仅提高了运动学习的速度和准确性，而且还增强了运动泛化能力，促进了肌肉骨骼机器人系统的发展以及神经科学和机器人学的融合.文献[56]提出设计估计器重构机器人系统的未知动态和外部干扰，控制器设计中引入预设性能函数，使系统跟踪误差限制在预先规定边界内，保证机器人系统的性能和安全性.文献[57]开发了一种双环控制结构，在外环中，设计了一个在线轨迹重新规划算法，在系统的动力学和动态约束下，迫使重新规划的轨迹在最短的时间内并入期望的轨迹；在内环中，集成了一个自适应鲁棒控制器，以有效地处理参数不确定性和不确定的非线性，从而保证高稳态跟踪精度.

2.4 机器人交互力控制

协作机器人在工作中需要与外界环境和人进行物理交互，这要求机器人不仅能跟踪规划的运动轨迹，还要控制与外界交互的作用力，力/位混合控制的原理是在机器人末端沿着约束方向上进行力控制，在与约束方向相垂直的方向进行位置控制.Lozano和Brogliato[58]基于机器人雅可比和环境的特殊分解刚度矩阵，提出了一种自适应力/位置控制方案.

Hogan[59]将二阶阻尼模型和机器人动力学模型结合，提出了机器人的阻抗控制理论，为机器人交互控制方法开辟了新的研究方向.与传统混合力/位控制不同，阻抗控制通过调节期望阻抗模型的参数规划机器人与外界环境交互过程中位置偏差和力偏差的关系，从而实现柔顺交互.近年来，由于阻抗控制计算量小且具有较好的鲁棒性等优点，受到国内外学者广泛重视.阻抗控制方法结合了传统力位混合控制和阻抗控制的优点，通过实时修正机器人末端的接触力，实现了高精度的力跟踪[60].然而机器人交互性能取决于阻抗控制中的预先搭建的期望阻抗模型搭建是否合适，并且由于交互过程中外界环境的扰动，固定阻抗模型的阻抗控制方法难以保持全程的最优交互性能，因此，近年来广大学者开始研究自适应的阻抗控制策略.Xu等[61]提出了一种基于进化动态递归模糊神经网络（Evolutionary dynamic recurrent fuzzy neural network, EDRFNN）的自适应阻抗控制器，可以根据受损肢体的身体恢复状况，实时调节机器人和受损肢体之间的理想阻抗.Yang等[62]把阻抗控制与迭代学习相结合，借鉴人类神经中枢系统(Central nervous system, CNS)对干扰运动的学习经验，提出了一套适用于不稳定环境下的自适应阻抗控制理论.文献[63]通过结合笛卡尔阻抗控制和冗余分辨率来提高人与协作机器人物理交互过程中的性能.近年来，又有多种方法被用于提升基于阻抗控制方法的机器人交互性能.文献[64]提出了一种由串联弹性致动器（Serial elastic actuator,SEA）驱动的康复机器人的迭代学习阻抗控制器.所需的阻抗模型是以迭代的方式实现，这适合病人在康复过程中的重复性，也保证了机器人的瞬态性能.文献[65]提出在宽松的激励条件下，通过使用复合学习律，实现了阻抗误差的收敛.Li等[66]通过提取人的肌电信号估计运动意图，将运动意向估计整合到基于障碍物李亚普诺夫函数的自适应阻抗控制，在运动和力跟踪方面达到了预期的良好性能.文献[67]提出使用阻抗控制来处理人类主体的意图以及机器人动力学中的未知惯性质量和力矩，使人类受试者能够在外骨骼机器人上有效地执行阻抗控制任务.

3 协作机器人人机协作关键技术

协作机器人当前已经在协同装配[68]、协作切割[69]、物体交接[70]等多种人机协作任务中展现出了良好的应用前景，虽然还未在工业界的实际生产中得到广泛应用，但是国内外研究机构针对机器人执行协作任务的关键问题已经做出了大量研究，要使协作机器人在协作任务中进一步拥有更好的表现，大体上涉及两个关键问题：其一是如何估计人类意图以便提高协作机器人对人类行为的响应的实施性；其二是如何使协作机器人掌握协作所需要的操作技能.需要说明的是，本章主要关注协作机器人人机协作的前沿关键技术，其中大部分关键技术尚处于学术研究阶段，还未部署到现有的协作机器人产品中.

3.1 人类意图估计方法

在人与人之间的协作任务中，人通常会估计对方的运动意图并做出配合，以提高协作的流畅程度和效率.在人与机器人的协作任务中，如果机器人可以像人一样估计对方的运动意图，就可以实现提前对人的运动做出响应，实现更高效的协作，这也是人-机器人协作的研究重点之一.

文献[71]提出了一种应用于快速点到点人机协作任务中的人类运动意图估计方法.文献[72]未使用力传感器，仅依据控制器的变化量来估计人类运动意图，通过获取的运动意图，提出一种转换方法使系统在阻抗控制和随动控制间任意转换.文献[73]提出了一个面向人形机器人执行复杂任务的人机合作搬运控制架构，其中机器人可以有效估计人类的运动意图.在文献[74]中，人类步态估计方法被应用在移动手杖机器人中.文献[75]设计了人机多模态接口，用来实时反馈人类运动意图，完成人机协作任务.文献[76]提出了一种基于示教的人类运动意图估计方法，提出了一种基于迭代学习的控制策略并应用于人在回路的人机交互实验中.文献[77]提出了一种逆最优控制和目标集迭代重规划策略来预测人的运动.Li等[78]提出采用神经网络处理人的肢体模型的非线性和时变性，并基于此开发了一种人类运动意图在线估计方法，估计的运动意图被整合到自适应阻抗控制中，使机器人遵循理想的阻抗目标，能够与人类伙伴积极协作.文献[79]提出利用博弈论描述人-机协作系统，并采用策略迭代来提供纳什均衡的解决方案.人的控制目标是根据测量的交互力来估计的，并用于调整机器人的目标，从而实现人与机器人的协调.

由于人在同一协作任务中通常采取具有相似轨迹特点的运动路径，利用概率建模的方法能够对人类运动意图进行建模和估计[80].概率建模的一种有效方法是利用隐马尔可夫模型（Hidden Markov model, HMM）等图形模型建模.马尔可夫模型可以同时编码时间和空间特征.国内外学者目前已提出了几种可以根据新获得的数据自适应修正模型的方法.虽然HMM可以随机编码空间和时间特征，但由于轨迹是离散和抽象的，因此要详细解码时间特征是很困难的.为了明确地将时间特征纳入到模型中，国内外学者提出了使用显性时间HMM[81]和自回归HMM[82]的建模方法.但将它们扩展到在线算法是困难的，因为模型参数的学习并不能很好地收敛，除非事先设置好图形模型的结构.另一种有效的概率方法是非线性回归方法，如高斯过程回归（Gaussian process regression, GPR）和高斯混合回归（Gaussian process regression, GMR）[83-84].同样，作为一种利用概率分布的模型，高斯过程动力学模型（Gaussian process dynamic model, GPDM）是一种对人类动力系统进行随机建模的有效方法[85].除此之外，自回归综合移动平均(Autoregressive integrated moving average,ARIMA)模型[86]、递归神经网络(Recurrent neural network, RNN)[87]等也被用于人类意图估计.

3.2 机器人技能传递学习方法

近年来，技能传递学习，即将人类技能传递给机器人，已成为协作机器人和人-机器人协作的研究热点之一[88].技能传递学习具有以下显著优势：技能传递学习使得机器人能够在复杂动态的环境中学习和习得操作技能，可以克服传统编程等传统方法的不足，并且极大地提高了机器人对复杂环境的适应性；并且在技能传递过程中，可以采集到丰富人体生理信号从而提取出所需的多个维度的技能特征.

机器人技能传递学习受到人类学习操作技能过程的启发，与人类行为类似，机器人通常需要与环境或人类进行物理交互，同时执行具有信息丰富的神经生理学感官信号的协作任务，这些信号都与协作行为同时发生.技能传递学习使机器人能够保留或利用观察到的人类行为作为技能，通过实践加以改进，然后将其应用到新的任务环境中.技能传递学习的主要思想是通过模仿和开发自然模型、系统和过程来形成技术解决方案.

3.2.1 技能示教

对于技能传递学习过程，通常需要人类导师对机器人进行技能示教，机器人收集并提取所需的运动信息，包括位置、速度、力/力矩，和一些协作任务中的人的肢体刚度，从而获得了技能信息的数据集，数据集的构建应进一步考虑运动表示、演示对齐、运动分割和生成.示教学习通常有如表3所示的3种方法.

表3 三种常见的示教学习方法对比Table 3 Comparison of three common demonstration methods

动觉示教方法：动觉示教又称物理交互示教，即人手动拖动机械臂进行示教并记录运动过程.动觉教学利用协作机器人力触感知能力.动觉教学可以连续进行记录整个运动轨迹，也可以通过在单独的时间实例中记录机器人状态的离散快照来进行，例如在关键帧的关键姿势序列教学中.动觉示教无需额外设备，便于操作，然而这种示教方法通常只适用于惯性较小的轻量型机械臂，并且受到工作空间的限制，多自由度机器人的动觉示教较为困难.

遥操作示教：遥操作示教可以使用简单的操纵杆或其他远程控制装置实现对协作机器人的远程操作.机器人和人类导师不需要共享同一空间.遥操作示教的一个优势是通过主端的遥操作设备通常可以查看运动信息，然而遥操作示教所能控制的自由度同样有限，而且主端与从端设备之间存在通信延时问题.

通过视觉和可穿戴设备示教：通过摄像头和可穿戴设备捕捉人体运动，使用这种方法示教，人类不受约束自由移动，人体四肢和关节的角位移可以通过这些外部手段精确测量.然而，人体与机器人的运动学对应问题是这种示教方式的一大挑战，并且也存在设备与机器人的通信问题.

3.2.2 机器人技能学习

获得技能示教的数据集后，通过机器人技能学习，可以生成策略并映射到机器人控制器，此外，学习的技能策略可用于在新环境中复现并泛化机器人的技能.

（1）基于模型学习的技能学习.

当前机械臂技能大多通过人工预定义的规则实现，受限于固化编程的特点，不具备良好的自主性、灵活性和自适应性，将机械臂的应用场景限制在结构化环境中.为使机械臂可以应用于更广泛的场景，学者们提出将动态系统和统计学习方法应用于机器人技能表示.文献[89]提出了基于GMM对技能特征编码的框架，用于机械臂技能学习，但是这类方法泛化能力差，难以实时泛化于新的场景.文献[90]结合了动态系统与统计学习方法，将概率运动原语用于机器人技能学习.然而这种方法通常需要大量的数据以保证生成轨迹的准确性.文献[91]提出了一种结合概率学习、动态系统和刚度估计的方法，以编码机器人在任务中的行为.提出的方法允许机器人不仅学习轨迹跟踪技能，而且还学习阻抗行为.Wang等[92]等提出结合概率模型、阻抗系统和刚度估计对任务技能进行编码，使机器人同时学习阻抗行为和轨迹跟踪技能.动态运动基元(Dynamic movement primitives,DMPs)[93-94]是一种较简洁的基于非线性动态系统的技能建模方法，能够在时间和空间上对轨迹进行放缩并泛化到新的目标位置.动态运动基元算法的应用旨在允许人类通过示教的方式，传递给协作机器人执行任务时应该产生的拟人运动，从而提升协作机器人的可交互性[95-96].文献[97]引入了肌肉协同概念，将原始动态运动基元模型中的径向基函数参数化，提出了参数化的动态原语模型，并通过实验证明了其有效性.文献[98]基于动态运动基元模型，使用径向基函数对力矩信息进行编码，提出了柔顺运动基元模型，且对于柔顺运动的学习不依赖于显式的环境动力学模型，提升了协作机器人技能学习的柔顺性.文献[99]提出基于RBFNNs的复合DMPs，用于协作机器人从人类演示中学习的包含位置和方向信息的技能.Lu等[100]提出了一个带有各种分类约束条件的通用DMPs框架.在BLFs的启发下，推导出一般模型的额外加速项，以补偿实际轨迹和期望轨迹之间的跟踪误差.

（2）基于强化学习的技能学习.

强化学习通过探索环境和机器人自身身体，从试错（Trial-and-error）中学习[101].强化学习中的目标由奖励函数指定，根据机器人相对于目标期望的表现，奖励函数起到正强化或负惩罚的作用.强化学习在机器人领域的应用创造了一个明确的利基市场[102-104].基于强化学习的机器人技能学习方法提供了3个传统方法不具备的能力：学习人类教师无法实际示教或直接编程的任务，如举起大重量重物[105]；学习人类教师不确定最优解的技能，通过使用已知的成本函数（例如，最小化执行任务所用的能量或找到最快的步态等），实现没有分析公式或已知封闭形式解的难题的优化目标学习；使习得技能适应新的任务（例如学习从平地走到斜坡），强化学习还提供了一些额外的优势，例如可以从一次效果较好地的示教中学习技能并逐步完善.

（3）基于逆强化学习的技能学习.

学习一项技能对于复杂的机器人系统通常是困难且耗时的，而逆强化学习可以基于有限示教数据反推出奖励函数，并据此进行强化学习，从而提高学习策略的泛化性能.逆强化学习解决了学习什么和如何学习的问题.逆强化学习的本质是为任务找到一个奖励函数.为次，学者们提出了许多方法.在文献[106]中，提出了基于示教数据的最大利润原则，最小化了基于奖励函数学习的最优策略与其他次优策略之间的差异.在文献[107]中，提出了一种基于最大熵原理确定奖励函数的方法，使机器人控制策略对示教数据噪声表现出较好地鲁棒性.近年来，许多非线性函数被用来设计奖励函数.文献[108-109]提出了基于边际的方法，通过特征构造来学习非线性奖励函数.文献[110]提出了顺序加窗逆向强化学习（Sequential windowed inverse reinforcement learning, SWIRL），将无监督学习应用于少量的初始专家演示.SWIRL将一个长时间跨度的任务近似为一个局部奖励函数和子任务过渡条件的序列.在这个近似值上，SWIRL应用Q-learning来计算一个使奖励最大化的策略.在文献[111]中，生成式对抗网络被用来优化奖励函数，与传统的学习方法相比，在大型高维环境中获得了显著的性能提升.

4 协作机器人发展方向

4.1 协作机器人结构和驱动仿生化

为使协作机器人在协作任务中具备更好的灵活性自主性，协作机器人结构和驱动仿生化是重要的发展方向之一，具备仿生特点的刚柔耦合结构能够使协作机器人集成具有刚性支撑结构与柔性自适应结构的优势，通过柔性材料进行机器人机构设计，能够使协作机器人具备运动灵活、运动速度快、交互安全等特点.在驱动方面，协作机器人的驱动方式可以采用人工肌肉等仿生驱动形式，并实现驱动、结构、材料一体化，使仿生机器人与生物形态更加接近.并通过在感知信息融合、柔性结构振动控制方面取得突破，使协作机器人实现稳定仿生运动、高效自主运动.

4.2 协作机器人引入人在回路的混合增强智能

协作机器人的主要应用前景是在多个领域中代替人的作用，因而被期望可以具备类似人的高层次智能，可以基于现有经验和知识进行无监督学习，而当前协作机器人的智能依赖于基于大量样本进行有监督学习，不具备类似人的高度的自主学习能力.协作机器人在工作中需要与人进行丰富的交互，人作为机器人的协作和服务对象，人的感受是协作机器人工作成效的重要依据，因此协作机器人的智能需要与人的智能相协同，将人的认知模型或者人的作用引入协作机器人的智能，形成人在回路的混合增强智能，通过人的介入，调整协作机器人的技能策略，构成机器人智能水平提升的反馈回路，实现人的高度自主学习能力、分析能力、认知能力与机器人智能的运算能力与高精度特点的紧耦合，使协作机器人具备更高层级智能水平，胜任更加复杂的协作任务.