模仿学习在机器人仿生机制研究中的应用
2016-10-18于建均门玉森阮晓钢徐骢驰
于建均,门玉森,阮晓钢,徐骢驰
(北京工业大学电子信息与控制工程学院,北京 100124)
模仿学习在机器人仿生机制研究中的应用
于建均,门玉森,阮晓钢,徐骢驰
(北京工业大学电子信息与控制工程学院,北京 100124)
较为系统地综述了机器人模仿学习的过程,并对该领域的相关关键问题进行了探讨.基于模仿的生物机制,构建了机器人模仿学习的一个工程应用框架,以该框架为指导,重点对模仿学习的行为表述问题及研究进展进行论述;对模仿学习和强化学习在机器人运动技能学习中的应用进行了对比分析;并对该领域的研究进行了展望,可见对机器人模仿学习的研究是机器人仿生机制研究的热点内容.
机器人;仿生学;模仿学习;行为表述;强化学习
随着机器人研究的不断发展,其运动行为越来越复杂,对机器人学习能力的要求也越来越高,同时对于运动规律不易获取的复杂运动,如击球,传统的算法实现,即有经验的“专家”通过底层的运动控制获取运动技能,变得越来越困难,甚至不可能实现.此时,机器人需要具备学习的能力,以增强其智能性,使其不仅可以实现自我补偿校正,还能够与随机动态环境进行交互以应对突发和未知的情况[1].
机器人学习的主要优势在于能够在传统方法不易或不能实现的情况下,找到有效的控制策略以完成复杂的运动任务.模仿学习(imitation learning)[2]是机器人学习的一种方式,也被称为示教学习(learningfromdemonstration)[3]或 示 教 编 程(programming by demonstration)[4],是机器人智能性的重要体现,在机器人仿生学中占有重要地位.所谓模仿学习是指模仿者(机器人)通过“观察”示教者(人或机器人)的运动行为,学习运动控制策略,进而获取运动技能[2-4].
模仿学习也被用于缩小状态-动作的搜索空间,获得初始化的控制策略,加快学习速度[5].在工程应用中,由于模仿者和示教者具有不同的执行器空间,因而模仿学习研究的重点是如何将观察的示教运动映射到观察者自身的运动系统,这是行为编码或行为表述的过程[6].模仿学习的行为编码的实现可主要分为2个方面:基于轨迹匹配的低水平表述[7-12],建立感知和运动信息的非线性映射,适合连续运动;基于符号表述的高水平表述[13-14],将运动分解为一系列运动基元,分别编码后,通过基元的叠加组合,再现复杂运动,适合规划和推理,需要更多的先验知识,不适用于连续的运动控制.
早期,由于基于符号的人工智能的发展,机器人最初的模仿学习是以图的形式进行示教运动编码,每一个状态由一个节点表示,状态间的连接用动作表示,利用产生式规则进行推理,通过节点操作实现模仿学习[15].经过30年的研究,针对模仿学习的行为编码,一系列模仿学习的方法被提出,尤其基于轨迹匹配的低水平表述得到快速的发展,其研究主要从以下几个方面展开:1)基于样条的方法[16],利用多项式插值进行轨迹生成;2)动态系统(dynamic system)法[7-8,17-18],将运动建模为一动态系统,通过对动态系统的学习,实现运动模仿;3)基于统计学的随机模型法[9-13],利用统计学的思想,通过概率密度,实现轨迹匹配.此外,还有直接策略学习方法[19]以及受生物学运动基元启发的分层神经网络模型法[14],进行高水平行为表述等.
模仿学习已被用于复杂运动技能的学习,如击球[20]、击 鼓[8,21]、步 态 行 走[22-23]、 打 台 球[24]、Pancake-Flipping[25]、ball-in-a-cup[26]、熨衣服[27]、擦白板[28]、直升机特技表演[29]、汉诺塔游戏[30]等.以上应用正是将模仿认知机制应用于机器人等人工系统中的体现,对模仿学习的研究,既有益于认知科学,也有益于人工智能、机器人学及机器人技术.
本文构建了基于工程应用的模仿学习的概念框架,在该框架的指导下,对目前的研究成果进行论述,重点对模仿学习的基于轨迹水平和基于符号水平的行为表述的方法进行综述,比较其优缺点,讨论了机器人模仿学习和强化学习的关系,最后,结合模仿学习的研究现状及各方法的特点,对模仿学习的未来研究进行展望.
1 机器人模仿学习
模仿的认知神经科学研究发现,猴子在行为观察和执行观察到的模仿动作(如抓取)时,镜像神经元均处于激发状态[31],镜像神经元也被发现大范围地存在于人脑区域中,对人类模仿再现他人动作和理解他人意图具有重要作用[32].受模仿的生物学启发,一系列建立在神经网络基础上的面向认知神经科学的模仿学习和行为理解的模型被提出,具有一定的学习能力,但是不具有灵活性,学习速度较慢,实用性不足,更重要的是不能实现高维复杂运动的模仿,大大限制了其在工程学上的应用.
相较于面向认知科学的神经网络模型,面向工程的模仿学习方法具有更强的行为编码能力,尤其基于轨迹匹配的行为表述方法已成为该领域研究的重点.根据模仿的生物机制,机器人模仿学习的过程可归结为模仿什么(What)、怎么模仿(How)、什么时候模仿(When)[4]这3个问题,也即行为获取、行为表述、行为再现的过程.如果对模仿的过程没有要求,只看重结果,即目的模仿,则需要行为理解,目标推理的过程.本文基于生物模仿学习的仿生机制,构建了机器人模仿学习框架,如图1所示.机器人利用感知模型进行行为获取,获取示教数据,然后利用学习模型进行行为表述(或理解),之后,确定模仿性能指标,得到控制策略,最后通过对机器人执行器的运动控制实现行为再现,最终实现运动技能的学习.
1.1行为获取
行为获取是利用传感器获取示教信息的过程,在研究中采集示教数据的方法有3种:1)示教者手动移动机器人的执行机构,类似“手把手”教学[9-12];2)基于视觉的动作捕捉系统,包括基于标记点的[28,30]和非基于标记点的[33];3)基于穿戴式传感器的[17-18].
获取示教数据后,通常需对其进行预处理,尤其是复杂运动,要做运动分割、降维、滤波、特征提取等,常用到动态时间规整、主成分分析等,将预处理后的示教数据输入学习模型中,作为示教样本点,为行为编码做准备.
1.2行为表述
行为表述即行为编码的过程,是研究如何将观察到的示教行为映射到机器人自身的运动系统,是模仿学习研究的关键所在.有效的行为表述方法要求具备一定的泛化能力和鲁棒性,能够把学习到的行为技能推广应用到新的环境,并且具有一定的抗干扰能力.从研究水平上划分,行为表述的研究可分为以下几个方面.
1.2.1直接策略学习
直接策略学习方法是把模仿学习看作机器学习问题,通过策略梯度的方法,进行直接策略学习,建立状态-动作映射,获得控制策略[19].文献[22,34]通过学习从样本特征到代价函数的线性映射,将模仿学习作为预测问题,把动作看作状态的标签,通过函数策略梯度方法,最小化代价函数,进行直接策略学习.直接策略学习不具有稳定性,不能保证从任意初始状态都能够到达目标状态,而且不能复用,当目标状态发生改变时,必须重新学习控制策略.
1.2.2基于轨迹水平的表述
基于轨迹水平的表述是进行模仿学习行为编码的有效方法,是模仿学习研究的重点所在,其编码空间通常是节点空间、任务空间或转矩空间.运动行为的轨迹生成方法通常有以下3种:基于样条(spline-based)的方法[35-37]、动态系统法[7-8,17-18,38-40]、随机模型法[9-13,41-44].
1)基于样条的方法
基于样条的方法是通过样条节点(via-point)连接多项式函数,应用最优化方法,生成平滑的运动轨迹,表述运动行为的方法,能够快速生成轨迹,但具有时间依赖性,对干扰敏感,如果在轨迹执行过程中,执行器被阻挡,控制器就会产生一个更大的指令来抵抗这种干扰,一旦释放,就会“跳变”到原来的轨迹,很可能造成机器人损坏;当目标发生改变,不具有在线调整能力,需重新计算.
2)动态系统法
动态系统法是由仿生机器人专家Ijspeert[7,17-18]提出的,其本质是利用一系列线性可微方程,加入可学习的自动强迫项,将运动行为建模为非线性动态吸引子模型.该方法主要包含2个步骤:①利用非线性动态系统编码运动轨迹,对运动行为建模;②利用强化学习或最优化方法进行参数学习,确定吸引子图(attractor landscapes).该方法可以建模离散运动(如击球)和节律性运动(如击鼓),离散运动的吸引子是点吸引子,对应运动的目标状态;节律性运动的吸引子为极限环吸引子,对应运动的目标幅值和频率.下面以离散运动的动态运动基元(dynamic movement primitive,DMP)模型为例,简要介绍动态系统法的思想.
基本模型
式中:αz、βz为常数;т为缩放因子;g为目标位置;f为强迫项,是关于高斯函数的非线性函数;z、y分别表示基元在运动过程中的位置和速度.点吸引子(z,y)=(0,g),y最终收敛到g.
为消除非线性系统对时间t的依赖,引入相位变量x,则有标准系统
式中相位变量x从初始状态x0(如x0=1)开始,最终收敛于0.
转化系统方程
式中:ψi(x)为高斯核函数;ωi为权值,也是吸引子图的关键参数.
节律性运动同理,相位变量为φ,核函数为冯·米塞斯函数.
建模是动态系统法的精髓所在,模型建立之后,该方法的关键在于参数的学习.该模型有3类参数:1)正常数α、β;2)权值ωi;3)全局因子т、g、r.其中α、β、т根据经验确定,g、r分别表示目标位置(离散运动)和目标幅值(节律性运动),根据实际情况确定.权值参数ωi的确定常用的方法有局部加权回归(locally weighted regression,LWR)的方法[7,45],这是一种非参数学习方法,能够快速地获得稳定估计;最优化方法,将参数学习问题转化为非线性最优化的问题[34];高斯过程回归方法(Gaussian process regress,GPR)[8]等.
动态系统法不依赖时间,具有很强的鲁棒性,能进行在线校正;具有拓扑等价性,能够在相关情况下方便地移植再应用,用于运动识别,也能够在复杂系统中“叠加”应用.在DMP基本框架的基础上,通过在标准系统和转化系统上添加耦合项等措施对该框架扩展,其鲁棒性、泛化能力进一步增强,能够实现运动避障[39],目标不确定的击打运动[40],输入信号的频率和幅值未知的节律性运动模仿[21]等.
3)随机模型法
随机模型法具有强大噪声处理能力,具有很强的鲁棒性,能够处理高维问题,常被应用于复杂运动的模仿.在机器人的模仿学习中,以下3种随机模型常被用于对示教运动进行编码,然后利用非线性回归、EM算法等方法进行动态模型的学习,进而实现轨迹的匹配.
高斯混合模型 (Gaussianmixturemodel,GMM):基本理论是只要高斯混合的数目足够多,一个任意连续分布可以在任意精度下用这些高斯混合的加权平均来逼近,因此,广泛应用于机器人模仿学习的轨迹生成,具有很强的行为编码能力.如文献[9]通过对示教数据进行训练,学习GMM,获得非线性运动的多维动态系统的稳定估计,不仅可以泛化到未知情景还可以在干扰情况下进行在线调整.文献[41]在任务空间上给出基于方差的模仿学习的框架,利用GMM进行运动建模,以EM算法初始化模型,最后应用GMR和最优化评价器进行轨迹再现,实现模仿学习.文献[11,42]则利用高斯过程建立一随机前向模型,用来表述要模仿的运动,通过分布预测保证数据的有效学习,用KL散度作为模仿性能的指标,进行轨迹匹配,最终实现运动模仿.
隐马尔可夫模型(hidden Markov model,HMM):是一种用来描述含有隐含未知参数的马尔可夫过程的统计模型,其典型问题是根据观察到的序列集进行模型训练,进而找到最有可能的隐含状态序列.文献[43]正是其在机器人模仿学习中的典型应用,首先应用Baum-Welch算法对示教数据训练,得到最有可能的HMM,然后应用Viterbi算法找到最优隐藏序列,最后通过这些状态点的拟合,实现行为再现.该模型具有一定的噪声处理能力,但其编码性能不及高斯混合模型.
动态贝叶斯网络(dynamic Bayesian network,DBN):常被应用于研究不确定性推理和数据分析,能够实现多维离散时间序列的监控和预测.文献[28]正是利用示教数据,构建DBN,通过寻找最大似然行为序列,实现任务再现的技能学习.该模型相较于GMM需要较少的示教样本,计算的复杂度有所降低,编码能力不及GMM,但优于HMM.
文献[44]则提出一种称为(stable estimator of dynamic systems,SEDS)的动态系统参数学习方法,将动态系统与随机模型相结合,给出其全局稳定的约束条件,将函数估计问题转化为最优化问题,学习动态系统参数,实现模仿学习.该方法具有很强的抗干扰性,但全局稳定的约束并不总能满足,一定程度上限制了应用.
1.2.3基于符号水平的表述
当进行复杂的高水平运动模仿时,直接进行行为编码通常不能实现,此时就需要将复杂运动分解为相对简单的子运动,如将拣-放动作分解为接近、抓取、放置、释放4个基元,对子运动进行低水平编码(如DMP),建立基元库,再应用基元组合、序列化,最终实现由一系列基元组成的复杂运动再现.
选择合适的基元,进行正确地序列化是基于符号水平的表述研究的重点.一种方法是应用识别算法,进行分割点匹配[46],但是该方法具有很大的局限性,对识别算法要求较高,一旦某一分割点错误,必然影响后续分割点的提取,最终导致任务失败.更加有效的方法是离散的符号表述[39,47],通过应用传统的人工智能规划算法,比如if-then语句,进行域的场景定义,包括一系列前向和后向条件,前向条件进行动作选择,后向条件保证动作的正确执行,当然实际应用中远比这复杂.
基于符号水平的表述优势在于规划和推理,能够进行选择、循环及层次化的学习,进而实现高水平技能学习,但是需要基元库的支持和大量定义规则的先验知识.
1.3行为再现
对于机器人模仿学习算法来说,行为再现解决的是在行为编码之后,何时进行示教再现的问题,即以什么为标准衡量学习者已经学会了示教者的行为,其关键在于确定一个模仿性能度量,常用的有最优评价器[41,48]、KL散度[11,42]等,以该性能指标为标准,获得最优控制策略.但对于机器人实际应用,做到这一步还不够,还需要通过底层的运动控制,将学习获得的控制策略映射到机器人的执行器空间,实现真正意义上的“可视的”行为再现.
2 模仿学习和强化学习
强化学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖赏值最大,常应用统计技术和动态规划方法进行参数的估计.而机器人模仿学习则属于仿生学的范畴,旨在为机器人建立强大的模仿机制,实现快速的自主学习,提高其智能性.机器人模仿学习和强化学习的共同点在于两者均是通过对样本数据进行处理,进而获得控制策略,也都会用到统计技术,不同之处在于强化学习能够获得高性能控制策略,但存在收敛慢的缺点,其原因在于学习过程仅从经验获得的奖赏中进行策略的改进,而忽略了大量其他有用的领域信息,而模仿学习通过学习示教数据加快学习速度.
尽管模仿学习是运动技能学习的快速有效方法,能够加快学习速度,获得相对高水平的初始化控制策略,但由于示教者本身的局限性,尤其对于高性能要求的运动,如ball-in-a-cup、击球等,仅仅应用模仿学习仍然不能达到性能需要,因此,模仿学习常被用于初始化控制策略的获取,然后,与强化学习算法相结合,如Natural-Actor Critic算法[49]、PoWER[50]、路径积分(PI2)[51-52]等,对策略进一步优化改进,获得最终的高性能控制策略.
此外,还有一种称为学徒学习(apprenticeship learning)[53]的机器人学习方法,与上述思想不同,该方法是通过逆强化学习,尝试推导示教的目的,从示教数据中自动提取奖赏函数,然后最大化该函数获得控制策略.该方法适合用于奖赏函数不宜定义的情况,如直升机特技表演任务[29].
3 展望
通过对模仿学习研究现状的综述以及各学习方法特点的对比,现对机器人模仿学习的未来研究进行展望:
1)从行为获取的方式来看,机器人对自主性的要求越来越高,必须具备自我探索的能力,知道应该从示教者那里模仿什么,因此主动视觉必将是模仿学习行为获取研究的重点.
2)基于轨迹水平和符号水平的行为表述相结合,实现复杂运动的模仿.
3)具备行为理解和目的推理的能力,能够进行目的模仿,而不是“机械地”轨迹匹配.
4)模仿学习和强化学习相结合,获得高性能的控制策略.
模仿学习的最终目标是建立强大的模仿机制,使机器人能够具备和人类一样,甚至超越人类的模仿能力,但这必将是一个长期的过程.
4 结论
1)机器人模仿学习的研究旨在模拟生物的“感知-行动”机制及其诱导的模仿行为,建立模仿的生物仿生机制计算模型,同时,将其应用于认知机器人,使其具有类似人和动物的运动技能学习行为.基于模仿的认知学习与决策模型的引入,使得基于行为的机器人控制体系,能够通过环境感知学习,形成健全的机器人行为协调机制,快速地实现复杂运动技能的获取,使其更好地服务于人类,对于仿生学研究具有重要意义.
2)对模仿学习领域的相关研究进行了系统的综述,构建了模仿学习的工程应用框架,重点从轨迹水平和符号水平的角度对模仿学习的行为表述问题进行论述,指出模仿学习研究的重点,对比了各方法的特点.
3)讨论了模仿学习和强化学习的关系,对机器人模仿学习的研究进行了展望.
[1]SCHAAL S,ATKESON C.Learning control in robotics [J].IEEE Robotics&Automation Magazine,2010,17 (2):20-29.
[2]SCHAAL S.Is imitation learning the route to humanoid robots?[J].Trends in Cognitive Sciences,1999,3(6): 233-242.
[3]ARGALL B D,CHERNOVA S,VELOSO M,et al.A survey of robot learning from demonstration[J].Robotics and Autonomous Systems,2009,57(5):469-483.
[4]BILLARDA, CALINONS.Robotprogrammingby demonstration[M]∥Springer Handbook of Robotics. Berlin:Springer,2008:1371-1394.
[5]SCHAAL S,IJSPEERT A,BILLARD A.Computational approachestomotorlearningbyimitation[J]. Philosophical Transactions of the Royal Society of London (Biological Sciences),2003,358(1431):537-547.
[6]KOBER J,BAGNELL J A,PETERS J.Reinforcement learning in robotics:a survey[J].The International Journal of Robotics Research,2013,32(11):1238-1274.
[7]IJSPEERT A J,NAKANISHI P,PASTOR H,et al. Dynamical movement primitives:learning attractor models for motor behaviors[J].Neural Computation,2013,25 (2):328-373.
[8]UDEA,GAMSA,ASFOURT.Task-specific generalization of discrete and periodic dynamic movement primitives[J].Robotics,2010,26(5):800-815.
[9]GRIBOVSKAYA E,KHANSARI-ZADEH S M,BILLARD A.Learning non-linear multivariate dynamics of motion in robotic manipulators[J].The International Journal of Robotics Research,2011,30(1):80-117.
[10]CALINON S,GUENTER F,BILLARD A.On learning,representing,and generalizing a task in a humanoid robot [J].Systems,Man,andCybernetics(PartB: Cybernetics,IEEE Transactions),2007,37(2):286-298.
[11]ENGLERT P,PARASCHOS A,DEISENROT M P,et al.Probabilistic model-based imitation learning[J]. Adaptive Behavior,2013,21(5):388-403.
[12]CALINON S,BILLARD A.A probabilistic programming by demonstration framework handling constraints in joint space and task space[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems.Nice: IEEE,2008:367-372.
[13]DEISENROTH M P,ENGLERT P,PETERS J,et al. Multi-task policy search for robotics[C]∥Proceedings of 2014 IEEE International Conference on Robotics and Automation.Hong Kong:IEEE,2014:3876-3881.
[14]YAMASHITA Y, TANI J.Emergence of functional hierarchy in a multiple timescale neural network model:a humanoid robot experiment[J].PLoS Computational Biology,2008,4(11):e1000220.
[15]DUFAY B,LATOMBE J C.An approach to automatic robot programming based on inductive learning[J].The International Journal of Robotics Research,1984,3(4): 3-20.
[16]WADA Y,KAWATO M.A via-point time optimization algorithm for complex sequential trajectory formation[J]. Neural Networks,2004,17(3):353-364.
[17]IJSPEERT A J,NAKANISHI J,SCHAAL S.Trajectory formation for imitation with nonlinear dynamical systems [C]∥Proceedings of the IEEE/RSJ Int Conference on Intelligent Robots and Systems.Maui:IEEE,2001:752-757.
[18]IJSPEERT A J,NAKANISHI J,SCHAAL S.Movement imitation with nonlinear dynamical systems in humanoid robots[C]∥ ProceedingsofIEEEinternational conference on robotics and automation.Washington D C: IEEE,2002:1398-1403.
[19]NATARAJAN S,JOSHI S,TADEPALLI P,et al. Imitation learning in relational domains:a functional gradient boosting approach[C]∥Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence.Barcelona:AAAI Press,2011:1414-1420. [20]MULLING K,KOBER J,KROEMER O,et al.Learning to select and generalize striking movements in robot table tennis[J].TheInternationalJournalofRobotics Research,2013,32(3):263-279.
[21]GAMS A,IJSPEERT A J,SCHAAL S,et al.On-line learning and modulation of periodic movements with nonlinear dynamical systems[J].Autonomous Robots,2009,27(1):3-23.
[22]RATLIFF N,BAGNELL J A,SRINIVASA S S.Imitation learning for locomotion and manipulation[C]∥7th IEEE-RASInternationalConferenceonHumanoid Robots.Pittsburgh:IEEE,2007:392-397.
[23]NAKANISHI J,MORIMOTOJ,ENDOG,etal. Learning from demonstration and adaptation of biped locomotion[J].Robotics and Autonomous Systems,2004,47(2):79-91.
[24]PASTOR P,KALAKRISHNAN M,CHITTA S,et al. Skilllearningandtaskoutcomepredictionfor manipulation[C]∥IEEE International Conference on Robotics and Automation.Shanghai:IEEE,2011:3828-3834.
[25]KORMUSHEV P,CALINON S,CALDWELL D G.Robot motor skill coordination with EM-based reinforcement learning[C]∥2010 IEEE/RSJ International Conference on Intelligent Robots and Systems.Taipei:IEEE,2010: 3232-3237.
[26]KOBER J,PETERS J.Imitation and reinforcement learning[J].Robotics&Automation Magazine,2010,17(2):55-62.
[27]KORMUSHEV P,CALINON S,CALDWELL D G. Imitationlearningofpositionalandforceskills demonstrated via kinesthetic teaching and haptic input [J].Advanced Robotics,2011,25(5):581-603.
[28]EPPNER C,STURM J,BENNEWITZ M,et al.Imitation learning withgeneralizedtaskdescriptions[C]∥International Conference on Robotics and Automation. Piscataway:IEEE,2009:3968-3974.
[29]ABBEEL P,COATESA,NGAY.Autonomous helicopteraerobaticsthroughapprenticeshiplearning [J].The International Journal of Robotics Research,2010:1-31.
[30]LEE K,SU Y,KIM T K,et al.A syntactic approach to robotimitationlearningusingprobabilisticactivity grammars[J].Robotics and Autonomous Systems,2013,61(12):1323-1334.
[31]RIZZOLATTIG,FOGASSIL,GALLESEV. Neurophysiologicalmechanismsunderlyingthe understanding and imitation of action[J].Nature Reviews Neuroscience,2001,2(9):661-670.
[32]MUKAMEL R,EKSTROM A D,KAPLAN J,et al. Single-neuron responses in humans during execution and observation of actions[J].Current Biology,2010,20 (8):750-756.
[33]CHER S F.Learning through imitation:a biological approach torobotics[J].IEEETransactionson Autonomous Mental Development,2012,4(3):204-214.
[34]RATLIFF N,BRADLEY D,BAGNELL J A,et al. Boosting structured prediction for imitation learning[J]. Robotics Institute,2007:54.
[35]PETRINECK,KOVACICZ.Trajectoryplanning algorithm based on the continuity of jerk[C]∥Proceedings of Mediterranean Conference on Control and Automation.Athens:IEEE,2007:1-5.
[36]WADA Y,KAWATO M.A via-point time optimization algorithm for complex sequential trajectory formation[J]. Neural Networks,2004,17(3):353-364.
[37]WILLIAMS R L.Improved robotics joint-space trajectory generation with via point[C]∥ASME 2011 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference.Washington,D C:American Society of Mechanical Engineers,2011: 669-676.
[38]KRUGR,DIMITARD.Representingmovement primitives as implicit dynamical systems learned from multiple demonstrations[C]∥ Proceedingsofthe InternationalConferenceonAdvancedRobotics. Montevideo:IEEE,2013:1-8.
[39]PASTOR P,HOFFMANNH,ASFOURT,etal. Learning and generalization of motor skills by learning from demonstration[C]∥IEEE International Conference on Robotics and Automation.Piscataway:IEEE,2009: 763-768.
[40]KOBER J,MULLING K,KROMER O,et al.Movement templates for learning of hitting and batting[C]∥IEEE International Conference on Robotics and Automation. Anchorage:IEEE,2010:1-6.
[41]MUHLIG M,GIENGER M,HELLBACH S,et al.Tasklevel imitation learning using variance-based movement optimization[C]∥IEEE International Conference on Robotics and Automation.Piscataway:IEEE,2009: 1177-1184.
[42]ENGLERT P,PARASCHOS A,PETERS J,et al. Model-based imitation learning by probabilistic trajectory matching[C]∥2013 IEEE International Conference on Robotics andAutomation.Karlsruhe:IEEE,2013: 1922-1927.
[43]ASFOUR T,AZAD P,GYARFAS F,et al.Imitation learning of dual-arm manipulation tasks in humanoid robots[J].International Journal of Humanoid Robotics,2008,5(2):183-202.
[44]KHANSARI-ZADEHSM,BILLARDA.Imitation learning of globally stable non-linear point-to-point robot motions using nonlinear programming[C]∥2010 IEEE/ RSJ International Conference on Intelligent Robots and Systems.Taipei:IEEE,2010:2676-2683.
[45]ATKESON C G,MOORE A W,SCHAAL S.Locally weighted learning for control[M].Berlin:Springer,1997:75-113.
[46]MEIER F,THEODOROU E,SCHAAL S.Movement segmentation and recognition for imitation learning[C]∥International Conference on Artificial Intelligence and Statistics.La Palma:IEEE,2012:761-769.
[47]MUHLIG M,GIENGER M,STEIL J J.Interactive imitationlearningofobjectmovementskills[J]. Autonomous Robots,2012,32(2):97-114.
[48]BILLARDA,EPARSY,CALINONS,etal. Discovering optimal imitation strategies[J].Robotics and Autonomous Systems,2004,47(2):69-77.
[49]PETERS J,SCHAAL S.Reinforcement learning of motor skills with policy gradients[J].Neural Networks,2008,21(4):682-697.
[50]KOBER J, PETERS J.Imitation and reinforcement learning[J].IEEE Robotics&Automation Magazine,2010,17(2):1-8.
[51]THEODOROUE,BUCHLIJ,SCHAALS. Reinforcementlearningofmotorskillsinhigh dimensions:a path integral approach[C]∥2010 IEEE International Conference on Robotics and Automation. Anchorage:IEEE,2010:2397-2403.
[52]PASTOR P,KALAKRISHNAN M,CHITTA S,et al. Skilllearningandtaskoutcomepredictionfor manipulation[C]∥2011 IEEE International Conference on Robotics and Automation.Shanghai:IEEE,2011: 3828-3834.
[53]NEU G,SZEPESVARI C.Apprenticeship learning using inverse reinforcement learning and gradient methods[J]. ArXiv Preprint ArXiv:1206.5264,2012.
(责任编辑 杨开英)
Application of Imitation Learning in the Research of Bionic Mechanism of Robots
YU Jianjun,MEN Yusen,RUAN Xiaogang,XU Congchi
(College of Electronic and Control Engineering,Beijing University of Technology,Beijing 100124,China)
This paper systematically summarizes the process of robot imitation learning and discusses related key problems in this field.Based on the biological mechanism of imitation,an engineering application framework on robot imitation learning is constructed in this paper.Guided by the framework,the research on imitation learning is reviewed,especially about the behavior representation and its research progress.Contrastive analysis between imitation learning and reinforcement learning is formulated in the process of learning motor skills.The future developments of imitation learning is prospected.Hence,the study of the robot imitation learning is a hot-spot of the research on biological bionic mechanism.
robot;bionics;imitation learning;behavior representation;reinforcement learning
TP 242.6
A
0254-0037(2016)02-0210-07
10.11936/bjutxb2014090072
2014-09-28
国家自然科学基金资助项目(61375086);高等学校博士学科点专项科研基金资助课题(20101103110007)
于建均(1965—),女,副教授,主要从事控制理论与控制工程、智能控制、机器人控制方面的研究,E-mail:
yujianjun@bjut.edu.cn