APP下载

面向空间机械臂操作任务的模仿学习策略

2020-06-11李重阳蒋再男蔡鹤皋

哈尔滨工业大学学报 2020年6期
关键词:力矩学习策略约束

李重阳,蒋再男,刘 宏,蔡鹤皋

(机器人技术与系统国家重点实验室(哈尔滨工业大学),哈尔滨 150001)

近年来,随着空间技术和机械臂技术的发展,在空间探索任务中,空间机械臂的应用越来越广泛.利用空间机械臂辅助或代替航天员进行空间作业,不仅大大降低了航天员出舱活动的机率和风险,而且可以提高空间探索的效率[1-3].2016年9月15日,天宫二号空间机械臂搭载发射升空,并成功完成了所有规划实验,这为后续空间站机械臂的设计和控制积累了宝贵的经验[4].实验过程中,机械臂需完成一系列维护维修实例,如利用电动工具旋拧螺钉、拔插电连接器、拆除多层以及抓取漂浮小球等,这些操作实例基本覆盖了已知的在轨维护维修任务中将会面对的所有问题.如何控制机械臂完成以上任务且能克服环境变化的干扰,将是必须面对的挑战.

传统的预编程离线轨迹的方法虽然能够在结构化的空间中完成上述任务[5],但是环境适应性较差,一旦位置发生改变,则不能完成任务.虽然与视觉伺服[6]、激光引导[7]等方法相结合后,可提高一定的环境适应性,但是当与预知工况差别较大时,仍难以完成任务.同时,该方法需要对每一项任务单独编程,即使对同一类任务也需如此,大大增加了操作者的工作量.

针对上述问题,模仿学习策略是一种很好的解决方案[8-10].该策略是一种技能学习策略,能够根据操作者提供的某类任务的运动学实例,构建该任务的运动模型,然后根据当前环境回归获得适合当前任务的轨迹.该策略能够有效地克服环境变化带来的干扰[11-13],且针对其他类别的任务,只需要输入对应的运动学实例即可,大大简化了操作.但该策略若直接应用在空间机械臂操作中仍存在一些问题.该策略主要关注的是机械臂能够克服环境变化的干扰,并方便快速地生成当前任务轨迹;但机械臂执行生成的轨迹时,没有考虑关节期望力矩产生的波动以及运动是否平滑等因素.而空间机械臂大的力矩波动很有可能造成控制不稳定,甚至导致任务失败[1].

本文提出了一种基于动力学约束的模仿学习策略,相对于传统的模仿学习策略,该策略加入了基于机械臂动力学约束的优化,可使机械臂执行任务时的力矩波动和能量损耗均减小,提高控制器的稳定性.

1 方法概述

基于动力学约束的模仿学习策略是一种技能学习策略,相对以往的模仿学习策略,该策略重新设计了机械臂控制器,增加了针对自主生成轨迹的基于动力学约束的优化.基于动力学约束的模仿学习策略主要分为以下两个阶段,如图1所示:

图1 基于动力学约束的模仿学习策略

Fig.1 Learning strategy from demonstration based on dynamics constraint

第一阶段为基于高斯过程的模仿学习.首先,该阶段需要对任务轨迹进行形式化;然后,应用高斯过程算法利用运动学实例对其进行训练,获得当前任务的运动模型;最后,利用训练好的模型以及全局相机和传感器采集到的当前环境状态信息,回归出适合当前场景的笛卡尔期望轨迹的概率分布;

第二阶段为基于动力学约束的机械臂关节控制器设计.该阶段首先将第一阶段中获得的笛卡尔期望轨迹分布映射到关节空间,然后根据最优控制理论设计机械臂关节控制器,该控制器以机械臂动力学为约束条件,以关节期望力矩为输出.

2 基于高斯过程的模仿学习

与以往的模仿学习策略不同,基于高斯过程的模仿学习策略主要是利用高斯过程算法[14]对运动模型进行训练,并利用高斯过程回归获得适合当前任务场景的笛卡尔轨迹分布,使所得结果为一个概率模型,而不仅仅是一条期望轨迹,这为后续的优化提供了条件.

在模仿学习阶段,首先需要对机械的任务轨迹进行建模.依据动态系统理论,将任务轨迹形式化成一阶自治常微分方程的形式,这种形式化方法可使模型在存在空间扰动时,表现出较强的鲁棒性[15].具体表达形式为

(1)

式中:f(·):n→n为一个连续且可微的非线性微分方程,该方程具有唯一的平衡点En表示动态系统的噪声,在本文中主要指来自传感器测量的噪声,并假设该噪声为高斯噪声,其形式为E~N(0,σ2I) ;ξn为输入的状态变量,可根据实际情况选择(例如,ξ可以是机械臂的关节角度、末端位姿以及末端速度等),不同的状态变量对应的微分方程的阶数也不同.根据实际情况,本文选择机械臂的末端位姿为输入的状态变量ξ=[x,y,z,Rx,Ry,Rz],则可得

(2)

式中,σf和l均为该核函数的参数,可通过最小化负对数边界似然获得.

由式(2)可知,运动模型主要描述了当前任务中机械臂速度与位置之间的关系,即根据任务构建出一个速度场.在速度场中的任意位置,均可通过高斯过程回归获得该位置的期望速度:

在实际应用中,利用t时刻的位置信息可回归出t时刻的期望速度,从而可以计算出t+1时刻期望的位置:

(3)

在实际应用中,由于该策略的运动学实例均是根据操作者控制机械臂运动的轨迹计算的,不可避免地带有操作者的一些操作特征.例如,在目标点附近时,操作者往往会反复来回移动操作手柄,以保证对准目标位置.这些操作将会造成生成的笛卡尔期望轨迹收敛时间过长,甚至引起发散.

因此,本文基于文献[17]改进了速度场方法,建立了一个线性速度场.在迭代式(3)的过程中,如果与目标点的距离<δ,则轨迹生成不再继续迭代式(3),而是根据线性速度场计算速度及其分布.同样以沿X轴方向为例,令xg表示沿X轴方向的目标位置.一旦存在时刻t,使得|xt-xg|≤δ,则进入线性速度场范围,速度计算方法为

3 基于动力学约束的机械臂关节控制器设计

基于高斯过程的模仿学习策略可根据机械臂及环境的状态,自主生成对应的笛卡尔任务分布,具有较强的环境适应性.但是,由于生成的轨迹分布均参考来自操作者的运动学实例,受人类生理特性影响,运动学实例本身就可能不够平滑,尤其经过较长时间工作后,操作者肌肉疲劳,这种现象更加明显;因此,直接将获得的期望轨迹分布均值用于机械臂控制,可能会造成关节控制力矩波动过大,甚至控制不稳定.

针对上述问题,提出了一种基于动力学约束的机械臂关节控制器.该控制器旨在保证成功完成任务的同时,减小关节输出力矩波动和能量消耗,使机械臂的运动更加平滑.

对于一项任务,一般均有多条不同轨迹能满足要求,即当轨迹位于一定的置信区间内,均可认为能够满足任务需求.而上节中的轨迹分布可用于计算该置信区间.因此,将控制器设计成线性二次跟踪型(LQT)的形式:

(s(t)-s*(t))+uT(t)·R·u(t))+

(s(tf)-s*(tf))T·Qf·(s(tf)-s*(tf)),

(4)

式中:∑t为t时刻期望轨迹分布的协方差,Q为定值.引入马氏距离,可以理解为当∑t大时,期望轨迹的不确定性高,机械臂控制器可以有更大空间调整,优化将倾向于减少输出力矩,反之亦然.

本文采用微分动态规划方法[18]对式(4)问题进行求解.带偏置的LQT问题的最优反馈控制律可写成如下形式:

u*(t)=-R-1·BT(t)·(M(t)·s(t)+p(t)).

其中,M(t)和p(t)均可通过Ricatti递归进行求解,

(5)

M(t)和p(t)可通过对式(5)进行数值积分获得.参数Q、R和Qf需要人为调节,以使控制器达到更好的效果.

但是,该控制器工作在机械臂关节空间,而基于高斯过程的模仿学习策略的结果是笛卡尔空间的轨迹分布,因此需要对其进行映射.该分布的均值映射较为简单,直接利用逆运动学进行映射即可.而协方差映射需要从速度分布映射入手.由于笛卡尔空间的速度和关节空间的速度在瞬时为线性关系

4 实验验证

为验证策略的可行性,本文利用天宫二号空间机械臂进行实验验证.该机械臂为六自由度轻型机械臂,Denavit-Hartenberg(D-H)参数如表1所示,惯量参数如表2所示,其坐标系如图2所示.其中,惯量为相对于质心测量获得,质心位置为相对于D-H坐标系测量获得.为简化计算,在计算惯量参数时,将灵巧手和机械臂末端划分成一个整体.

表1 D-H参数

表2 惯量参数

本文利用空间机械臂定位螺钉的实验验证上述策略,如图3所示.实验场所位于天宫二号空间实验室内,环境为空间微重力环境.该实验是天宫二号机械臂利用电动工具旋拧螺钉任务的重要组成部分.

图2 天宫二号机械臂坐标系

图3 电动工具定位螺钉实验

实验开始时,空间机械臂已经完成了电动工具的抓取,需要通过基于动力学约束的模仿学习策略引导机械臂到达螺钉上方20 mm处的预旋拧位置,做好旋拧准备.具体执行步骤如下:

Step1:操作者操作CyberForce力反馈手柄控制机械臂完成该任务,并记录末端轨迹.为兼顾结果的泛化能力和操作的便捷性,本实验中采集同一操作者的3组操作轨迹,并据此生成该任务的运动学实例.为验证算法的泛化能力,3组操作轨迹均为直接记录,未经过挑选.为方便后续计算,本文在螺钉上方20 mm处的目标位置处建立了目标坐标系,如图3所示,并将运动学实例在该坐标系下表示,如图4所示:

Step2:利用全局相机以及机械臂自身传感器测量机械臂末端位姿与目标位姿,并在目标坐标系下表示,具体数值为[99.47 mm,-103.35 mm,-2.72 mm,0°,0°,0°].然后,利用基于高斯过程的模仿学习策略生成期望的适合该任务的笛卡尔轨迹分布(目标坐标系下表示),如图5所示.其中虚线为期望的笛卡尔轨迹均值,灰色区域为置信区间,该区间根据置信度和分布的协方差计算得到,本文中设置置信度为68.27%(3σ原则).

图4 运动学实例轨迹

图5 期望的笛卡尔轨迹分布

由于机械臂和操作平台均为在轨重新组装,所以地面记录的位置并不准确.实际实验中发现,因为舱体膨胀以及操作台支架存在缝隙,实际偏差远远超出了电动工具的容差范围,但是在利用基于动力学约束的模仿学习策略时仍能完成任务,体现了该策略具有较好的环境适应性.

Step3:设计基于动力学约束的机械臂关节控制器,生成期望的关节驱动力矩,并指导空间机械臂运行.初始状态下,机械臂实测关节角度为[79.85°,-9.44°,-76.48°,-83.47°,-81.54°,-10.46°].将该控制器与计算力矩控制器对比,关节控制力矩、关节角加速度和关节速度如图6~8所示.

由图6可以看出,与传统的计算力矩控制器相比,基于动力学约束的控制器能产生更加平滑的控制力矩.尤其是负载较大的前3个关节,效果更加明显.以第1关节为例,基于动力学约束的控制器产生的控制力矩的峰-峰值相对于计算力矩控制器减小了45%以上,波峰数也由原来的5个减小到了3个,减少了40%,并且有效平滑了尖峰.

由图7可以看出,应用基于动力学约束的控制器可以产生更加平滑的关节角加速度.其变化趋势与关节力矩类似,各个关节角加速度的峰-峰值和波峰数均有明显减小,尤其是关节6,峰-峰值由1.077 8减小到0.405 2,减小了62%,波峰数由5个减小到3个,减小了40%.应用基于动力学约束的控制器时,关节角加速度没有尖峰,运动更加平滑.

如由8可以看出,应用基于动力学约束的控制器可使机械臂运动过程中速度的波峰数量减少,且波动的峰-峰值也会随之减小.

能耗是衡量空间机械臂性能的重要指标,本实验中的能耗对比如图9所示.由图9可知,应用基于动力学约束的控制器可使机械臂运行能耗明显降低,以该任务为例,相比于应用计算力矩控制器,基于动力学约束的控制器的能耗可减少31%.

图6 机械臂关节控制力矩

图7 机械臂关节角加速度

图8 机械臂关节角速度

图9 机械臂能量消耗

图10为应用基于动力学约束控制器时,机械臂末端轨迹在置信区间中的位置.

图10 实际笛卡尔轨迹

由图10可以看出,末端轨迹均位于依据3σ原则建立的置信区间内,能够满足任务需求.

4 结 论

1)本文面向空间机械臂操作任务,提出了一种基于动力学约束的模仿学习策略.该策略主要分为两个阶段,第一阶段为基于高斯过程的模仿学习;第二阶段为基于动力学约束的机械臂控制器设计.与传统的模仿学习加计算力矩控制器的策略相比,该策略不仅具有操作便捷且克服空间扰动的优点,还可以有效降低关节力矩波动,同时减小能量消耗.

2)基于高斯过程的模仿学习阶段引入改进的速度场方法,克服了临近目标位置时笛卡尔期望轨迹收敛时间过长,甚至引起发散的问题.

3)在基于动力学约束的机械臂控制器设计阶段引入马氏范数,充分考虑了期望轨迹分布的不确定性,使该控制器的调整优化更符合任务需求.

4)为验证该方法的有效性,设计了机械臂定位螺钉的实验.实验结果表明,该策略与传统模仿学习加计算力矩控制的策略相比,大负载关节力矩波动的峰-峰值可减少45%,波峰数可减少40%,能耗可减少31%,且使得关节力矩、角加速度以及角速度更加平滑.未来该策略可以尝试应用于接触任务和自由漂浮基座空间机械臂.

猜你喜欢

力矩学习策略约束
一种制动器力矩测量系统的研制及应用
基于自主学习策略的高中写作教学探索
应用型本科层次大学生网络在线学习策略及实践
探析初中英语词汇学习现状与词汇学习策略
高三英语复习教学中的合作学习策略
马和骑师
发动机阻力矩计算和起动机介绍
弹性负载力矩下舵偏转角度的测量方法
基于D-最优化理论的陀螺仪力矩反馈测试法
适当放手能让孩子更好地自我约束