含弹簧阻尼缓冲机构空间机器人捕获卫星操作的避撞柔顺强化学习控制

2020-09-05朱安，陈力

控制理论与应用 2020年8期

朱安，陈力

(福州大学机械工程及自动化学院，福建福州 350116)

1 引言

随着人类在空间探索、卫星通信、气象观测、资源勘探、导航定位等领域研究的深入，全球每年向太空发射的卫星数量正在不断地攀升.这些卫星中难免会有一小部分未能到达预定轨道，或者在轨道运行过程中发生失效，若能对其进行回收与维修，它们仍能继续使用.另外，一般情况下卫星达到使用寿命是因为其携带的燃料耗尽而不是出现故障，如果可以进行燃料的补给，这些卫星仍能继续工作.而实现上述卫星回收与燃料补给任务的关键就是对卫星进行捕获操作.目前，使用空间机器人对卫星进行捕获操作具有广阔的应用前景.已经受到了国内外学者的广泛关注[1-5].

一般情况下，空间机器人在轨捕获卫星的过程可分为4个阶段:1)对被捕获卫星进行观测;2)空间机器人逐渐靠近被捕获卫星，进行捕获阶段的准备;3)空间机器人末端抓手与被捕获卫星的捕获点接触、碰撞;4)捕获完成后，对空间机器人与被捕获卫星形成的混合体系统进行镇定控制.针对捕获第3阶段的动力学分析问题，众多学者进行了深入的研究[6-9].程靖等[10]对空间机器人捕获卫星过程的动力学演化模拟进行了分析;Uyam等[11]对空间机器人与自由漂浮卫星的接触效应进行了实验的评估;Dimitrov等[12]详细建立了空间机器人捕获卫星过程的接触动力学模型，并分析了捕获过程的动量交换问题;Yoshida等[13]基于动量守恒定律研究了空间机器人获卫星的碰撞动力学及运动学问题;董楸煌等[14]利用假设模态法近似描述柔性杆的弹性变形，然后利用动量冲量法分析了空间机械臂捕获卫星的碰撞动力学.值得注意的是，上述学者的主要关注点均在碰撞动力学上，未考虑空间机器人关节的脆弱性，从而忽略了对其的保护.事实上，若捕获操作中未对关节进行保护，关节就有可能受到冲击破坏，从而使捕获操作失败，甚至造成空间机器人的损坏.

地面机器人中，为了使机器人与外界环境发生碰撞时保护其关节不受冲击破坏，在机器人关节电机与机械臂之间加入弹簧缓冲机构(spring buffer device，SBD)实现对冲击载荷的缓冲是一种行之有效的方法[15-19].但对于空间机器人，SDB的加入会增加关节的柔性，由于空间机器人系统为无根树系统，且其处于微重力、高真空的环境中，关节柔性的存在会使机械臂在镇定控制过程中产生振动，造成控制精度的下降，严重时可能使系统失稳.因此，本文针对空间机器人，尝试设计了一种弹簧阻尼缓冲机构(spring-damper buffer device，SDBD).相较于SBD，SDBD 不仅能够实现对冲击载荷的快速缓冲卸载，而且还能使柔性振动快速衰减，实现对柔性振动的抑制.

针对捕获第4阶段的失稳混合体系统镇定控制问题，Liu等[20]采用阻抗控制对双臂空间机器人捕获卫星后的混合体系统进行了镇定控制方案;Huang等[21]针对空间机器人捕获卫星后质量特性与反作用轮结构发生变化的问题，提出了一种改进的状态依赖Riccati方程最优控制器;Luo等[22]考虑了混合体系统的不可测状态、未知惯性特性和外部干扰，提出了一种基于有限时间收敛的鲁棒无惯性预定性能控制方案.然而，上述控制方案均未考虑冲击效应，冲击效应较大时空间机器人将处于严重失稳的状态，此时一般的控制策略难以对其进行镇定控制.强化学习能够通过智能系统从环境到行为映射的学习，以使强化信号值达到最大.强化学习不同于其他形式的机器学习方式，其通过环境提供的强化信号来对机器产生动作的好坏作出一种评价(通常称为惩罚信号)，而不是告诉强化学习系统如何去产生正确的动作，因此其能表现出极强的环境适应能力.Hu等[23]针对系统参数与死区未知的机械臂，利用状态网络对机械臂的状态进行预测，利用评价网络评估操作策略的性能指标，提出了一种神经网络强化学习模型.Li等[24]针对末端执行器运动受限的机器人系统，提出了一种自适应阻抗控制策略，并利用积分强化学习方法解决了线性二次调节模型的运算问题.Li等[25]针对参数未知、具有共同期望轨迹的多机器人协调控制问题，提出了一种自适应强化学习策略.考虑到强化学习优越的环境适应能力，本文针对严重失稳的混合体系统镇定控制问题，提出一种强化学习自适应模糊控制方案.考虑到混合体系统失稳严重，若直接利用强化信号设计控制力矩，很容易导致强化学习系统因信息源单一而使镇定控制失败;因此，本文采用一个代理器从固定增益控制器、自适应惩罚单元、模糊动作发生单元中收集信号，并通过该信号设计控制力矩，从而增强了学习系统的稳定性.

本文设计了一种SDBD以实现在空间机器人捕获卫星操作过程中保护其关节免受冲击破坏.用含耗散力Lagrange方程法与Newton-Euler法导出了分体系统动力学方程;利用Newton第3定律、捕获点的速度约束、各分体的位置约束计算了碰撞冲击效应、冲击力，并结合动量守恒关系导出了混合体系统动力学方程;提出了一种避撞柔顺强化学习控制方案实现对失稳混合体系统的镇定控制;通过对捕获操作过程的仿真分析，验证了所提策略的有效性.

2 SDBD模型结构及避撞策略

2.1 SDBD模型结构

SDBD模型结构示意图如图1所示，其主要由旋转阻尼器与扭转弹簧组成.为了更加真实的描述电机与机械臂处的阻力，分别在其上添加了等效阻尼器.图中ksi，Dti(i=1，2)分别为扭转弹簧的刚度、旋转阻尼器的阻尼系数;Dmi，DLi(i=1，2)分别为电机、机械臂端等效阻尼器的阻尼系数.

图1 SDBD模型结构示意图Fig.1 Structural model of SDBD

2.2 避撞策略描述

在捕获的第3阶段，空间机器人机械臂末端与被捕获卫星发生碰撞，此时机械臂端将受到很大的冲击力矩.在传导至电机转子的过程中，该力矩会被弹簧和阻尼器快速卸载，从而实现对关节的保护.在捕获的第4阶段，由于冲击效应的存在，电机开启时会产生瞬时冲击力矩，若该力矩超过关节所能承受的极限而未关停电机，关节很可能会发生损坏.因此，需要根据关节所能承受的极限力矩值来设置一个关机力矩阈值，当检测到冲击力矩超过所设阈值后电机关停，此时SDBD中的弹簧将会提供弹力来减小关节所受冲击力矩，阻尼器将会快速耗能抑制柔性振动.然而，在实际操作中，如果只设定一个关机力矩阈值，将导致电机频繁的开关机，很容易造成电机的损坏.由此，本文所提的避撞策略同时设置了开、关机阈值.当检测到关节所受冲击力矩超过关机力矩阈值时电机关停;当SDBD将冲击力矩降低到开机阈值时电机再次开启.

3 空间机器人捕获卫星操作分析

3.1 分体系统动力学建模

配置SDBD的空间机器人系统与卫星系统如图2所示.

图2 空间机器人与卫星系统Fig.2 Space robot and satellite systems

图中:xOy为系统随轨道平动的惯性参考坐标系;xiOiyi(i=1，2)为空间机器人各分体的主轴连体坐标系;xsOsys为固定在卫星质心上的本体坐标系.文中所用符号定义如下:m0，I0，d0分别为载体的质量、转动惯量、质心到第一个关节铰中心的距离;ms，Is，ds分别为卫星的质量、转动惯量、质心到末端把手的距离;mi，Ii，Li(i=1，2)分别为第i个机械臂的质量、转动惯量、长度;Imi(i=1，2)为第i个电机转子的转动惯量;di(i=1，2)为第i个关节铰中心到机械臂i质心的距离;θ0，θi，θs，θmi(i=1，2)分别为载体姿态角、机械臂转角、卫星姿态角和电机转子转角.

由图2可导出载体质心O0、机械臂i质心Oci(i=1，2)相对原点O的矢径为

式中:x0，y0为载体质心坐标;aj(j=1，2，3)为xj轴的基矢量.对式(1)求导可得空间机器人各分体质心的运动速度矢量，基于此可得其动能表达式为

由于SDBD的引入，空间机器人系统存在非有势力，因此需补充耗散函数:

含耗散力的Lagrange方程为

式中:Lr=Tr－Ur为Lagrange函数，Q ∈ℝ5×1为系统广义力.结合式(2)-(5)可得碰撞前的空间机器人系统动力学方程为

采用Newton-Euler法可获得碰撞前卫星的动力学方程为

式中:Ms∈ℝ3×3为卫星系统对称、正定的惯量矩阵;qs=[xsysθs]T为卫星系统广义坐标，xs，ys为卫星质心坐标;Js∈ℝ3×3为卫星把手被捕获点的运动雅克比矩阵;Fp′∈ℝ3×1为被捕获点所受作用力，由牛顿第三定律可知F +Fp′=03×3.

3.2 碰撞冲击效应与碰撞力计算

空间机器人捕获卫星操作的过程中未受到外力，因此整个系统满足动量守恒，假设碰撞时间为Δt，对式(6)第1式、式(7)在碰撞时间内积分得

式中t0为碰撞时刻.由于碰撞时间Δt很短，在这一时段可以认为系统的广义坐标未发生突变，仅有广义速度和广义加速度发生突变.为了保护关节电机，在捕获碰撞阶段电机处于关机状态，故式(8)-(9)可近似写为

为碰撞冲量，且有f +fp′=03×3.

碰撞结束后空间机器人末端抓手捕获点P、卫星把手被捕获点p′相对原点O的矢径为

式中:rs=[xsys]T为卫星质心相对原点O的矢径，as为xs轴的基矢量.

对式(12)求导并进行增广，可得碰撞后捕获点与被捕获点的运动速度矢量为

碰撞结束后空间机器人与卫星固连成一个整体，此时满足速度约束

结合式(10)-(14)可计算出碰撞冲击效应为

将式(15)代入式(10)可计算出碰撞冲量fp为

3.3 混合体系统动力学建模

式(14)对时间求导，并结合式(13)可得碰撞后卫星的加速度为

由于F +Fp′=03×3，结合式(6)-(7)可得混合系统动力学方程为

在实际的应用中，为了延长空间机器人的使用寿命，其载体位置一般处于无控的状态;而为了保证与地面的通讯，需要将其天线指定向特定区域，因此载体姿态需受控.由于Hrs矩阵的前两列元素均为零，故对式(19)第1式进行如下分块:

式中:

4 控制器设计

由于本文考虑捕获的卫星具有高速、旋转特性，捕获完成后的空间机器人与卫星形成的混合体系统将严重失稳，若直接利用强化信号设计控制力矩，很容易导致强化学习系统因信息源单一而使镇定控制失败.因此，为了提高强化学习系统的稳定性，所提策略通过一个代理器从固定增益控制器、自适应惩罚单元、模糊动作发生单元中收集信号，且利用该信号设计控制力矩，从而实现失稳混合体系统的镇定控制.

由于空间机器人系统参数未知，如液体燃料的消耗导致载体质量变化，机械臂向阳面与背阳面温差导致机械臂质心偏移等，为了保证系统的稳定和跟踪性能，本文采用了关联搜索单元(associate search element，ASE)对应的模糊控制器，对自适应惩罚单元(adaptive penalty element，APE)进行了改进，使模糊控制器的权值可根据惩罚信号进行调整.

强化学习系统结构如图3所示，其中APE调整的模糊控制器不直接生成控制信号，而是用于逼近空间机器人系统的不确定项;性能评测单元通过测量系统状态生成误差评测信号S;APE通过对该信号的采集，生成惩罚信号f对模糊系统进行优化.

图3 强化学习系统结构Fig.3 The diagram of reinforcement learning system

定义轨迹跟踪误差e与误差评测信号S为

结合式(21)-(23)可得为系统的不确定项.为了尽量消除系统不确定项对控制精度的影响，因此采用ASE对应的模糊控制器对不确定项进行估计.

式中χn为各个隶属函数为1时的值.y(x)可进一步简写为

式中:C ∈ℝN×m为理想权值矩阵;

为回归向量，其定义为

基于以上描述，ρ可以被逼近为

假设不确定项被模糊控制器逼近的估计值为

式中Kτ∈ℝ3×3为正定对角矩阵.

将式(30)代入式(24)得

通过APE可设计如下惩罚信号:

式中:KW，KC∈ℝ3×3为正定的对角矩阵，η为正数.

假设1RBF神经网络与模糊控制器的理想权值均有界，即‖W‖≤Wm，‖C‖≤Cm.

假设2模糊控制器逼近误差有界，即‖δ‖≤δm.

定理2若假设1-2均成立，且采用式(23)所示的误差测评信号，式(30)所示的控制信号，式(32)所示的惩罚信号，式(33)所示的自适应率，则可保证闭环系统中的所有信号均有界.

证定义如下形式的Lyapunov函数:

式中:Mrsθ为混合体系统正定惯量矩阵，，因此V 是正定函数.对式(34)求导得

将式(31)(33)代入式(35)可得

结合定理1，式(36)可化简为

令KτD=Kτ+DLrsθ，且将与式(32)代入式(37)可得

因此得

由模糊函数的定义可知‖φ‖2≤N，故式(39)可化简为

式中:Kmin为KτD的最小元素，

因此，由式(41)-(43)，可以定义条件

通过Lyapuno稳定性理论保证V 收敛，进一步由式(34)可得S，均收敛，再由式(22)-(23)可得qrsθ，均收敛.

5 仿真模拟分析

5.1 碰撞过程弹簧阻尼缓冲机构抗冲击性能模拟

采用图2所示的空间机器人与卫星系统进行仿真试验.空间机器人参数如下:

卫星参数如下:

假设空间机器人初始位置为

初始速度为

为了验证SDBD在空间机器人捕获卫星操撞击过程中的抗冲击性能，在多组卫星速度下，对关节所受冲击力矩进行力学模拟.结果如表1所示.

表1 不同卫星速度下SDBD抗冲击性能对比Table 1 Comparison of impact resistance of SDBD at different satellite velocities

从表1可以看出，在碰撞过程中，对于给定的不同卫星速度，SDBD均能显著的降低关节所受冲击力矩，且最大可以降低52.04%，因此可以认为其能在碰撞过程对关节起到较好的保护作用.

5.2 镇定控制过程柔顺策略性能模拟

为了实现捕获后严重失稳的混合体系统的镇定控制，采用式(30)所示的控制力矩对其进行控制.首先，通过性能评测单元测量系统状态继而生成误差评测信号S;然后，利用APE对该信号的采集生成惩罚信号f;最后，通过惩罚信号对系统状态进行优化，从而不断地使模糊控制器达到最优逼近状态，即实现控制的最优化.通过以上方式设计的强化学习系统，可以有效的避免因信号源单一而造成的系统不稳定问题，从而实现对失稳混合体系统的镇定控制.

控制参数:

为了突出镇定控制过程中SDBD的性能，本文与目前较常用的一种SBD-串联弹性执行器(series elastic actuator，SEA)进行对比.假设在电机负载情况下，关节能承受的冲击力矩为60 Nm;第1组仿真将关机力矩阈值设置为FC=40 Nm，开机力矩阈值设置为FO=5 Nm;考虑到随着空间机器人使用年数的增加，关节所能承受冲击力矩将会下降，因此第2组仿真将关机力矩阈值设置为FC=30 Nm，开机力矩阈值设置为FO=5 Nm.

通过图4-5的对比可以发现，在混合体系统实际状态与期望状态存在误差时，自适应惩罚元件会不断地发出惩罚信号对模糊控制器进行优化，最终实现控制器的最优化.

图4 配置SDBD惩罚信号(第1组)Fig.4 Penalty signal with SDBD(1st group)

图5 配置SEA惩罚信号(第1组)Fig.5 Penalty signal with SEA(1st group)

通过图6-7和图8-9的对比可看出，由于SDBD中的阻尼器可以快速消耗冲击能量，其系统表现为耗散系统，因此配置SDBD比配置SEA的系统更加稳定(电机开、关机次数越多说明系统越不稳定)，且可以预测，随着设置的关机力矩阈值继续减小，配置SEA的系统将会失稳.

图6 配置SDBD电机切换信号(第1组)Fig.6 Switch signal of motor with SDBD(1st group)

图7 配置SEA电机切换信号(第1组)Fig.7 Switch signal of motor with SEA(1st group)

图8 配置SDBD电机切换信号(第2组)Fig.8 Switch signal of motor with SDBD(2nd group)

图9 配置SEA电机切换信号(第2组)Fig.9 Switch signal of motor with SEA(2nd group)

通过图10-11和图12-13的对比可发现配置SDBD比配置SEA能更好的将冲击力矩限制在安全范围内，即不会出现到达关机阈值后冲击力矩继续上升的现象，考虑到随着使用时间的增加，关节的抗冲击性能将会下降，因此配置SDBD的空间机器人将比配置SEA的空间机器人具有更长的使用寿命.

通过图14-16可以看出，配置SDBD与配置SEA均能使系统达到期望状态，但配置SDBD相较于配置SEA具有更小的超调量，也反映出配置SDBD具有更好的稳定性.

图12 配置SDBD关节冲击力矩(第2组)Fig.12 Joint impact torque with SDBD(2nd group)

图13 配置SEA关节冲击力矩(第2组)Fig.13 Joint impact torque with SEA(2nd group)

图14 载体姿态角轨迹(第1组)Fig.14 Trajectory of attitude angle(1st group)

图15 关节角1轨迹(第1组)Fig.15 Trajectory of joint angle(1st group)

图16 关节角2轨迹(第1组)Fig.16 Trajectory of joint angle 2(1st group)

6 结论

本文为了在空间机器人捕获卫星操作过程中保护其关节不受冲击破坏，在关节电机与机械臂之间设计了一种SDBD，并给出了一种配合该装置的避撞柔顺策略;计算了捕获过程的碰撞冲击效应、冲击力，导出了失稳的混合体系统动力学方程，并针对该系统的镇定控制提出了一种强化学习自适应模糊控制方案.通过分析可以得出以下结论:

1)捕获操作的碰撞过程中，关节处会产生很大的冲击力矩，在电机与机械臂之间添加SDBD可以实现冲击载荷的快速卸载;

2)捕获操作的镇定控制过程中，配合SDBD所设计的避撞柔顺策略可以将关节所受冲击力矩限制在安全范围内，且配置SDBD的性能比配置SEA的性能更加优越，系统更稳定.