APP下载

基于Policy Gradient的机械臂运动跟踪控制器参数整定

2021-08-23韩霖骁胡剑波宋仕元王应洋贺子厚

系统工程与电子技术 2021年9期
关键词:控制参数控制器机械

韩霖骁,胡剑波,宋仕元,王应洋,贺子厚,张 鹏

(空军工程大学装备管理与无人机工程学院,陕西 西安 710051)

0 引 言

机械臂作为一个高度复杂的时变耦合非线性系统,是机器人系统的核心技术之一,已逐渐成为衡量一个国家高端制造业水平的标志。目前,针对机械臂系统跟踪控制的学术成果斐然,主要分为以下两类问题[1]:一是解决机械臂系统在测量建模过程中的误差[2-4],二是减弱系统负载变化和外部干扰影响。文献[2]通过设计一种基于模糊自适应神经网络的鲁棒控制器,避免了机械臂系统参数无法准确测量对跟踪性能产生的影响。文献[3]针对机械臂系统参数不确定问题,设计了一种参数在线估计的自适应滑模控制器。本文聚焦参数不确定问题,通过人工智能(artificial intelligence,AI)算法对控制器参数进行整定,以保证机械臂控制器良好的轨迹跟踪效果。当前机械臂轨迹跟踪控制器种类繁多,比例-微分(proportional-derivative,PD)控制作为一种经典的传统控制方法,凭借其原理简单、使用方便且鲁棒性强的特点,如今在各领域有着广泛的研究和运用,如机械臂控制[5-11]、四旋翼无人机飞行控制[12-14]和仿人机器人控制[15-16]。本文通过PD控制器这一算例对PG(Policy Gradient)参数整定器进行仿真验证。PD控制方法鲁棒性强体现在PD控制器的控制效果对被控对象特性的变化不敏感,具备较强的抗干扰能力,而影响PD控制器控制效果的关键因素之一是其控制器参数。为改善PD控制器侧重于稳态性能而对系统动态性能控制不够的问题,本文通过设计基于PG的参数整定器对PD控制器参数进行整定,以改善其动态性能,从而达到更优的控制效果。

参数优化是一种行之有效的提高控制效果的方法,而比例-积分-微分(proportional-integral-derivative,PID)控制器的参数自整定方法按工作机理可以分为两大类:一是基于规则的自整定方法;二是基于辨识的自整定方法[17]。自1942年Ziegler和Nichols提出著名的临界比例度法以来,当前PD控制器参数优化方法有粒子群算法[18-20]、混沌原子搜索优化算法[21]、Levenberg-Marquart算法[22-23]、遗传算法[24-25]、量子寻优算法[26]等。与其他参数优化方法不同的是,强化学习具有收敛速度快、不依赖于先验知识、克服局部最优且实时性强的特点。

文献[27-30]对强化学习算法在参数优化中的应用作以充分的讨论。文献[27]设计了一种基于Q-learning参数整定的PID控制器,使被控系统的调速性能更加优良,但Q-learning算法只适用于离散问题。文献[28-29]均讨论了通过DQN(Deep Q Nerwork)算法进行参数设计,其中文献[28]利用DQN算法对飞行姿态模拟系统进行了控制算法设计,数值仿真结果表明,经过一定时间的学习之后能达到良好的控制效果。文献[29]将DQN算法同一种遗传算法结合设计了一种参数估计器,能够实现较为准确的参数估计,但仍存在只适用于离散的情况且学习时间长,时效性较差。文献[30]将Actor-Critic结构用于滑模控制器的参数整定中,避免了控制参数选取的盲目性并取得了良好的控制效果,但Actor-Critic网络结构较为复杂。因此,本文选择PG算法来进行PD控制器参数整定器的设计,PG算法神经网络结构较为简单,学习时间较短且能够处理连续状态问题。为了进一步提高PG参数整定器的性能,本文通过引入积分器来改善整定器性能,将其学习过程中的行为连续化。

本文所使用的参数整定器结构较小,结构简单,计算量小,经过学习后可以直接用于被控系统无需再次进行学习,同时可在额外增加计算量的情况下进行在线学习,适合用于嵌入式系统。

1 问题描述

考虑摩擦非线性与动力学非线性的特点,机械手混合动力学模型描述如下:

(1)

式中:

式中:KT=diag{KT1,KT2,…,KTn}为正定矩阵,表示直流电机工作参数;N=diag{nk1,nk2,…,nkn}为机械臂关节电机的齿轮减速比;Dm=diag{Dm1,Dm2,…,Dmn}为驱动系统各部件折算到电机侧的转动惯量,为正定矩阵;Lm=diag{Lm1,Lm2,…,Lmn}为驱动系统各部件的粘滞系数且为正定矩阵。

将系统驱动电流I作为机械臂的控制输入量,得到机械臂模型:

(2)

对于机械臂模型式(2)需说明如下。

(1)对于∀x,惯性矩阵D(q)符合:

m1‖x‖2≤xTu(q)x≤m2‖x‖2,q∈Rn

(2)对于∀x,存在:

(3)当忽略不确定项,该模型可线性化为

2 控制器设计与稳定性分析

取独立PD控制律[31]为

(3)

此时,机械手的方程为

(4)

(5)

定理 1如果控制增益矩阵Kd与Kp满足正定条件,则控制器式(3)满足Lyapunov理论的稳定性条件。

证 明取Lyapunov函数为

(6)

由D(q)及KP的正定性可知,V是全局正定的,则

(7)

证毕

引理 1LaSalle定理

对于微分方程组:

并设M是微分方程组在S内的最大不变集。如果V是G上的李雅普诺夫函数,而γ+(x0)是微分方程组落在G内的有界轨道,则当t→∞时,x(t,x0)→M。

3 PG参数整定器设计

PG是一种有效的强化学习方法。PG参数整定器的本质是通过一个引入参数θ的神经网络,设定期望收益作为评价指标,经过n次行动后通过梯度上升的方法寻到使期望收益最高,即控制效果最优的一组参数值,PG参数整定器的整定对象是式(3)中的关键参数矩阵Kd和Kp,结构如图1所示。图1描述的是PG离线整定过程,整定结果为4组变化的参数值。

图1 控制系统结构框图Fig.1 Block diagram of control system structure

3.1 设定期望收益

设行动状态序列τ为

τ={S1,A1,S2,A2,…,Sn,An}

(8)

式中:Ai为第i次行动的参数矩阵,表示为

Ai=[Kdi,Kpi]

Si为PD控制器在参数矩阵Ai作用下对机械臂控制效果的状态描述,控制过程如图2所示。

图2 马尔可夫决策过程Fig.2 Markov decision process

为了使离散的整定过程连续化,对行动矩阵Ai作以改写,表示为

设定

在给定神经网络参数θ的前提下,出现行动状态序列τ的概率为

Pθ(τ)=P(S1)Pθ(A1|S1)P(S2|S1,A1)Pθ(A2|S2)

P(S3|S2,A2)…=

因此,对于行动序列τ的累积期望收益为

(9)

式中:

(10)

3.2 梯度求解

不同于深度学习中梯度下降来求最小值的方法,策略梯度求解是通过梯度上升的方法对收益函数式(9)求最大值,将式(9)对参数θ求导,得到

(11)

式中:R(τ)并不要求完全可微。同时在PG参数整定器训练的过程中会进行采样训练,次数为N,得到结果如下:

EτPθ(τ)[R(τ)lgPθ(τ)]≈

(12)

3.3 基准线与折旧因子

由于在训练过程中参数矩阵Ai的采样是在给定范围内随机进行,因此往往会出现以下两种阻碍学习效率的情况:一是可能会出现范围内的某个参数矩阵Ai不被选取的情况,而该参数矩阵Ai可能恰恰是有利的,这会导致其被选取的概率下降,学习结果变差;二是由于给定范围内所有参数矩阵被采取的概率和为1,那么在归一化后,就可能导致有利的参数矩阵概率降低,而有害的参数矩阵概率升高,同样会导致学习结果无法最优。因此,需要引入基准线参数b来避免上述情况的发生:

(13)

式中:b≈E[R(τ)]。

同时,考虑到在t采样点采取的参数矩阵与t采样点之前的收益无关,因此只需将t采样点之后的收益进行求和。并且由于某一采样点采取参数矩阵对随后各采样点收益的影响会逐渐减小,因此需要引入折旧因子γ:

式中:γ<1。

4 仿真分析

针对被控对象式(1),选取二关节机械手系统进行仿真验证,其动力学模型为

(14)

式中:

PG参数整定器学习步长为0.1,基准线设定为状态函数估计值b=16,折扣因子设定为γ=0.99。根据参数调整范围,将行为值矩阵设置为以下16种情况:[-100,-100,-100,-100],[-100,-100,-100,100],[-100,-100,100,-100],[-100,-100,100,100],[-100,100,-100,-100],[-100,100,-100,100],[-100,100,100,-100],[-100,100,100,100],[100,-100,-100,-100],[100,-100,-100,100],[100,-100,100,-100],[100,-100,100,100],[100,100,-100,-100],[100,100,-100,100],[100,100,100,-100],[100,100,100,100]。

图3 强化学习过程曲线Fig.3 Reinforcement learning process curve

图4 跟踪轨迹x1,x2Fig.4 Tracking trajectory x1,x2

图5 控制输入u1,u2Fig.5 Control input u1,u2

图6 控制参数k1,k2Fig.6 Control parameters k1,k2

图3表述了参数整定器在进行强化学习过程中,期望奖励值和实际奖励值的动态变化曲线。由图3可得,PG参数整定器在学习过程中共进行了500次参数的整定调整,在调整的过程中收益指标曲线总体呈现上升趋势,其中移动平均奖励值代表对历史奖励值的加权求和,衡量着当前代次下控制系统对机械臂控制效果的高低。同时,3条曲线呈现向同一值收敛的趋势,表明强化学习系统评估值和实际奖励值逼近同一值并上下波动,此时学习过程结束,得到整定后的参数矩阵。同时,还可得到以下结论。

图7 控制参数k3,k4Fig.7 Control parameters k3,k4

结论 1验证了PG强化学习算法的有效性,在PG整定器的参数调整过程中,PD控制器对机械臂的控制效果不断被改善,并能够达到预期水平。

结论 2在折旧因子的作用下,克服了个别临近代次中的坏值对移动平均奖励值评价效果产生干扰这一问题。

结论 3由图4可得,机械臂跟踪轨迹的收敛时间由参数整定前的4 s缩短至整定后的2 s,且超调量未出现明显增大。因此,PG参数整定器的引入使PD控制器的动态性能在保证稳态性能的前提下得到了有效的提升,收敛时间更短。

结论 4由图5可得,控制输入信号u在参数整定器的作用下,在控制的前2 s内,其信号曲线发生明显波动,表明控制输入信号u能够根据不同的控制情况在参数整定器的作用下进行灵活调整,以达到图4中更优的控制效果。

结论 5图6~图7验证了PG参数整定器在机械臂式(19)的被控过程中,通过在线学习的方式向PD控制器发送离散的行动矩阵Ai,经过积分器使PD控制器的关键参数变化是连续的,进而使图5中控制输入信号能够连续变化,符合实际过程中机械臂驱动电机的工作要求。

5 结 论

本文针对一类机械臂PD控制器的参数自整定问题,设计了一种基于PG的PD控制参数整定器。仿真验证说明,通过引入积分器保证控制参数变化的连续性,从而实现了PG参数整定器的可行性,并有效改善了机械臂系统的动态性能,且由于不同控制方法的参数整定过程均相似,所以该算法对于其他轨迹跟踪控制律设计也具有一定通用性。

猜你喜欢

控制参数控制器机械
高超声速飞行器滑模控制参数整定方法设计*
Birkhoff系统稳定性的动力学控制1)
调试机械臂
简单机械
基于PI与准PR调节的并网逆变器控制参数设计
按摩机械臂
模糊PID控制器设计及MATLAB仿真
MOXA RTU控制器ioPAC 5542系列
倍福 CX8091嵌入式控制器
4V三输出同步降压型控制器