APP下载

具有未知侧滑和打滑的WMR强化学习自适应神经网络控制

2016-05-27叶锦华吴海彬

叶锦华, 吴海彬

(福州大学机械工程及自动化学院, 福建 福州 350116)



具有未知侧滑和打滑的WMR强化学习自适应神经网络控制

叶锦华, 吴海彬

(福州大学机械工程及自动化学院, 福建 福州350116)

摘要:利用反演设计, 提出一种强化学习自适应神经网络轮式移动机器人(WMR)轨迹跟踪控制方法. 首先在极坐标下建立WMR的轨迹跟踪误差模型, 并基于此设计运动学控制器. 然后, 针对WMR动力学系统, 设计自适应神经网络控制器. 结合强化学习机制, 同时对系统未知侧滑、 打滑和模型不确定性进行优化补偿, 并引入鲁棒控制项来消除补偿误差的影响, 进一步提高了控制效果. 所提控制方法使得闭环系统稳定, 且最终一致有界收敛, 其有效性通过数值仿真结果得到了验证.

关键词:轨迹跟踪; 自适应神经网络; 强化学习控制; 非完整轮式移动机器人; 不确定系统

0引言

轮式移动机器人(wheeled mobile robot, WMR)应用领域日益广泛. 由于受到非完整约束, 常规控制方法无法直接使用. 同时, 其还是多输入多输出耦合的欠驱动本质非线性系统, 使得此类系统的运动控制难度较大, 对WMR运动控制的研究已引起了国内外学者的广泛关注[1-4]. 在WMR一些特殊工作场合, 比如地面潮湿或高速运行时, 轮子会打滑, 破坏了系统的非完整性, 现有基于“纯滚动无滑动”理想约束条件下设计的控制器不再适用. 目前, 仅少量文献研究了不满足非完整约束情形下WMR的运动控制策略[5-10], 文[5-6]分别设计WMR自适应神经网络轨迹跟踪控制器和鲁棒轨迹跟踪与镇定统一控制器, 仅实现对WMR单一侧滑的补偿. 文[7]通过特定初始条件限制, 并借助于全球定位系统GPS同时对WMR的侧滑和打滑进行数值测量, 设计了一类非线性控制器, 在存在侧滑和打滑时, 仍可进行高性能的轨迹跟踪. 文[8]研究了WMR的轨迹跟踪控制, 采用模糊干扰观测器对WMR侧滑和打滑的进行观测补偿. 文[9]设计一种自适应轨迹跟踪控制器, 可对WMR侧滑和打滑进行在线估计. 上述研究均未考虑WMR动力学系统不确定性的影响,为此, 文[10]提出一种基于鲁棒观测器的WMR轨迹跟踪控制器, 同时抵御WMR侧滑、 打滑和动力学系统不确定性的影响, 但需要系统总体不确定性的上界信息.

本研究在极坐标系统下, 研究存在未知侧滑和打滑以及动力学系统参数和非参数不确定性的WMR轨迹跟踪控制问题, 基于反演设计技术, 提出一种结合鲁棒控制的强化学习自适应神经网络(RLANN)控制器. RLANN能够优化逼近任意不确定函数[11], 并利用强化学习机制来提高其逼近效率. RLANN和鲁棒控制相结合, 使得文中控制器能够补偿已知信息少的复杂未知不确定性, 并保证控制器良好的适应性和控制性能.

1数学模型分析

研究对象(2, 0)型[12]WMR的本体结构和运动空间坐标系如图1所示, {xoy}为全局坐标系, 局部坐标系为{xcocyc}, 参考轨迹上虚拟移动机器人WMR的局部坐标系为{xreforefyref}, 其前进速度和转动速度分别为υref、 wref.WMR整车质量为m, 质心oc为两轮中心连线的中点, 车身绕oc轴的惯量为I, 两轮中心的距离为2b, 轮式半径为r. υ和w分别为WMR的前进速度和转动速度, ξ1和ξ2分别为WMR两轮的打滑速度, vyc为WMR的侧滑速度.

定义WMR的位姿为: q=[x,y,θ]T, 则受侧滑和打滑影响下, WMR的运动学模型为[9]:

(1)

式中: v=[v,w]T, ζ=[r(ξ1+ξ2)/2,r(ξ1-ξ2)/(2b)]T, φ=[vycsinθ,vyccosθ, 0]T.

WMR的广义力学系统标准形式为:

(2)

将式(1)求导后代入两端乘以ST(q)的式(2), 并考虑到A(q)S(q)=0, 整理后得到包含WMR侧滑、 打滑和动力学系统不确定性的动力学模型为:

(3)

2控制器设计

反演设计方法将系统分解为若干低阶子系统进行处理, 可以有效降低系统控制器的设计复杂度, 基于反演法的原理, 对系统运动学和动力学两个子系统分别进行控制器设计.

第一步运动学控制器设计.

(4)

(5)

由运动学模型(1)可知,WMR通过对两驱动轮的不同转速和转向控制即可完全实现对其位姿的调整, 运动学控制器的控制目标是选择合适的辅助控制律vc=[vf,wf]T, 使得e收敛于原点邻域, 设计oc点输出的运动学辅助控制器为:

(6)

式中: γ, k和h为正的常数.

第二步动力学控制器设计.

在设计完成运动学控制器的基础上, 以虚拟控制vc作为参考输入, 通过一步反演设计来完成力矩控制器的设计, 定义速度跟踪误差为:

(7)

动力学控制器的控制目标是设计合适的力矩控制器τ, 使得ec收敛于原点邻域, 从而近似实现“完美速度跟踪”, 对式(7)求导, 然后将式(3)代入可得到如下动力学误差方程:

(8)

设计强化学习自适应神经网络控制器为:

(9)

式中: kd=diag(kd),kd为正的常数. 鲁棒控制项γ为:

(10)

(11)

(12)

式中:μl为第l个节点的中心点,ηl为高斯函数的基宽, ω为逼近误差.

(13)

对权重矢量采用强化学习方法进行在线自适应更新以保证取值最优, 提高了神经网络的逼近精度, 取自适应更新律为:

(14)

(15)

式中: Γτ=diag(ντ), Γτc=diag(ντc),ντ,ντc,ητ为正的常数; rτ表示强化学习(RL)信号, 该信号使用角色评价(actor-critic)机制来获得, 取值为:

(16)

3稳定性分析

定理对于不确定WMR系统(1), (3), (5), (8), 取控制器为(6), (9),RL自适应律为(14)~(16), 则WMR系统是稳定且最终一致有界(UUB)收敛的.

证明构造Lyapunov函数:

(17)

(18)

(19)

对V1求导, 并将式(5), 运动学控制律(6)代入可得:

φ(sinα)/ed

(20)

对V2求导, 并将式(8), (9), (14)~(16)代入, 得:

(21)

(22)

4仿真实验

首先让WMR圆弧期望轨迹, 跟踪半径为R=2,WMR的运行参数为:qr(0)=[2, 4,π/4]T, vref=1.414m/s, wref=vref/R.WMR的初始参数为:qref(0)=[4, 2,π/2]T, v(0)=w(0)=0. 文中动力学控制器关闭RLANN时的跟踪效果如图2所示. 由于系统受到侧滑、 打滑, 以及动力学系统不确定性的影响, 跟踪误差很大, 调整控制器增益kd仍不能改善, 当开启RLANN后的跟踪效果如图3所示. 文中控制器有效地消除了系统复杂不确定性的影响, 跟踪误差和控制力矩输入的变化如图4、 图5所示. 可见, 系统控制输入平稳, 跟踪误差小, 取得较好的控制效果. 图6所示为RLANN的动态逼近过程, 对系统总体不确定性进行了有效估计.

再进行WMR的8字形轨迹跟踪, xref=sin(t/3), yref=sin(t/6), qref(0)=[0, 0, 0.463 4]T, 初始值分别为: q1=[1, 0, π/2]T, q2=[0, 0.5, 0]T,q3=[-0.5, -0.5, π]T, 结果如图7所示. 可见, 对于变曲率复杂曲线, 基于文中控制器, WMR也达到了良好的跟踪效果.

5结语

研究非完整约束被破坏且包含复杂不确定性的WMR, 基于反演法, 设计了结合鲁棒控制和带强化学习机制的自适应神经网络控制的轨迹跟踪控制器, 使得系统在同时受未知侧滑、 打滑和动力学系统不确定性影响下, 仍能够保证良好的控制品质. 通过强化学习自适应机制提高了神经网络系统的收敛速度和补偿精度, 结合鲁棒项, 进一步提高了轨迹跟踪的精度. 对圆弧轨迹和8字形曲线的轨迹跟踪仿真实验表明, 该控制器有效地消除系统复杂未知参数和非参数不确定性的影响, 保证WMR能快速、 精确地跟踪期望轨迹.

参考文献:

[1]BROCKETTRW.Asymptoticstabilityandfeedbackstabilization[M].Boston:Birkhauser, 1983.

[2]叶锦华, 李迪, 叶峰. 轮式移动机器人的双强化学习自适应模糊控制[J]. 吉林大学学报(工学版), 2014, 44(3): 12-20.

[3]AHMEDSA,MAYSAMFA,HAMEDSA.Applyingpostureidentifierindesigninganadaptivenonlinearpredictivecontrollerfornonholonomicmobilerobot[J].Neurocomputing, 2013, 99: 543-554.

[4]HUANGJS,WENCY,WANGW,etal. Adaptive stabilization and tracking control of a nonholonomic mobile robot with Input saturation and disturbance[J]. Systems & Control Letters, 2013, 62(3): 234-241.

[5]WANG Z P, GE S S, LEE T H. Adaptive neural network control of a wheeled mobile robot violating the pure nonholonomic constraint[C]//Proceedings of the 43rdIEEE Conference on Decision and Control. Bahamas: IEEE, 2004: 5 198-5 203.

[6]ZHU X C, DONG G H, CAI Z X,etal. Robust simultaneous tracking and stabilization of wheeled mobile robots not satisfying nonholonomic constraint[J]. J Cent South Univ Techno, 2007, 14(4): 537-545.

[7]CHANG B L, WANG D W. GPS-based path following control for a car-like wheeled mobile robot with skidding and slipping[J]. IEEE Transactions on Control Systems Technology, 2008, 16(2): 340-347.

[8]CHWA D. Fuzzy adaptive tracking control of wheeled mobile robots with state-dependent kinematic and dynamic disturbances[J]. IEEE Transactions on Fuzzy Systems, 2012, 20(3): 587-593.

[9]YOO S J. Adaptive tracking control for a class of wheeled mobile robots with unknown skidding and slipping[J]. IET Control Theory & Applications, 2010, 4(10): 2 109-2 119.

[10]KANG H S, KIM Y T, HYUN C H,etal. Generalized_extended state observer approach to robust tracking control for wheeled_mobile robot with skidding and slipping[J]. International Journal of Advanced Robotic Systems, 2013, 10(155): 1-10.

[11]HENDZEL Z. An adaptive critic neural network for motion control of a wheeled mobile robot[J]. Nonlinear Dynamics, 2007, 50(4): 849-855.

[12]JANG J O. Adaptive neuro-fuzzy network control for a mobile robot[J]. Journal of Intelligent & Robotic Systems, 2011, 62(3/4): 567-586.

(责任编辑: 沈芸)

Reinforcement learning adaptive neural network control of WMR with unknown skidding and slipping

YE Jinhua, WU Haibin

(College of Mechanical Engineering and Automation, Fuzhou University, Fuzhou, Fujian 350116, China)

Abstract:A reinforcement learning adaptive neural network trajectory tracking control scheme is proposed for WMR, based on back stepping technique. Firstly, the trajectory tracking error model is established, and the kinematic controller is designed based on this model. Then, for WMR dynamic system, the adaptive neural network controller with reinforcement learning is designed, and unknown skidding, slipping and model uncertainties of the system are compensated optimally, the robust compensators are also used to eliminate the effects of compensating error, so the control performance is enhanced. The stability and ultimately uniformly bounded convergence of system are guaranteed with proposed control scheme. Simulations prove the validity of the proposed control scheme.

Keywords:trajectory tracking; adaptive neural network; reinforcement learning control; nonholonomic wheeled mobile robot; uncertain system

中图分类号:TP24

文献标识码:A

基金项目:国家自然科学基金资助项目(51175084); 福建省自然科学基金资助项目(2015J05121); 福州大学科研启动基金资助项目(510078); 福州大学科技发展基金资助项目(650053)

通讯作者:叶锦华(1982-), 博士, 讲师, 主要从事机器人控制技术研究, yejinhua@fzu.edu.cn

收稿日期:2015-01-22

文章 编号:1000-2243(2016)02-0219-06

DOI:10.7631/issn.1000-2243.2016.02.0219