基于改进的DDPG算法的蛇形机器人路径规划方法
2023-05-30郝崇清任博恒赵庆鹏侯宝帅白彤武晓晶樊劲辉
郝崇清 任博恒 赵庆鹏 侯宝帅 白彤 武晓晶 樊劲辉
摘 要:针对蛇形机器人执行路径规划任务时,面对复杂环境传统强化学习算法出现的训练速度慢、容易陷入死区导致收敛速度慢等问题,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。首先,在策略-价值(actor-critic)网络中引入多层长短期记忆(long short-term memory,LSTM)神經网络模型,使其控制经验池中信息的记忆和遗忘程度;其次,通过最优化特征参数将CPG(central pattern generators)网络融入强化学习模型,并设计新型网络状态空间和奖励函数;最后,将改进算法与传统算法分别部署在Webots环境中进行仿真实验。结果表明,相比于传统算法,改进算法整体训练时间平均降低了15%,到达目标点迭代次数平均降低了22%,减少了行驶过程中陷入死区的次数,收敛速度也有明显的提升。因此所提算法可以有效地引导蛇形机器人躲避障碍物,为其在复杂环境下执行路径规划任务提供了新的思路。
关键词:机器人控制;蛇形机器人;改进的DDPG算法;强化学习;CPG网络;Webots三维仿真
Path planning method of snake-like robot based on improved DDPG algorithm
HAO Chongqing1,REN Boheng1,ZHAO Qingpeng2,HOU Baoshuai1,
BAI Tong1,WU Xiaojing1,FAN Jinhui1
(1.School of Electrical Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China; 2.School of Communication and Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing, Jiangsu 210023, China)
Abstract:Aiming at the problems of low training speed and convergence speed caused by falling into a dead zone of traditional reinforcement learning algorithm of the snake-like robot when performing path planning task in multi-obstacle environment, an improved deep deterministic policy gradient(DDPG) algorithm was proposed. Firstly, a multi-layer long short-term memory (LSTM) neural network model was introduced into the actor-critic network to control the memory and forgetting degree of information in the experience pool; secondly, the CPG(central pattern generators) network was integrated into a reinforcement learning model by optimizing feature parameters, designing new network state space and reward function, finally, The improved algorithm and the traditional algorithm were deployed in Webots environment for simulation experiments.The results show that compared with the traditional algorithm, the overall training time of the improved algorithm is reduced by 15% on average, and the number of iterations to reach the target point is reduced by 22% on average, which reduces the times of falling into the dead zone during driving and obviously improves the convergence speed. The algorithm can effectively guide the snake-like robot to avoid obstacles, thus providing a new idea for its performing path planning task in multi-obstacle environment.
Keywords:robot control; snake-like robot; improved DDPG algorithm; intensive learning; CPG network; Webots 3D simulation
蛇形机器人因其强大的环境适应能力,被广泛应用于地质勘探、灾后救援和医疗等领域[1]。在执行任务时,蛇形机器人需要结合多种环境信息进行路径规划和导航,其中路径规划作为导航的主要部分,其结果的优劣程度直接影响了蛇形机器人完成任务的质量
[2]。然而,传统的路径规划方法都需要部署在已知环境下,例如A*算法[3]、卡尔曼滤波算法[4]、LOS(line of sight)算法[5]等,面对未知障碍物场景,怎样引导其自主完成路径规划任务成为蛇形机器人研究的热点话题。
近年来,随着人工智能算法的发展,强化学习(reinforcement learning,RL)算法[6]在蛇形机器人路径规划中得到了广泛的应用。该算法通过与环境进行交互从而优化蛇形机器人的动作,使其自主完成路径规划任务,但是随着环境复杂度的增加,导致RL算法收敛速度慢,难以处理高维连续状态和动作信息。为了解决该类问题,JIA等[7]提出了一种基于改进RL算法的蛇形机器人路径规划方法,该方法将蛇形机器人运动学模型融入RL算法中,实现路径规划和避障的同时,有效节省了算法收敛时间,减少了发散次数。BING等[8]将RL算法与逆强化学习(inverse reinforcement learning,IRL)算法相结合提出了一种节能和损伤恢复的滑动步态方法,通过设计相关控制器,使其生成自适应运动步态的同时拥有损伤恢复能力。
利用RL算法进行路径规划相关任务时,为了降低蛇形机器人连续状态空间的信息维度,提高算法的训练速度,LIU等[9]提出了一种基于RL算法的软体机器蛇目标跟踪控制方法,将CPG(central pattern generators,CPG)网络与强化学习模块相结合,通过对松冈CPG系统振荡特性的理论分析,利用强化学习算法在模拟环境中学习控制策略,以用于蛇机器人执行目标跟踪任务,该方法不仅使蛇形机器人具备了一定的环境自适应能力,而且还降低了RL算法的信息传输维度。严浙平等[10]提出了一种基于模型预测和中枢模式发生器的轨迹跟踪控制方法,用于控制六足仿生机器人,该方法在实验中表现出良好的运动性能和稳定性。
针对多种障碍物场景,蛇形机器人需要更强的自适应路径规划能力,从而避免陷入死区导致目标不可达的问题,QIN等[11]提出了一种欠驱动的自适应轨迹控制方法,使蛇形机器人能够跟踪到较小的工作空间。JIANG等[12]结合RL算法提出了一种具有不同拓扑结构的多层脉冲神经网络(SNN)模型,从蛇形机器人动态视觉传感器(DVS)获得视觉信号,驱动其运动控制器跟踪特定的运动对象,以便快速地走出死区区域。为了提高RL算法的收敛速度、降低网络训练时间,张瀚等[13]将深度确定性策略梯度算法(DDPG)与人工势场法相融合,有效提升了算法的性能。CHO等[14]利用DDPG算法进行蝾螈机器人的路径规划,使用Gazebo动态模拟器设置可移动障碍物,并通过算法训练模型使蝾螈机器人能顺利完成自适应路径规划任务,验证了DDPG算法的稳定性。国内外学者虽然提出了功能更强大的RL算法,但是面对多障碍环境仍然存在算法随机性强、容易陷入死区状态,造成算法训练时间长、收敛速度慢等问题。
针對上述问题,通过在策略-价值网络中引入多层LSTM神经网络模型,使DDPG算法拥有选择性记忆功能,并根据蛇形机器人复杂的运动环境,设计全新的状态空间和相关奖励函数,从而引导DDPG算法更好地完成算法训练和路径规划任务。为了减少DDPG算法中数据的传输维度,利用Matsuoka振荡器搭建CPG网络并且最优化超参数,将CPG网络融入DDPG算法中用于实现蛇形机器人多模式运动。为了验证算法的有效性,在Webots环境中搭建了蛇形机器人模型,将所提算法部署在该模型上进行路径规划实验研究,并对该算法在不同环境复杂度下的性能进行分析。
1 强化学习算法
1.1 深度确定性策略梯度算法[15]
1.2 LSTM神经网络模型
随着迭代次数的不断增加,DDPG算法总会削弱之前得到的最优经验影响。在DNN算法中LSTM神经网络模型[18]可以控制网络对于经验的记忆和遗忘程度,其网络模型是基于循环神经网络模型(recurrent neural network,RNN)的一种改进。与传统RNN算法相比,
LSTM算法在其隐藏层中增加了一个细胞状态(cell state)[19],使网络自循环的权重产生了变化,在模型参数固定的情况下,根据网络权重的动态改变可以调节不同时刻网络更新状态,从而避免梯度消失或梯度爆炸的问题。LSTM算法包含的3种门结构分别定义为记忆门、遗忘门和输出门,其网络结构如图2所示。
单个LSTM神经网络模型转化为细胞状态公式[18]:
式中:xt表示网络当前输入;ft表示遗忘门限;it表示输入门限;ot表示输出门限;σ表示激活函数;W表示当前门的网络权重;b表示当前门的偏置参数;t表示候选输入向量;Ct表示当前时刻网络状态;Ct-1表示前一时刻网络状态;ht-1表示上一时刻隐藏层输出。
2 蛇形机器人路径规划方法
2.1 改进的DDPG算法
在进行蛇形机器人路径规划任务时,DDPG算法容易出现陷入死区问题,不仅降低算法训练速度和收敛速度,而且会导致任务无法完成。为了提高算法的稳定性,在DDPG算法的Actor-Critic网络中引入多层LSTM神经网络模型,将Actor-Critic网络全连接层替换成LSTM神经元,通过滑动窗口控制样本信息的记忆和遗忘程度,使其优先学习高奖励值的动作。面对复杂环境,为提高蛇形机器人的适应能力,根据环境设计全新的状态空间和奖励函数,从而更快地进行奖励累计并训练更好的模型。
改进的DDPG算法将Actor-Critic网络的前3个全连接层替换成多层LSTM神经网络模型,为了防止网络反向传播过程中出现梯度消失问题,利用全连接层在整个神经网络模型中将样本特征映射到标记空间中,并与网络上轮迭代获得的隐藏状态一同送入LSTM单元中。为了获得所需要的期望运动空间,将LSTM单元提取到的高维特征映射至一维向量空间内,通过之前提取的特征语义信息,进行输出降维并送入连接层中。
根据蛇形机器人的路径规划任务以及雷达、视觉传感器的数据信息,改进的DDPG算法将蛇形机器人当前网络迭代下所获得的状态空间信息和采取的动作分别作为输入和输出,其中每轮迭代获得的动作根据Critic网络评判都会获得相应的奖励值,通过Actor网络和Critic网络进行梯度更新,从而获得更新后的网络权重以及训练模型。改进的DDPG算法中Actor网络和Critic网络分别由4层神经网络构成,其网络结构如图3所示,Actor-Critic网络前3层为LSTM记忆单元,第4层为全连接层,其每个记忆单元包括了256个隐藏神经元节点,分别利用sigmoid函数和tanh函数作为激活函数,通过获取蛇形机器人状态空间的时序信息,获得其转弯角度和运动方向。
2.2 蛇形机器人CPG控制网络
根据蛇形机器人关节运动模型设计了CPG控制网络,该网络由互相连接的Matsuoka振荡器组成,其每个振荡器包含了一对互相抑制的神经元模型,其CPG网络数学模型如式(10)所示[9]:
2.3 路径规划模型训练框架
为了减少DDPG算法中输入、输出的数据维度并提高算法的训练效率,通过分析CPG网络模型参数并进行最优化处理,获取控制蛇形机器人运动的振幅A、频率F和转向参数u。如图3所示,将CPG网络模型与改进的DDPG算法框架和Webots仿真环境框架相结合,组成循环网络,即蛇形机器人自学习框架。在Webots仿真环境中根据视觉感知和全局定位坐标结合,获取障碍物的位置并作为Actor网络的输入,使其输出一个实时的确定性动作。为了获得一个最理想的动作作为输出,改进的DDPG算法利用Critic网络依据状态空间和设定的奖励去为当前动作打分。为了降低Actor-Critic网络的输入、输出维度,将CPG网络经过模块化处理,输入为最优特征参数,输出为速度、角速度、转向因子的大小,结合到Webots仿真的蛇形机器人模型中,从而实现在线实时控制。
2.4 状态、动作空间搭建与奖励函数设计
为了验证改进的DDPG算法在蛇形机器人路径规划任务中的有效性,利用蛇形机器人的Solidworks模型搭建了Webots仿真环境并将算法部署到仿真中进行训练。为了对比不同算法的实际效果,使用控制变量法,设置一致的网络参数用于更新训练模型,如表1所示。在Webots仿真中,黄色方块为障碍物模型,蓝色方块为蛇形机器人路径规划任务目标点,如图5所示。
执行路径规划任务时,蛇形机器人每次網络迭代所获得的信息包括机器人的当前位置、关节角度变化、CPG网络的最优特征参数、目标点距离和方位以及障碍物距离和方位。为了提高算法的收敛速度,减少训练时间,本文利用CPG网络的最优特征参数去控制机器蛇的运动并设计相应的状态空间St=(N,d1~d5,θdn,θend,Dend,P),如图5所示。N表示障碍物数量,θdn表示最近障碍物与蛇头的夹角,θend表示目标点与蛇头的夹角,Dend表示目标点与蛇头的距离,P表示CPG网络最优特征参数。为了避免蛇形机器人碰撞障碍物,设置出现在摄像头中的障碍物数量N≤5并根据距离设置阈值。为了评估运动是否接近目标,通过设置d1~d5表示可视范围中最近5个障碍物与蛇头的相对距离。建立蛇形机器人运动学模型,如式(3)所示,定义动作空间为线速度V和偏移角度φ,其运动参数包括线速度[vmin,vmax]和蛇头偏移角度[φmin,φmax],并设置速度范围[0.0 m/s,0.2 m/s]和偏移角度范围[-1.5 rad,1.5rad]。
奖励函数会影响强化学习的收敛性,根据奖励函数设置的优劣,从而使Actor-Critic网络得到更好的性能进行网络模型训练。本文设计的奖励函数由3方面组成,分别为蛇形机器人与环境障碍物距离信息、摄像头信息和关节角度,如式(11)所示:
式中:R1表示距离判断函数;R2表示摄像头信息判断函数,蛇形机器人的运动方向总是向障碍物少的一侧偏移;R3表示蛇头转动范围,其受到刚体结构限制;Dm表示距离障碍物的最小距离;Dwall表示与墙体的最小距离,避免蛇形机器人与障碍物和墙体产生碰撞,Dmh表示与目标点的最小距离,用以指引蛇形机器人的运动方向。
3 仿真实验
3.1 仿真环境创建及参数设置
为了更加清晰地观察改进DDPG算法的收敛速度和训练效果,在Webots环境中,根据障碍物的密集程度搭建了2种仿真环境,分别为稀疏障碍物场景和密集障碍物场景。其中稀疏障碍物场景,地图大小为3 m×3 m,障碍物大小为25 cm×25 cm,数量为20个并随机分布,如图6 a)所示。密集障碍物环境,地图大小为3 m×3 m,障碍物大小为25 cm×25 cm,数量为40个,如图6 b)所示。
仿真环境中参数设置会影响其训练效果和稳定性,所以实验前需要初始化CPG网络参数和改进的DDPG算法参数,以及随机部署障碍物位置、目标点和蛇形机器人初始位置。DDPG算法参数如表1所示,CPG网络参数如表2所示。
3.2 稀疏障碍物环境仿真
为了验证改进的DDPG算法的有效性,将其与原算法分别部署到稀疏障碍物地图中,通过设置奖励和相关约束,使蛇形机器人进行训练并积累经验,从而完成路径规划任务。
为降低初始阶段算法的随机性,解决蛇形机器人进入死区区域造成训练时间过长等问题,设置训练模型每回合最大迭代次数为1 500,并记录蛇形机器人每回合训练后的平均奖励值和完成任务所需的迭代次数。为了突出蛇形机器人到达目标点时的奖励状态,设置完成任务后呈现正奖励状态,未完成任务或陷入死区区域后呈现负奖励状态,如图7 a)所示。
在稀疏障碍物环境下,改进DDPG算法的平均奖励值在回合数迭代20次以后开始出现明显的上升趋势,30次后逐渐收敛,平均奖励值从负值逐渐趋近于0,说明改进的DDPG算法已经积累了避障和趋近目标点的经验,随后由于算法积累经验不足和随机性,使蛇形机器人陷入死区区域,导致平均奖励值出现了短暂的下降趋势。由于LSTM算法控制样本信息的遗忘和记忆,平均奖励值短暂地下降之后,很快恢复至正值并且逐渐收敛,在算法训练回合迭代到60次以后,每次的平均奖励值在0~250之间波动且波动较小,如图7 a)所示。
而DDPG算法训练回合迭代40次以后陷入死区区域,因其积累了大量劣质经验,所以需要较多的训练回合才能逐漸收敛,DDPG算法训练回合迭代60次之后平均奖励值达到正值,80次之后才逐渐收敛,收敛之后由于劣质经验的存在,导致蛇形机器人会陷入死区区域,从而造成目标任务无法完成。根据每回合最大迭代次数,搜索时间随着奖励值的收敛逐渐下降,改进的DDPG算法在训练回合迭代120次之后,每回合迭代次数逐渐稳定维持在600~700次,说明改进的DDPG算法具有在稀疏障碍物环境下完成路径规划任务的能力。DDPG算法改进前后搜索时间如图7 b)所示。
在稀疏地图环境下,分别测试2种算法训练好的模型。DDPG算法完成蛇形机器人路径规划任务需要987次训练回合迭代,而改进的DDPG算法仅需要938次训练回合迭代。利用Python的Pygame功能包实时绘制其在地图中的任务轨迹,结果表明,改进的DDPG算法在完成任务时间和规划路径长度方面优于原算法,如图8 a)所示。
另一方面,蛇形机器人节律运动的柔顺性直接影响了蛇形机器人的运动状态,其转弯动作主要依靠蛇头的偏转角度,在CPG网络控制下其余关节会随着蛇头角度变换进行跟随。由于障碍物的复杂性,改进DDPG算法使得蛇形机器人在路径规划任务中以较少的偏转次数到达目标点,而DDPG算法在执行路径规划任务时会出现短暂的连续转弯动作或者大幅度的转弯动作,从而造成蛇头曲线出现尖波和连续波动。根据仿真中蛇头关节角度变化,可以看到改进的DDPG算法规划路径相对于DDPG算法出现尖波和连续波动的情况较少,如图8 b)所示。
3.3 密集障碍物环境仿真
在密集障碍物环境中,分别基于改进的DDPG算法、DDPG算法、PPO算法[21]和A2C算法[22]进行蛇形机器人路径规划任务,并对4种算法的迭代奖励值和搜索时间进行对比分析。改进的DDPG算法相对于其他算法,用更少的迭代次数积累了更多的优秀经验,奖励回报值和搜索时间曲线在训练回合迭代200次后逐渐收敛。面对死区问题借助多层LSTM神经网络的记忆功能可以更快速地适应环境,用尽量少的训练次数走出死区区域或重新规划路径,随着迭代次数的增加,蛇形机器人规划路径的长度逐渐减小并趋于稳定,训练回合迭代300次以后蛇形机器人能够更快地完成路径规划任务,如图9、图10所示。
相比于DDPG算法、PPO算法和A2C算法,改进的DDPG算法在较短时间内找到了最优路径,其经过978次训练回合迭代后完成了路径规划任务且路径较为平滑。为了对比不同算法性能的优劣,在蛇形机器人执行路径规划任务中利用Pygame功能包生成规划路径曲线,通过仿真对比分析,改进的DDPG算法不仅规划的路径较为平滑且长度更短,而其他3种算法会陷入短暂的死区区域从而导致规划路径较长,如图11 a)所示,密集障碍物环境下各算法路径规划长度对比如表3所示。通过对比分析不同算法下蛇形机器人的蛇头角度变化曲线可知,改进的DDPG算法不仅转弯角度更加平滑,而且没有连续的角度突变,如图11 b)所示。
面对连续避障情况时,因为状态空间和奖励值的设置,蛇形机器人会受到多种限制,出现短暂的决策过程。为了更加清晰地对比改进DDPG算法的优化效果,避免随机性结果的产生,每种算法使用相同的参数设置,实验对比了密集障碍物场景下4种算法的最优路径规划次数、陷入死区的次数、平均训练时间和模型测试中得到的平均规划路径长度,分别进行10次训练并取其平均值,如表4所示。
从表4可以看出,改进的DDPG算法在训练中可以更快地收敛,其整体训练时间相比于其他算法平均降低了15%,模型测试中完成规划路径迭代次数降低了22%,提高了算法的快速性。为使蛇形机器人更好地适应环境以完成路径规划任务,改进的DDPG算法因为多层LSTM神经网络的选择记忆功能,每次训练只会在训练前期陷入死区区域,并且通过更多优质经验的积累提高了网络模型训练的稳定性。
4 结 语
本文提出的改进DDPG算法,可以有效解决蛇形机器人在选择最优路径时的局部死区问题和路径规划算法训练速度慢的问题。通过改变网络结构、引入LSTM神经网络模型,快速积累高奖励值样本,获得优质经验;同时,对搭建的CPG网络模型进行最优化特征参数处理,并将其融入DDPG算法中,结合新型状态空间和奖励函数,进而更好地引导蛇形机器人完成路径规划任务。仿真结果表明,改进算法具有收敛速度快、训练时间短、完成任务迭代次数多和陷入死区次数少等优势。因此本文提出的算法可使蛇形机器人能够在复杂环境中自主进行路径规划,为实际应用中更加安全且快速地完成导航与控制任务提供了有价值的解决方案。
本文主要研究了蛇形机器人平面路径规划,但未考虑地形起伏变化。未来研究拟基于蛇形机器人的多模式运动,改进运动控制策略和路径规划方法,提高机器人的环境适应能力。
参考文献/References:
[1] PETTERSEN K Y.Snake robots[J].Annual Reviews in Control,2017,44:19-44.
[2] LIU Jindong,TONG Yuchuang,LIU Jinguo.Review of snake robots in constrained environments[J].Robotics and Autonomous Systems,2021,141.DOI:10.1016/j.robot.2021.103785.
[3] YU Xue,CHEN Weineng,GU Tianlong,et al.ACO-A*:Ant colony optimization plus A* for 3-D traveling in environments with dense obstacles[J].IEEE Transactions on Evolutionary Computation,2019,23(4):617-631.
[4] HAN Siwei,XIAO Wenyu,YU Zhenghong,et al.Adaptive climbing gait design of snake robot based on extended Kalman filter[J].Journal of Physics:Conference Series,2022.DOI: 10.1088/1742-6596/2183/1/012003.
[5] BORHAUG E,PAVLOV A,PETTERSEN K Y.Integral LOS control for path following of underactuated marine surface vessels in the presence of constant ocean currents[C]//2008 47th IEEE Conference on Decision and Control.Cancun:IEEE,2008:4984-4991.
[6] 鄭莹,段庆洋,林利祥,等.深度强化学习在典型网络系统中的应用综述[J].无线电通信技术,2020,46(6):603-623.
ZHENG Ying,DUAN Qingyang,LIN Lixiang,et al.A survey on the applications of deep reinforcement learning in classical networking systems[J].Radio Communications Technology,2020,46(6):603-623.
[7] JIA Yuanyuan,MA Shugen.A coach-based Bayesian reinforcement learning method for snake robot control[J].IEEE Robotics and Automation Letters,2021,6(2):2319-2326.
[8] BING Zhenshan,LEMKE C,CHENG Long,et al.Energy-efficient and damage-recovery slithering gait design for a snake-like robot based on reinforcement learning and inverse reinforcement learning[J].Neural Networks,2020,129:323-333.
[9] LIU Xuan,GASOTO R,JIANG Ziyi,et al.Learning to locomote with artificial neural-network and CPG-based control in a soft snake robot[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Las Vegas:IEEE,2020:7758-7765.
[10]严浙平,杨皓宇,张伟,等.基于模型预测-中枢模式发生器的六足机器人轨迹跟踪控制[J].机器人,2023,45(1):58-69.
YAN Zheping,YANG Haoyu,ZHANG Wei,et al.Trajectory tracking control of hexapod robot based on model prediction and central pattern generator[J].Robot,2023,45(1):58-69.
[11]QIN Guodong,WU Huapeng,CHENG Yong,et al.Adaptive trajectory control of an under-actuated snake robot[J].Applied Mathematical Modelling,2022,106:756-769.
[12]JIANG Zhuangyi,OTTO R,BING Zhenshan,et al.Target tracking control of a wheel-less snake robot based on a supervised multi-layered SNN[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Las Vegas:IEEE,2020:7124-7130.
[13]張瀚,解明扬,张民,等.融合DDPG算法的移动机器人路径规划研究[J].控制工程,2021,28(11):2136-2142.
ZHANG Han,XIE Mingyang,ZHANG Min,et al.Path planning of mobile robot with fusion DDPG algorithm[J].Control Engineering of China,2021,28(11):2136-2142.
[14]CHO Y,MANZOOR S,CHOI Y.Adaptation to environmental change using reinforcement learning for robotic salamander[J].Intelligent Service Robotics,2019,12(3):209-218.
[15]CARRARA F,FALCHI F,CALDELLI R,et al.Detecting adversarial example attacks to deep neural networks[C]//Proceedings of the 15th International Workshop on Content-Based Multimedia Indexing.Florence:Association for Computing Machinery,2017:1-7.
[16]PENG Xuebin,BERSETH G,van de PANNE M.Terrain-adaptive locomotion skills using deep reinforcement learning[J].ACM Transactions on Graphics,2016,35(4):1-12.
[17]PENG Xuebin,BERSETH G,YIN Kangkang,et al.DeepLoco:Dynamic locomotion skills using hierarchical deep reinforcement learning[J].ACM Transactions on Graphics,2017,36(4):1-13.
[18]CHEN Chewen,TSENG S P,KUAN Tawen,et al.Outpatient text classification using attention-based bidirectional LSTM for robot-assisted servicing in hospital[J].Information,2020,11(2).DOI: 10.3390/info11020106.
[19]YU Yong,SI Xiaosheng,HU Changhua,et al.A review of recurrent neural networks:LSTM cells and network architectures[J].Neural Computation,2019,31(7):1235-1270.
[20]LIAO Xiaocun,ZHOU Chao,ZOU Qianqian,et al.Dynamic modeling and performance analysis for a wire-driven elastic robotic fish[J].IEEE Robotics and Automation Letters,2022,7(4):11174-11181.
[21]YANG Laiyi,BI Jing,YUAN Haitao.Dynamic path planning for mobile robots with deep reinforcement learning[J].IFAC-PapersOnLine,2022,55(11):19-24.
[22]XING Xiangrui,DING Hongwei,LIANG Zhuguan,et al.Robot path planner based on deep reinforcement learning and the seeker optimization algorithm[J].Mechatronics,2022,88.DOI: 10.1016/j.mechatronics.2022.102918.