APP下载

基于强化学习算法的地下铲运机车速控制

2022-04-19王伯健高泽宇

矿冶 2022年2期
关键词:模糊控制车速时刻

王伯健 战 凯 郭 鑫,2 石 峰 高泽宇

(1.北京矿冶研究总院,北京 100160;2.北京科技大学 机械工程学院,北京 100083)

地下铲运机属于铰接车的一种,是灵活、机动的铲装运输设备。KCY-2型铲运机通过铰接点一侧布置的油缸伸缩来实现转向,在车辆行驶过程中,有左右转向响应效果不同的问题,加上地面摩擦条件的因素,车辆转向的控制较为复杂。为保证无人驾驶过程中转向控制的精确,对车速的控制要求更高,需要车速的控制反应快、稳定性强。

针对刚性车辆的车速控制的研究,当前大多采用专家经验法、模糊化车速、PID控制、滑膜控制、智能控制算法、智能优化搜索算法等。目前,很多车速控制算法是依据驾驶特征大数据、视觉等经验法控制车速[1,2],存在局限性。通过模糊理论模糊化分级控制输出车速的方法会使车速分级变化,平稳性、可控性较低[3]。传统的PID控制器和控制方法稳定性较高,但存在应用需大量时间调整参数和无法适应变化等系统问题[4-6]。滑膜控制、逆控制、智能优化算法等其他方法对于非线性不稳定系统问题的控制效果不理想,存在不足[7-9]。在实际巷道中,地下铲运机的车速控制需要较高的及时性、可靠性和稳定性,但因为车载控制器硬件配置限制,以及对响应速度的要求较高,复杂的算法无法满足使用条件。而强化学习是从环境获得数据后不断训练,从而获得对环境的精确反应,是一种强学习行为,可以进行离线学习,得到稳定的模型和参数,从而满足控制要求。铲运机是铰接车辆,其转向是通过油缸伸缩改变其铰接角来完成,当油缸动作开始转向时,若铰接角变化过大则需要车辆减速到合适且尽可能大的车速转向,以便提升行驶效率,强化学习控制车速的目的是找到这一时刻的车速。利用专家经验和强化学习方法,设计出符合地下铲运机工况以及硬件设备要求的强化学习策略,再利用智能优化算法离线仿真后得出完整的强化学习模型,进行实车试验,验证可行性和准确性。

1 强化学习算法基本理论

强化学习与监督学习不同,是从环境状态获得信息判断执行动作的学习,使执行动作从环境中获得的累积奖赏值最大,通过试错来寻找最优的动作行为。其学习过程是一个试错与评价选择的马尔科夫决策过程,对问题进行建模,将其定义为一个四元组(S,A,p,f),其中,S为状态集合,st∈S表示控制对象在t时刻的状态量;A为控制对象可执行动作集合,at∈A表示控制对象在t时刻的动作;p为奖赏函数集合,rt→p(st,at)表示控制对象状态st执行动作at获得的即时奖励量;f为概率在0~1的状态转移概率分布函数,st+1→f(st,at) 表示控制对象在状态st执行动作at转移到下一状态st+1的概率[10,11]。

强化学习方法是学习一个行为策略π:S→A,使学习对象的动作能够获得最大奖赏。即当学习对象由状态st变化到状态st+1时,所有动作集合能够获得最大的奖赏值,作为一个行为策略[12-14]。奖赏函数形式为:

Rst=∑γtrtst(0<γt≤1,0

(1)

式中,γt是折扣因子,用来平衡未来奖赏对累积奖赏的影响。

根据式2目标函数可以计算出最优值,确定最优行为策略[15-19]:

π=arg(Rst)max,st∈S

(2)

2 适用于铲运机的强化学习算法

根据控制系统硬件分析,受控制器和传感器的硬件限制,无法对庞大的数据进行实时在线学习,且速度较快时,学习速度来不及会带来车辆行驶风险,因此采用离线学习出强化学习模型,导入到车辆进行车速控制。学习算法逻辑如图1所示。

2.1 强化学习数据集

训练数据集主要是平时实车测试的数据包和随机生成的一些数据包,测试数据集主要来源于平时实车测试表现良好的数据包和有经验的司机师傅驾驶铲运机时记录的数据包。训练数据数量和测试数据数量比例大致为2∶1。数据包的信息主要包含了车辆GPS得到的正东和正北方向的坐标、前车头航向角、铰接角角度值、车辆行驶速度以及当前时刻等。通过计算得出车辆坐标变换得到的横向位置误差、绝对航向角误差、铰接角变化量以及上一时刻车速。

2.2 强化学习模型建立

根据一般的强化学习方法,将信息量全部考虑其中,考虑到实际问题,车辆在行驶过程中,下一时刻的状态信息是未知的,只能通过预测或者经验进行判断,因此在已知当前时刻之前的状态信息前提下,采用强化学习控制下一时刻的车速。初步模型中,记录了之前10个时刻的状态信息,将其作为控制因素考虑其中,进行简单学习时发现,铰接角变化量和航向角偏差基本一致,且铰接角变化量的角度变化很小,其绝对值基本小于3°,所以略去铰接角变化量,确定模型具有其他三个状态信息量,由于车速没有方向,且无需考虑状态量的方向,所有状态量采用绝对值形式,模型见式3,其中n=10,1≤t<10:

vf+1=

(3)

式3中,vt+1为输出的期望车速;vt为之前t时刻的车速,km/h;xt为之前t时刻横向位置误差绝对值,cm;θt为之前t时刻航向角误差绝对值,°。

因设备配置水平和提高算法执行效率,只采用上一时刻的状态信息,即n=1,t=1,修改强化学习模型见式4。

(4)

(5)

式5为最终的强化学习模型,对其进行离线学习训练出系数参数即可。

2.3 强化学习过程

离线训练强化学习模型中的三个系数参数,获得最终完善的强化学习模型。强化学习一般分为基于值函数的方法和基于策略搜索的方法求解最优参数。本文采用基于遗传算法的策略搜索方法,遗传算法其交叉、变异的算子具有打破局部最优特点,且算法灵活多变,应用广泛,适用绝大多数优化求解问题。具体步骤为:

1)随机生成5个个体和选取计算后的5个训练集数据组成父代种群,即建立10行3列n页的矩阵A,n为最短数据集的总元素组个数;

2)对矩阵A每页数据随机配对随机选择交叉点进行交叉计算,生成子一代个体;

3)当前时刻元素对矩阵A每页数据进行最优策略选择,选取最接近测试数据集的车速,并进行迭代计算搜索;

4)分析计算选取一组适合参数进行参数拟合校验,再进行弯道和直道的加权平均,计算出合理的三个系数参数。

图2 强化学习遗传算法计算系数参数流程图Fig.2 Flow chart of parameters calculated by reinforcement learning genetic algorithm

3 实车测试结果

两种控制算法都在直线行驶时的结果如图3和图4所示。两种控制算法都先行驶一小段直线加速后再转向行驶时的结果如图5和图6所示。

图3 纯模糊控制直线行驶结果数据图Fig.3 Data graph of straight line driving results of pure fuzzy control

图4 强化学习控制直线行驶结果数据图Fig.4 Data graph of straight line driving results of reinforcement learning control

图5 纯模糊控制直线再转向结果数据图Fig.5 Result data graph of straight redirection of pure fuzzy control

图6 强化学习控制直线再转向结果数据图Fig.6 Data graph of redirection results of reinforcement learning control

其中,由于铲运机转向是通过油缸伸缩来实现,由于油缸存在摩擦力,且控制油缸转向的液压阀有死区,所以只有当压力达到一定值时,油缸才会动作,因此在图中转向控制量的绝对值达到4以上时,铰接角才会开始变化。

实车控制最初采用的是纯模糊控制,控制因素只有航向角误差为主导,不考虑其他因素。实验数据表明,车速控制效果不理想且有明显顿挫感,车辆安全人员十分不适。使用离线学习的理想强化学习模型后,控制因素考虑了横向位置误差、航向角误差以及上一时刻车速,试验数据表明控制曲线较为理想,无明显顿挫感,震荡感不明显。

分析发现,直线试验中,纯模糊控制在加速后,行驶不是很稳定,行驶6 s左右时,速度有向上的突变,且速度变化较大不平稳,而强化学习控制在加速后,行驶比较平稳,且速度变化微小,在0.2 km/h之内。

转向试验中,纯模糊控制会有相应的减速效果,但是随后偏差变化过快时,其控制有些失控,不再准确,速度会十分不稳定,变化超出1 km/h,甚至开始加速超出原来直线行驶速度,会给拐弯造成风险,在行驶13 s时,人为干预将车辆急停,而强化学习控制车速,在加速直线前进后进入弯道前,会提前及时减速,且速度变化平稳,变化在0.2 km/h之内,随后车速一直稳定直到转弯结束。算法优劣对照见表1。

表1 纯模糊控制和强化学习控制车速效果对比

4 结论

1)针对铲运机的自身车辆特性和工作工况,对比模糊控制和强化学习控制初步实验,分析推导出的铲运机车速强化学习控制模型,即控制车速和上一时刻车速、上一时刻航向角偏差、上一时刻位置偏差的关系,强化学习算法控制车速可以更好地提高控制效果和行驶平滑性。

2)强化学习算法控制可显著减少车辆行驶过程中的急加、急减速现象,使车速更好地配合转向操作,安全员的舒适度可得到显著提高。在突发情况下,安全员能够更快地接管车辆,提高了车辆无人驾驶的稳定性、可靠性和安全性。

3)由于条件限制,强化学习模型本身化简的相对比较简单,之后还需使其更完善、更具体。例如,除了上一时刻的状态信息,将前几个时刻的状态都考虑其中进行计算分析,还需继续优化控制算法的动态性能和控制指标,甚至具备边行驶边学习的在线学习能力,让其更自动化、智能化,达到更高的目标。

猜你喜欢

模糊控制车速时刻
制动器液冷控制系统模糊控制策略
基于模糊控制的多圆弧路径自动平行泊车仿真
冬“傲”时刻
某轻卡定速巡航车速稳定性优化设计
捕猎时刻
基于纯电动汽车平台的定速巡航系统设计与研究
轻度火力
跑跑卡丁车
基于粒子群优化训练的模糊控制数学建模方法
一天的时刻