探究磁导航AGV深度强化学习路径跟踪控制方法

2020-12-07杨雯

魅力中国 2020年3期

杨雯

（山东爱普电气设备有限公司，山东济南 250101）

引言

自动引导小车AGV（automatedguidedvehicle），是现代物流系统中的重要成员，它具有自动化集成度高、柔性好、可靠性高、自动导航运行、安装便利及使用方便等特点。AGV的导航方式众多，包括视觉导航、GPS导航、激光导航、磁带导引。其中磁带导引由于实现简单，造价便宜，抗干扰能力强在工程领域应用最广。

一、AGV总体结构和控制系统组成

本文设计的磁导航AGV由本体结构、电气控制单元和传感器检测单元三部分组成。AGV本体结构为六轮式结构，由位于车体中部驱动单元的两驱动轮和前后四个万向轮组成。两驱动轮由两个步进电机通过差速驱动实现AGV直行、转向、避障等运动。

电控单元中采用西门子S7-200系列PLCCPU224XP作为主控制器，用PTO脉冲输出方式完成AGV加速启动和减速停止时的步进电机控制，PWM脉冲输出方式完成轨迹跟踪时的电机控制。传感器检测单元由用于磁条路径检测的磁传感器和用于避障的超声波传感器和接触式防撞传感器组成，其中磁传感器为AGV的“眼睛”，通过读取磁条获取小车位置和偏移状态信息，主控制单元通过对其所得到的信息进行分析，得到不同偏移状态时的电机控制量，从而达到对AGV准确控制的目的。

二、路径跟踪深度强化学习控制策略

路径跟踪问题马尔科夫建模强化学习是一类用于解决马尔可夫决策过程MDP）问题的算法集合，需将目标任务转化为MDP问题才能应用强化学习算法。包括4个部分的设计，分别为智能体、状态空间、动作空间与奖励函数，智能体在本文中即为第一章所描述的AGV模型。

（一）智能体状态空间设计

考虑到磁导航AGV通常只能得到磁感应器中心点与磁条中心点的偏差距离这一外界信息。所以在感应信息缺乏的情况下，若只利用传感器当前的观测信号作为状态表示，其状态表示只能反映AGV车身一点与磁条的距离，并不能体现AGV车身方向与磁条路径方向之间的夹角。上述问题也被称为混淆状态问题，该状态表示不满足马尔科夫特性。于是考虑加入最近N步的历史状态共同构建状态表示。

（二）智能体动作空间设计

由于AGV由转向驱动轮驱动，因此对AGV的控制输出为驱动轮转动力矩与驱动轮转向力矩，两个力矩分别控制主动轮的转速与方向。伺服电机可输出的力矩范围是比较大的，若直接使用输出力矩大小作为智能体的动作输出空间可能导致两个问题，其一是由于连续的动作行为是被独立随机选择的所以在训练的过程中智能体可能会连续输出两个差距较大的力矩值，这种情况可能会对电机的使用寿命造成影响，其二是智能体的动作空间越大其训练的时间也会越长，原因是导致探索的状态空间变大了。

（三）策略函数参数更新方法

策略函数的更新使用了确定性策略梯度算法。确定性策略的梯度的存在，确定性策略梯度的提出避免了算法在动作空间上的积分计算，使得策略梯度的估计效率大大的超过了随机策略梯度算法。与随机策略不同的是确定性策略的动作输出不存在随机性，无法对状态空间进行探索，所以在使用确定性策略算法时需要在输出动作时加入随机的探索噪音以实现对状态空间的探索。

三、算法执行流程

算法在应用前需要进行一段时间的训练，并在算法收敛后结束该阶段。最终得到的策略函数即为将当前AGV的状态输入映射为动作输出的路径跟踪控制器。训练阶段结束后只保留策略函数部分作为AGV的路径跟踪控制器。基本步骤如下：（1）获取AGV状态信号st输入到策略函数网络中；（2）策略函数接收输入状态信号st后生成动作at作为输出，在加入探索噪音后返回给AGV执行；（3）AGV执行动作at后得到奖励rt与下一个状态st＋1，组合前一时刻状态信号st并加入历史信号后组成经验样本e（St，at，rt，St＋1）存储到大小为1×10 4的经验缓存池中；（4）从经验缓存池中随机采样一个batch的经验样本用于训练；（5）使用采样的经验样本，用式（12）计算损失函数；（6）通过随机梯度下降的优化方法最小化损失函数来更新值函数逼近网络QSt，at｜（）ω的参数ω；（7）通过确定性策略梯度算法式来更新策略函数网络μst｜（）θ的参数θ。

结语

仿真结果及分析路径跟踪仿真中使用了两个半径分别为6m与4m的圆弧连接3段直线作为跟踪路径。首先在训练阶段中，考虑到磁条传感器的宽度通常为20cm，其最大测量误差为±10cm。所以将误差允许范围限定为±10cm，当AGV的跟踪误差大于±10cm时则判定出轨并结束本次跟踪任务，将AGV重置为误差在±10cm范围内的随机初始状态，进入下次迭代。AGV每次出轨或是行驶完跟踪路径的全程则为一次完整的。在模型性能验证中，AGV的起点坐标为（9.9.0），初始误差设置为0.1m，去除探索噪音只保留策略函数部分作为控制输出。