考虑驾驶员特性的自学习换道轨迹规划系统*
2021-01-13高振海朱乃宣梅兴泰
高振海,朱乃宣,高 菲,梅兴泰,张 进,何 磊
(1. 吉林大学,汽车仿真与控制国家重点实验室,长春 130022;2. 广州汽车集团股份有限公司汽车工程研究院,广州 511434)
前言
车道变换是当前研究的热点问题,在轨迹的规划和跟踪方面,Shladover 等[1]提出了一个正弦车道变化模型,该模型可以将横向加速度表示为时间的正弦曲线特征。闫尧等[2]建立车辆五次多项式换道轨迹模型,并为其增加调节参数。以换道轨迹的平均曲率最小和长度最短为目标设计目标函数,同时考虑换道过程中的舒适性和平稳性,以车辆的横向速度、横向加速度和横摆角速度为约束条件,最后采用序列二次规划算法对参数进行优化求解。白成盼等[3]利用约束求解得到基于sigmoid 函数的优化路径,将其与多项式参数化时间函数作为平坦输出,利用微分平坦理论构造一个非线性性能指标函数并对其进行优化求解完成车速规划,进而实现对智能车辆路径-速度分解式的轨迹规划。
近年来越来越多的研究聚焦在人性化的驾驶辅助系统上,这也就对车道变换提出了更高的要求。当前与驾驶员特性相结合的换道辅助系统研究正广泛进行,闫淑德[4]利用模糊C-均值聚类算法给驾驶员贴“标签”,并将驾驶员驾驶习性分为谨慎型、一般型和激进型,采用粒子群算法优化BP 神经网络搭建驾驶人驾驶习性辨识策略,基于驾驶人驾驶习性建立个性化换道最小安全距离模型。纵瑞雪[5]采用自适应模型预测控制原理与离散车辆动力学模型相融合的方法,将安全性、个性化和舒适性作为优化性能指标,设计了换道辅助策略。Ren 等[6]考虑了驾驶员的驾驶风格将样本数据分为3 种驾驶方式:谨慎、稳定和激进,同时建立了K-means 和神经网络的多层感知器模型以辨识换道过程。Vallon 等[7]提出了一种自主车道变更算法,其中车道变更决策由基于支持向量机(SVM)的分类器确定,使用人类驾驶员实际变道和保持车道演示的数据来训练多个SVM。SVM 根据所显示的单个驾驶员的喜好来学习是继续保留车道还是启动换道,之后再使用分类器的输出生成轨迹。
上述研究主要对驾驶员换道数据进行大样本采集,应用分类算法将驾驶员分类,之后将各类驾驶员的共性化特征运用到控制或者预警策略中。这些方法往往存在着以下问题:将驾驶员分类后,算法不能针对每位驾驶员的特点进行个性化微调;同时,由于数据采集局限在换道数据,在自由驾驶的环境下普适性较差,实时性也难以保证。
针对以上问题,本文中提出了一套基于驾驶员自然驾驶行为数据辨识的换道轨迹规划系统。采集了30 位驾驶员的车道变换操纵行为数据和自由驾驶数据,并基于对这些数据的离线学习,建立可描述驾驶员共性化的车道变换轨迹规划算法。通过对驾驶员个体数据的在线学习,实现对规划算法的微调,使其更精准体现驾驶员的个性化操控行为规律,最终生成与真人操控数据高度一致的换道轨迹。
1 基于高斯分布的换道轨迹规划
在基于驾驶员特性的换道辅助系统中,设计换道轨迹非常重要。既要满足轨迹的可行性,同时将驾驶员的特性融入其中。本文通过对采集的30 名驾驶员的换道数据进行分析,发现当驾驶员进行换道操作时,实际车辆的横向速度随时间的曲线均可由高斯分布很好的拟合。图1 为其中某名驾驶员的换道横向速度的时域图。因此,本文中提出了一种基于高斯分布的换道轨迹规划方法。
图1 实际换道过程的横向速度变化和拟合曲线
高斯分布拟合的横向速度公式为
式中:t为换道时间;d、μy和σy为拟合系数。
由高斯分布的定义可知,决定曲线的主要参数就是式(1)中的d、μy和σy。其中d是比例系数,将曲线等比例放大,代表着由道路条件决定的换道横向速度系数;μy是分布的位置参数,体现数据集中分布的中心位置,用来描述驾驶员的反应和操作时间;σy主要描述数据分布的离散程度,进而改变曲线的形状,σy越大,曲线越扁平,该值很好地反映不同驾驶员的特点。
在传统高斯拟合的基础上,本文中引入驾驶员特性系数Jc和驾驶员反应与操作时间td,用于计算σy,建立了仿驾驶员行为的换道轨迹规划系统。式(1)中相关系数如下:
式中:B为车道宽度;ts为转向系统反应时间。
将车道宽度设置为d=B=3.75 m,转向系统反应时间ts= 1.1 s,Jc和td的具体取值在 2.1.2 和2.2.3 节中详细说明。
由此,便可获得车辆的横向加速度:
车道变换过程的车辆横向位移也可通过公式积分获得:
式中T为整个换道过程的总时间。
2 基于驾驶员自然驾驶行为数据辨识的换道轨迹规划系统
一套完整的自学习系统首先对驾驶员的共性特征进行提取,获得普适性的参数,同时能够针对某名驾驶员实际驾驶的数据进行个性化的在线调整。图2 显示了本文所搭建的轨迹规划系统的技术路线图。
图2 规迹规划系统技术路线图
2.1 基于历史数据的离线学习
2.1.1 驾驶员数据的采集
为分析驾驶员特性,在自由驾驶工况下进行大量实验,以收集驾驶员的驾驶数据。如图3 所示,构建了驾驶员行为数据采集系统,它使用了一辆真实车辆,辅以惯性导航和VECTOR VN1630A CAN 采集设备。
图3 驾驶员数据采集流程图
采集以下数据以便后续分析:转向盘转角、转向盘转速、横纵向加速度、横摆角速度、车速、制动主缸压力、油门踏板开度和经纬度。
实验地点在中国长春选定了一段路线作为驾驶场景,选取的路段涵盖了常见的场景,如直行、连续弯道、环岛、换道、高架和拥堵等,全程约12 km,单次驾驶时长约25 min。实验最后每名驾驶员再进行5 次自由换道以便后续分析。
为使采集的数据具有代表性,本次实验选择了30 名长春本地的驾驶员作为测试样本,其职业为学生、教师和出租车驾驶员。其中男性23 名,女性7名,年龄分布在20 ~55 岁之间。同时为区别其驾驶能力,选取的驾驶员驾龄分布在1 ~20年之间。在正式测试之前,驾驶员会先对实验车辆进行一段时间的试驾,以使他们熟悉车辆和实验步骤,除副驾驶的一名记录员外车上无其他乘员及设备[8]。试验后对其个人信息进行统计,如表1 所示。
表1 驾驶员信息
2.1.2 共性化Jc和td的获得
Jc是确定车辆横向速度最大值vy和变化率的系数,同时也是反映不同驾驶员之间区别的关键参数;td是反映驾驶员反应和操作快慢的重要因素。因此,针对每个驾驶员特性适当选择Jc和td,就能够保证车辆状态符合该驾驶员的预期。
使用动态时间规整(DTW)进行轨迹的匹配。DTW 可在某些限制条件下找到两个给定(时间相关)序列之间的最佳比对[9]。选用采集的30 名驾驶员的自由换道轨迹作为真实轨迹,令拟合生成的轨迹和真实换道轨迹分别为X和Y,长度分别为X和归整路径(Warp Path)的形式为
W中每项的形式为wk(i,j),其中i表示轨迹X中第i个点坐标,j表示轨迹Y中第j个点坐标。
归整路径W必须从w1=(1,1)开始,到wk=结尾,以保证X和Y中的每个坐标都在W中出现。另外,W中w(i,j)的i和j必须是单调增加的,即
其中:i≤i′≤i+1,j≤j′≤j+1。
最后要得到的归整路径就是距离最短的一个归整路径:
式中:Dist(i,j)为轨迹X第i个点与Y第j个点之间的距离;D(i,j)为轨迹X的前i个点与Y的前j个点的总距离。
通过对驾驶特性系数Jc和反应与操作时间td的动态调整以改变拟合轨迹,使用DTW 算法将每一对Jc和td下的拟合轨迹与真实轨迹匹配,直到获得最小的平方欧式距离,此时的Jc和td即为该名驾驶员的最佳参数。图4 显示了一名驾驶员平方距离最小时(Jc=1.3,td=0.9 s)的拟合轨迹和真实轨迹,此时两者轨迹接近程度最好。
图4 使用DTW 后的真实轨迹和拟合轨迹
通过对30 名驾驶员5 次换道轨迹的DTW 比对,最终得到了150 组Jc和td,为了获得共性化的Jc和td,本文中使用了AP 算法进行聚类分析。AP 聚类算法是基于数据点间的“信息传递”的一种聚类算法。与k-均值算法或k中心点算法不同,AP 算法不需要在运行算法之前确定聚类中心的个数。
本文的数据样本集为{x1,x2,x3,…,xn},其中xi为一组Jc和td值。令S是一个刻画点之间相似度的矩阵,使得S(i,j)>S(i,k)当且仅当xi与xj的相似性程度大于其与xk的相似性。
AP 算法进行交替两个消息传递的步骤,以更新如下两个矩阵。
(1)吸引信息矩阵R:r(i,k)描述了数据对象k适合作为数据对象i的聚类中心的程度,表示的是从i到k的消息。
(2)归属信息矩阵A:a(i,k)描述了数据对象i选择数据对象k作为其聚类中心的适合程度,表示从k到i的消息。
两个矩阵R和A中全部初始化为0,可看成Log-概率表,这个算法通过以下步骤迭代进行。
首先,吸引信息rt+1(i,k)按照如下迭代:
然后,归属信息at+1(i,k)按照下面两式迭代:
对以上步骤进行迭代,当矩阵稳定或达到最大迭代次数,即可得到最终结果。
聚类结果如图 5 所示,AP 算法将(Jc,td)最终分为 3 类,3 类的聚类中心分别为(1.48,0.79)、(1.36,0.65)和(1.57,0.62)。本文中将这 3 类分别定义为舒适型、一般型和运动型的轨迹参数,同时将聚类中心值作为(Jc,td)的 3 类离线共性化参数值。
图5 AP 聚类结果
将3 个聚类中心值(Jc,td)代入拟合轨迹方程中,图6 分别显示了对应典型的3 类参数下的横向速度、加速度和位移曲线。由图可见,3 种控制器参数下换道特性存在明显差异,能够很好地满足不同驾驶员的驾驶需求。
图 6 3 种( Jc,td )下的拟合数据
2.2 基于实时数据的在线学习
在完成离线学习后,需要从自由驾驶数据中在线分析出30 名驾驶员的驾驶特性。上文中,根据(Jc,td)将驾驶特性分为舒适、一般和运动型,从而得到30 名实验者的标签。本文中基于此标签和长短时记忆神经网络(LSTM)搭建了在线辨识模型以动态调整参数。
2.2.1 特征工况提取
考虑到LSTM 的输入为时序数列,将驾驶员的自由驾驶数据进行了提取和分段。驾驶员的转向操作是区别不同驾驶员的重要操作,许多研究将驾驶员的转向操作从自由驾驶数据中剥离出来进行分析[10]。本文设定的转向行驶的条件为:(1)车速v>2 m/s2;(2)转向盘转角δsw>5°;(3)转向盘转速
当汽车脱离稳定直线行驶时,开启数据的提取;当汽车重新进入直线行驶或者超过设定的工况持续时间Tcon(本文设置Tcon=7 s),完成一段数据提取,得到一组驾驶员转向的时序数据。
每个驾驶员25 min 的驾驶数据大约能提取50组左右特征工况,30 个驾驶员的实验,累计获得了1 831 组特征工况。
2.2.2 在线辨识模型搭建
采用LSTM 建立驾驶员辨识模型。LSTM 是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟较长的重要事件[11],其网络结构如图7 所示。
图7 LSTM 网络结构
本文的输入门Xt包含转向盘转角δsw、车速v、转向盘转速、纵向加速度ax、横向加速度ay和计算得到的航向角变化ψ的时间序列。
图8 LSTM 训练过程
在训练过程中,在1 831 组数据中随机选取1 300(总数据的70%)组作为训练集。训练过程如图8 所示,表2 则显示了使用剩余数据作测试集的验证结果。由表2 可见,舒适、一般和运动的驾驶特性在经过训练的LSTM 网络的检测准确度均超过90%。实践证明,该算法准确性良好,为驾驶员特性辨识算法在控制系统中的运用奠定了基础。
表2 LSTM 单次特征工况的辨识结果
2.2.3Jc和td的动态调整方法
在确保了单次特征工况辨识的准确后,设计了Jc和td的动态更新方法:驾驶员驾驶车辆时,在线辨识模型不断地进行特征工况的提取。每获得一段特征工况数据,就将其进行LSTM 模型的辨识,根据多次辨识的统计结果,得到Jc和td的值,之后再生成个性化的换道轨迹。Jc和td的具体更新方法如下:
式中:nc为辨识出舒适特性的次数;nn为辨识出一般特性的次数;ns为辨识出运动特性的次数;n为特征工况的总个数。
该系统随着驾驶数据的累积和特征工况的增多,能够动态更新驾驶员特性系数Jc和驾驶员反应与操作时间td,进而描述驾驶员个体的行为特性,最终可很好的复现真人的换道轨迹。
3 模型的验证
选取了15 名驾驶员进行实车验证,本节将选取其中3 名驾驶员进行说明。实验开始前,令驾驶员对实验车辆先进行一段时间的试驾,使他们熟悉车辆和实验流程。
将驾驶员特性辨识程序搭载进MATLAB/ Simulink 中,通过VECTOR VN1630A 实时获取驾驶员的车辆操控数据,通过辨识程序进行特征工况提取,驾驶员每完成一次特征工况,便将此次时序数据进入集成好的 LSTM 中辨识,并更新Jc和td。图9 显示了1 号驾驶员在驾驶过程中Jc和td的动态调整过程。
表3 显示了实验完成后驾驶员的特征工况辨识结果及对应生成的Jc和td。
表3 驾驶员特性辨识结果
在完成自由驾驶后,令每名驾驶员分别完成几次自由换道,以验证实际换道轨迹和拟合轨迹的匹配度。图10 显示1-3 号驾驶员的实际换道轨迹,图11~图13 分别是3 位驾驶员的真实轨迹和根据辨识结果获得的拟合轨迹。
图10 3 名驾驶员真实换道轨迹
图11 1 号驾驶员的真实轨迹和拟合轨迹(Jc = 1.48,td = 0.78 s)
图12 2 号驾驶员的真实轨迹和拟合轨迹(Jc = 1.45,td = 0.65 s)
图13 3 号驾驶员的真实轨迹和拟合轨迹(Jc = 1.54,td = 0.63 s)
为描述拟合轨迹的符合程度,基于上节中30 名驾驶员的轨迹,计算出一个平均距离作为系统误差的通用阈值。将通用阈值设定为1,即拟合轨迹与真实轨迹间的平方欧氏距离均小于1 就表明拟合的轨迹满足驾驶员的要求。图14 显示了1 号驾驶员在线辨识过程中的DTW 误差情况。随着在线学习系统的运行,轨迹误差不断下降,最后达到了本文设定的要求。最终,15 名驾驶员实验完成后,其中14名驾驶员的误差达到了阈值以下,拟合准确率达93.3%。
图14 1 号驾驶员的轨迹误差
因此,基于驾驶员特性的自学习个性化换道轨迹规划系统可准确识别真人驾驶行为数据,之后基于辨识结果调整自动驾驶控制,良好的复现真人的换道轨迹,实验结果与真人操控轨迹具有良好的一致性。
4 结论
(1)本文在换道轨迹规划中融合了驾驶人的特性,建立了基于驾驶员特性的自学习换道轨迹规划系统,研究结果可为考虑驾驶人因素的驾驶辅助系统的研究提供参考。
(2)在传统高斯拟合的基础上,引入驾驶员特性系数和驾驶员反应与操作时间,提出了个性化的换道轨迹规划系统,并通过DTW 算法匹配实际和拟合轨迹,尽可能复现了真人的换道轨迹。
(3)通过实车采集换道轨迹,并使用AP 聚类算法得到Jc和td的共性化值和驾驶员特性标签。同时对自由驾驶数据进行特征工况分段提取,获得了1 831 组时间序列。依据标签,搭建了基于LSTM 的驾驶特性实时辨识模型,验证集显示了在单次工况下识别率均高于91.2%。
(4)通过实验验证了提出系统的有效性。实验结果表明:该系统能够在线提取特征工况并完成辨识,依据辨识结果动态更新Jc和td,生成换道轨迹。最终15 名中的14 名驾驶员实际轨迹与拟合轨迹的平方欧氏距离小于1,拟合正确率达到93.3%。因此,该系统能够准确识别真人行为数据,然后基于辨识结果调整自动驾驶控制,复现真人的换道轨迹。