基于在线学习的车辆经济自适应巡航控制
2021-12-27司明玉周金应褚观耀龙军程前
司明玉,周金应,褚观耀,龙军,程前
(中国汽车工程研究院股份有限公司,重庆 401122)
0 引言
自适应巡航控制系统作为一种先进的驾驶辅助系统,可以实时控制自车与前车的距离,显著提高了道路车辆的行驶安全性,受到了广泛的关注。文献[1-2]研究了自适应巡航控制的经济性,采用基于动态规划的算法,兼顾了安全与节油。文献[3]提出了基于多目标优化的模型预测控制算法,以提高车辆跟随工况下的燃油经济性和跟随性能。文献[4]设计了一种鲁棒的自适应巡航控制器,用于改善车辆加速度和换挡策略,使车辆在不同交通状况下都能保持良好的燃油经济性,但由于换挡策略是离线设计的,无法保证发动机处于最佳工作点。文献[5-6]采用脉冲滑模控制方法,使发动机在高效率的区域工作,可有效降低车辆行驶时的燃油消耗。文献[7-8]将道路坡度和车距信息加入到控制系统,优化了车辆的加速度输出,可改善车辆的燃油经济性。
综上所述,针对自适应巡航控制的研究日益得到重视,但对于如何基于车辆的动力响应特性,实现安全与节油的协同控制并兼顾控制的最优性,还有待进一步研究。
本文以自适应巡航控制器为研究对象,在分析其结构与特性的基础上,提出一种基于在线学习的经济自适应巡航控制器,该控制器可以同时实现换挡控制和牵引力控制,以提高燃油经济性和行驶安全性。基于执行依赖启发式动态规划(ADHDP)方法得到车轮牵引力,控制车辆速度,确保安全行驶。通过设定换挡控制策略,调整发动机工作点,从而提高车辆的燃油经济性。
本文设计的经济自适应巡航控制器的主要优点有:1)所提出的控制方法是基于在线学习的,不依赖于车辆动力学模型,可以适应不同的行驶工况;2)将牵引力与换挡控制相结合,兼顾车辆的燃油经济性和行车安全性,可实现在线计算。
1 系统动力学建模
本文研究的汽车跟随过程如图1所示。vp和vh分别表示前车和自车速度,L为两车的实际距离,可以通过雷达传感器等测得。在跟随前车过程中,自车在自适应巡航控制器的作用下,保持期望的安全距离Ldes行驶。
图1 跟车工况
1.1 纵向动力学模型
自车的纵向动力学模型如式(1)所示。
(1)
其中:Ft是车轮的牵引力,当Ft<0时,表示其为制动力;ρ为空气密度;A为车身迎风面积;Cd为空气阻力系数;m为车辆质量;f为滚动阻力系数;α为路面坡度。
1.2 发动机模型
燃油消耗率如图2所示。燃油消耗率是发动机转矩Te和发动机转速ωe的非线性函数,可表示为
图2 燃油消耗率图
(2)
1.3 传动系统模型
自车采用自动机械传动(AMT),将发动机转矩传递到车轮上,以满足行驶动力要求,发动机和车轮的速度和转矩关系分别由下式确定:
(3)
其中:ig为齿轮位置g对应的传动比;rw为车轮半径;ηg为传动效率。
AMT中的换挡策略决定了齿轮传动比,并以此调整发动机的工作点。为了避免跳跃式换挡所带来的车辆舒适性变差的问题,仅允许顺序换挡。设计的换挡策略根据上一时刻的齿轮位置g(t-1)来控制当前时间步长的齿轮位置g(t),并且根据如下的动态模型来发出换挡指令:
g(t)=g(t-1)+ug(t)
(4)
其中:ug属于集合{-1,0,1},-1表示下降,1表示上升,0表示保持不变。
在车辆跟随情况下,经济自适应巡航控制的目标有两个:最低燃油消耗率和为了保证安全行驶所需的期望车辆间距Ldes。车辆距离偏差定义为ΔL=L-Ldes,相对速度偏差定义为Δv=vp-vh,Ldes的表达式如下:
Ldes=τhvh+d0
(5)
其中:τh是采样时间间隔;d0是静止距离。
车辆距离偏差ΔL和相对速度偏差Δv的动态模型可以表示为:
(6)
其中ap是前车加速度。
通过车辆距离偏差和车速偏差来评价车辆跟车工况下的跟踪性能,为了改善燃油经济性和跟踪性能,设置目标函数为
(7)
其中Tcyc是车辆的行驶里程。
经济自适应巡航控制的最优问题是综合考虑经济和安全指标,求解控制变量u=[Ft,ug]T,使得目标函数式(7)最小。因此,设置如下的约束条件:
amin≤ah≤amax
ΔLmin≤ΔL≤ΔLmax
Δvmin≤Δv≤Δvmax
Te,min≤Te≤Te,max
ωe,min≤ωe≤ωe,max
ig∈{ig1,ig2,ig3,ig4,ig5}
(8)
2 经济自适应巡航控制器设计
本节介绍基于Actor-Critic结构的自适应动态规划(ADP),并讨论其在经济自适应巡航控制中的应用。
2.1 ADP简述
ADP作为强化学习的一种主要变体,是一种基于学习的控制方法,它根据与环境的交互进行决策。
如图3所示的Actor-Critic结构,从Actor网络中可生成一个行为,并使用Critic网络进行评估,得到一个增强信号。通过最小化从Critic网络获得的值来改善控制策略。ADP通常可以在不依赖系统模型的情况下,在线近似地求解最优控制问题[9]。
图3 Action-Critic结构
设有如下非线性离散时间系统:
r(xt,ut)=r(xi,ut)+βV(xt+1)
(9)
其中:0<β<1;r(xi,ui)是根据控制输入ui和状态量xi得到的瞬时值。
ut=h(xt)的贝尔曼最优方程如下:
(10)
由式(10)可得
h*(xk)=argmin[r(xt,h(xt))+βV*(xt+1)]
(11)
1)Critic网络和在线学习
图4 Critic网络的结构
Critic网络的误差函数定义为估计值与实际值之间的误差,如下所示:
(12)
其中r(t)为外部增强信号。
Critic网络的学习目标是通过更新参数wc,使误差函数ec(t)最小化,如下所示:
(13)
基于链推导规则的梯度下降自适应算法可用于更新权重,得到修正的权重为[10]:
(14)
其中ηc(t)是Critic网络的学习速率。
2)Action网络与在线学习
(15)
Action网络的训练和Critic网络类似,其权重如下所示:
(16)
其中ηa(t)是Action网络的学习速率。
2.2 经济自适应巡航控制
经济自适应巡航控制的目标是保持与前车的安全距离,并且使相同时间内的燃油消耗最小。通过调整牵引力Ft来控制自车的速度,使其跟随前车安全行驶,并由最优换挡控制ug来调整发动机工作点,总体控制算法如图5所示。
图5 控制算法
假设已经测得车辆距离偏差ΔL和车速偏差Δv,在每个时间步长,可以从集合{-1,0,1}选择换挡指令ug。由式(3)和式(4)可得ug对应的发动机转矩和发动机转速。牵引力Ft可由Action网络中的ADHDP方法计算得到。
在学习过程开始时,Critic和Action网络的参数在[0,0.4]中随机选取。在每一个时间步长中,利用Critic网络对式(13)进行迭代。迭代停止判据为最大迭代次数Nc和容差Tc。如果迭代满足任意一个条件,则停止迭代过程,并从Critic网络中导出近似值函数。同理,利用Action网络对式(15)进行迭代,迭代停止判据为最大迭代次数Na和容差Ta,当满足任意一个条件时,停止迭代过程,并从Action网络中导出最优牵引力和换挡指令,最终应用于车辆。
3 仿真测试及有关分析
针对城市道路和高速公路的行驶场景,对所提出的控制方法进行了仿真。仿真参数如表1所示。
表1 仿真参数
3.1 城市道路循环工况仿真
针对城市道路循环工况(UDDS)进行了经济自适应巡航控制器的仿真。前300 s的仿真结果如图6所示,自车的速度曲线与前车的速度曲线非常接近,距离偏差保持在-2 m~2 m的范围内,这表明车辆具有良好的跟踪性能和安全性。车辆的加速度<2 m/s2,可保证良好的乘坐舒适性。
图6 城市道路循环工况(UDDS)仿真
与文献[11]中给出的基于规则控制策略产生的挡位相比,获得了更高的挡位,这有利于发动机燃油经济性。
UDDS工况仿真的燃油消耗量如表2所示。相比本文提出的换挡策略,基于规则的换挡控制方法的燃油消耗率要高出23.3%。另外,在仿真过程中,前车所消耗的燃油量比同一档位的自车多3.7%左右。由此表明,本文设计的经济自适应巡航控制器不仅能保证行车安全,而且能够提高燃油经济性。
表2 UDDS仿真燃油消耗量对比
3.2 高速公路燃油经济性测试仿真
高速公路燃油经济性测试(HWFET)工况前300 s仿真结果如图7所示。自车的速度可以很好地跟随前车的速度,使得车距偏差的变化范围很小,并保持安全行车所需的车辆间距。
图7 HWFET仿真
车辆行驶过程中,加速度始终处于小范围内,因此可保证车辆具有良好的舒适性。相对于基于规则的控制策略,本文所提出的换挡方案能够产生更高的挡位调节发动机工作点,从而改善车辆的燃油经济性。
表3给出了高速公路燃油经济性测试的仿真燃油消耗量。基于规则的控制方案燃油消耗比本文所提出的换挡策略高3.8%,并且,与相同换挡控制的前车相比,自车的燃油消耗少0.7%。
表3 HWFET仿真燃油消耗量对比
4 结语
本文基于车辆纵向动力学特性分析与辨识,设计了一种兼顾安全与节油的车辆经济自适应巡航控制器。采用执行依赖启发式动态规划(ADHDP)方法控制车轮的牵引力,实现跟车功能。通过设置在线换挡策略来调整发动机工作点,从而改善车辆的燃油经济性。通过仿真对比,验证了系统的有效性,得出如下结论:
1)基于在线学习的经济自适应巡航控制器,能在保证安全跟车的前提下,改善车辆的燃油经济性。仿真结果表明,该控制器实现了车辆的安全与节油的协同优化。
2)设计的控制器无需模型,通过在线计算可以适应不同的行驶工况,在兼顾最优性的同时,能够保证控制的实时性。