APP下载

强化学习在混合动力汽车能量管理上的研究综述

2021-09-09

汽车实用技术 2021年16期
关键词:结果表明经济性燃油

(重庆交通大学机电与车辆工程学院,重庆 400074)

引言

混合动力汽车(HEV)具备传统汽车和纯电动汽车的优点,其通过调节发动机和电机之间的能源分配,来保证发动机工作在高效率低能耗的区域[1],目前在混合动力汽车能量管理策略上的研究已经成熟发展,早期主要采用基于规则的策略,如张冰战[2]等设计了一种双层次的规则控制策略,后来广泛采用基于优化控制理论的策略,如解少博[3]等提出了一种基于DP-ECMS的插电式混合动力城市客车能量管理策略。

近年来一些学者和研究人员对基于学习的能量管理方法展开了研究,其中RL方法是一种普遍且有效的具有实时应用的潜力的技术。RL方法在HEV能量管理中,可以分为两类,一是单一算法,例如LIU T[4]等人提出基于Q-learning算法的混合动力车辆能量管理策略。二是混合算法,其他算法与RL相结合,如隗寒冰[5]等利用深度学习与RL结合,提出基于深度RL的混合动力汽车多目标优化控制策略。这些其他的算法与信息被集成到RL的框架中,可以实现更高效和实时的控制。

本文首先描述HEV能量管理问题,然后总结了RL在HEV能量管理上的不同应用,比较了它们的关键性能指标,最后对于RL在能量管理系统的研究前景进行了展望。

1 HEV能量管理系统问题描述

HEV能量管理系统的核心问题通常被描述为一个具有期望控制目标和特定物理约束的最优控制问题[6]。其控制目标可以包括一种或多种选择,如排气温度、排放、燃油消耗、电池荷电状态等。

最优控制问题通常受到三种物理约束:动力系统的动力学、状态变量的初始值和终值以及对控制变量和状态变量的限制。系统地输入一般为需求功率、当前SOC等,系统的状态变量一般为SOC、发动机和电机的转速等,系统的控制变量一般为发动机输出功率、电机的输出功率、换挡和离合器状态等。为了解决最优控制问题,需要对这些参数进行限制界定。

2 强化学习

RL的目标就是通过智能体与环境之间的试错学习,找到最优策略,使得累积回报的期望最大[7],其中智能体是学习者和决策者,智能体首先根据观测到的环境状态来选择对应的动作作用到环境中,得到对应的回报奖励和下一步的状态,然后根据回报的大小不断试错学习改进其策略,以获得大的回报奖励[8]。对应的混合动力汽车能量管理问题中的RL框架如图1所示,在混合动力汽车能量管理问题中环境可以看作车辆的行驶工况、系统动力学和动力系统建模模型。而智能体可以看作具有不同算法的特殊的功率分流控制器,该控制器的目的是根据所接收的状态和奖励信息来搜索一系列动作。

图1 HEV能量管理问题中的RL框架

3 RL在HEV能量管理中的应用

在本节中,首先讨论了RL单一算法和基于RL的混合算法在HEV能量管理中的各种应用以及发展,最后总结了HEV能量管理领域中最新的RL方法。

3.1 单一RL算法在HEV上的应用

近年来单一RL算法在混合动力汽车能量管理中得到了广泛发展,在过去几年Fang Y[9]等人应用TD(λ)学习算法根据收集到的历史驾驶数据训练和学习最优的Q价值函数,结果表明提高了燃油经济性。

除此之外,陶吉利[10]等人提出了一种基于Q学习的HEV能量管理策略,结果表明此策略有良好的燃油经济性。Liu C[11]等人利用TD(0)算法训练估计状态值表格,并取得了比较好的效果。XU B[12]等人提出了基于Q学习的HEV能量管理策略,分别对比了Q学习、ECMS和恒温控制策略对HEV燃油经济性的影响,结果表明基于Q-学习的控制策略更有效。N Yang[13]等人提出了基于Dyna能量管理策略,此策略下的仿真结果表明所提出的算法在学习速率方面取得很大的进步。

3.2 混合RL算法在HEV能量管理问题上的应用

近年来,随着深度学习和人工智能的快速发展,两种以及两种以上的算法被集成到RL框架中。如DL与RL结合形成深度强化学习,其中包括DQN、DDPG、TD3等算法已经应用到混合动力汽车能量管理领域。如张昊[14]等人提出了基于DQN算法的能量管理策略,训练结果表明所提算法在维持SOC的情况下还有很好的燃油经济性。隗寒冰[15]等人提出了一种基于DQN的多目标优化的PHEV能量管理策略,结果表明此策略取得比较好的效果。

DQN算法虽然可以有效解决维度灾难问题但是针对连续动作输出并不能达到最优,所以有学者用DDPG进行了改善。如王勇[16]等人以一款丰田PHEV和HEV作为研究对象,提出了基于DDPG的HEV实时能量管理策略,训练结果表明此策略的HEV的燃油经济性较高。DDPG算法会出现高估Q值的情况,可能使得算法陷入次优策略中并且导致算法不收敛。所以有学者对此问题进行了改进。如Zhou J[17]等人提出一种基于TD3算法的混合动力汽车能量管理策略,结果表明改进的TD3算法策略收敛速度快,燃油经济性好。RL除了与深度学习结合,还能与其他算法相结合。如Du G[18]等人提出了一种将启发式规划与Dyna智能体相结合的新的RL方法Dyna-H,并应用到HEV能量管理中,证明了所提算法的可以很好地解决维数灾难等问题,同时保证了汽车的燃油经济性。

上述概述了RL单一和混合算法在混合动力汽车能量管理方面的应用,其中他们的具体应用对象及优缺点如表1所示。

基于RL的能量管理策略优于基于规则的策略,但有很多条件限制了它们的实时应用,首先是车载电脑计算能力,再一个是RL需要大量的驾驶数据才能使衍生的策略适应不同的驾驶情况。

3.3 RL在混合动力汽车能量管理领域应用趋势

基于RL的HEV能量管理未来的发展趋势有三种情况:

(1)出现新型高效的RL算法应用到此领域中。可以利用不同类型的深度学习算法对大量数据进行分类训练和学习。如深度信念网络[19]、循环神经网络[20]是从大量数据中学习特殊模型得很有前景的方法。

(2)基于RL的能源管理将与智能交通系统相结合,构建智能电网。智能交通系统可以提供实时出行信息、特殊交通情况和天气情况等,对改进基于RL的能源管理的过程中提供很大帮助。

(3)优化目标将变得更全面和复杂。从优化燃油经济性的单一目标过渡到多个目标是未来RL在混合动力汽车能量管理领域的研究趋势。

4 总结

本文首先介绍了能量管理问题的RL框架,在此基础上讨论了基于RL的各种算法在能量管理上的应用,最后对此应用进行了展望。

猜你喜欢

结果表明经济性燃油
高层建筑结构设计经济性探讨与分析
基于经济性和热平衡的主动进气格栅策略开发(续2)
含风电的电力系统调度的经济性分析
含风电的电力系统调度的经济性分析
亚欧美港口燃油价格
亚欧美港口燃油价格
亚欧美港口燃油价格
册亨县杂交水稻引种试验
美国制定出2011年轻型车平均燃油经济性指标
体育锻炼也重要