燃料电池电动汽车改进深度强化学习能量管理

2023-05-11付主木龚慧贤宋书中陶发展孙昊琛

河南科技大学学报(自然科学版) 2023年4期

付主木,龚慧贤,宋书中,陶发展,孙昊琛

(河南科技大学 a．信息工程学院; b．河南省机器人与智能系统重点实验室, 河南洛阳 471023)

0 引言

与传统燃料电池汽车相比,配置锂电池、超级电容等辅助储能装置的燃料电池混合动力汽车(fuel cell hybrid electric vehicle, FCHEV)可以更好地改善整车动态性能[1-3]。为协调优化各能量源的功率分配,选择合适的能量管理策略至关重要[4-5]。目前,根据实现原理不同,能量管理策略大致可分为基于规则[6-7]、基于优化[8-10]和基于学习[11]3类。其中,基于规则的控制策略设计简单,计算成本低,但预设规则常依赖专家经验,难以保证策略最优[12]。基于优化的控制策略可分为全局优化和局部优化。全局优化以动态规划为代表[13],需要提前获取工况信息且计算时间较长,难以实时应用。局部优化如等效消耗最小策略[14],可实现车辆实时控制,但只能求解当前时刻最优解,无法确保策略全局最优。

为在计算复杂度和计算精度之间找到权衡,近年来,将基于学习的控制方法,特别是强化学习,应用到混合动力汽车能量管理中已成为新的研究方向[15-17]。文献[18]提出基于Q-学习的混合动力履带车辆能量管理方法,在实时应用的同时具有更好的燃油经济性。但由于Q-学习以表格形式存储每对状态-动作值,这意味着处理的状态和动作空间都是离散的,随着离散化程度不断增加,数据维数及算法复杂度急剧上升将导致“维数灾难”[19]。为此,一些能量管理研究引入深度强化学习(deep reinforcement learning, DRL)方法,利用神经网络非线性逼近最优值函数或者策略函数,避免对连续状态-动作问题离散化处理[20]。文献[21]将可处理连续状态空间问题的深度Q-学习方法用于混合动力公交车能量管理中,结果表明该方法在学习能力和优化效果方面均优于Q-学习。文献[22]针对燃料电池混合动力汽车,提出一种基于深度Q-学习的能量管理方法,采用启发式动作剪切方法,提升了网络的学习能力。文献[23]提出一种基于双深度Q-网络学习的插电式混合动力汽车能量管理方法,缓解了由深度Q-学习中值函数过高估计带来的偏差过大和策略次优问题。尽管上述基于值函数的DRL方法在车辆能量管理中取得了不错效果,但其只能解决具有连续状态空间的能量管理问题,所处理的动作空间仍是离散的,这将导致车辆动力系统运行不稳定,影响各能量源使用寿命,从而难以获取最优功率分配策略[24]。

为此,本文针对FCHEV提出一种基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)的能量管理策略。首先,利用基于模糊规则控制的自适应低通滤波器对功率进行解耦处理。其次,以总氢耗、燃料电池工作效率以及锂电池荷电状态(state of charge,SoC)维持为优化目标,建立基于等效消耗最小策略的自适应优化函数,并将其作为Reward函数嵌入到DDPG的能量管理框架中,实现能量源的最优功率分配。此外,引入动态规划辅助网络训练,提升算法学习能力。最后,在典型工况和试验工况下对所提策略进行仿真验证分析。

1 能量管理系统

本文研究对象为配置有燃料电池、锂电池和超级电容三能量源的混合动力汽车。FCHEV的整车拓扑结构框图如图1所示。其中燃料电池与直流(direct current, DC)母线通过单向DC/DC变换器进行连接,输出持续稳定功率,为车辆提供主要动力。锂电池和超级电容分别通过双向DC/DC变换器连接到DC母线,用于回收制动能量并补偿瞬态功率,辅助燃料电池满足车辆行驶总的功率需求。各能量源系统模型的详细介绍可在文献[16]中获得。

图1 三能量源燃料电池混合动力汽车的拓扑结构

2 基于功率分层与DDPG的能量管理策略设计

本文将车辆总功率需求在给定行驶状态下的变化视为连续状态马尔可夫链问题,能量管理主要控制三能量源功率最优分配,是典型的马尔可夫决策过程,可以用DRL来求解。考虑到车辆各能量源的不同特性和较多动作空间需要处理,采用功率分层与DDPG的能量管理策略,总框图如图2所示。首先利用基于模糊滤波的功率分层设计将高频功率分给超级电容,之后建立基于DDPG的能量管理框架,并在离线训练过程中采用动态规划辅助网络训练,获得燃料电池和锂电池的连续最优功率分配策略。

图2 功率分层与DDPG能量管理策略总框图

2.1 基于模糊滤波的功率分层设计

表1 模糊规则

2.2 基于DDPG的能量管理策略

为获得连续的功率分配策略,本文利用DDPG算法处理功率分层后的能量管理问题。基于历史数据,采用最近邻法和最大似然估计法获得需求功率在不同车速下的转移概率矩阵。此外,由于本文优化目标为最低氢消耗、最佳燃料电池效率及锂电池SoC维持,利用等效消耗最小策略的思想构建奖惩评价机制,并在优化过程中考虑SoC和锂电池荷电偏差,具体表示为：

(1)

(2)

其中：minCtotal(t)为最小瞬时总氢消耗量,由燃料电池氢消耗量CFC(t)、锂电池等效氢耗量CBAT(t)和超级电容等效氢消耗量CUC(t)组成,L/100 km;kFC为确保燃料电池工作在高效率区间(0.6～0.7)的惩罚系数;kBAT和kUC分别为根据锂电池当前SoC即SoCBAT和超级电容当前SoC即SoCUC求得的等效因子;ΔSoCBAT为锂电池当前SoC与参考值SoCref的偏差。考虑实车平台上各能量源物理特性,式(2)给出了一些参数边界约束条件。其中,SoCBAT,chg和SoCBAT,dis分别为锂电池充放电效率;PFC(t)min和PFC(t)max分别为燃料电池在高效区间运行的最小和最大输出功率,W。所有边界约束均由实车试验平台所得。

考虑到DDPG强化学习的目标是最大化累积奖励,因此奖励值可表示为：

r=-[Ctotal+χ(ΔSoCBAT)2],

(3)

其中：χ为确保(ΔSoCBAT)2值尽量小的惩罚系数。此外,由于极端状态-动作对的存在,奖励值之间可能会产生巨大数量级差异。因此,采用最小-最大归一化方法处理奖励值,以提高算法收敛速度。

DDPG是一种基于确定性策略的优化算法。算法的离线学习过程如下：首先将从车辆行驶过程中观测到的状态变量s(包括需求功率、车速、锂电池电荷状态、超级电容电荷状态和超级电容输出功率)送入DDPG策略网络中,直接得到初始动作a(即锂电池和燃料电池的功率配比),然后再利用以等效消耗最小策略思想建立的奖惩函数获得对应的奖励/惩罚值r,同时得到基于当前状态下的下一时刻状态。根据所得状态、动作值、奖励值以及下一时刻状态s′,更新网络参数,式子如下：

(4)

∇θμQ≈E[∇aQ(s,aθQ)a=μ(s)·∇θμμ(sθμ)],

(5)

2.3 基于动态规划辅助训练的改进DDPG

在传统DDPG训练过程中,通常引入奥恩斯坦-乌伦贝克(Ornstein-Uhlenbeck,OU)噪声来解决智能体探索性不足问题。但由于OU噪声的时序相关性,通过噪声探索得到的动作常常会出现边界值,这会使奖励值很稀疏,甚至出现梯度消失现象[25],从而导致网络学习速度非常缓慢,甚至无法正常收敛。

为此,本文采用了动态规划最优解辅助训练的方法。在训练过程开始前,利用动态规划算法求解训练周期的全局最优解,并获得最优动作序列。在最初几轮训练中,网络不仅仅依靠噪声探索后的动作进行训练,还依靠最优动作序列进行训练。通常奖励值是对所选动作好坏的评价,奖励值越大代表所选动作越优,因此选用上述两种动作中对应奖励值最大的动作用于网络训练。同时,为了考虑策略的鲁棒性,在网络平均损失下降速率减缓之后,停止动态规划的辅助训练,仅依靠噪声探索后的动作继续训练直至收敛,其中添加噪声的幅度也随训练次数逐渐降低。这种利用动态规划辅助训练的方法可以更好地引导训练初期平均损失的快速下降,大大缩短训练时间,保证策略的鲁棒性和最优性。在整个离线训练过程中,用于网络训练的动作a可以由下式选择。

(6)

其中：ann为网络输出动作;adp为由动态规划获得的动作;n为当前训练次数;nset为当网络平均损失下降速率减缓时的训练步数。

3 仿真实验及分析

3.1 算法离线学习对比分析

为验证基于动态规划辅助训练的改进DDPG在离线学习方面的优势,将传统DDPG作为对比项,比较各自算法在网络离线训练过程中平均损失值和奖励值变化情况,分别如图3a和3b所示。从图3a中可以看出：引入动态规划辅助训练的改进DDPG的平均损失值收敛速率更快,可以优先实现算法收敛,并且最终的收敛效果更好。从图3b中可以看到：由于不合理噪声动作的存在,传统DDPG下的奖励值波动比较明显,并且奖励值上升速度较慢。引入动态规划辅助训练后的奖励值更为平稳,上升速度更快,并且绝大部分值高于传统DDPG的奖励值。通常来说,在相同的约束条件下,奖励值越高,代表所获得策略的优化性越好。综上所述,引入动态规划来辅助网络离线训练将更好地提升DDPG的收敛速度和学习能力。

(a) 平均损失值的变化结果

3.2 工况测试下仿真及分析

将所提的能量管理策略在城市测功机行驶计划(urban dynamometer driving schedule,UDDS)、世界轻型车辆试验程序(world light vehicle test procedure,WLTP)、高速公路燃油经济测试(highway fuel economy test,HWFET)3种测试工况下进行仿真,并将基于动态规划和传统DDPG策略作为对比项,验证所提策略的优化性。为更好地进行对比试验,辅助能量源的初始SoC值均被设置为0.7。

图4为所提能量管理策略在UDDS工况下的仿真结果。其中图4a表示UDDS工况信息,整段工况时长约1 400 s。图4b和4c分别表示所提策略下各能量源的功率分配情况和锂电池、超级电容SoC变化结果。从图4b和图4c中可以看出：在基于功率分级控制结构的基础下,车辆因急加/减速产生的峰值功率主要由超级电容提供/吸收;燃料电池作为主能量源,工作在相对平稳的功率环境下;锂电池作为缓冲能量源,协助燃料电池满足车辆瞬态功率需求,其SoC消耗约为8%/500 s。

图4d～图4f分别表示所提策略与基于动态规划和传统DDPG策略的锂电池SoC、燃料电池效率以及氢消耗对比图。由图4d～4f可以看到：在UDDS工况下,所提策略的电池SoC最后下降到0.59,而基于传统DDPG策略的最终SoC为0.56,这表明所提出的策略可以减少锂电池SoC消耗,有效保护其使用寿命。与传统DDPG策略相比,所提策略的燃料电池效率更高,平均效率达68%,可提升约2%。此外,可以发现具有全局最优性能的动态规划策略的SoC变化稳定,燃料电池始终工作在高效率区,并且可以实现最低的燃料消耗,因此这里将其作为燃料经济性对比的基准。与基于传统DDPG策略相比,所提出策略的等效氢消耗更小,并且更接近于动态规划策略的结果。

(a) UDDS工况信息

以上结果表明,本文策略可以在UDDS工况下实现FCHEV的能量管理,有效提高燃料电池效率,维持锂电池SoC并降低氢消耗。表2为3种策略在不同循环工况下的燃料经济性对比,可以进一步发现,将动态规划策略下的等效氢耗作为基准,所提策略与其在UDDS、WLTP和HWFET工况下的燃料经济性差异分别达到15.15%、17.86%和18.64%。在基于传统DDPG策略基础上,燃料经济性分别提升了16.67%、21.43%和21.19%。这表明基于动态规划辅助训练的DDPG策略对各种工况都有着较好的适应性,且优于传统的DDPG策略。

表2 3种策略下的循环工况燃料经济性比较

3.3 试验验证

为进一步验证所提策略的实时控制性,采用配置有测功机、集控系统、超级电容、锂电池以及燃料电池系统的试验平台进行台架试验。所采用的试验平台实物图如图5所示。平台主要基于EV160纯电动汽车,首先在集控系统中输入所提策略的控制程序,然后利用集控系统中的刹车和油门踏板模拟真实场景中的驾驶行为对车速进行控制,测功机用来模拟车辆行驶中的地面阻力,集控系统会根据所输入的程序,车辆状态信息以及动力源部件的参数实时地显示3能量源的功率分配情况。试验平台中各部件的参数如表3所示。

图5 试验平台实物图

表3 试验平台中各部件的参数

图6为所提策略在试验工况下的仿真结果。图6a为试验工况信息图,全程时间约920 s。图6b和6c分别为所提策略下各能量源的功率变化和锂电池、超级电容SoC变化情况,可以看到：燃料电池输出的功率相对较低且稳定,更好地保护了其使用寿命;超级电容提供/吸收大部分峰值功率,导致其SoC变化较大,特别是在370 s左右,由于速度急剧降低,超级电池吸收大量峰值功率,从而使其SoC在短时间突然增加;锂电池主要补偿车辆行驶所需的剩余功率,其功率在可接受的范围内波动,并且SoC消耗约为2.9%/200 s。此外,从表2中还可以看到：与传统DDPG策略相比,所提策略下锂电池的最终SoC值更大,燃料电池的平均效率更高,并且与动态规划之间的燃料经济差异性更少,这些充分表明了基于动态规划辅助训练的改进DDPG策略在维持锂电池SoC,提高燃料电池效率和燃料经济性方面具有明显的效果。