融合电池温度和寿命的深度强化学习PHEV能量管理策略
2023-02-13张家金林歆悠
张家金,林歆悠
(福州大学机械工程及自动化学院,福建 福州 350108)
0 引言
不当的能量管理分配可能会加大动力电池的使用成本,加速电池寿命衰退,从而增加插电式混合动力汽车(plug-in hybrid electric vehicle, PHEV)生命周期成本. 因此,开发针对PHEV的兼顾整车综合油耗和电池寿命的能量管理系统,对降低PHEV的全生命周期成本具有重要意义. 混合动力汽车的能量管理策略主要分为两类: 基于规则的能量管理策略[1]和基于优化的能量管理策略[2-3]. 随着机器学习的发展,强化学习也被越来越多地应用于能量管理策略[4-5]. Cao等[6]针对PHEV提出基于强化学习的实时能量管理策略,并且通过K-L (Kullback-Leibler)散度来确定状态转移矩阵的更新. 为实现混合动力履带式车辆发动机和电池的能量最优分配,Liu等[7]使用双层控制框架制定了一个预测的、 实时的能量管理策略,上层基于马尔科夫链预测HEV的功率需求,下层基于更新的概率转移矩阵和增强学习算法实现实时控制.
为了降低电池老化所带来的成本,国内外学者将电池老化模型融入到能量管理中. Suri等[8]构建一个关于锂离子电池的半经验模型,引入严重程度因子来表征电池在不同环境下的老化速率. Lin等[9]为提高燃料电池混合动力汽车的经济性和燃料电池耐久性,将燃料电池开路电压衰退转化成等效的氢气消耗加入到目标价值函数之中,制定了等效氢气消耗最小的反馈优化控制策略. Du等[10]针对并联式混合动力汽车,提出一种电池老化和温度感知的预测能量管理策略. 该方法以模型预测控制为基础,在预测域内使用极小值原理进行求解. Xie等[11]考虑电池放电深度对电池寿命的影响,提出使用极小值原理求解出不同初始电荷状态下最优的电池放电深度.
当前国内外针对PHEV的能量管理策略进行了广泛研究,但是仍然存在一些不足: 1) 实时优化控制策略对工况的适应性不强; 2) 上述能量管理策略中忽略了温度对高昂的电池老化成本的影响,过高的温度将加速单体电池的不一致性,并引发热失控的风险. 与其他优化方法相比,强化学习具有较好的实时性和鲁棒性. 鉴于此,本研究针对一款插电式混合动力汽车,构建考虑电池温度和电池寿命的基于深度强化学习的能量管理策略.
1 PHEV动力系统建模
所研究的插电式混合动力汽车为同轴并联式混合动力汽车. 整车的动力总成系统由发动机系统. 主驱电机系统和电源等组成,发动机和电机均可独立驱动车辆,亦可共同驱动汽车运行. 基于数学建模方法建立发动机模型、 电机模型、 电池模型和车辆纵向动力学模型.
由汽车功率平衡方程,可得:
(1)
式中:Tm和Te分别为电动机和发动机扭矩, N·m;ig和i0分别为CVT和主减速器的传动比;η为传动系传动效率;v为车辆行驶速度, km·h-1;r为车轮半径,m;m为整车质量,kg;g为重力加速度,m·s-2;f为滚动阻力系数;Cd为风阻系数;A为车辆迎风面积,m2;δ为旋转质量换算系数.
1.1 电池等效电路模型及热模型
将LiFePO4电池应用于PHEV上,其性能已经被广泛验证[12]. 为简化研究,假设单体电池具有高度一致性. 以等效电路作为电池模型,基于欧姆定律,电池电流可以表示为:
(2)
式中:Voc为电池输出电压,V;R0为电池内阻, Ω;Pb(t)为电池输出功率,W;nm为电动机转速, rad·s-1;ηm为电动机传动效率.
电池电荷状态(state of charge, SOC)方程可以表示为:
(3)
式中:Qb为电池容量, A·h.
针对所选用的圆柱形电池,利用径向分布热力学模型方法进行建模[13]. 该模型假设电池的产热集中于内芯,并假设在该中心不存在热流,而电池内部其余部分具有的热量集中于外壳上一点. 该模型的数学表达式为:
(4)
1.2 电池老化模型
电池的老化来源于复杂的机理,本研究主要考虑的是车辆工作时的电池循环老化. 根据文献[8] ,电池的老化模型可以表示为:
(5)
式中:Ea为电池活化能,J·mol-1;η为补偿系数;z为幂律因子;Ic为放电倍率,h-1;Rgas为气体常数,J·(mol·K)-1;α和β为拟合常数;θb为电池温度, ℃.
当电池容量损失达到20%时,其寿命到达终点. 因此,电池生命周期中可通过的总安时量可表示为:
(6)
式中:Inom为在标定条件下的电池电流,A; EOL为电池到达寿命的时间, h.
设电池的标准工作条件为:Ic, nom=2.5 C,SOCnom=0.35,θb, nom=25 ℃. EOL 为电池达到其寿命终止的时间,定义为在标称条件下容量损失达到20%的时间. 根据电池SOC、Ic、θb, 实际电池寿命表示为:
(7)
电池实际工况是复杂的,为了量化复杂工况对电池寿命的影响,引入严重因子, 即:
(8)
式中:Γ为实际的安时通过量.
考虑到电池有效寿命的损失,有效安时通过量表示为:
(9)
可见,电池有效安时通过量的大小与电池寿命直接相关,故可用于评价电池老化程度.
由上述分析,严重因子为电流、 温度和SOC的函数,根据式(5)~(8),可得严重因子关于SOC与放电倍率的函数关系,如图1所示.
图1 电池严重因子数值模型
2 基于DQN的能量管理策略
强化学习是一种机器学习方法,它通过智能体与环境的交互调整其策略,通过试错做出最优决策,以实现最大的累积回报值. 环境包括行驶工况和PHEV模型,智能体由Q神经网路和目标神经网络组成. Q神经网络根据当前的策略和环境提供的状态变量计算得到当前Q值,并与目标神经网络计算得到的最大的Q值计算损失函数,从而更新Q网络权值,并进一步通过贪心算法选择控制动作作用于仿真环境. 目标神经网络每隔一段时间从Q神经网络拷贝权值来更新自身网络.
2.1 问题描述
能源管理策略目标是降低等效燃油消耗和锂电池老化成本,避免电池过热,可将目标函数定义为:
(10)
2.2 基于强化学习的能量管理策略构建
传统Q-Learning只能处理有限状态动作集,也就意味着当遇到连续状态空间,或者状态空间维数过大时,会产生“维数爆炸”的问题. 因此,本研究采用深度神经网络代替Q-table处理连续状态空间问题.
强化学习的目标是根据策略选择动作使累积的回报值最大,其中动作的价值定义为:
(11)
式中:γ∈[0, 1]为折扣因子;rt是时刻为t时的奖励.
根据时序差分算法,最优状态值函数的迭代方程为:
(12)
因此,最优策略π*可表示为:
(13)
动作值函数Q(s,a)和最优值函数可表示为:
(14)
在Q-learning 算法中,Q值的更新规则为:
(15)
式中:α∈[0, 1]为学习率.
强化学习探索环境时所获得的状态前后之间具有关联性,这种相关性打破了神经网络训练稳定的独立同分布条件. 通过采用经验回放将经验存储到经验池中可以解决上述问题. 经验池存放的数据为(St,At,Rt,St+1)四元组.从经验池中随机挑取M条数据作为学习样本,基于Q网络和目标网络利用随机梯度下降法最小化损失函数,实现对深度Q网络的训练进而完成对网络参数的更新.
采用电池SOC、 汽车速度v、 汽车加速度acc和发动机功率Pe作为状态变量,S={SOC,Pe,v, acc}. 动作变量离散化为Te=[0:4:140]. 为了解决2.1节所描述的问题,奖励函数设为:
(16)
3 实验结果与分析
(17)
式中:vn为原始的循环工况, km·h-1; wgn为生成高斯白噪声样本的函数;n为样本容量; power为功率谱密度,dB·W,代表工况的变化程度.
(18)
式中: smooth为平滑数据的函数;m为平滑速度的窗口宽度,代表不同的驾驶风格.
以4个连续US06工况和2个连续WLTC工况为训练工况,图2显示了DQN在2种不同工况下的收敛过程. 在前50次迭代中,智能体由于对环境未知,不断探索每个状态的奖励信息,因此累积奖励值是波动的. 在迭代到200次后,平均累积奖励值趋于稳定. 之后,尽管因智能体仍在探索新动作,累积奖励值仍有波动,但不影响智能体的稳定性. 在US06工况和WLTC工况的基础上生成4个随机工况,如图3所示.
图2 DQN在不同工况下的训练收敛结果
图3 由白噪声产生的随机工况
3.1 温度和电池老化的验证
将动力电池初始SOC设为0.8,为了充分利用电池电能,将目标SOC设为0.3. 在Matlab/Simulink环境下,加载工况1~4,验证3种策略的有效性. 以PMP和规则控制策略为对照,验证DQN策略在单次驾驶任务中电池温度和电池老化的性能表现. PHEV在工况1、 工况3不同控制策略下电池温度和电池有效安时量的对比如图4、 5所示,两种工况结果类似.
以工况1为例进行说明. 图4(a)给出3种策略下电池电芯的温度变化曲线. 其中,CD-CS策略下电池最高温度超过30 ℃,这使电池的温差变化较大,增加电池的不安全性. 究其原因为在电力消耗阶段,电池需提供汽车全部所需能量,导致电流过大. 而PMP策略的电池温度曲线比较相似,其最高温度分别为27.90和26.26 ℃. 图4(b)为3种策略下电池通过的有效安时量. 其中,CD-CS策略的有效安时通过量远高于其他两种策略,特别是在CD阶段,电池有效安时通过量迅速上升. DQN和PMP策略由于考虑了电池寿命和电池温度的影响,因此有效安时通过量较低,分别为49.21和46.27 A·h.
图4 工况1下的3种控制策略结果图
图5 工况3下的3种控制策略结果图
为了解释上述现象,图6为PHEV在工况1和工况3不同策略下电池为25 ℃时的严重因子分布图. 由图6(a)可见,CD-CS策略电池操作点较多地分布在高放电倍率区,导致其严重因子较大. 工况1为高速工况,在规则控制策略下,由于未考虑电池老化寿命,会出现电池大功率放电情况,其中电池有9.23%的工作点分布在放电倍率4.0 C以上的工作区. 考虑电池寿命的控制策略下(PMP和RL),电池操作点分布较为相似,其中电池的放电倍率分布在4.0 C以上的占比分别为1.58%和1.83%. 工况3为综合工况,因此RL和PMP策略下的电池工作点分布在严重因子1.5以下的区域. 具体见图6(b).
图6 电池工作点在25 ℃的严重因子图分布
3.2 总成本验证
PHEV行驶总成本是衡量能量管理策略性能最重要的指标. 表1为4个随机工况下不同策略PHEV运行总成本.
表1 不同策略下总成本比较
以随机工况1为例,说明PHEV行驶总成本验证情况. 由表1可知,CD-CS策略燃油消耗最高,PMP策略燃油消耗最少. 相较于CD-CS策略,PMP策略和RL策略的燃油消耗分别降低了16.65%和15.18%. 其中,RL策略和PMP策略在工况1下发动机操作点分布如图7所示. RL策略下,虽然发动机部分运行点主要分布在低燃油消耗区,但与PMP策略相比,仍有部分发动机操作点分布在高燃油消耗区. 工况1不同策略下的油耗和SOC比较, 如图8所示.
图7 工况1的不同策略发动机工作点分布图
图8(a)为PHEV在工况1、 3种策略下SOC曲线图. RL策略和PMP策略SOC能随时间缓慢下降,并在里程终点接近目标SOC. 图8(b)为3种策略下油耗曲线图. 由图中可知,强化学习能量管理策略与PMP策略油耗大致相同,CD-CS策略油耗在CS阶段迅速上升,最终油耗远大于其他两种策略下的油耗.
图8 工况1的不同策略电池SOC和油耗对比图
由于CD-CS策略考虑电池老化影响,其老化成本远高于另外两种策略. 从总成本角度分析,PMP策略的总成本相较于CD-CS策略降低了10.67%. RL策略总成本相较于CD-CS策略降低了10.36%, 而与PMP策略相比,总成本只提高了2.87%.
4 结语
为了最小化燃油消耗和电池老化,同时考虑电池温度,制定融合电池寿命和电池温度的深度强化学习能量管理策略. 通过仿真对所制定的策略进行验证,得到如下主要结论.
1) 融合了电池老化和电池温度的能量管理策略能够有效抑制电池温度的提高. 在4种随机工况仿真结果中,环境温度为25 ℃时,PMP和RL策略下电池最高温度均不超过28 ℃. 而CD-CS策略的电池温度变化较大,最大温差达到5.92 ℃.
2) 在能量策略设计中考虑电池寿命可有效减少电池的有效安时通过量,从而降低等效电池老化成本. 基于深度强化学习的能量策略总成本相较于CD-CS策略最大可降低10.36%,并产生与PMP策略相近的效果.
在利用DRL对能量管理策略进行优化时,本研究未将CVT速比融入能量管理策略中,后续考虑将CVT速比作为额外的自由度融入到能量管理策略中,以进一步提高PHEV的燃油经济性.