基于双模式优化算法的并联混合动力汽车能量管理策略研究

2021-01-06张新亮周童

车用发动机 2020年6期

张新亮，周童

(1.江苏工程职业技术学院航空与交通工程学院，江苏南通 226007；2.江苏省智能网联汽车工程技术研究开发中心，江苏南通 226007；3.南通大学电气工程学院，江苏南通 226019)

近年来，人均汽车保有量迅速增长，与之相伴的环境污染、化石能源短缺等问题越发严重，进而极大地推动了新能源汽车技术的发展[1]。其中，混合动力汽车能够改变驱动模式以适应各类路况、有效降低燃油的消耗量，已成为新能源汽车领域的重要发展方向之一。而整车的能量管理策略则是其中的关键因素，在保证汽车正常行驶的同时，优化分配驱动电机与发动机的目标扭矩，以提高车辆燃油经济性[2]。

早期的能量管理策略以基于规则的控制策略为主，算法简单，易于实现，实时性强，但其规则的设定往往依赖于工程师的调试经验以及大量试验数据，并不能保证最优的效果。通过动态规划(DP)[3]、庞特亚金最小值原理(PMP)[4]以及模型预测控制(MPC)[5]等算法的引入来获取最优的控制策略，能够提高车辆的燃油经济性，但其应用的前提是需要已知行驶工况的信息，并不适用于实际路况。也有学者提出采用遗传算法、模拟退火和蚁群算法等来求解能量管理策略问题，从优化的结果中提取控制策略来减少车辆燃油消耗[6]。但是这种优化后的结果只针对确定的行驶工况，在其他工况下未必能取得最优的结果，也在一定程度上限制了其应用范围。考虑到行驶工况的不确定性以及车辆实际行驶过程中存在着许多无法预测的因素，如驾驶员的驾驶意愿、驾驶习惯和道路类型等，许多专家学者提出采用随机动态规划(SDP)方法来解决混合动力汽车的最优控制问题[7]，已经实现了应用并取得了一定的成果，但却忽略了挡位效率在动力源转矩分配过程中的影响，不合理的挡位选择或者频繁地换挡将增加不必要的燃油消耗，严重影响了整车的能量利用率。

本研究以一款并联混合动力汽车为研究对象，借鉴了随机动态规划的基本思想，在制定能量管理策略时将挡位考虑在内，提出了双模式优化算法(随机动态规划、离散粒子群算法)。将标准循环工况NEDC下驾驶员需求功率抽象为随车速变化的随机过程(具有马尔科夫性质)，利用离散粒子群算法具有可调参数少、收敛速度快、算法简单等优点对车辆挡位的选择进行优化。根据驾驶员需求功率的转移概率矩阵，以维持动力电池组荷电状态平衡和挡位效率最佳为约束，对发动机输出扭矩进行马尔科夫决策过程建模，采用策略迭代法求解来获得较佳的燃油经济性。最后，在Matlab/Simulink中仿真验证了所提出策略的有效性。

1 并联混合动力汽车系统结构

并联混合动力汽车系统结构(见图1)包括发动机、驱动电机、AMT(自动离和手动变速器)及蓄电池(动力电池组)等。动力传动系采用同轴安装方式，永磁同步电机直接与后桥相连，有效提高了传动效率，使得行车充电以及制动能量回收成为可能。通过动力源工作方式的多种组合，可有效应对复杂的行驶工况，实现提高整车燃油经济性与降低尾气排放的双重目标。主要部件参数见表1。

图1 并联混合动力汽车结构示意

表1 动力系统主要部件参数

2 能量管理策略问题描述

混合动力汽车能量管理的前提就是满足驾驶员的功率需求，之后优化发动机、驱动电机目标扭矩的配比，以获得最佳的燃油经济性[8]，在此过程中还应考虑电池组荷电状态(State of charge)平衡和挡位效率的因素。若已知驾驶员需求功率，混合动力汽车能量管理策略优化问题可简化为只要确定发动机或者驱动电机目标扭矩即可。考虑到车辆的燃油经济性与发动机的运行区间密切相关，因此本研究将发动机的目标扭矩作为系统的优化对象，通过随机动态规划(也称为马尔科夫决策)方法进行求解。

2.1 驾驶员需求功率的确定

车辆在实际行驶过程中，驾驶员根据道路拥挤状况、自身的驾驶意愿以及驾驶习惯等通过油门踏板和制动踏板来表达功率的需求，其值是变化的、不可知的，但可以用随机模型来表示。因此，本研究将驾驶员需求功率视为一个Markov过程[9]，即驾驶员的需求功率在下一时刻的值只与当前值及车速相关，与之前的状态无关。

在标准循环工况下，利用车辆动力学公式反推算出每一时刻的需求功率，并采取近邻法对其进行量化，通过最大似然估计法获得需求功率的转移概率。详细步骤可参考文献[7,9]。图2示出NEDC工况下，实时车速30 km/h时，驾驶员需求功率的转移概率矩阵。

图2 车速为30 km/h时需求功率转移概率矩阵

2.2 马尔科夫决策过程建模

马尔科夫决策过程模型是一种描述智能体(Agent)与环境之间相互作用的模型，其结构见图3。Agent根据环境状态的输入，做出决策并产生动作作为输出，进而对环境的状态产生影响。一般可用四元组来表示，其中状态集合S代表所有可能状态的集合，行动集合A代表所有可能行动的集合，T是状态转移函数，R是立即收益函数。智能体在状态st执行动作a后到达下一个状态st+1的概率可表示为Pa(st,st+1)，其可获得的立即收益为Ra(st)。其中st,st+1∈S，Pa(st,st+1)∈T，Ra(st)∈R。

图3 马尔科夫决策过程模型

将发动机扭矩优化看成一个离散的马尔科夫决策过程，即找到在每一个转移时刻，系统在当前状态下应当采取的行动，其所对应的策略序列π(S)可表示为

π(S)={π(s1),π(s2),…π(sN)}，

(1)

π(st+1) =f(π(st),ut) 。

(2)

式中：动作a可用控制量ut来表示，即为发动机扭矩Te；状态变量S则由电池组的SOC、车辆速度v、挡位g和驾驶员需求功率Pdem构成：

S=[SOC,v,g,Pdem]。

(3)

同时，系统的约束条件为

(4)

将Agent在状态st时刻采取策略π(st)的期望收益定义为

(5)

(6)

2.3 挡位选择的优化

在状态变量S中，动力电池组的荷电状态SOC属于确定性变量，车速v和需求功率Pdem是随机变量，而挡位g则属于可优化变量。不恰当的挡位选择或者频繁地切换挡位会造成整车能量利用率降低，甚至引起不必要的燃油消耗。因此，根据车辆运行的状态以及驾驶员的需求功率，对挡位选择进行优化尤为必要。

粒子群优化算法(PSO)是一种利用群体粒子间的信息传递而搜索到最优值的算法，其优点包括收敛速度快、精度高、易实现等[10]。针对实际应用中的离散问题，则衍生出离散粒子群算法(DPSO)。其方式是在迭代过程中，通过两个最优解的比较确定粒子的更新速度及位置：一个最优解为Pbest，它是粒子到达当前位置所获得的最优解；另一个最优解为Gbest，它是整个粒子群到达当前位置所获得的最优解。第i个粒子在t+1次迭代时，速度vi(t+1)及位置xi(t+1)的更新方程为

vi(t+1)=w(t)vi(t)+c1r1(Pbest-
xi(t))+c2r2(Gbest-xi(t))，

(7)

(8)

式中：t为迭代次数；w为惯性权重；c1为自身认知学习因子；c2为社会认知学习因子；r1，r2和r3为服从[0，1]上的均匀随机数；S(v)=1/(1+e-v)为sigmoid转换函数。

为了避免算法陷入局部最优解的陷阱，引入惯性权重w(t)调整策略。定义全局最优粒子的适应度值fbst、当前全部粒子适应度的平均值favg和适应度值优于favg的粒子的平均适应度值fca，则调整策略可表示如下：

1) 第i个粒子的适应度值fi优于fca

(9)

2) 第i个粒子的适应度值fi优于favg劣于fca

(10)

式中：N为最大迭代次数。

3) 第i个粒子的适应度值fi劣于favg

(11)

式中：m1，m2为控制参数，其中m1>1，m2>0。

这里，对粒子的编码按照(Te,g(t))组合来表示(见图4)。其中Te为发动机的目标扭矩，Te的范围为[0,320]；挡位g(t)的范围为[1,5]。

图4 粒子编码表示

需要指出的是，本研究在对粒子编码过程中，假设发动机目标扭矩以40为步长变化，且同一挡位对应发动机扭矩在同一区间内变化时效率是不变的。挡位优化目标函数Fobj可构造如下：

(12)

(13)

式中：f(Te,g(t),v)代表在车速v下，发动机扭矩与当前挡位组合的效率；η为最佳效率；mg(t)为挡位切换的代价函数，防止挡位频繁切换所造成不必要的损耗。这里假设挡位g是由变量ug控制：

g(t)=g(t-1)+ug(t),ug∈{-1,0,1}。

(14)

2.4 最优策略序列求解

根据贝尔曼(Bellman)最优化原理，将式(5)采用递归的形式进行表示：

(15)

引入一个中间变量动作值函数Qπ(st,a)，定义如下：

(16)

则系统的最佳策略，即每个状态的值函数最小可以通过下式计算得到：

(17)

这里采用策略迭代法，交替使用“求值计算”和“策略改进”，得出最终的策略序列。整个算法的结构框图见图5。

图5 算法结构框图

3 仿真结果与分析

利用Matlab/Simulink强大的数值计算和卓越的数据可视化特点[8]，搭建了控制策略仿真验证平台，整车参数设置：整备质量M=2 950 kg，迎风面积A=4.45 m2，风阻系数Cd=0.62，轮胎半径r=0.362 m，主减速比i0=6.166。

新欧洲标准行驶循环(NEDC)工况下，车辆行驶的需求扭矩见图6。其中，需求扭矩为负表明此时可对动力电池组进行充电，实现能量回收，从而提高整车能量的利用率。从图7a可以看出，所提出的能量管理策略能够较好地满足循环工况中的速度要求，实现了对目标车速的跟随，偏差较小。图7b为优化前后挡位选择的对比。由图7b可知，车速较低时以纯电动模式运行，整车所需的动力完全由驱动电机提供，避免了发动机低速高油耗现象。随着车速的提高，整车进入发动机驱动模式并适时地进行行车充电，维持电池组的SOC平衡。图7c示出测试工况下动力电池组荷电状态的变化趋势。由图7c可以看出，采用本研究提出的策略后SOC偏离初始值(0.65)的范围更小，表明动力电池组充放电的损耗较低，效率更高。测试工况完成后，采用基于规则的能量管理策略与本研究策略所对应的SOC为0.648 6和0.649 1。

图6 NEDC工况下车辆行驶的需求扭矩

图7 测试工况的仿真结果

为了更好地对比算法的效果，图8和图9分别示出驱动电机和发动机的工作点分布。从图8可以看出，采用基于规则的能量管理策略的驱动电机工作点较为集中，且效率相对较高。而采用本研究提出的策略，驱动电机的工作点较为分散，且有较多的工作点落在了发电机模式下。表明驱动电机需要适时地进行行车充电或者制动能量回收，以保证动力电池组的SOC平衡。从图9可以看出，采用本研究提出的能量管理策略后，发动机的工作点基本都落在高效的区域，有效地提高了燃油的利用率。在测试工况完成后，两种策略所对应的100 km油耗(折算后)分别为14.21 L，12.87 L。测试数据说明本研究提出的控制策略能够满足驾驶员需求功率，又能够有效降低车辆的油耗。

图8 驱动电机工作点分布对比

图9 发动机扭矩-转速工作点

4 结束语

提出了一种基于双模式优化算法的并联混合动力汽车能量管理策略，能依据驾驶员需求功率的转移概率矩阵，以等效燃油消耗量最小为目标，将整车能量管理策略简化为发动机输出转矩的寻优问题。同时，利用离散粒子群算法对挡位选择进行优化。在维持动力电池组荷电状态平衡和挡位效率最佳的约束下，采用策略迭代法，交替使用“求值计算”和“策略改进”，求出最优的序列。在Matlab/Simulink下进行了仿真验证，结果表明，与基于规则的策略相比，本研究提出的策略所对应的百公里油耗降低了9.42%。