燃料电池汽车动力系统及能量管理策略研究进展

2024-03-01陈家一高帷韬贾璐阴亚楠王诚欧阳鸿武

中南大学学报（自然科学版） 2024年1期

陈家一，高帷韬，贾璐，阴亚楠，王诚，欧阳鸿武

(1.中南大学机电工程学院，湖南长沙，410083；2.清华大学核能与新能源技术研究院，北京，100084；3.浙江锋源氢能科技有限公司，浙江嘉兴，314200)

当前，全球能源危机与环境污染问题日益严重，汽车电动化与能源清洁化是未来发展趋势。氢能是理想的可再生能源，氢能汽车的推广应用对于改善我国能源结构、推动交通领域低碳转型具有特殊的战略意义。其中，燃料电池汽车(fuel cell vehicle, FCV)凭借能量转化效率高、碳排放接近零等优势，被誉为汽车节能减排的终极解决方案之一，已成为世界各国规划与发展的重点技术以及各大汽车厂商与研究机构的研发热点和竞争高地[1-3]。

在FCV的动力系统中，燃料电池系统(fuel cell system, FCS)是核心能量源，通过燃料电池堆内部的电化学反应产生电能。在FCS响应速度偏慢、输出特性偏“软”等因素的驱动下，将储能单元作为辅助电源与FCS配合，已成为业界的主流选择。同时，这也产生了针对混合动力系统的多能量源协调管理问题，对能量管理策略(energy management strategy, EMS)提出了要求。在过去十余年里，相关研究持续升温，这些研究大都立足于FCV动力系统的特性，围绕行驶性、经济性、耐久性等优化目标展开，总体上呈现算法多样化、复合化、智能化的特点。本文首先对FCV动力系统进行构型分类与特点概述；之后，从燃料电池混合动力电动汽车(fuel cell hybrid electric vehicle,FCHEV)能量管理的理论基础出发，对FCHEV的EMS进行分类，并综述最新研究进展以及各类EMS的优势和劣势；最后，总结FCHEV能量管理技术的研究现状，并展望未来发展趋势，以期为未来的FCHEV能量管理策略研究提供参考。

1 FCV动力系统概述

FCV动力系统主要由燃料电池系统(fuel cell system, FCS)、DC/DC变换器、DC/AC变换器、驱动电机以及变速齿轮箱等部件组成，如图1所示。根据是否引入辅助电源，可将其分为单一式系统和混合动力系统两类。燃料电池系统通过电化学反应，高效地将氢气中的化学能转化为电能。DC/DC变换器可完成直流电压的智能升降，是实现动力系统精确控制的关键部件，分为单向DC/DC与双向DC/DC两类。其中，单向DC/DC主要用于对燃料电池的输出电压进行升压，一般集成于FCS中；而双向DC/DC可实现双向的电能转换与传输，主要用于控制辅助电源的能量输出与回收。DC/AC变换器则是驱动电机的控制核心，可将直流总线中的直流电转换为驱动电机所需的交流电，并对电机实施精准控制。在驱动车辆时，电机将电能转化为机械能，并经变速齿轮箱和半轴输出至车轮；而当混合动力系统进行制动能量回收时，能量的传输与转换过程则正好相反。

图1 FCV动力系统示意图Fig.1 Diagram of FCV powertrain system

1.1 单一式系统

在早期的原理验证与技术探索阶段，FCV的全部功率需求均由燃料电池提供，DC/DC对FCS的输出电压进行升压，完成与直流总线的匹配，属于单一式系统。这种系统方案要求FCS的峰值功率足够高，且输出功率的频繁变化对燃料电池堆、电力电子变换器的性能和寿命影响较大，FCS也无法实现全工况下的高效运行。此外，由于燃料电池无法接收电能，车辆也无法进行能量回收。因此，如今单一式系统的应用较少。

1.2 混合动力系统

2003年，PEDE等[4]提出了燃料电池混合动力系统，其优势如下：1) 燃料电池堆的体积减小，总体成本降低(电堆成本一般高于动力电池等其他储能单元成本)；2) 实现能量回收，提高能量利用率；3) 动态/瞬态功率由辅助电源提供/吸收，解决FCS响应偏慢和频繁启停影响寿命等问题；4) 实现冷启动辅助等功能，提升启动性能。此后，采用混合动力系统的FCHEV逐渐成为技术主流。

根据辅助电源的类型，可将FCHEV混合动力系统设计方案分为3类：燃料电池(fuel cell)+动力电池(battery)方案(FC+B)、燃料电池+超级电容(supercapacitor)方案(FC+SC)、燃料电池+动力电池+超级电容方案(FC+B+SC)[5-6]。其中，FC+B方案应用最广泛，可采用的电池类型有镍氢电池、锂离子电池等；FC+SC方案凭借超级电容在充放电速度、通流能力、低温适应性等方面的优点，也展现出了较好的应用前景；而FC+B+SC方案则结合了前两者的特点，能够进一步使FCS的工况趋向稳定，同时也对提高部件寿命有利(超级电容的加入可显著提升电池寿命[7])，但势必带来成本的增加以及EMS复杂程度的提升。FCS或辅助电源接入动力总线的方式有两种：直接式和间接式，也称被动混合与主动混合[8]。在直接式方案中，组件直接接入直流总线，通过含开关或二极管等元件的辅助电路进行通断控制、电流限幅等，具有低成本优势，但要求电源电压与总线电压相匹配，对部件的参数设计与选型有一定限制，并且在直连情况下的参数只能被动匹配，控制精度较低。间接式方案则是采用DC/DC，具有更大的设计灵活度，并可依据EMS对组件的电流、电压或功率进行主动控制(分别对应于DC/DC的电流控制、电压控制和功率控制模式)，可使效率和精度显著提高，一般被视为优选方案[9]。

另外，也可根据FCS与辅助电源之间功率的差异，将混合式系统分为功率混合型与能量混合型。前者采用的辅助电源功率较小，运行时主要由FCS提供功率；后者的FCS与辅助电源功率则更接近，FCS的作用侧重于通过发电延长续航里程(即增程器)。最具代表性的功率混合型FCHEV车型为丰田MIRAI，其动力系统为FC+B方案，第一代与第二代车型分别采用镍氢电池和锂离子电池，电量均低于2 kW·h，二代车型的FCS峰值功率为128 kW，运行过程中，FCS的输出占据主导地位。除此之外，现代NEXO、本田CLARITY-FCV也都是具有竞争力的FCHEV车型，二者均采用FC+B方案，且均为功率混合型系统，其中，CLARITYFCV在早期采用FC+SC方案，但后期改为锂离子电池。而我国目前运行的FCHEV车型以能量混合型为主，例如：我国首款量产氢燃料电池轿车长安深蓝SL03氢电版的FCS峰值功率为160 kW，动力电池电量达到了28.39 kW·h，超过了许多插电式油电混动轿车的动力电池电量；北汽福田旗下的欧辉BJ6126系列氢燃料电池客车采用120.2 kW的电堆，而动力电池电量则接近150 kW·h。

2 FCHEV能量管理策略(EMS)研究进展

能量管理策略(EMS)是混合动力汽车进行能量协调分配与组件高效控制的基础，也是实现较高行驶品质及低能耗、长寿命运行的关键。但是，由于动力系统之间存在根本差异，FCHEV的能量管理有别于油电混动汽车，其EMS也具有特殊性。一方面，FCS直接输出电能，故FCHEV属于典型的串联式“电-电”混动架构，而油电混动则具有多种系统架构可供选择；另一方面，FCS的响应特性也与内燃机的不同，尽管如今FCS的加载响应速度加快，但其卸载速度仍存在一定滞后；此外，FCS的寿命受工况影响较大，快速变载、频繁启停等工况对寿命的影响更为明显，这使得寿命优化在FCHEV能量管理问题中占据着核心地位。近10年来，人们针对FCHEV能量管理策略进行了大量研究，本文将这些策略分为了3种基本类型：基于规则定义的策略、基于最优化方法的策略以及基于机器学习的策略，如表1所示。

表1 能量管理策略分类与性能对比Table 1 Energy management strategy classification and performance comparison

2.1 基于规则定义的策略

基于规则定义的EMS (rule based energy management strategy, RB-EMS)是目前最成熟、应用最广泛的策略，通过划分工作模式、制定运行规则来满足随工况变化的功率需求以及电池组荷电状态(state of charge, SOC)的维持等要求，特点是架构简单、运算时间短，适合实时应用[10]。但由于规则的制定一般基于直觉或工程经验，无法进行优化控制。根据规则制定手段的不同，RB-EMS可分为两类：基于确定规则的策略、基于模糊逻辑的策略。

2.1.1 基于确定规则的策略

确定规则即通过设定门限值为系统划分出若干工作模式，而由于FCHEV本质上属于串联式混动架构，其模式划分规则也与串联式油电混动汽车的类似。较为经典的是恒温器策略(即开关式控制策略)，依据辅助电源SOC来控制FCS的启停，从而维持电量与总线电压，可令FCS更多地运行于预先设定的高效区，但开关频次较高，会影响FCS和辅助电源的寿命，且当SOC处于某些特殊区间内时，整车的动力性也将受到一定影响。另一种典型策略是功率跟随策略[11]，即FCS的开关由辅助电源SOC来判定，而功率输出跟随总线需求功率动态变化，能够较大程度地解决辅助电源SOC偏低而FCS未开机时的动力不足等问题，同时也减少了FCS的开关频率，从而减少了其对电池寿命的影响，但对FCS以及DC/DC的性能与控制策略要求更高。另外，除需求功率和SOC以外，基于状态估计等手段得到的健康状态(state of health, SOH)、能量效率等参数，也可作为额外的依据参数，在RB-EMS中发挥重要作用。

2.1.2 基于模糊逻辑的策略

相比于确定规则策略，基于模糊逻辑(fuzzy logic, FL)的策略对于处理多参数、时变性、非线性的能量管理问题更具优势[12]。HEMI等[13]制定了以需求功率和辅助电源SOC为输入变量、FCS功率为输出变量的FL策略，并分别针对FC+B、FC+SC、FC+B+SC这3类FCHEV进行了仿真，分析了策略的可行性、实时性及其对于不同类型系统的适用性。GAO等[14]则针对某FC+B+SC构型FCHEV制定了FL策略，在输入变量中进一步考虑了SC的参数，使其更具精度和效率优势，并在实车试验中进行了验证。制定FL策略的关键在于模糊控制器的设计，其控制过程包含模糊化、模糊推理、解模糊化3个基本步骤，核心步骤为模糊推理，其中所涉及的模糊规则与隶属度函数将极大地影响策略的有效性和迁移性。因此，也有众多学者结合其他算法来优化模糊知识库。在已被报道的方法中，遗传算法(genetic algorithm, GA)[15-17]凭借较强的搜索能力、自适应性和可拓展性等优点得到了广泛应用。GA优化的模糊逻辑策略如图2所示。

图2 GA优化的模糊逻辑策略示意图Fig.2 Schematic diagram of GA optimizing fuzzy logic strategy

2.2 基于最优化方法的策略

基于最优化方法的EMS(optimization based energy management strategy, OB-EMS)将能量管理问题描述如下：基于优化算法，对预先定义的指定约束条件下的成本函数进行求解，得到一系列最优控制动作，如组件工作点等。OB-EMS理论优化性能好于RB-EMS理论优化性能，但算法更复杂、实现难度更大，在实时应用层面也需进行取舍。总体上，OB-EMS可分为基于全局最优的策略以及针对瞬时优化的策略这2类，但从对问题的描述与求解方法的角度来看，二者并非对立关系。

2.2.1 基于全局最优的策略

基于全局最优的策略建立在已知全局工况信息的前提下，根据全局工况求解最优动作。常见的全局优化方法有动态规划(dynamic programming,DP)、庞特里亚金极大值原理(Pontryagin's maximum principle, PMP)以及元启发式算法。由于全局最优策略依赖于对全局工况的掌握程度，而实际驾驶工况并非固定不变，故其很难实时应用，但可用于离线求解最优基准以协助其他策略的改进。

动态规划(DP)将整体决策过程分为多个阶段并逐个求取最优解，求解结果为全局最优。FARES等[18]以氢耗和FCS与电池的寿命为优化目标，通过加权的方式实现了基于DP的多目标优化，仿真结果表明，相较于RB-EMS，该优化方法在highway循环和FUDS循环下的氢耗分别下降了15%和50%，但未体现出对寿命的优化效果。另一方面，DP也存在计算量大、耗时长，且容易出现插值泄漏、维数灾难等问题，不适合实时应用。对此，ZHOU等[19]提出了基于DP解决FCHEV能量管理问题的统一框架(简称为SJTU DP)，并在NEDC工况下将其与2种典型DP策略(分别简称为Basic DP和Level-Set DP)进行了仿真对比，结果表明：在限制FCS常开的情况下，SJTU DP的计算时间相较于另外2种典型DP策略分别缩短22.36%和53.55%，氢耗也有一定程度降低；若允许FCS停机，Basic DP将发生插值泄露，而SJTU DP比Level-Set DP的计算时间缩短了94.30%，这使得基于DP的实时能量管理成为可能。HU等[20]则是以离线全局优化结果为参照，为基于DP的实时能量管理提供了另一种思路：采用DP优化等效氢耗(包含能耗与组件老化程度)并实施仿真，参照仿真得到的FCS工作点、开关频率等指标制定了简单而高效的规则型策略，即soft-run策略，这一策略也在FCS老化分析[21]与耐久性试验[22]等工作中发挥了重要作用。

相比之下，极大值原理(PMP)则是通过构建哈密顿函数求解局部极值，无需实施全局寻优，具备实时控制的可能性。众多学者基于PMP实现了FCHEV的实时能量管理[23-24]，同时，为了增加先验信息，将工况预测、驾驶模式识别等与PMP结合[25-26]。ZHENG等[27]将DP策略和PMP策略进行仿真对比并得出结论：PMP策略的优化结果接近DP的最优解，且计算更快，适用于实时优化。此外，基于元启发式算法的优化算法也时常用于规则策略参数的寻优，有时也与神经网络相结合，例如采用GA从DP数据集中筛选合适的样本来训练神经网络[28]，如图3所示。元启发式算法适合处理复杂优化问题且具有良好的收敛性，但求解的迭代搜索过程耗时较长且存在局部最优的问题，对参数调节的要求也较高。

图3 DP与GA和神经网络结合的策略示意图Fig.3 Schematic diagram of DP strategy combined with GA and neural network

2.2.2 针对瞬时优化的策略

与全局优化策略不同，瞬时优化策略的出发点是保证瞬时或未来短时域内处于最优，虽然无法达到全局最优，但计算量更小，也无需掌握全局工况，更适合实时应用。常用的瞬时优化算法框架有2类：等效消耗最小策略(equivalent consumption minimization strategy, ECMS)与模型预测控制(model predictive control, MPC)。

ECMS框架下的FCHEV能量管理的基本出发点是通过等效因子将各项待优化指标转化为等效氢耗并累加，从而建立起总成本函数，再利用最优化方法进行求解。等效因子对ECMS策略性能的影响较大，对于等效因子的预估与修正，主要有2类方法：一是基于工况信息，采用全局优化方法求出其最优轨迹[29]；二是基于系统指标对其进行反馈修正[30-32]等。MPC框架下的FCHEV能量管理也是以多约束目标函数的形式实现，通过在有限时域内进行局部优化，为下一时域提供运行状态与参数，实现滚动优化。HE等[33-34]在MPC框架下实现了氢耗与寿命的共同优化，后者在构建成本函数时选择了包含氢耗和FCS衰退率在内的7项指标进行加权组合，并采用模糊认知图(fuzzy cognitive maps, FCM)调节权重。另外，预测模型的优劣对于MPC策略的性能影响较大，因此，神经网络[35-37]、马尔科夫链[38-39]等也被广泛用于MPC框架下的参数预测或工况识别，如图4所示。

图4 结合马尔科夫链的MPC策略示意图Fig.4 Schematic diagram of MPC strategy combined with Markov chain

2.3 基于机器学习的策略

在基于机器学习的策略中，强化学习(reinforcement learning, RL)框架下的策略相对独立，且有望实现最优性与实时性之间的平衡。按照学习方式的不同，机器学习算法可分为监督学习、无监督学习和强化学习(RL)3类，其中，监督学习一般适用于分类和回归，无监督学习只适用于聚类，二者往往作为辅助手段，应用于RB-EMS或OB-EMS的框架中，而RL的独特性在于其适用于优化和控制。因此，近年来，包含经典强化学习和深度强化学习(deep reinforcement learning,DRL)在内的RL算法框架成为混动系统能量分配与控制问题中的研究热点。

RL包含智能体和环境2个交互对象以及状态、奖励与动作3个关键要素，其基本原理与分类分别如图5(a)和5(b)所示。由于同样基于Bellman方程，RL在理论上具有与DP接近的性能。另外，RL的无模型特性使之可灵活适应不同系统和驾驶风格；并且根据状态到动作的映射关系来进行能量管理，也可大大减少计算量，故其在线应用潜力巨大[40]。但是，由于RL的训练过程始终伴随着与环境的交互试错，一方面，现实世界试错代价高昂，使其更多局限于虚拟仿真；另一方面，与环境的交互有限、采样效率偏低，也必然导致训练耗时长。因此，基于RL的策略要实现实车层面的应用还存在诸多挑战。

图5 强化学习基本原理与分类Fig.5 Schematic and classification of reinforcement learning

典型的无模型RL算法为Q-Learning，其理论基础为马尔科夫决策过程(MDP)，通过在状态转移中不断试错来评估函数(Q表)的迭代更新，能够保证最终收敛到最优。LI等[41]在标准Q-Learning下实现了氢耗与寿命的共同优化，并通过预定义功率分配规则来初始化Q表，使收敛速度提高69%。尹燕莉等[42-43]在构建等效氢耗的基础上设计了标准Q-Learning策略，仿真结果接近DP的最优值。SUN等[44]也实现了ECMS框架下的Q-Learning策略，还采用数据驱动方法辅助提取不同车速区间内的转移概率矩阵(transition probability matrix,TPM)，计算时间相对于标准Q-Learning策略缩短近60%，基本原理如图6所示。Dyna则是一种有模型的RL算法框架，在与环境交互的基础上加入基于模型的搜索，增加数据来源，提高算法效率，但对模型准确性的要求较高。LEE等[45]在QLearning算法中加入对FCHEV动力系统模型的学习环节，获得了比标准Q-Learning策略更优的经济性仿真结果，虽然单次迭代时间更长，但累计成本显著降低，不过并未对二者收敛性与稳定性的差异进行量化。

经典RL框架下的状态与动作空间都是离散的形式(如Q表)，数据维数增加将引起计算量指数上升，即存在“维数灾难”问题。对此，研究者通过引入深度神经网络(deep neural network, DNN)来拟合评估函数，提升其对高维非线性问题的处理能力，其中较为典型的是将Q-Learning与DNN结合的深度Q网络(deep Q network, DQN)。进一步地，深度确定性策略梯度(deep deterministic policy gradient, DDPG)又将DQN扩展到连续的动作空间，将动作输出由概率转为确定值，提高了稳定性和收敛性。HUANG等[46-47]设计了基于DDPG的EMS，显著降低了氢耗与FCS的输出波动。有时，优先经验回放(prioritized experience replay, PER)也被用于改进采样[48-50]，以提高训练效率。ZHENG等[51]在相同奖励函数下分别设计了基于标准QLearning、DQN和DDPG的3种EMS并进行仿真对比，结果表明：采用PER的DQN和DDQG的FCS耐久性和经济性最好。

此外，还有诸多从DQN衍生而来的算法被应用于FCHEV能量管理，如Double DQN[52]和TD3[53-55]，这二者均是基于Double Q-Learning的思想，将动作选择与评估分离以解决DQN存在的过估计问题。TD3由DDPG发展而来，处于“演员-评论家”(actor-critic, AC)框架下，本质上是策略梯度(policy gradient, PG)与DQN的结合。也有学者对同框架下的近端策略优化(proximal policy optimization, PPO)[56]进行了研究，结合FC退化经验模型实现了氢耗与耐久性共同优化。此外，另一变种SAC(soft actor-critic)算法中加入了熵的概念，通过熵增趋向来增强策略的随机性，能够提升学习效率与鲁棒性，这种算法已经在纯电或油电混动汽车的能量管理问题中得到广泛探讨，但在FCHEV中的应用还较少。

3 总结与展望

1) 不同类型的EMS具有各自的优势和劣势，适用范围也不同。RB-EMS虽然最优性欠佳，但具有相对最低的实现难度以及较好的实时性与稳定性，因此，在工程界应用广泛；OB-EMS虽然可保证最优性(或接近最优性)，但实时性欠佳，因此，通常作为最优基准来辅助其他算法的改进。

2) 多算法协同并形成优势互补，已成为解决FCHEV能量管理问题的重要手段。例如，借助最优化算法或机器学习等手段对规则型策略进行参数优化，能够在确保实时性的前提下提升策略的优化性能，这一方法在FCHEV能量管理策略中的应用已较普遍。

3) 寿命优化(尤其是针对FCS耐久性的优化)在FCHEV能量管理策略的研究中占据了重要地位。不论是对于RB-EMS中运行规则或模糊逻辑的制定，还是OB-EMS中约束条件的选择与目标函数的构建，FCS的工作区和输出平稳性都受到了重点关注，且燃料电池的各类退化模型也在MPC与RL等算法框架中得到了广泛应用。

4) RL凭借无模型特性以及在线应用的潜力，在FCHEV的能量管理问题中展现出独特的优势。为了提升RL算法的收敛性、稳定性和训练效率，人们对经典RL采取了许多改进措施，例如引入DNN，提升对高维非线性问题的处理能力；使用AC框架，提升对连续动作问题的处理能力；采用PER改进采样等。

5) 功率混合型系统是FCV动力系统的未来发展方向。相比于能量混合型系统，功率混合型系统中FCS的输出占主导地位，在充分发挥燃料电池优势的前提下，通过辅助电源进行协调，实现扬长避短，既可与纯电、油电插混等车型形成差异化竞争，也更有利于从需求端推进氢能“制—运—储—用”全产业链的发展。

6) 需根据使用场景开发EMS，助力燃料电池汽车加速推广。我国《氢能产业发展中长期规划(2021—2035年)》将氢燃料电池中、重型车辆作为未来发展重点。基于此，立足于客、货车辆(如城市公交、物流车辆、园区专用车辆等)的不同工况，结合驾驶风格的差异，开发具有个性化的EMS，进一步提升智能化程度、降低使用成本，将对燃料电池汽车的推广起到显著作用。

7) 亟需建立关于FCHEV能量管理策略的综合评价体系，而非局限于氢耗等常规评价指标。寿命成本是FCHEV运营成本的重要组成部分，而FCS的寿命对工况又具有较高敏感性，因此，需要着重考察EMS对系统寿命的影响及EMS在系统全生命周期中的综合性能。