大数据在电动汽车电池管理的应用研究综述

2022-11-01李放张营闵永军

农业装备与车辆工程 2022年10期

李放，张营，闵永军

（210037 江苏省南京市南京林业大学汽车与交通工程学院）

0 引言

电动汽车产业是我国重点发展的战略性新兴产业之一，因其噪音污染小、绿色环保等优点备受消费者青睐[1]。近年来，电池系统在极端工况和恶劣环境下故障引发的火灾事故不断发生，其安全性备受关注。随着电动汽车使用时间的增加，电池状态估计不准确、续驶里程预测失准同样让人担忧。建立高性能、安全可靠的电池管理系统是推动电动汽车发展的重要举措。本文简介电动汽车大数据基础，综述大数据背景下国内外优化电池管理系统的研究并展开分析。

1 电动汽车大数据基础

大数据是2008 年Google 成立10 周年，在《Nature》特刊中第一次提出的[2]，至今学术界对大数据无统一定义。2015 年8 月国务院《促进大数据发展行动纲要》指出：大数据是以容量大、类型多、存取数据快、应用价值高为主要特征的数据集合，正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和分析，从中发现新知识，创造新价值，提升新能力的新一代信息技术和服务业态。

1.1 大数据的特点

无论对大数据有何种定义，相比其他小数据，大数据有“5V”的特点[3]：体量大（Volume）：“大”是其主要特征，数据量以TB、PB 甚至EB 为单位计量；种类多（Variety）：同传统数据比，维度多、类型杂、来源广且不仅限于数字符号，包括音频、图片、日志等类型；数据处理快（Velocity）：要求数据响应快，处理及时；准确性（Veracity）：数据收集准确可靠；价值（Value）：数据具有进行挖掘分析的深度价值。

1.2 大数据技术

Mapreduce 模式为大数据提供了并行运算，可在数千台机器上处理数万亿字节的数据[4]。Hadoop作为开源项目，在其框架上可以采取Mapreduce 的模式处理海量数据。Hadoop 和Mapreduce 成为了目前主流的大数据处理技术，普遍应用于医疗、交通等领域[5-7]。Alteryx 可将Hadoop 或其他异类数据结合在一起处理，Pentaho 允许Hadoop 在内的多个数据库导入，具有强大算法和优秀的内置工具[8]。Flink 将MapReduce 的可扩展性与并行数据库中的查询优化等能力相结合，支持多种编程语言接口[9]。Spark 为大数据应用引入了统一的编程模式和引擎，合并处理任务且效率更高，Spark 已经发展成为最活跃的开源项目之一[10]。

1.3 大数据管控平台

为了更好地对电动汽车数据实时监控和管理，各国都建立了新能源汽车大数据管控平台，由车载终端将运行的各种数据上传至平台，伴随出现的云储存降低了数据储存和管理成本。我国2016 年建立了新能源汽车国家监测与管理平台，2020 年接入量已突破300 万辆，国家平台架构主要基于Linux 系统和Java 编程语言，采用Hadoop 框架，地方或企业也有数据监管平台或云平台，我国以企业为第一责任主体的思路，形成了新能源汽车大数据三级架构，如图1 所示[11]。GB/T 32960-《电动汽车远程服务与管理系统技术规范》对数据平台间通讯连接方式、采集内容、采集时间间隔、故障上报时间等提出明确要求，实现了对电动汽车的实时监控、数据采集和分析。但平台收集的数据只有进一步挖掘，才能开发其最大价值以改进电动汽车的性能。

2 电池管理系统与电池模型

2.1 BMS 结构与功能

电池管理系统是电动汽车动力系统中的核心部分，以电池组中的单节电池作为最小管理单元，通过对电池组内电流、终端电压、温度、单体电压等物理量的测量，实现对电池状态的实时评估、管理，并保障电池的安全，又被形象地称为 “电池管家”[12]。作为衔接电池组、整车系统和电机的纽带，完善高效的BMS 对电动汽车的性能至关重要。其基本结构如图2 所示，主要功能包括温度管理、充放电控制、电池状态估计、电池平衡监控、故障诊断与报警等。

2.2 电池模型

由于电池的SOC、SOH 等状态参数无法通过BMS 中的传感器直接测量，因此基于BMS 可测量的数据如电压、电流、温度等信息建立准确高效的电池模型，对电池状态估计、故障诊断、续行驶里程预测具有重大意义。目前的电池模型分为电化学模型、等效电路模型以及数据驱动模型[13]。

基于物理的电化学模型对于描述电池内部的化学反应机理准确度高，适用于观察电池内部微观反应，但许多参数难以获取，如导电率或某些化学材料的性质，并且需要使用一系列的偏微分方程来进行表述，造成求解难度大，难以应用于BMS 中。

等效电路模型由于直观性强，能与控制算法结合，也是当前研究的热点之一，可分为整数阶模型和分数阶模型，优缺点如表1 所示。分数阶等效电路模型近年被大量改进研究，但精度的提高不可避免的带来模型结构复杂和计算量增大，仿真速度较慢[13]。文献[14]认为等效电路模型作为简化的电池模型，不能全面反映电池的动态特性。

表1 2 种等效电路模型比较Tab.1 Comparison of two equivalent circuit models

由于不同类型的电池内电化学反应不同，全面了解电池内部反应机理难度较大。而数据驱动模型不依赖先验知识，仅用大量数据建立良好精度和具备泛化能力的模型，且具备一定的动态仿真性能。大数据平台的发展为建立数据驱动模型提供了基础，使其极具研究潜力，文献[13]指出基于大数据和云平台建立的数据驱动BMS有望成为未来趋势。

3 大数据在BMS 的应用

3.1 大数据在SOC 估算中的应用

电池荷电状态（SOC）是电池的基本参数，是指电池中剩余电荷的可用状态。SOC 的准确估算对控制过度充放电，缓解里程焦虑，提高电池整体性能等有重要意义。相关研究中，Li[15]等提出了一种能够在多变量环境和动态条件下稳定工作的大数据驱动锂电池模型,首次使用堆叠式降噪自动编码器-极限学习机（Stacked Denoising Autoencoders-Extreme Learning Machine,SDAE-ELM）建立电池模型，由SDAE 提取特征后输入ELM，对终端电压和SOC 估算的误差分别在2%和3%以内；胡杰[16]等分析并筛选电池能耗影响因素，使用CAN 总线采集电动出租车运行数据，利用GPS 获取车辆位置数据，通过爬虫技术考虑了温度这一影响因素，使用机器学习实现SOC预测并提出温度能耗模型，实现了能耗与汽车实际工况以及交通路网参数的结合；Li[17]等基于电池大数据平台和网络物理系统（Cyber-Physical System，CPS）技术的电池管理方法，通过广义回归神经网络（General Regression Neural Network，GRNN）算法和交叉验证技术驱动的数据清洗，使用基于特征的电池建模方法，SOC 估算误差控制在2.47%以内；Cui[18]等提出了一种结合离散小波变换和自适应小波神经网络的混合小波神经网络模型用于锂离子电池SOC 估算；鲍伟[19]等以某电动公交车云平台获取的30 000 条样本数据，采用支持向量机的方法，用贝叶斯优化算法优化超参数最终实现SOC 自主预测。有学者将数据驱动模型与其他模型结合使用提高估计的准确性和鲁棒性，如Xu[20]等提出了一种减少电池测试信息的在线SOC 估算方法，通过组合1 阶RC 模型并运用遗传算法进行在线辨识，可被应用于不同的工况。也有学者使用模糊推理系统或粒子群算法与神经网络组合模型预测SOC[21-22]。

在SOC 估计领域，基于大数据建立模型的方法已经做了大量研究，但在没有完全了解电池系统全部工作原理时，建立数据驱动模型是更好的选择。目前来看，将数据驱动模型与其他模型结合使用会有更好的精度和稳定性，但也增加了计算复杂度和应用实际的难度。

3.2 大数据在SOH 评估中的应用

电池健康状态（SOH）直接反应了电动汽车的动力性能和寿命状态，SOH 的准确评估有助于确定电池老化状态和量化电池的健康水平。相关研究中，Xiao[23]等基于某公司电动汽车一年的运营数据，提取增量容量分析（Incremental Capacity Analysis，ICA）的特征，使用粒子群算法优化超参数，实现了基于高斯过程回归的SOH 评估；贾俊[24]等提出一种锂离子电池健康状态综合评分及异常电池筛选的模型，无需进行模型训练和复杂的超参数调整，达到92%以上的准确率。对于数据驱动模型不能建立概率模型的问题，王萍[25]等使用如高斯回归给出其置信区间来弥补；Frisk[26]等利用来自5 个欧洲市场的33 603 辆车的291 个变量，使用随机森林算法实现了SOH 评估并研究了不同变量对电池退化的影响；Wang[27]等采用ICA 方法提取恒流充电过程的特征参数作为健康因子（Health Factors，HFs），利用高斯过程回归处理SOH 和HFs 的关系并建立模型，采用多岛遗传算法和共轭梯度法对超参数优化，通过加速电池寿命试验验证了所提出的SOH 评估方案的有效性。但Cai[28]等认为，过多的特征提取可能会降低估计精度，也会增加建模难度，通过提出一种非支配排序遗传算法，利用支持向量机和由脉冲测试得到的特征建立了SOH 评估方法。Song[29]等为了摆脱实验室实验充放电循环，考虑不同的驾驶环境和驾驶员行为，基于上海市电动汽车公共数据收集监测研究中心采集的电动汽车真实数据，提出了模糊神经网络算法实现SOH 评估，通过对一年700 辆电动汽车的监测数据验证其有效性，最大相对误差为4.5%，并能描述电池组老化趋势。

由于电池老化受到多种因素影响，未来的研究可以进一步考虑多因素对SOH 的影响，采用温度、放电深度、充电速率等其他影响因素作为参数建立电池SOH 评估模型，并测试所提出的模型在不同环境下的SOH 评估是否准确。此外，可以发展在线学习或参数自动优化等方法，使在有新数据时能够自适应地在线学习。

3.3 大数据在故障诊断中的应用

电池故障诊断系统通过监测电池电压、充放电电流、温度等数据判断电池系统可能存在的故障，保证电动汽车安全性和稳定性。对于数据驱动的故障诊断模型，若样本容量较小则无法全面、准确地反映某些故障深层特征和类型，因此可通过大数据检测比对数据异常，建立全面、高性能的在线诊断模型。相关研究中，Liu[30]等借助云端存储的大数据，使用基于密度的噪声应用空间聚类（Density-based spatial clustering of applications with noise，DBSCAN）和角方差联合检测异常电池单体；Schmid[31]等提出了一种基于单电池电压比较的数据驱动故障诊断模型，使用主成分分析法统计评估数据，通过分析每个单元对故障信号的贡献度来检测和定位故障，在BMS 中有较大的应用前景；Zhao[32]等基于北京电动汽车监控服务中心的大数据，使用机器学习算法和3σ多级筛选策略，以概率形式检测端电压的异常变化，定义了异常电压的两种故障类型，准确确定其位置。基于国家电动汽车服务和管理中心提供的大量实时数据，Hong[33]等实现对温度故障引起的热失控的诊断和预测，提出了一种基于Z 评分（Z-score）的热失控热安全管理策略，应用香农熵对监测数据进行分析，引入温度异常系数，实现温度异常的实时诊断预警；彭运赛[34]等提出了一种改进CNN 和信息融合的电池组故障诊断方法，基于美国城市循环工况（Urban Dynamometer Driving Schedule，UDDS）下采集电池组数据，实现对SOC 偏低、容量偏小、内阻偏大3 种故障的识别；Li[35]等基于国家新能源汽车监测管理中心的实际运行数据，将长短期记忆神经网络和等效电路模型相结合建立一种新的电池故障诊断模型，实现潜在故障的准确诊断和单体电池热失控的精确定位。

由于电池故障诊断的复杂性，不同故障之间的耦合关系尚不明确，大多数故障诊断模型定位和检测的故障类型相当有限，建立全面的故障诊断仍具有挑战性。也应该考虑模型的可靠性和实时性问题，进一步提高模型的诊断能力和实际应用能力是下一步研究的重点。

3.4 大数据在续行驶里程预测的应用

里程焦虑是阻碍电动汽车发展的主要问题之一，司机需关注可行驶距离，并确保汽车在断电前能到达充电站，最直接的解决办法是增加充电站点数量和提高电池容量，但成本较高且难度较大。由于电动汽车的大量运行数据上传至数据平台，一些研究根据车辆出行和地图信息大数据建立模型，实现续行驶里程准确预测以消除里程焦虑。相关研究中，Lee[36]等人提出了一种估计电动汽车行驶里程的大数据分析方法，考虑了电池的内阻变化和健康状态，利用一种无监督聚类增长的分层自组织映射（Growing Hierarchical Self-organizing Maps，GHSOM）对云平台收集的驾驶模式进行聚类，分析车辆的驾驶行为。每一次驾驶员出行时，云计算系统都可以结合驾驶员的驾驶模式和已建立的SOH 老化模型来估算行驶里程；胡杰[37]等提出融合片段回归与单点分类的机器学习方法对行驶里程进行预测，采集了5 辆同型号纯电动汽车在行驶过程中产生的数据，将154 万个样本组成数据集，通过提取最优特征集合和多模型融合的方式实现行驶里程预测，经测试集验证，平均相对误差为1.71%；Zhong[38]等基于电动汽车的真实数据，利用BP 神经网络建立了剩余行驶里程的估计模型，考虑能量回收率、SOC 等9 个因素，最终模型精度良好，但没有将温度这一因素考虑在内；Fetene[39]等2 年间从741名司机收集大量车辆出行次数(超过23万次)和行驶里程(约230 万km)，以及有关车辆、道路、天气和季节的信息，计算了雪铁龙某款车型的能源消耗率（Energy Consumption Rate，ECR），得出了最优ECR 对应的温度和车速，对行驶里程预测有一定参考意义；田慧欣[40]等提出了一种基于地图信息和循环支持向量回归模型的方法，并借助地图信息提高了纯电动汽车续驶里程的预测精度。

空间大数据和驾驶员特征提取，为里程估算带来了不同的研究视角，但一些模型将环境等其他因素进行了理想化，距离实际应用还需继续进行更多测试，如国庆节、春节时的汽车大规模高密度的出行数据会对数据驱动模型预测精度造成影响，增强模型的实用性和鲁棒性还需要进一步测试改进。