基于大数据分析的电动汽车行驶里程预测方法研究
2020-07-27罗红梅周逸凡
罗红梅 周逸凡
摘 要:针对电动汽车行驶里程预测问题,采用人工智能与大数据的分析方法对电动汽车的续驶里程进行预测。首先,通过对北京市某款电动汽车的实际运行数据进行预处理分析,筛选出有效的放电小片段,进行特征工程分析;然后,利用微分思想构造出模型的输入与输出,建立分类与回归树预测模型;为了进一步提高预测精确度,采用随机森林与梯度提升迭代决策树两种不同的模型融合算法对模型进行优化。结果表明,模型融合算法能显著减少预测结果的均方误差,能够很好的预测电动汽车行驶里程。
关键词:行驶里程;放电小片段;决策树;模型融合
中图分类号:U469.7 文献标识码:A 文章编号:1671-7988(2020)13-01-04
Research on the Prediction Method of Electric Vehicle Mileage Based
on Big Data Analysis
Luo Hongmei, Zhou Yifan
( School of Automobile, Changan University, Shaanxi Xian 710064 )
Abstract: In order to solve the problem of electric vehicle mileage prediction, artificial intelligence and big data analysis method are used to predict the driving mileage of electric vehicle. First of all, through preprocessing and analyzing the actual operation data of an electric vehicle in Beijing, the effective small discharge segments are screened out, and the characteristic engineering analysis is carried out. Then, the Classification And Regression Tree (CART) model is proposed by using differential thought. To further improve the performance of the model, a fusion algorithm based on random forest and Gradient Boosting Decision Tree (GBDT) algorithm are proposed, which are used to optimize the model. The results show that the model fusion algorithm can significantly reduce the mean-square error of the prediction results, and can predict the driving mileage of electric vehicles well.
Keywords: Mileage; Discharge fragment; Decision tree; Model fusion
CLC NO.: U469.7 Document Code: A Article ID: 1671-7988(2020)13-01-04
前言
行駛里程作为电动汽车重要的性能参数之一,近年来引起了广泛关注。电动汽车某段时间内的实际行驶里程与动力电池衰退情况、行驶过程的特征以及环境因素相关。准确预测电动汽车某一工况下的行驶里程,可以增强驾驶者对车辆续驶里程的信心,提高能量利用率,在能量管理,出行决策制定等方面具有重要意义。
近年来,国内外众多学者提出了多种方法对行驶里程进行预测。高航[1]从电池物理性能和行车环境入手,基于SOC、最低单体温度和行驶里程创建多元线性回归模型,并且增加变量间潜在的非线性关系来优化模型,以此来达到提升模型预测精度的目的,最终建立了更适用于实际工况的梯度提升算法。刘光明等[2]创建电池状态估计模型来预测电池的剩余电量,使用剩余电量、车辆能耗以及行驶工况来预测续驶里程。陈燎等学者[3]提出了优化的模糊能耗与卡尔曼滤波结合算法,优化后,续航里程的估算精度提高了77%。张憧[4]定性分析出电池剩余可用能量和车辆能耗是影响电动汽车续航里程的主要因素,然后提出一种较为准确地实时预测续航里程的模型。Bolovinou A等[5]将神经网络、遗传算法和模糊控制融合到传统的回归方法(线性回归和支持向量回归)中,而且还在能量消耗模型中加入了时间和位置属性。Zhang C W等[6]采用改进BP神经网络估算得到的电池SOC预测精度提高了2%。
现有的研究方法可以归为两类,一类是从电池属性入手,使用传统的回归模型对行驶里程进行预测;一类是结合实时环境和电池属性,使用人工智能方法进行建模预测。本文综合考虑两种研究方法,用微分思想构造出模型的输入与输出,然后使用 CART(Classification And Regression Tree)、随机森林和GBDT(Gradient Boosting Decision Tree)等三种模型来进行行驶里程的预测。
1 数据预处理
本文根据新能源汽车国家大数据联盟发布的北京市某款电动汽车的实际运行数据,电动汽车采集的数据包含了以下类型:实时数据时间,总电压,总电流,荷电状态,最高单体温度值,最低单体温度值,电机控制器输入电压,电机控制器直流母线电流和累计里程。训练集数据属性如表1所示。
由于設备与行驶环境的影响,采集的数据存在一定异常与无用数据,需要进行数据预处理。步骤如下:
(1)异常数据的删除。异常数据主要包括缺失值、离群值和逻辑异常值。对于缺失值采用极大似然填补,对不可填补数据删除,最后运用3σ法则剔除离群点。处理后的部分数据如表2所示。
(2)放电大片段的划分。由于原始数据中包括电动汽车充电和放电的数据,可以综合分析一段数据时间内总电流正负与SOC的增减,即可从原始数据中划分出放电过程的大片段。
(3)放电小片段的划分。本文数据的标准采样间隔为10s,实际的采样间隔会因为道路状况及设备的原因,出现大于标准采样间隔的情况。为提高预测精度,相邻数据之间的采样间隔若大于240s,则将其划分为两个单独放电片段。
2 数据挖掘与分析
本文采集的实际运行数据共34万条,经过数据预处理后,训练集数据剩余8.4万条。
以上变量与行驶里程的散点图如图1所示。
由图1可知,电动汽车的行驶里程与电池的荷电状态和行驶时长具有明显的线性关系。但采集到的车辆实时soc的精度为1,而需要预测的行驶里程的精度为0.1km,因此无法通过电池的soc精确预测行驶里程;而其他变量与行驶里程之间的关系较为复杂,需要进一步分析。
本文通过Pearson相关系数来度量上述散点图中各变量与行驶里程的相关程度。相关系数计算公式如式(1)所示。
(1)
式中n为样本数,xi和yi分别为两变量的值, 和 分别为x和y对应的均值。若|r|>0.6,则认为其与行驶里程呈强相关关系;若0.4<|r|≤0.6,则认为其与行驶里程呈中等相关;其余呈弱相关或无相关。各采集量与行驶里程的相关系数如图2所示。
由图2可知,time、total_voltage、SOC、motor_voltage与mileage呈强相关关系,其他采集量与mileage的pearson的相关系数均较小。因此,仅将以上4个变量作为特征参数来预测行驶里程是不够的,需要进行特征工程挖掘更多特征。
根据微分思想,一段时间内电动汽车行驶里程应等于各个采样点之间的行驶里程之和。对于采用时间间隔小于240s的行驶小片段,将其进行“微分”,通过确定各采样点之间的数据的变化量,从而构建出新的特征。
将第i采样时刻的time、total_voltage、total_current、temp_max、temp_min、motor_voltage分别记为ti , Vti , Iti , Tbi , Tsi , Vmi。
将i采样时刻到i+1采样时刻的采集量作差,得到的变量分别记为:△ti, △Vti, △Iti, △Tbi, △Tsi, △Vmi。以上变量作为模型的输入记为:
(2)
模型的输出为第i时刻至第i+1时刻行驶里程的变化量,记为△mi。对于第j个行驶小片段,通过预测i 采样时刻到i+1采样时刻的里程变化量,对其求和,得到第j个行驶小片段的里程变化量Mj ( j=1,2,3,…k ),如式3所示。
(3)
再对行驶小片段的里程变化量求和,即得到行驶大片段的行驶里程Mtotal,如式4所示。
(4)
3 行驶里程预测模型的建立
对于采样间隔小于240s的放电小片段,本文采用CART决策树算法预测行驶里程。通过计算平均平方误差来将输入的特征划分为不同的空间,最后生成决策树。
相比于神经网络,决策树算法逻辑更加清晰,也较为简单直观。将上文中处理后的行驶小片段按照8:2的比例划分为训练集与测试集,通过最小二乘准则,使训练集输入与输出的总均方误差最小化,得到训练模型,最后通过测试集验证精度。采用测试集的相对误差与均方误差来表征训练集模型的精度,如式(5)和式(6)所示。其中M为实际行驶里程和,△m*i为实际行驶里程变化量。
(5)
(6)
采用CART决策树算法预测的预测结果如表3所示。
由表3可知,采用CART决策树算法预测的行驶里程相对误差较小,能基本实现行驶里程的预测。
由于CART决策树属于贪心算法,会导致过拟合问题,此外上文中采用的单一决策树,不能很好纠正样本中偏差及方差,从而导致预测精度的降低。为了进一步提高预测的精度、降低预测偏差,本文分别采用随机森林与GBDT算法来进行优化。随机森林算法可以通过对数据集有放回的抽样,降低单一决策树的均方误差,并且能够减少过拟合现象。而GBDT算法则将决策树作为弱学习器并分配了权值,从而减少的预测的偏差。采用不同模型的各放电小片段的行驶里程值相对于准确里程值的误差结果如图3和图4所示。
对上文各行驶小片段行驶里程预测结果进行求和,得到采用随机森林与GBDT算法的总行驶里程预测结果Mtotal如表4所示。
由表4可知,采用随机森林与GBDT两种模型融合算法能对单一决策树预测的行驶里程进行一定优化。两种算法将均方误差减少了50%以上,采用GBDT算法的预测结果的相对误差显著减少。
4 结论
本文首先通过对北京市某款电动汽车的实际运行数据进行预处理分析,筛选出有效的放电小片段。然后,利用微分
思想构造出模型的输入与输出,并采用单一CART决策树算法建立了预测模型。为了提高预测精度,又采用了随机森林与GBDT算法两种不同的模型融合算法。结果表明:
(1)单一CART算法预测的行驶里程值相较于行驶里程的准确值相对误差达1.4%;
(2)在CART,随机森林和GBDT算法中,CART的预测精确度最低,随机森林次之,预测精准度最高的是GBDT模型;
(3)模型融合算法能显著减少预测结果的均分误差。其中GBDT算法的相对误差达0.3%,能够很好的预测电动汽车行驶里程。
参考文献
[1] 高航.基于机器学习的纯电动汽车的行驶里程预测研究[D].北京: 北京交通大学,2018.
[2] 刘光明.面向电动汽车续驶里程估计的电池剩余放电能量预测研究[D].北京:清华大学,2015.
[3] 陈燎,谢明维,盘朝奉.模糊能耗及卡尔曼滤波的电动汽车剩余续驶里程估算[J].河南科技大学学报(自然科学版),2017,38(01): 28- 33+5.
[4] 张憧.电动汽车续驶里程影响因素及预测研究[D].合肥:合肥工业大学,2018.
[5] Bolovinou A, Bakas I, Amditis A, et al., Online Prediction of an Electric Vehicle Remaining Range based on Regression Analysis[J]. 2014 IEEE International Electric Vehicle Conference (IEVC), 2014, 616-623.
[6] Zhang C W; Chen S R, Gao H B, et al. State of Charge Estimation of Power Battery Using Improved Back Propagation Neural Network [J]. Batteries-Basel, 2018, 4(4), 1-12.