基于组合模型的高原环境GDI汽油车排放预测
2023-04-25王珑迪何超李加强刘学渊王浩
王珑迪,何超,李加强,刘学渊,王浩
(1.西南林业大学机械与交通学院,云南 昆明 650000;2.云南省高校高原山区机动车环保与安全重点实验室,云南 昆明 650224)
缸内直喷(GDI)汽油机具有良好的动力性、瞬态响应能力、燃油经济性等优点,采用GDI技术的车型在市场上的占有率也越来越高。但有研究表明,与进气道喷射(Port Fuel Injection, PFI)轻型汽油车相比,缸内直喷汽车的部分污染物排放量增加[1]。准确预测GDI汽油车在实际道路的污染物排放,有利于减少重复RDE试验带来的时间投入和经济投入,并为GDI汽油车排放提供基础数据支撑,为制定污染控制策略提供依据。
近年来,国内外学者将机器学习应用到排放预测领域。王志红等[2]对一辆重型柴油车进行了道路污染物排放特性测试,利用测得的数据,在双隐含层反向传播神经网络的基础上引入GA遗传算法优化网络的权值和阈值,构建CO和NOx的排放预测模型,在整体误差水平上,CO和NOx排放因子的相对误差分别为2.61%和6.71%。Cha等[3]建立了基于最小二乘回归法的多元回归模型对轻型柴油车CO2排放量进行预测,并引入移动平均法对采集的数据进行滤波处理,消除预测变量的不确定性。结果表明,基于回归方程的CO2预测值与CO2的实际值高度相关,模型预测精度较高。Claudio Maino等[4]提出了一种基于深度神经网络的动态规划算法的混合动力车CO2排放预测模型,开发了一种自动搜索工具(AST)对神经网络中的参数进行寻优,捕捉混合动力汽车结构设计参数和CO2排放之间的相关性,仿真试验结果表明,该模型的平均回归误差低于1%。
国内外对于排放预测模型的研究主要集中于平原地区,相较而言高原地区排放预测模型的研究较少。我国高原分布广阔,海拔1 000 m以上的高原面积约占中国总面积的58%,2 000 m以上的高原占33%[5-6]。机动车在高原地区行驶时,由于海拔的升高,大气压力降低,吸入缸内的进气量减少,将导致发动机动力性和经济性下降、部分污染物排放增加[7]。由于单一模型并不能很好地拟合不平稳的时间序列数据[8],基于此,本研究提出了基于XGBoost-SVR组合模型的高原环境GDI汽油车CO和PN排放预测模型,实现对高原环境下GDI汽油车CO和PN的精准预测。
1 方法论
1.1 奇异谱分析
奇异谱分析(SSA)是一种处理非线性时间序列的方法[9],而汽油机污染物排放序列受到道路坡度、道路等级、驾驶员习惯等多种因素影响,是一种非平稳、非线性的时间序列,利用奇异谱分析对数据进行分解、重构,可以提取有效趋势信息,去除时间序列中的噪声部分。SSA的分析对象是有限长一维时间序列,以CO排放序列为例,定义CO排放序列数据为{x1,x2,…xN},然后计算轨迹矩阵X:
(1)
式中:K=N-L+1。通常情况下,滑动窗口长度L
(2)
(3)
1.2 XGBoost模型
XGBoost模型的基本单元为回归树[10],表达式为
(4)
XGBoost模型在每次迭代中加入新的函数,分别对应一颗回归树,新生成的回归树与之前所有树预测的误差进行拟合,迭代公式为
(5)
式中:t表示迭代次数。
XGBoost目标函数的表达式如下:
(6)
(7)
式中:ωj为第j个叶子节点的权重;T为叶子结点个数;λ为正则化惩罚项系数,保证叶子结点权重不会太大;γ为惩罚函数系数,防止叶子结点个数过多。
XGBoost对目标函数进行泰勒二阶展开,得到的目标函数表达式为
(8)
(9)
进一步对ωj求导得叶子的最优权重:
(10)
最优目标函数为
(11)
式中:Ij表示叶子结点的样本集合。
1.3 SVR模型
支持向量机回归(Support Vector Regression,SVR)是一种用于分类和回归的监督学习算法,通过非线性映射函数φ(t),将低维空间的样本映射到高维空间,从而进行非线性数据的拟合[11]。假定样本集为{xi,yi},其中xi是输入向量,yi是输出向量。SVR模型的决策函数表示为
f(x)=ωTφ(x)+b。
(12)
式中:ω为权重系数;φ(x)为将输入向量x从输入空间映射到更高维空间的非线性映射函数;b为偏置量。SVR模型的训练过程可以看作寻找最优的ω,b,使f(xi)无限接近yi,即
(13)
f(xi)-yi≤ε+ξi,
(14)
(15)
(16)
(17)
式中:k(x,xi)为核函数。
2 XGBoost-SVR模型
基于XGBoost和SVR提出了一种组合模型对高原环境下GDI汽油车CO和PN的瞬时排放进行预测,具体流程如图1所示。
图1 组合模型流程
组合模型的预测首先使用SSA对CO和PN的原始数据进行降噪处理,利用训练集数据进行XGBoost建模,利用XGBoost模型获得初始的预测值,计算真实值与初始预测值的残差,利用SVR模型进行残差修正,最后将SVR模型预测的残差结果与XGBoost模型的初始预测值相加得到最终的预测结果,具体过程如下:
1) SSA降噪。高原环境下GDI汽油机的CO和PN的排放序列受到多种因素的影响,是一种非平稳、非线性的时间序列数据,SSA可以将数据进行分解重构,丢弃数据内的噪声部分,保留数据的有效趋势信息。
(18)
4) 将XGBoost模型的预测结果与SVR模型获得的残差预测值相加,得到最终的预测值,即
(19)
本研究采用均方根误差RMSE[12]、决定系数R2[13]评估模型性能。计算公式如下:
(20)
(21)
3 试验结果与分析
3.1 RDE试验与数据
试验采用便携式车载排放测试系统(Portable Emission Measurement System,PEMS)对一台国Ⅴ轻型汽油车进行测试,被测车辆采用缸内直喷的供油方式。将PEMS安装到测试车辆上,接通电源,预热完毕后对气体分析仪进行标零标定。国六标准的进一步扩展海拔条件为1 300~2 400 m。此外,国六标准规定,PEMS检测道路中试验开始点和结束点之间海拔差不得超过100 m,并且累计正海拔增加量不超过1 200 m/100 km。因此,选定如图2所示的试验路线。试验路线包括市区、市郊和高速路段,具体道路信息见表1。PEMS设备在发动机第一次起动前开始记录数据,在试验期间不间断地记录污染物浓度和环境条件。按照规定的试验工况驾驶车辆,达到要求后停止试验。RDE试验持续102 min,将试验采集到的数据按照3∶1∶1的比例划分训练集、验证集和测试集。
3.2 SSA降噪
对测得的轻型汽油车的PN和CO排放数据进行SSA分解,窗口长度L设置为10。从图3可以看出,对于CO和PN,前五个成分明显大于其他部分,可以代表原序列的大部分信息,提取前五个主成分重构CO和PN序列,其余部分是可以去除的噪声部分。
图3 CO和PN的组件特征
图4示出SSA处理后的CO和PN部分排放序列结果。从图4可以看出,重构后的序列保留了原序列的总体变化情况,并且剔除了异常值,重构后的数据更有利于GDI汽油车CO和PN的瞬态排放预测。
图4 SSA处理前后部分污染物排放序列比较
3.3 XGBoost建模
基于XGBoost模型对重构后的CO和PN排放序列进行初步预测,利用网格搜索结合4折交叉验证寻找模型最优超参数,主要调节参数及范围见表2。最终选定XGBoost模型学习率为0.006,决策树数量为1 000,树的最大深度为3。使用XGBoost模型的预测结果如图5所示。从图5可以看出,XGBoost单一模型在整体的排放趋势上与试验值相一致,但在某些波峰、波谷处存在较大误差,因此利用SVR模型进行残差修正。
表2 XGBoost超参数含义及其取值范围
图5 XGBoost模型预测结果
3.4 SVR建模
本研究SVR模型中的核函数选择径向基函数(RBF),核函数的表达式如下:
(22)
将原始数据与XGBoost模型预测数据作差,得到残差序列,将原始数据和残差序列代入SVR模型,残差的预测结果如图6所示。
图6 SVR残差预测结果
将XGBoost预测结果与SVR预测结果相加得到最终的预测结果,如图7所示。从图7中可以看出,对于XGBoost单一模型,在某些波峰、波谷处CO和PN的瞬时排放预测结果与实测值误差较大,这是由于在波峰、波谷附近,发动机工况在短时间内发生变化,预测模型响应时间受到限制,导致预测精度不足。而组合模型通过SVR残差修正,预测结果能与实测值较好地吻合。相比于XGBoost单模型,组合模型的拟合精度得到提高。组合模型和XGBoost模型对CO和PN的瞬态排放预测的精度对比见表3。在高原环境GDI汽油车瞬态CO排放预测中,组合模型RMSE和R2的值相比于XGboost单一模型分别提高了22.9%和25.1%;在瞬态PN排放预测中,组合模型RMSE和R2的值相比于XGboost单一模型分别提高了39.7%和12.8%。从RMSE和R2的值可以看出,组合模型具有更高的预测精度。
图7 组合模型预测结果
4 结束语
提出了一种基于XGBoost预测时间序列结合SVR残差修正的高原环境下GDI汽油车排放预测模型,以一辆高原环境下的GDI汽油车作为研究对象进行实证研究。对原始排放数据进行SSA降噪,去除原始数据中异常值,经SSA降噪后建立的组合模型表现出良好的预测性能;对CO和PN排放预测的RMSE分别为0.037和0.047,且决定系数R2均大于0.9。利用XGBoost-SVR组合模型对高原环境下GDI汽油车瞬时排放中CO和PN进行预测,结果表明,组合模型相比于单一的XGBoost模型,RMSE分别提高了22.9%和39.7%,R2分别提高了25.1%和12.8%。