基于主成分分析和聚类的营运车辆道路行驶工况构建研究
2024-08-07杜宇程李会民宋尚斌晋杰
摘 要:《营运客车燃料消耗量限值及测量方法》和《营运货车燃料消耗量限值及测量方法》系列标准是加快我国营运车辆绿色低碳运输管理所依据的重要标准。修订两项标准一方面结合国内外汽车技术水平的迅速提升及道路运输的迅猛发展状况,另一方面对促进实现交通运输节能减排目标、缓解石油资源短缺、降低营运车辆的碳排放量等具有重大的现实意义。其中,适时调整试验各类工况时间占比系数是两标准修订的重要部分,需结合我国当前的地理类型、道路交通规则、道路结构等对实际行驶工况进一步研究分析。本文以营运货车为例,基于各大主机厂车联网平台系统的数据采集来源,利用数据清洗、短行程筛选、数据规约和聚类等方法分析采集数据,能够比较准确地反映营运车辆实际道路行驶特征。为营运车辆燃料消耗量各工况系数调整提供了技术方案和有力的数据支撑。
关键词:营运车辆;行驶工况;燃料消耗量;降维;聚类
中图分类号:U412 文献标志码:A 文章编号:1005-2550(2024)04-0047-07
Research on the Construction of Road Driving Conditions for Commercial Vehicles Based on Principal Component Analysis and Clustering
DU Yu-cheng, LI Hui-min, SONG Shang-bin, JIN Jie
(Research Institute of Highway Ministry of Transport, Beijing 100088, China)
Abstract: The series of standards “Limits and measurement methods of fuel consumption for commercial vehicle for passenger transportation” and “Limits and measurement methods of fuel consumption for commercial vehicle for cargos transportation” are important standards for accelerating the green and low-carbon transportation management of operating vehicles in China. The revision of the two standards combines the rapid improvement of domestic and foreign automotive technology and the rapid development of road transportation, and has significant practical significance in promoting the achievement of transportation energy conservation and emission reduction goals, alleviating oil resource shortages, and reducing carbon emissions from operating vehicles. Among them, timely adjustment of the proportion coefficient of various test conditions is an important part of the revision of the two standards. It is necessary to further study and analyze the actual driving conditions in combination with the current geographical types, road traffic rules, road structure, etc. in China. This article takes operational trucks as an example, based on the data collection sources of the vehicle networking platform systems of major host factories, and analyzes the collected data using methods such as data cleaning, short travel screening, data protocol, and clustering, which can accurately reflect the actual road driving characteristics of operational vehicles. This provides technical solutions and strong data support for adjusting the fuel consumption coefficients of operating vehicles under various operating conditions.
Key Words: Operational Vehicles; Driving Conditions; Fuel Consumption; Dimensionality Reduction; Clustering
《营运货车辆燃料消耗量限值及测量方法》(JT/T 719-2016)与《营运客车辆燃料消耗量限值及测量方法》(JT/T 711-2016)标准发布至今已有7年多的时间。作为《道路运输车辆燃料消耗量检测和监督管理办法》(交通运输部11号部令)的配套实施标准,是落实国家《节约能源法》的重要举措,是引导运输经营者购买和使用节能车辆的重要方式,是控制高能耗、高排放的车辆进入营运市场的重要手段。通过标准的实施,促进了道路运输车辆燃料消耗量管理要求的有效落地,全国道路运输车辆节能减排效果明显,自2017年以来,至2021年累计节油量达到632.2万吨,二氧化碳减排量达到2041.6万吨。对引领行业技术发展与道路运输行业节能减排工作发挥了重要作用,经济效益和社会效益显著。
当前,营运车辆燃料消耗量限值及测量方法系列标准,提出了适应我国道路运输车辆行驶工况的道路试验测试方法。随着道路运输车辆制造水平的不断发展,道路运输行业运力结构的不断调整,以及道路等级等基础设施的不断建设。因此,营运车辆燃料消耗量测试评价技术一方面需要结合国内车辆技术发展与运输行业需求现状,另一方面相同测试方法下,试验各类工况时间占比系数,需要结合我国的地理类型、道路交通规则、道路结构等运输实际工况进一步研究分析。
本文针对道路运输车辆行驶工况数据的量化分析问题,以营运货车为例,依次对原始采集数据进行预处理和统计分析,提出道路试验测试方法的各工况时间占比系数的修订建议。同时,结合道路运输车辆的实际交通情况,划分短行程片段并筛选后构建有效的数据模型,基于PCA(Principal Component Analysis)主成分分析法的运动片段特征值降维模型和K均值(K-means)的聚类模型,将上述模型按照顺序串联分析,提出营运货车行驶工况的现状与分析思考,为营运车辆燃料消耗量限值及测量方法系列标准修订和行业检测评价技术提供有力的技术支撑。
1 数据采集及来源
数据采集由各大主机厂车联网平台系统负责提供数据来源,从而充分保证了所需要采集数据的真实性和准确性。采集数据主要覆盖了载货汽车、牵引车辆、自卸和混凝土搅拌运输车近一周时间内的实际行驶状态和工况的数据采集,因各大主机厂车联网平台采集方式及用途差异,采集频率和特征数据也有所不同,将每次采集后所获得的数据都被单独地保存到一个相应的文件夹中作为原始数据库。原始数据库中所需要获得的主要数据形式如表1。
2 试验数据预处理
与乘用车辆相比,营运货车在实际行驶中面临更多的变化和复杂的交通状况。车辆在行驶时会受到多种因素的影响,这导致车辆的各种行驶参数也在不断地变化。所收集到的数据主要涵盖了速度、时间以及油耗等多个特性。在数据传输的过程中,可能会因为多种因素导致数据出现异常的情况。如果直接依赖这些数据进行分析,会导致结果出现偏差。因此,在进行统计分析前,有必要对这些数据进行数据清洗。
对数据进行清洗完成之后的数据变换、规约等一系列操作,统一被称为数据的预处理阶段。数据变换指的是将数据转化为适合分析任务的适当格式,例如将速度-时间数据转化为短行程参数特征;在进行数据规约的过程中,采用主成分分析法来进行数据规约,同时用更少的主成分数据来替代多维特征参数数据进行聚类分析。本文使用Python的Numpy、Scipy、Pandas等数据库进行数据的挖掘和分析。其中,数据分析主要依赖于Pandas库的数据分析函数,而数据规约和聚类分析则主要依赖于Scikit-Learn库的数据分析函数,这确保了数据处理过程的高效性。
2.1 原始采集数据清洗
由于收集数据量较大,因为数据传输信号,解码错误以及其他各种原因难免会出现异常情况,造成数据质量降低。如何有效地把这些非清洁数据转化为高质量数据则需要对其进行清洗,通常有以下方式进行数据处理:通过删除缺失部分的记录从而继续沿用连续部分记录、对缺失数据进行预测插补和对数据不进行处理[1]。
在数据清洗前,抽取了部分原始数据,发现原始数据中存在部分数据状态属于只通信未采集,表现情况为车速与瞬时油耗量均为0的情况,利用代码data.info()查看数据的缺失情况,各特征采集数据基本保证了数据的连续性,其缺失值占各样本中的比例很小,故采用删除缺失部分的记录从而继续沿用连续部分记录不会造成数据质量下降,也大大提升了数据清洗的效率。使用pandas库函数进行缺失数据删除,代码data.dropna(axis=0,how=“any”)。
2.2 原始采集数据转换
2.2.1 行驶工况的划分
车辆在启动开始到目的地停止这一过程中,受道路交通条件制约,会出现多次加速、减速、怠速、等速等运行现象。根据汽车行驶方式划分原则定义了加速工况,减速工况,怠速工况及匀速工况,并依据这些行驶参数进行了行程工况计算[2]。
(1)加速工况:加速度大于或等于正加速度阈值时(阈值一般取为0.15m/s2)且速度不等于0的连续过程;
(2)减速工况:加速度小于等于负加速度的阈值时(阈值一般取为-0.15m/s2)且速度不等于0的连续过程;
(3)匀速工况:加速度的绝对值小于加速度阈值时(阈值一般取为0.15m/s2)且速度不等于0的连续过程;
(4)怠速工况:发动机工作,但车速为0的连续过程。
根据上述行驶工况的分类标准,本文对数据集采用pandas库中的DataFrame数据结构,以加速度、速度、发动机转速等主要特征参数,作为工况判定条件来划分行驶工况。
2.2.2 特征参数选取与计算
特征参数的选取可以真实地反映出每段行程的行驶特征,其中最为重要的是加速度、速度和发动机输出功率参数,然而仅依靠这些是不足以描述行驶特征的。通过参数的转换,能够反映出原始数据中的各种交通信息,包含道路的交通状况和司机的驾驶习惯等隐藏信息,使最终构建的工况更符合汽车实际运行情况[3]。
由此,在评价代表性行驶工况时,通常使用一些特征参数来评估该工况,选取了20个最为典型的特征参数用以较为全面地描述和表征所有短片段,并将采集到的数据通过一定的公式转化为特征参数,以同样的方法用于短行程的评估分析中,使用不同的特征参数代表短行程,这些特征参数能够体现该短行程的交通特征。具体参数如表2:
通过python编程将每个片段的多维特征参数进行计算,得到特征参数矩阵。其部分分析结果见下表3、4、5分别为载货汽车、自卸和搅拌运输车、牵引车辆所计算得出的值。
2.2.3 短行程片段数据筛选
从获得的运动特征值矩阵可以看出,收集到的数据存在着一些速度突变造成加速度过大,怠速时间过长的短行程没有表现交通特征等问题,这种做法明显不尽合理,体现出筛选运动学片段的必要性。为确保用于工况构建的短行程的有效性和合理性,以国家法规为基础,结合我国车辆的实际运输特征,并参考WLTP(Worldwide Harmonized Light Vehicle Test Procedure)的相关短行程筛选原则制定5条筛选规则[4]:
(1)加速度绝对值大于4m/s2;
(2)短行程片段怠速时间超过10min,截取有效平均时长60s计算;
(3)自卸车和混凝土搅拌运输车怠速工况中,发动机转速>800r/min为作业工况,视为无效片段;
(4)最高时速低于3.6km/h的短行程片段;
(5)短行程片段持续时间低于10s。
基于上述筛选规则,提取的运动学片段总数量相较于筛选前基本保持不变,但各类工况占比系数发生变化,如表6。可看出筛选后整体怠速比例明显下降,删除了很多怠速时间过长和作业工况的无效片段,也导致了加速、减速、等速工况占比有所上升。根据以上操作,更能够充分反映营运货车实际工况特征,为营运货车燃料消耗量各工况系数调整提供了技术方案与有力的数据支撑。
3 主成分分析法数据降维
经过数据清洗、计算特征参数和短行程筛选后,为了对车辆行驶工况进行统计分类与数据挖掘,还需对短行程进行聚类分类。但当数据量过大会出现计算效率低,亦或变量间有一定相关性提供信息有一定重叠等问题都不宜直接聚类。降维是应对高维数据的有效办法,通过特征选择法或维度转换法将高维空间降低到或映射到低维空间[5]。
本文使用主成分分析PCA降维法以减少变量的数目,PCA是基于降维思想下产生的处理高维数据的方法[6]。将20维的数据降维至4维。
3.1 主成分分析实现
Stepl:计算协方差矩阵。主成分的计算可采用协方差矩阵或相关系数矩阵。Scikit-Learn中的PCA默认使用协方差矩阵Cp×p,协方差矩阵元素Cij为Xi和Xj的协方差;
主成分的计算可采用协方差矩阵或相关系数矩阵。
Step2:计算特征值和特征向量。所得的特征值按由大到小排列:λ1≥λ2≥...≥λp≥0。每个特征向量ξi为单位向量;
Step3:计算主成分贡献率及累计贡献率。主成分Yi值的大小体现了该成分对原有信息的贡献率,其值越大,越具有代表性。贡献率是指该主成分的方差占全部p个主成分方差中的比例。计算方法:
其中,ξij表示ξi的第j个变量。
3.2 主成分编码实现
使用Python的Scikit-Learn库中的主成分分析(PCA)相关函数进行数据模型编码。PCA编码:
from sklearn import preprocessing
df = pd.read_excel(r”./车辆汇总表.xlsx”)
Df = preprocessing.scale(df) # 数据标准化处理
covX = np.around(np.corrcoef(df.T),decimal=3)
# 求解协方差矩阵,保留3为小数
featValue, featVec = np.linalg.eig(covX, T)
featValue = sorted(featValue)[::-1]
# 求解系数相关矩阵特征值和特征向量,特征值由高到低排序
gx = featValue/np.sum(featValue)
Lg = np.cumsum(gx)
# 求解特征值贡献率及累计贡献率
k = [i for i in range(len(lg)) if lg[i]≤0.80]
# 选出累计贡献率小于0.8的主成分
selectVec = np.matrix(featValue.T[k]).T
selectVec = selectVec*(-1)
# 构建主成分载荷矩阵
3.3 主成分分析结果分析
图1展示了碎石图中各主要成分的特征值,这些特征值的数值反映了各主要成分间的方差贡献率及重要性[7]。通过观察碎石图,可以清晰地识别出选择的4个主要成分涵盖了绝大部分的特征参数信息,从而达到降低试验数据维度的目的。
从表7的特征累计贡献率图可以看出,前四个主要成分的累计贡献率达到了80.306%,这已经包括了所有基本特征。因此,使用PCA选择的所有运动片段的前四个主成分的得分作为聚类分析的参数,能够准确地反映数据的非线性特性。
图2给出的是主成分载荷矩阵,该矩阵反映了各主成分与20个特征参数的相关性关系。可以得出,第一主成分包括:平均加速度、加速工况占比、减速工况占比、怠速工况占比、25以下速度占比、30速度占比、40速度占比;第二主成分包括:平均减速度、等速工况25以下速度占比;第三主成分包括:怠速工况占比、等速工况25以下速度占比、80速度占比、85以上速度占比;第四主成分包括:60速度占比、70速度占比。
4 聚类分析
为了进一步研究我国营运货车实际行驶的路况与交通特征,需要对不同的短行程按照道路交通特征分类,将拥有相同交通特征的短行程分为一类。由于短行程没有明确的类别标签,因此采用聚类方法对其进行分类。聚类分析就是用一定方法将具有不同特征和特性的样本划分为若干个类,并在每个类内部找出最相近的同类作为该组的代表[8]。
在数据分析领域,聚类被广泛认为是一种关键的分类技术,它允许在没有明确分类的前提下,基于数据的相似度来对样本进行分类[9]。鉴于每一个短行程的具体类别都是未知的,因此选择使用聚类技术来对其进行分类。为了实现数据的快速和高效聚类,本研究采用了Scikit-Learn库中专为大量数据设计的K-Means聚类算法来处理短行程数据。
4.1 K-Means算法实现
Step1:随机选取k个初始中心点;
Step2:计算每个点到中心点的距离,将点分到距离最近的中心点所在的簇中;
Step3:计算每个簇的平均值作为新的中心点;
Step4:重复过程Step2和Step3,直至中心点不再变化。
KMeans算法在sklearn.cluster包里有现成的函数,只需调用即可。函数及其参数如下:
主要参数选取:
n_clusters=3:聚类数目;
init=’K-Means++’:初始化方法{‘K- Means++’};
max_iter=300:最大迭代次数;
n_init=10:初始质心运行算法的次数;
algorithm=’auto’:根据数据值稀疏或稠密,自动选择’full’或’elkan’。
4.2 K-Means算法结果分析
在聚类分析中,各类运动片段的数量如表8所示,聚类中心如表9所示,主要成分的特征值如表10所示。
根据图2中聚类结果的可视化分析,可以将882个运动学片段分为三个不同的类别:第一类(由紫色点表示)包含243个片段,第二类(由绿色点表示)包含184个片段,而第三类(由黄色点表示)则包含455个片段。利用聚类中心表9和表10中的主要成分所对应的特征值,对三种聚类后的动态片段进行了综合描述:
第一类运动片段的第一、第二类主成分指标值偏低,第三、第四类成分指标值较高。可以观察到,第一类的运动片段主要描述的是汽车在高速公路上的行驶状态;此外,怠速时间占比以及部分低速占比稍高,这也与途径收费站点排队等待与低速行驶的现状特征相匹配。可以确定出,第一类的运动片段描述的是在高速公路上的高速驾驶状态。
第二类运动片段的一、二主成分指标最为突出。通过分析这些指标与运动特性,可以推断这一类的运动片段反映了汽车在城市交通拥堵区域的缓慢行驶状态,也可能是出现在节假日或者早晚高峰时间。
第三类运动片段的第一、二、三类主成分指标值较低,第四类主成分指标值为三类中最高。结合这些指标数据和运动特征,可以判断第三类运动片段描述组要是在城郊路段,或者是在交通较为通畅的城区的行驶工况的中速行驶工况。
综上分析可知,当前我国营运货车多行驶于城郊和高速路段,市内交通拥堵路段占比较小,这也与我国营运货车实际行驶情况及车辆管理要求相匹配。下一步,结合营运货车行驶数据统计与聚类分析研究,为主管部门对营运车辆技术管理要求以及《营运车辆燃料消耗量限值及测量方法》实际工况系数调整等工作,提供了技术方案与有力的数据支撑。
5 总结
行驶工况的构建分析能够有效评估营运车辆的燃油消耗量,从而促进营运车辆节能减排技术的发展。本文以课题“《营运车辆燃料消耗量限值及测量方法》(JTT 711-2016、JTT 719-2016)系列标准跟踪”项目为依托,根据营运货车分类和使用用途,对各大主机厂车联网平台系统中采集到的数据,分别对原始数据进行了数据清洗、数据转换、数据筛选,根据统计学原理,并对特征参数数据降维和聚类划分,为营运货车燃料消耗量各工况系数调整提供了技术方案与有力的数据支撑。
参考文献:
[1]张良均,王路,谭立云等.Python数据分析与挖掘实战[M].北京:机械工业出版社,2016.
[2]刘明哲.基于运动学片段和分层聚类的汽车行驶工况构建[J].内蒙古农业大学学报(自然科学版), 2021,42(02): 73-78.
[3]李加强,王洪荣,周建文,等.基于聚类分析法的公交车行驶工况构建研究[J].汽车工程学报,2017,7(06):400-406.
[4]Marotta A, Pavlovic J, Ciuffo B, et al. Gaseous Emissions from Light-Duty Vehicles: Moving from NEDC to the New WLTP Test Procedure[J].Environmental Science & Technology, 2015, 49(14):8315-22.
[5]宋天龙.Python 数据分析与数据化运营[M].北京:机械工业出版社,2017.
[6]Lim S. Nonlinear component analysis as a kernel eigenvalue problem[J]. 2011.
[7]范金城,梅长林.数据分析(第二版)[M].北京:科学出版社,2010.
[8]孙骏,方涛,张炳力,李傲伽,朱鹤.基于改进K-均值聚类算法的合肥市电动客车行驶工况构建[J].汽车技术,2020(08):56-62.
[9]高建平,任德轩,郗建国.基于全局K·means聚类算法的汽车行驶工况构建[J].河南理工大学学报(自然科学版),2019,38(1):112-118.
杜宇程
现就职于交通运输部公路科学研究院,任助理研究员,主要从事道路运输车辆技术与管理工作,已发表文章数篇。
专家推荐语
汪祖国
国家汽车质量检验检测中心(襄阳)
整车试验副总工程师 研究员级高级工程师
文章依托 “《营运车辆燃料消耗量限值及测量方法》系列标准跟踪”项目,结合道路运输车辆的实际交通情况,收集了各大主机厂车联网平台系统中的数据,以营运货车为例,按不同车辆类型分别对原始数据进行了数据清洗、转换和筛选,并根据统计学原理进行特征参数数据降维和聚类划分,提出了道路试验方法的各工况时间占比系数的修订建议。相关研究对于营运车辆燃料消耗量限值及测量方法系列标准的修订提供了较为重要的理论及数据支撑,对推动运输行业节能减排战略也具有一定的现实意义。