福州地区汽车行驶工况构建与研究
2021-01-29刘文武
刘文武
(200093 上海市 上海理工大学 机械工程学院)
0 引言
汽车行驶工况(Driving Cycle)是描述汽车行驶的速度-时间的曲线[1]。国家工信部根据该曲线来实验测算汽车油耗,所以工信部油耗是否与实际油耗相吻合与汽车行驶工况曲线有密切关系。目前我国采用的是欧洲NEDC 汽车行驶工况[2],但随着汽车保有量的快速增长以及道路交通状况的变化,NEDC 与我国实际情况产生的误差越来越大,所以制定反映我国实际道路行驶状况的测试工况显得越来越重要。我国地域辽广,各个城市的发展程度、气候条件及交通状况不同,各城市间的汽车行驶工况存在明显的差异性,基于城市自身的汽车行驶数据进行城市汽车行驶工况的构建研究也越来越迫切。
陈汉[3]等利用GPS 设备采集的哈尔滨市8 个区域的行驶数据构建了乘用车的出行特征,利用主成分分析方法和聚类分析方法构建出哈尔滨市乘用车工况。刘鹏[4]等提出一种组合主成分分析和聚类分析的数据处理方法,得出西安市区城市客车瞬态行驶工况,并采用样车进行仿真分析,进一步对XATD-HBUS 工况及ECE 工况之间的差异进行了对比验证。姜平[5]等基于离散小波变换数据压缩理论对行驶数据进行压缩重构,根据特征参数构建了城市道路代表行驶工况,并建立合肥市区典型道路的11 个行驶工况评价准则。彭育辉[6]等采用优化聚类与马尔科夫链的组合方法构建出城市环卫车辆行驶工况,并基于运动学参数的有效性对行驶工况进行了验证,证明了工况构建方法的有效性和合理性。李耀华[7]等基于马尔科夫链构建了西安市城市公交某路线工况,采用特征值来验证该方法的有效性。
根据提供的数据建立一条能体现参与数据采集汽车行驶特征的工况曲线,使该曲线所体现的汽车运动特征能代表所采集数据的相应特征。
1 数据采集与预处理
1.1 数据采集
为使采集的数据更能充分地反映福州地区的交通状况,汽车行驶工况数据采集应该有足够广的覆盖面。数据采集主要在福州地区城市道路上进行,路线包括市区道路、学校、车站、商业中心及高速、机场一些交通流量比较大的地方。通过GPS+传感器设备对车辆行驶的速度、三向加速度、经纬度以及燃油消耗率等数据进行采集。连续采集了3 周,采样频率为1 Hz,共采集了496 467 组数据。图1 所示为采集的数据绘制出的车辆运动轨迹。
图1 数据采集车辆行驶路线Fig.1 Data collection vehicle driving route
1.2 模型假设
假设:(1)汽车正常的怠速范围在600~800;(2)实验期间自然环境对采集设备的影响一致;(3)GPS 速度<1 和<0.1 包含在汽车怠速抖动范围内;(4)数据采集中汽车的动力性能及燃油经济性等几个指标不发生变化;(5)不考虑汽车行驶过程中的风阻系数等因素的影响;(6)x 为汽车的前进方向,y 为转弯方向,z 为垂直方向,如图2 所示。
图2 汽车运动学模型Fig.2 Kinematics model of the car
1.3 不良数据分析及处理
不良数据的存在使得数据系统丢失了大量有用信息。
(1)GPS 信号丢失造成的时间不连续。当汽车驶入高层建筑、隧道等路段或GPS 设备受到干扰影响时,可能出现丢失信号的情况。缺失值中大部分是穿越高层、短隧道的短时间断点;小部分是停在地下车库但采集设备仍在运行,以及穿越长隧道的长时间断点。小于10 s 的断点对汽车工况曲线的构造的影响不大,使用Python 中的pandas 库遍历所有时间数据找到数据丢失造成的时间断点,采用均值插补方式进行插补;对10 s以上的断点进行补全会影响运动学片段的划分从而影响曲线构造的准确性,所以不作处理。经过处理发现断点有4 196个,补全的数据有3 693个;
(2)汽车加、减速度异常数据。一般情况下,普通轿车最大减速度为8 m/s2,且0~100 km/s 的加速时间大于7 s,a 不在3.968 25~8.000 00 m/s2范围内的均视为异常值,这类数据对汽车工况曲线的准确性产生重要影响。处理方法是异常值所对应的GPS 车速清空,然后使用拉格朗日插值法进行插值计算;
(3)长期停车,如停车不熄火等候人、停车熄火了但采集设备仍在运行、发动机冷启动后怠速热车、停车后不立即熄火等情况所采集的异常数据应该直接移除,总共删除的长期停车异常数据有593 个;
(4)加速是指汽车加速度>0.1 m/s2的连续过程,减速是指汽车加速度>-0.1 m/s2的连续过程,而匀速是指汽车加速度绝对值<0.1 非怠速的连续过程。故长时间堵车可以理解为车速范围为0<v<1,且加速度范围为-0.1<a<0.1 的行驶过程,断断续续低速行驶则可理解为1<v<10,且a≤-0.1<∪a≥0.1 的行驶过程。长时间堵车和断断续续低速行驶这类数据的存在会影响到运动片段的划分,应作归零化处理。删除掉的长时间堵车和断断续续低速的数据有15 979 个;
(5)一般认为怠速时间超过180 s 为异常情况。在汽车非行驶时间段继续进行数据采集,这就造成了长时间的怠速段。对超过180 s 的这部分数据进行删除,以免造成构建的车辆行驶工况的怠速比例较高、车速较低的情况,影响车辆行驶工况构建的准确性[8],共删除的长期停车异常数据有15 150 个。
针对不同的不良数据,采取适合的处理方式对5 类不良数据进行筛除,经过处理以后的数量统计如表1 所示。
表1 不良数据处理统计Tab.1 Statistics of bad data processing
2 运动学片段分析
2.1 特征值的选取
运动学片段是指汽车两个怠速之间的行驶片段,一个完整的运动学片段通常包括4 个行驶工况:怠速、加速、减速和匀速工况[9]。此外还应该满足:每个运动学片段的时间长度应在20 s以上;每个运动学片段的运行里程应在10 m 以上;加速度在0.100 00~3.968 25 m/s2,减速度在-8.0~0.1 m/s2的范围内。使用MATLAB 编写的程序对筛选后的数据系统进行运动学片段的划分,最后共计得出的片段为5 984 个。
特征值数量过少会使得不能完全囊括运动学片段的信息而造成描述不准确,最终搭建的汽车行驶工况曲线失真;数量过多则会造成信息重复冗杂而加大计算难度,浪费人力物力资源。描述运动学片段的特征值有很多,最常用的是速度和加速度,但仅这两个参数对运动学片段进行描述会使得信息不完善,并且在划分运动学片段时,不同片段之间的加速和加速度数量具有差异性,这样会导致计数纬度不同,加大分析的难度,因此本文选取了平均速度、平均行驶速度等9 个特征值来描述运动学片段信息,如表2 所示。
表2 特征值统计Tab.2 Eigenvalue statistics
确定好特征值的计算方法后,在MATLAB中用遍历数据判断法计算出5 984 个运动学片段的特征值,部分计算结果如表3 所示。
表3 特征值计算结果Tab.3 Eigenvalue calculation results
(续表)
2.2 主成分分析
为了构建全面而接近真实的汽车行驶状况,需要对特征值进行分析,但各特征值数据重复冗余,如果完全采用高维度的运动学片段特征值进行分析,尽管能保留数据的完整信息,但由于变量存在交叠信息,会导致模型复杂、增加无效工作,并且曲线的准确性也会降低,所以在计算前需要通过主成分分析进行数据降维处理以简化计算[10]。
处理后的运动学片段数据采用9 个特征值来描述运动学片段信息,得到特征值数据集。
相关系数绝对值越大,该主成分与这些特征参数的相关性越高,主成分代表性越强。相关系数绝对值较大表明该主成分综合了这几个相关系数绝对值大的特征参数,该主成分的代表性越强。其中平均速度、最大速度、平均加速度为第1 主成分的特征值信息;第2 主成分与运行时间、平均减速度、加速比例和减速比例的相关性较高;怠速比例和匀速比例的特征值信息为第3 主成分;第4 主成分代表最大加速度和最小减速度的特征值信息[11]。
短行程对应的主成分得分是由标准化的特征参数矩阵与主成分系数矩阵相乘得到的,计算所得的各运动学片段的主成分得分是下文K 均值聚类分析的数据基础。
2.3 聚类分析算法
聚类分析是用距离来定义样本之间的相似程度的一种数据分析方法,在做聚类分析时,各样本之间的亲密度对聚类分析的结果有重要影响。K 均值聚类法适用于大样本数据分析,计算量相对较小,分类也更加合理。用MATLAB 编写的均值聚类算法代码对短行程聚类分析,根据对实际问题的分析确定分类数k,在进行计算时分别在各类中选择出相应的聚点,再计算样本数据与聚点之间的欧式距离,按照距离的大小进行聚类划分,重复多次,直到分类结束。本次分析共重复20 次,得到较为稳定的聚点。聚类前后的数据统计如表4 和表5 所示。
表4 初始聚类中心Tab.4 Initial cluster center
表5 最终聚类中心Tab.5 Final cluster center
将所有运动学片段分3 类进行聚类分析。聚三类分析的聚类结果如图3 所示。
图3 聚三类聚类结果Fig.3 Clustering results
3 行驶工况构建
聚类后形成了低速区间、高速区间以及介于高速区间和低速区间的中速区间三类数据,在每一类数据中选取短行程,组合成为确定时间长度的车辆行驶工况。在每一类中根据各个短行程与聚心的欧氏距离的大小选取短行程,计算各类短行程库在整个短行程库中所占的比例,结合需要构建的沈阳市乘用车城市道路行驶工况的持续时间,计算每类短行程在最终合成工况时的时间。计算公式如下:
计算得到最后构建工况时三类短行程的时间占比和各自所占的时长,如表6 所示。
表6 各类工况时间占比Tab.6 Proportion of time under various working conditions
按3 类工况时间长度的计算结果挑选出每类中具有代表性的短行程作为聚类中心,按运动学片段与聚类中心的距离最小的原则在3 类候选工况中挑选出运动学片段,将挑选出的运动学片段分别合成反映拥堵交通状况的低速工况、反映畅通交通状况的高速工况和反映综合交通状况的综合工况。汽车的加速度-时间曲线如图4 所示,合成的高速工况、中速工况和低速工况的代表性行驶工况时间-速度曲线分别如图5(a)、(b)、(c)所示。
图4 行驶工况加速度图Fig.4 Driving cycle acceleration
图5 高、中、低速工况代表性速度-时间图Fig.5 Typical speed-time diagrams for high,medium and low speed conditions
基于K-均值聚类分析结果中聚类中心的大小,筛选出高、中、低速的运动学片段,最后将3 个工况组合成900 s 的汽车行驶工况,合成后的汽车行驶工况如图6 所示。
图6 汽车综合行驶工况图Fig.6 Comprehensive vehicle driving conditions
4 误差分析
本次汽车行驶工况是对实际车辆行驶数据进行分析来完成行驶工况搭建的,所以需要对构建工况的数据与原始数据之间的差异进行验证。由于汽车行驶工况的构建是在对原始车辆行驶数据信息进行预处理后进行的,所以将对的特征值进行行驶工况的有效性验证。均值插补法在处理小间断点数据时具有比较好的可靠性,缺失值若是数值型的,就根据这个缺失值所在的其他对象值的平均值来进行缺失值的补全[12]。
汽车行驶工况的有效性验证就是计算行驶工况的特征参数与预处理后数据特征参数的绝对误差和相对误差。对计算得出的误差值进行分析,以验证构建的行驶工况是否合理。误差计算公式:
式中:ε——预处理后汽车行驶工况特征参数j和相应的原始数据之间的特征参数j 之间的相对误差;xi——预处理后车辆行驶工况特征参数值;Xj——原始数据特征参数值。
计算得出各特征值之间的误差值均小于10%,在合理范围之内。由此可见,本文构建的汽车行驶工况与实际情况接近,合理且有效,能较准确地反映福州地区的汽车行驶工况。
5 结论
本文通过对大量的汽车行驶采集数据进行分析,采用主成分分析与聚类分析算法提取运动学片段,计算合成得出福州地区汽车行驶工况图,反映出福州地区真实的车辆道路行驶状况。计算得出各特征值之间的误差值均小于10%,在合理范围之内,能比较准确地反映该城市的汽车行驶工况,对车辆行驶工况的深入研究提供一定的理论参考。