APP下载

基于OBD数据采集的驾驶员驾驶平稳性分析

2024-06-18李文婷

现代信息科技 2024年7期
关键词:时间序列分析统计分析

收稿日期:2023-09-13

DOI:10.19850/j.cnki.2096-4706.2024.07.020

摘  要:驾驶员驾驶平稳性分析对研究交通安全影响因素起着至关重要的作用。为此提出基于车载自动诊断系统(OBD)采集数据,利用多项式回归进行短时间内车辆速度预测研究。首先分析影响车辆驾驶速度的客观因素,如地势、天气、行驶路径等。其次通过控制客观因素不变,整合有效驾驶速度数据进行多项式回归预测,得到模型的参数。通过真实值与预测值的比对,得到均方差MSE与拟合优度,进而得到最优参数。最后通过大量的实验数据,验证了该模型在此次研究中取得了很好的预测结果。

关键词:多项式回归;驾驶行为;OBD;统计分析;时间序列分析;ARIMA

中图分类号:TP391  文献标识码:A  文章编号:2096-4706(2024)07-0091-04

The Analysis of Driver Driving Stability Based on OBD Data Acquisition

LI Wenting

(Qiming Information Technology Co., Ltd., Changchun  130122, China)

Abstract: The analysis of driver driving stability plays a crucial role in studying the factors affecting traffic safety. To this end, it is proposed to use polynomial regression to predict vehicle speed in a short period of time based on data collected by an on-board automatic diagnostic system (OBD). Firstly, it analyzes the objective factors that affect the driving speed of vehicles, such as terrain, weather, driving path, etc. Secondly, by controlling objective factors to remain unchanged and integrating effective driving speed data for polynomial regression prediction, the parameters of the model are obtained. By comparing the true value with the predicted value, the mean squared error (MSE) and goodness of fit are obtained, thereby obtaining the optimal parameters. Finally, through a large amount of experimental data, it is verified that the model has achieved good prediction results in this study.

Keywords: polynomial regression; driving behavior; OBD; statistical analysis; time series analysis; ARIMA

0  引  言

随着汽车行业的发展与人们生活水平的提高,汽车的普及率在逐年上升,交通事故的发生也越来越多,而造成交通事故的一个主要原因就是不良驾驶行为,分析驾驶员的不良驾驶行为既可以辅助减少交通事故,又能够为车险提供强有力的依据,因此越来越多人关注不良驾驶行为的研究,此项研究具有重大意义。

因大数据技术的急速发展,越来越多的学者运用大数据对驾驶人员的不良驾驶行为进行分析,并取得了一定的研究成果。梁陈磊[1]等人以OBD获取的汽车行驶CAN数据流为基础,运用关联分析的方法研究不良驾驶行为之间的内在联系,为个性化驾驶提供相应的理论依据。雷财林[2]等人针对驾驶行为评价指标大多通过主观方法确定的局限,基于人工智能领域粗糙集理论,提出考虑天气情况、道路条件等道路安全评价体系构建思路。郑美容[3]分析与评估驾驶行为,建立行车安全评估模型,为智能交通系统建设提供参考。可以看到目前针对个人不良驾驶行为研究较少[4-6]。

本文通过OBD获取大量个人驾驶信息数据流,严格控制天气、路段与车辆基本情况等外部信息影响,通过时间序列、回归等方法,对驾驶人员的驾驶平稳性进行分析,辅助较少因不良驾驶行为导致的交通事故发生,同时为车辆保险提供更强有力的支持。

1  有关数据介绍

1.1  数据来源

OBD是车载自动诊断系统,从外观上看是一个小盒子,插在车上可读取车辆的数据参数和相关信息,可以实时记录和监测发动机的运行情况和尾气后处理装置的工作状态。同时可将采集到的数据实时传到监测平台上。业内俗称“T-Box”。

1.2  数据ETL

常规OBD采集的信号量(特征)数量在500+,常用的信号量数量在100+。由于特征数量较多,需要从中筛选出与本次研究相关的特征。与张鹏[7]等人研究基于CNN-LSTM的QAR数据特征提取方法不同,本文通过基于业务理解,数据表现等多方因素提取特征。特征主要分为以下几类:

1)天气信息。获取天气信息主要是基于设备经纬度识别行政区划代码,后访问百度地图API得到该地区当前天气数据;包括温度、湿度、风力等。在恶劣的天气条件下,如降雨强度的增加,导致能见度减小,会对驾驶人员的驾驶速度产生严重的影响。在车辆速度预测过程中,为了减少天气原因的干扰,在选取训练测试数据时,保证车辆行驶过程中温度,湿度(浮动±5),风力等级相同。

2)地理位置信息。用于描述车辆位置,包括省市县及该地区地势类别(平原、高原、盆地等)在入模型的数据中。

3)车辆基本信息。主要包括车辆的底盘号、车辆类型及用途、注册地址等。

4)车辆运行信息。用于描述车辆当前运行情况,包括行驶里程、故障信息、车速、油门开合角度、加速度等。

1.3  数据整合

1)有效驾驶切割。通过OBD采集的驾驶数据是零散的,在做速度预测时,为了保证预测的结果准确度高。需要将驾驶数据分为N次有效驾驶,在每一次有效驾驶数据中分别建立预测模型。分段的标准如下在驾驶员的一天驾驶数据中,速度为0,发动机转速为0判定车辆处于停止状态。同时行驶距离大于1 km且与下一次驾驶间隔一分钟判定为一次有效驾驶。

2)环境数据匹配。提取某一用户A一年的驾驶数据,根据经纬度及日期时间匹配当天当地的地理信息及环境信息。保证入模型的行驶数据地势类别相同,经纬度距离在50 km以内。同时温度及湿度相差±5°,当天天气晴朗。

此行为是为了减少环境对速度预测的干扰。提升速度预测的准确度。以每10秒钟数据为一个节点,用前10秒的数据预测第11秒的速度。

1.4  数据处理

速度数据的有效处理,通过识别车辆经纬度信息,筛选经常在市区内行驶的车辆。这部分车辆的速度应在0~80 km/h之间。随机抽取一段车辆驾驶速度数据,如图1所示,车辆一次行驶速度分布情况。发现车辆速度会出现负值或超速(大于100 km/h)的情况。同时通过箱线图寻找数据的异常点,箱线图能够明确的展示离群点的信息,同时能够让我们了解数据是否对称,数据如何分组、数据的峰度。后剔除包含异常点的驾驶数据。

图1  车辆一次行驶速度分布情况

2  基于多项式回归的速度预测

2.1  整体思路

与董红召[8]等人研究OBD支持下公交车到达时间的回归预测方法不同,本文借助曲线拟合回归算法中的多元多项式拟合算法。考虑到前10秒驾驶速度和下一秒驾驶速度不一定呈线性关系,因此,借助一个非线性模型进行训练是较为合理的。多元多项式拟合算法用平方误差和作为损失函数,以方差最小作为拟合标准,采用最小二乘法。最小二乘法通过最小化误差的平方和寻找数据的最佳函数匹配,这与我们评价的参考指标也能很好地契合。最终,我们通过拟合优度从不同幂次的模型中选出最优模型。

2.1.1  原始数据

抽取一次有效行驶数据,车辆行驶速度随时间的变化数据。样例数据如表1所示。

2.1.2  数据多项式拟合

将原始数据带入学习模型进行学习,使其损失函数最小化,推导出不同的幂次和系数。给定一个最小拟合优度R2 = 0.99,直至训练模型达到的拟合优度0.99即认为其拟合情况满足要求,此时的幂次和系数即为我们所求。拟合结果参数如表2所示。

2.1.3  拟合方程优化

可以看出1到4次多元多项式的拟合优度都大于0.99,但是均方差MSE越来越大,说明出现了过拟合情况。因此,我们选择1次多元多项式。同时选取多组数据进行预测,观察其误差、均方差以及误差图像,判断驾驶员的驾驶平稳性。

2.1.4  预测结果

经过多次训练,得到预测误差、均方差如表3所示。表中误差大多数都在[0,1],均方差位于[0,1]可以借此评判驾驶员的驾驶平稳性;也可根据最终的误差曲线来评判驾驶员的驾驶平稳性,绘制速度拟合趋势曲线,如图2所示,图像显示误差曲线在零线浮动,说明此驾驶员的驾驶是较为平稳的。

2.2  术语介绍

以下为部分术语介绍[9,10]:

1)学习模型。m是每一次参与拟合的数据量,n是每次学习的最高次幂。 是拟合的下一秒速度,xi,xj是前i,j秒速度。

a是多元多项式的系数,也是我们曲线拟合需要求得的未知数。

n次多元多项式有a0000到ammk(n-k)(0≤k≤n)这

(n + 1) (n + 2) / 2个未知的拟合系数,我们要做的就是求出这最佳的n值和(n + 1) (n + 2) / 2个拟合系数。

2)损失函数。 是第i个下一秒拟合速度,yi是第i个下一秒实际速度,平方误差和作为损失函数,使其最小化为模型的优化目标。

3)目标函数。根据目标函数所推导出的a0000到ammk(n-l)(0≤k≤n)便是n次幂时最佳的(n+1) (n + 2) / 2个拟合系数。

4)拟合优度。拟合优度R2越接近于1,说明曲线的拟合效果越好,可以提供一个值,当R2大于这个值时,我们便判定其达到了我们预期的拟合效果,确定其为最终模型。

5)均方差。均方差表示进行预测的实际速度和拟合速度的误差平方和均值,用于评判驾驶员驾驶的平稳性。MSE越小说明驾驶员驾驶得越平稳。

6)训练集。表示用于模型训练的已知数据集。

3  基于时间序列的速度预测

3.1 整体思路

在此应用场景下,速度的变化受多种因素影响,有些影响因素的数据难以收集,以至于用回归模型来发现其变化发展规律会产生偏差,此时,时间序列分析模型也许会更好,因为不需建立因果关系模型,仅需要通过自身数据就可以建模。时间序列分析是按照时间顺序取得的一系列观测值,通过对相邻时间的相互作用进行分析,进而达到预测未来事件的目的。本次车辆行驶速度的预测就是按照时间顺序取得的一系列观测值,利用速度序列观测值之间的依赖关系和相关性,进行动态预测。

3.1.1  序列平稳性检验

时间序列模型要求序列是平稳的,通过数据得到拟合曲线,在短时间内能顺着现有的形态延续下去。可利用可视化数据的方式查看序列平稳,同时利用ADF检验。检验结果P-value小于0.05,拒绝原假设,故为趋势项平稳,故不需要再进行差分,使得序列平稳化。

3.1.2  白噪声检验

白噪声是严平稳中的一种,是完全随机的序列,通俗讲过去的行为与未来毫无关系,无法从中得到有用的结果。利用Ljung-Box进行白噪声检验,p值小于0.05,所以在95%的置信水平下认为序列为非白噪声。

3.1.3  确定p,q值

利用自相关图和偏自相关图确定q,p值,通过测试数据得到下图,图3为测试数据的偏自相关图;自相关图中出现拖尾,图3中的数据在4处出现截尾。由此确定,p值为4,q值为0。同时利用BIC进行校验,选取bic值最小的p,q组合。

图3  测试数据的偏自相关图

3.1.4  训练模型及预测

得到ARIMA模型的参数后,利用训练数据进行模型训练。测试数据进行模型验证。发现预测的时长越长,模型效果越差。该模型的MSE与多项式回归模型的值大致相同,两个模型在当前这份训练数据及测试数据中表现能力相差不多。预测值与实际值对比如图4所示。

3.2  术语介绍

1)自相关函数(ACF)。自相关函数反映了同一序列在不同时序的取值之间的相关性。

2)偏自相关函数(PACF)。PACF剔除了中间k-1个随机变量x(t-1),x(t-2),…,x(t-k+1)的干扰之后,x(t-k)对x(t)影响的相关程度。

3)贝叶斯信息准则(BIC)。K是模型参数个数,n是样本数量,L是似然函数。

4  结  论

基于OBD数据采集的多项式回归速度预测中,减少了天气,地势,路径对车辆速度的影响因素。同时对速度数据进行了细致分析,通过速度分布以及图形展示,去除了速度的异常数据。基于多项式回归算法,通过前几秒速度对未来几秒速度进行回归拟合。针对每一位驾驶员均进行速度预测,如预测数据与实际数据相差较小,则认为在该段时间内,驾驶员驾驶平稳。可对评价驾驶员驾驶习惯有一定的借鉴意义。通过大量的训练数据及测试数据(数据量在千万级),得到速度预测模型的最优参数。通过利用两种方法进行速度拟合发现,对于短时的速度预测,ARIMA的方法拟合能力会更强一些,但是该方法需要对时间序列都单独拟合和预测,且速度数据都是毫秒级别的,序列的数据会非常大,同样执行时间也会变长。相同的数据多项式的执行时间就会缩短很多。两种方法各有利弊,需要通过业务需求来抉择。

为了进一步研究驾驶平稳性,接下来可增加路况信息,如剔除较为拥堵的路段进行进一步的改进研究,使其对速度的预测更加具有优势。同时增加平稳性评价指标,不单单从速度拟合方向。

参考文献:

[1] 梁陈磊,储江伟,李红.基于OBD数据挖掘的不良驾驶行为关联分析 [J].现代电子技术,2022,45(21):145-150.

[2] 雷财林,钟添翼,蔡晓禹,等.基于车联网OBD数据的道路安全评价方法 [J].公路与汽运,2019(1):30-36.

[3] 郑美容.基于聚类分析的驾驶行为安全评估模型 [J].黄河科技学院学报,2023,25(2):80-87.

[4] 柳鹏飞,陆见光,徐磊,等.公路货运危险驾驶行为智能预测技术研究 [J].汽车技术,2024(3):56-62.

[5] 卢建涛.恶劣天气下高速公路风险评估与预警研究 [D].上海:同济大学,2019.

[6] 张俊.基于车联网数据的驾驶行为识别与风险评估方法研究 [D].合肥:中国科学技术大学,2020.

[7] 张鹏,杨涛,刘亚楠,等.基于CNN-LSTM的QAR数据特征提取与预测 [J].计算机应用研究,2019,36(10):2958-2961.

[8] 董红召,赵龙钢,赵晨馨,等.OBD支持下公交车到达时间的回归预测方法 [J].高技术通讯,2021,31(4):425-434.

[9] 周志华.机器学习[M].北京:清华大学出版社,2017.

[10] 李航.统计学习方法 [M].北京:清华大学出版社,2019.

作者简介:李文婷(1993—),女,汉族,吉林长春人,中级工程师,本科,研究方向:汽车诊断故障数据的统计与建模分析与方法。

猜你喜欢

时间序列分析统计分析
基于R软件的金融时间序列的预测分析
财务风险预警的统计研究
叩诊质量,促进数学有效教学
如何发挥新时期统计工作的作用之我见
企业固定资产分析存在问题及对策分析
淮北市生态足迹动态演变分析
以统计分析为基础的房地产税收优化分析
SPSS在高校图书馆服务体系中的应用研究
微信公众号未来发展态势的实证预测
基于MATLAB的时间序列预测