APP下载

基于改进BPNN 的高速公路交通事故持续时间预测

2020-11-19许宏科刘冬伟

华东交通大学学报 2020年5期
关键词:持续时间交通事故神经网络

许宏科,赵 威,杨 孟,林 杉,刘冬伟

(1. 长安大学电子与控制工程学院,陕西 西安710064; 2. 招商局重庆交通科研设计院有限公司,重庆40067)

截至2018 年底,我国的高速公路总里程已达14.26 万km[1]。 随着高速公路网基本形成以及机动车保有量增加,由此带来的交通事故频发问题成为大众关注的焦点。 目前,已有许多有效的模型与方法应用于交通事故持续时间预测的研究,早期的主要算法有概率分布[2],回归分析[3],时间序列[4],模糊模型[5]等。 Wang 等[6]针对不同类型的事故类型,采用偏最小二乘回归(PLSR)建立了事故持续时间与影响因素之间的模型,并通过一个不区分事故类型的模型作为对比;Junhua 等[7]提出基于生存分析和对数逻辑分布的加速失效时间模型,可以接受不同分布的缺失数据并准确预测事故持续时间;马阿瑾[8]总结性地阐述了交通事故时空影响分析的相关理论基础,分别针对不同阶段建立报警方式分类法、决策树法、交通波理论和排队论,将各个阶段的预测时间总和作为交通事故持续时间;陈建军等[9]总结了预测事故持续时间的过程,详细地介绍了数据收集、数据处理、模型建立步骤,提出了基于条件概率的生存分析事故持续时间预测方法,最终通过得到的累积结束概率图,来反映事故持续时间的预测值和对应的预测概率。 传统的方法为交通事故持续时间预测提供了研究思路,但由于模型自身特点导致预测的范围和精度有限。 随着交通流理论和人工智能新技术的发展,越来越多的交通事故持续时间预测模型被提出,如决策树模型[10],贝叶斯网络模型[11-12],支持向量机[13-14],人工神经网络[15-16]。 Ahmad 等[17]为了识别和量化影响因素的影响,提出了一种基于“综合数据库”历史数据研究事故持续时间的方法,建立了参数化加速故障时间生存模型,总结出事故持续时间的因素包括事故特征(严重程度、类型、伤害、医疗需求等)、基础设施特征(道路肩的可用性)、一天中的时间和交通特征;赵蕾[18]构建以C4.5 算法为核心的决策树模型来预测事故延迟时间, 构建基于动态空间占有率的车流波模型来预测交通恢复时间,在不同交通环境及交通状态下可对交通事故延误进行估计。综上所述,目前的交通事故持续时间预测方法大都侧重于追求预测精度,极大地增加了模型的复杂度,而实时的持续时间预测才能对事故处理具有指导作用。

针对现有交通事故持续时间预测方法的局限,提出因子分析和BP 神经网络相结合的方法,通过因子分析法简化预测指标个数,得到公共因子,从而用较少的公共因子代替较多的原始数据。 进一步将公共因子作为BP 神经网络结构的输入层参数,简化了预测模型的结构,提高了模型的迭代速度和运算效率。 真实的交通事故数据测试结果表明,与经典的交通事故持续时间预测模型相比,本文提出的预测模型预测准确率更高,是一种准确、合理的交通事故持续时间预测模型。

1 高速公路交通事故基本特征分析

本文涉及的高速公路交通事故主要是指造成高速公路交通流状态异常的交通事件,不考虑高速公路定期维修、基础建设、计划性改造等非紧急事件的影响。

高速公路交通事故持续时间是指从交通事故发生到恢复交通整个过程的时间,主要由事故发现,事故响应、事故清除和交通恢复时间4 个阶段组成,如图1 所示。 前3 个阶段的总时间表示事故延迟时间,主要受事故检测能力和事故清除效率的影响。 交通恢复阶段是不可控的变量,不仅受到事故发生期间道路交通状况的影响,还与事故的形态等级、天气等因素有关。 本文从时间信息、路段信息、事故信息和环境角度考虑影响因素,主要包括交通事故总量及其类型分布、时间、地点、环境、车辆类型、事故原因、特征及造成损失等影响因素。

2 交通事故持续时间预测模型

2.1 事故影响因子提取

本文采用因子分析法对交通事故持续时间初始影响因素进行筛选,因子分析法是通过研究多个变量间协方差矩阵的内部依赖关系,找出能综合所有变量主要信息的少数几个不可观测的随机变量。 这些随机变量称为因子,各个因子间互不相关,所有的变量都可以表示成为公因子的线性组合。

将高速公路交通事故持续时间的影响因素作为初始变量,通过因子分析法减少变量的数目,用较少的公共因子代替所有变量去分析整个问题,在不影响最终预测结果准确性的同时,简化了网络结构和提高了运算效率。其计算过程可以分为四个步骤,设n 为交通事故数据样本总数,p 为影响因素个数,m 为公共因子个数,X 为总影响因素矩阵,F 为公共因子矩阵,具体原理及步骤如下:

第一步:计算总影响因素矩阵的协方差矩阵R,并计算协方差矩阵的特征根,同时计算特征根对应的特征向量γ1,γ2,…,γp

第三步:建立因子得分模型

其中:εi为特殊因子,表示公因子以外的影响因素所导致的变量差异,实际分析时忽略不计。

第四步:通过回归估计等方法,求解因子得分模型,可解出公因子矩阵F 的表达式

其中:(bij)p×m为因子得分系数,实现总影响因素矩阵X 和公共因子矩阵F 的转换。

2.2 事故持续时间预测

BP 神经网络算法也称为误差逆传播算法。 它采用梯度下降策略,能够根据预设的参数更新规则,不断调整网络中的参数,以达到最符合期望的输出。基于改进BP 神经网络进行交通事故持续时间预测的过程如下:

输入:交通事故影响因素数据集;输入样本数n;误差函数E;计算精度值ε;最大学习次数M;学习率η 。输出:交通事故持续时间。

1) 原始影响因素的采集和预处理,将影响因素数值化得到影响因素数据集D;

2) 采用min-max 标准化方法对影响因素数据集D 进行标准化,得到影响因素矩阵X;

3) 利用因子分析对影响因素矩阵X 进行指标提取,生成影响因素的公共因子矩阵F;

4) for i=1 to M or E>ε,重复执行(a) (e):

(a) 网络初始化过程,给各连接权重和偏置分别赋一个(0,1)之间的随机数;

(b) 将公共因子矩阵F 作为网络的输入,依次分别计算隐藏层和输出层的输出值;

(c) 根据误差函数E 来进行误差的计算,如果误差满足要求,则跳出循环,否则进行步骤(d);

(d) 误差反向传播过程,使用梯度下降策略依次对输出层单元和隐藏层单元的权值进行更新;

(e) 返回步骤(4),开始下一个循环。

5) 迭代结束,得到最优的模型参数,进行交通事故持续时间预测。

在数据标准化过程中,采用min-max 方法,其表达式如下

式中:xi为第i 个交通事故影响因素标准化后的值;di为第i 个原始的影响因素的值;dmin为原始数据中的最小值;dmax为原始数据中的最大值。

BP 神经网络中的误差函数选择均方误差,其表达式如下式中:yk为期望输出的交通事故持续时间;ok为预测网络输出的持续时间。

2.3 预测模型评价指标

将预测结果的误差作为模型评价指标,本文选择常用的均方误差(RMSE)、平均绝对误差(MAE)和准确率(ACC)作为评价指标,具体定义如下

式中:n 为预测样本数;yi为样本预测值;yi为样本真实值。

3 实例分析

3.1 数据描述

研究数据来源于包茂高速陕西省西安—延安高速公路路网交通时间管理系统, 选取2016 年1 月至2017 年11 月近两年来的153 个交通事故数据,其中前120 条数据用于BP 神经网络预测模型的训练,后33条数据用于对训练的模型进行测试。每组交通事故数据由交通事故的持续时间和影响交通事故持续时间的12 个相关影响因素组成,这些影响因素主要包括事故信息、路段信息、时间信息、环境信息。数据经过预处理后,作为各影响因素的原始数据,变量选取及其含义见表1。

表1 变量选取及其含义Tab.1 Variable selection and its meaning

3.2 实验结果及分析

3.2.1 因子分析及数据标准化

通过SPSS 对交通事故持续时间影响因素的数据进行因子分析。 由Bartlett 检验可以看出,独立显著性因子(Sig.)的值为0.001,应该拒绝各变量独立的假设,即认为变量间具有较强的相关性。得到的KMO 检验统计量为0.725,说明变量间相关性较强,也证明因子分析可行,Bartlett 和KMO 的检验结果见表2。 按照特征根大于1 的默认指标提取了6 个公因子,将公因子进行标准化处理,作为BP 神经网络预测的输入数据。

表2 Bartlett 和KMO 的检验结果Tab.2 Results of Bartlett and KMO

3.2.2 网络的建立

预测模型结构设置为3 层, 将通过因子分析得到的6 个公共因子代替原有12 个交通事故持续时间影响因素作为BP 神经网络输入层参数,将交通事故持续时间以15 min 为一个单位作为输出层参数。

3.2.3 仿真训练

设置BP 神经网络的学习效率为0.01,神经网络的训练精度为1×1012,最大的学习次数为1 000 次,基于TensorFlow 环境进行仿真。 经过训练后的BP 神经网络模型对高速公路交通事故持续时间进行预测,预测结果如图2 所示。 从图2 中可以看出,交通事故持续时间预测值与实际值吻合度较高,表明本文所提出的预测模型应用于实际交通事故持续时间预测中具有可行性。

作为对比,本文还建立了经典的回归模型和支持向量机模型,用同样的训练样本对回归模型和支持向量机模型进行训练和测试。 将BP 神经网络预测模型与回归模型、支持向量机模型的各类误差指标进行对比,评价对比结果见表3。 从表3 可以看出,改进的BP 神经网络预测模型在预测精度方面明显优于支持向量机模型和回归模型。 其中,基于改进BP 神经网络的MAE、ACC 值分别为0.85 和11.99%,均低于支持向量机和回归模型,RMSE 的值与支持向量机相近,但明显低于回归模型,预测准确率比支持向量机提高了7.8%。 总体来说,该模型是较好的交通事故持续时间预测方法,具有较高的准确性和较好的实用性。

图2 交通事故持续时间预测结果Fig.2 Prediction results of traffic accident duration

表3 预测模型结果分析Tab.3 Analysis of prediction model results

4 结论

1) 构建了因子分析与BP 神经网络相结合的预测模型,通过因子分析对原始数据进行降维,将标准化后的公共因子作为BP 神经网络的输入层参数,简化了预测模型的结构,提高了模型的迭代速度和数据处理效率。

2) 采用本文提出的神经网络预测方法对包茂高速西延段交通事故持续时间进行预测,预测结果表明,该模型算法结构简单,性能优异,综合预测性能优于典型的支持向量机和回归模型,具有较高的准确率和参考性。

猜你喜欢

持续时间交通事故神经网络
基于BPNN-AdaBoost的隧道交通事故数预测研究
基于递归模糊神经网络的风电平滑控制策略
预防交通事故
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
基于Q-Learning算法和神经网络的飞艇控制
近10年果洛地区冻土的气候特征分析
外部冲击、企业投资与产权性质
The 15—minute reading challenge
中国交通事故的统计分析及对策