APP下载

基于ARIMA-BP组合模型的铁路行车事故数预测

2023-06-20徐国权张佳慧

关键词:行车残差差分

徐国权,张佳慧,况 坚

基于ARIMA-BP组合模型的铁路行车事故数预测

徐国权,张佳慧,况 坚

(华东交通大学 交通运输工程学院,江西 南昌 330013)

为更精确预测铁路行车事故数,在ARIMA模型与BP神经网络模型的基础上,利用ARIMA模型分析铁路行车事故数的线性部分;利用BP神经网络分析影响铁路行车事故数的非线性部分,如设备状况、管理状况、运输量等,构建了ARIMA-BP神经网络拉格朗日乘数法加权组合预测模型和ARIMA-BP残差修正组合模型,并对4种模型的预测精度进行比较。研究表明,ARIMA-BP神经网络残差修正组合模型预测精度最高,可为铁路部门了解事故发生趋势、有效预防事故、合理制定对策提供一定参考。

铁路行车事故数;拉格朗日乘数法;残差修正;组合预测

对于铁路运输来说,安全是其最基本的要求,同时也是实现铁路整体运行的基本保证。为有效预防事故,合理制定对策,铁路部门有必要准确把握行车事故率的演变规律。

目前,研究事故的预测方法通常分为单项预测和组合预测。单项预测在交通运输领域使用比较广泛,如时间序列预测法、灰色预测法、神经网络预测法等。文献分析表明,神经网络预测法因其自适应性、自组织性较好以及学习能力很强而被广泛使用。如唐阳山等[1]、姚琪等[2]、陈海龙等[3]、王小凡等[4]通过建立神经网络模型来对交通事故进行非线性预测;时间序列预测法因其可以在时间序列中找出变量变化特征、趋势以及发展规律等特点同样较常使用,如蒋宏等[5]、王文博等[6]利用时间序列方法对交通事故进行预测;张天瑞等[7]通过ARIMA自回归模型预测轴承振动信号未来短期内变化情况,将预测结果输入XGBoost模型进行故障分类预测,实现滚动轴承故障识别,提高预测准确率;胡剑波等[8]基于LSTM神经网络模型并在一定的经济增长预期下推导预测出我国碳排放强度变化趋势,同时,建立 ARIMA-BP 神经网络模型作为验证模型对碳排放强度进行直接预测;Tu等[9]针对边际分布模型,提出自回归综合移动平均-广义自回归条件异方方矩-t(ARIMA-GARCHt)模型,以捕捉风力发电的时间序列特征; Yan等[10]在QoS预测模型的基础上扩展了ARIMA模型,以同时有效地预测多个QoS值;QIU等[11]基于时空立方体(STC)分析了WRB中降水极端值的时空变化,然后利用长短期记忆(LSTM)网络、自回归综合移动平均(ARIMA)和混合集成经验模态分解(EEMD)-LSTM-ARIMA模型预测了降水极端值。比较而言,单一的BP神经网络预测模型容易忽视事故事件序列存在的线性关系,且预测结果稳定性相对较差;单一的时间序列模型虽然能够反映事故时间序列变化的总体趋势,但却无法结合某些事故的多因素特点进行预测。因此,不少学者采用组合预测模型对交通事故进行预测,如范中洲等[12]建立灰色BP神经网络组合的预测模型对水上交通事故进行组合预测;胡立伟等[13]建立灰色BP神经网络组合模型对交通事故车型分担率进行预测,并得出了组合模型预测最好的结果。此外,灰色预测模型预测具有一定发生规律的数据相对来讲较为准确。胡哨刚等[14]建立灰色预测模型预测铁路一般类事故,并对模型的精度进行分析。徐东星等[15]利用灰色关联分析方法对水上交通事故数进行预测。灰色预测模型在处理较少的特征值数据时,能够解决历史数据少以及可靠性低等问题,但只适合近似于指数增长的预测。

相较于其他的时间序列模型,ARIMA模型简单,可较好地捕捉铁路事故的线性关系。LIDA等[16]首次结合ARIMA模型和AN模型,以改进时间序列的预测。BP神经网络预测方法是一种解释性预测方法[17],适合于求解内部机制复杂的问题,针对影响铁路事故的发生有各种复杂因素的特点,BP神经网络可较好地捕捉影响铁路事故发生的非线性关系。本文意图结合2种模型的优点,建立ARIMA-BP神经网络加权组合预测模型对铁路行车事故数进行定量预测,借助历史数据探究铁路行车事故数随年份发生的规律。

1 模型构建

1.1 ARIMA模型预测事故线性部分

文献分析表明,ARIMA模型是目前较为广泛使用的时间序列模型,它是针对平稳时间序列数据进行预测建模的一套方法[18]。该模型能够对所有的历史时间序列进行客观分析,识别数据中的季节性和趋势性特征,能够描述数据样本随时间变化的趋势[19]。故本文先利用ARIMA模型对铁路行车事故数的历史数据进行线性预测。

假设行车事故数为非平稳时间序列,其可通过阶差分成为平稳的时间序列x,则ARIMA模型的表达式如式(1)所示。

式中:x为平稳时间序列;为自回归阶数;为为移动平均阶数;0为常数;w(=1,2,…)为自回归系数;ε为白噪声序列;θ(=1, 2, …)为移动平均系数。

本文用EViews11软件对铁路行车事故数线性部分进行ARIMA建模。由于适用ARIMA模型进行预测的时间序列必须是平稳非白噪声序列,因此,首先需要对行车事故数据进行平稳性检验,若为不平稳序列,则需对数据进行差分处理,并确定差分阶数,一般情况下,差分的阶数不会超过2;其次,根据模型的自相关系数(ACF)和偏自相关系数(PACF)确定参数、,并采用最小二乘法对ARIMA模型进行参数估计;最后通过滚动的单步预测计算实现短期预测[18]。

1.2 BP神经网络分析事故非线性部分

本文所构建的BP神经网络有输入层、输出层和隐含层3层结构,其结构图如图1所示,其基本公式如式(2)所示。

图1 BP神经网络结构

式中:1,2,…,n为BP神经网络的输入层;1,2,…, w为输入层的对应权重;为偏置值;为激活函数。

BP神经网络是通过不断调整神经网络的权值和阈值,使网络输出的均方误差和最小,其核心是网络的前向传导与误差的逆向反馈。

文中BP神经网络的输入层为铁路行车事故的时间序列,输出层节点数为1,将预测的下一年数据作为已知数据继续进行滚动预测。选择tansig函数作为隐含层神经元的激励函数。隐含层节点数由式(3)确定。

式中:为输入层节点数,为输出层节点数,∈[1,10]。

1.3 拉格朗日加权组合预测模型构建

本文将上述两种单一预测模型进行线性组合,利用拉格朗日乘数法求解权系数。将单个模型的预测结果乘以相对应的权系数并求和。

假设铁路行车事故数有组,按照如下步骤进行预测。

(1)对行车事故时间序列进行平稳性检验,确定差分阶数,利用自相关系数和偏自相关系数确定参数、,利用ARIMA模型对行车事故进行预测,得到铁路行车事故预测结果1j。

(2)确定BP神经网络的输入层节点数,隐含层节点数和输出层节点数,确定激活函数,对铁路行车事故数进行滚动预测,得到铁路行车事故预测结果2j。

(3)权系数利用拉格朗日乘数法确定。目标函数设置为使所有组合预测模型的残差平方和最小,如式(4)所示。

通过公式(4)确定1j、2j的权重1和2。

ARIMA-BP组合预测模型的预测结果Y如式(5)所示。

1.4 残差优化组合模型构建

为了提高预测精度,本文通过对历史铁路行车事故案例进行整理分析,建立了铁路行车事故预测指标体系。

影响铁路行车事故数的主要因素有3个:管理状况包括本年度伤亡人数、上一年度铁路行车事故数,设备情况包括国家铁路运营里程、国家铁路客车拥有量,运输量包括铁路客运量、铁路旅客周转量,如图2所示。

图2 铁路行车事故指标选取体系图

1.5 残差组合预测模型过程

(1)对行车事故时间序列进行平稳性检验,确定差分阶数,利用自相关系数和偏自相关系数确定参数、,利用ARIMA模型对行车事故进行预测,得到铁路行车事故预测结果1j。

2 实例验证

2.1 数据来源与数据预处理

由于部分公开数据缺失以及新冠疫情的突然爆发,故本文选取2002年至2018年数据进行建模说明。根据2003—2019年《中国铁道年鉴》所统计的2002—2018年的全路行车事故数,如表1所示;以及国家统计局官网和国家铁路局《铁路安全情况公告》公布的2002年至2018年的铁路客运量、铁路旅客中转量、铁路运营里程,国家铁路客车拥有量以及铁路行车事故死亡人数,如表2所示。

从数据上直观来看,2008年前后行车事故发生的数量急剧下降,这是由于我国在这期间高度重视铁路的建设,铁路交通的安全性也随之提升。考虑到ARIMA模型对数据平稳性的严重依赖,本文将2008年之前的数据作为异常值按照均值原则并利用公式(7)对其进行预处理,以降低样本差异性。

表1 2002—2018年中国铁路全路事故数

年份事故数年份事故数 20021192220112087 20031264020122575 20041192120132395 20051121920143025 2006920820153782 2007503820161992 2008296720171588 2009261120181612 20102470

表2 2002—2018年铁路客运量、铁路运营里程、铁路运输事故死亡人数、铁路客车拥有量、铁路旅客周转量

年份铁路客运量/万人铁路营业里程/万km铁路运输事故死亡人数/人铁路客车拥有量/辆铁路旅客周转量/亿人·km 20021056067.198217394384969.40 2003972607.308530404874788.61 20041117647.447992413535712.20 20051155837.547375403286061.96 20061256557.715749426596622.12 20071356707.803143442437216.31 2008146192.987.972932450767778.60 2009152451.198.551808493547878.89 2010167609.029.121568503918762.18 2011186226.079.321566547319612.29 2012189336.859.761463577219812.33 2013210596.9210.3113365684110595.62 201423046011.1812326062911241.85 201525348412.110376770611960.60 2016281405.2312.49327087212579.29 2017308379.3412.78987336213456.92 2018337494.6713.178577319914146.58

式中:为经过预处理后的新数据,h为原始时间序列数据。

2.2 ARIMA预测模型

经过预处理后的我国铁路行车事故时间序列变化趋势整体向下,如图3所示。

该数据进行显著性检验结果如表3所示,可以看出,该序列为非平稳序列。

对非平稳序列进行回归,往往容易出现“伪回归”现象,从而影响研究结果,因此需要通过一定的途径对原始时间序列进行平稳性处理。

二阶差分后的时间序列如图4所示,可以看出其是在0.00左右有规律的上下波动。

二阶差分后的显著性检验结果如表4所示,可以刊出Prob.*≤5%,而Prob.*小于5%的水平为平稳序列。综上所述,我们可以得出二阶差分后的时间序列是平稳时间序列的结论,所以取=2。

图3 2008—2018年铁路运输事故数变化趋势

表3 原始数列显著性检验结果

T统计量Prob.* 增强Dickey检验统计量-1.1309380.6761 测试临界值1% level-3.920350 5% level-3.065585 10% level-2.673460

图4 二阶差分后的时间序列

表4 二阶差分后显著性检验结果

T统计量Prob.* 增强Dickey检验统计量-3.9577230.0119 测试临界值1% level-4.057910 5% level-3.119710 10% level-2.701103

事故时序序列经过二阶差分后时间序列的自相关和偏相关图如图5所示。

图5 事故时序序列经过二阶差分后时间序列的自相关和偏相关图

自相关性(ACF)决定自回归(AR)阶数,偏相关性(PACF)决定滑动平均(MA)的阶数,、检验结果如表5所示。

表5 、检验结果

VariableCoefficientStd.Errort-StatisticProb. AR(1)-0.50555850.470114-2.7847000.0480

ARIMA(1,2,0)模型中的参数是最佳的,用ARIMA(1,2,0)模型对铁路运输全路段事故数进行拟合,获得铁路运输全路段事故预测数据见表6。

2.3 预测模型及其预测结果

(1)BP神经网络预测模型

首先,将事故序列进行最大最小值归一化处理;其次,确定神经网络结构—输入层节点数为11,隐含层节点数为7,输出层节点数为1,最大训练次数为50 000,学习速率为0.05,目标误差为0.001;最后,进行滚动预测。

(2)加权组合预测模型

利用拉格朗日乘数法求解权系数的方法确定权系数,计算得到两种单一模型的权重分别为1/2,并将ARIMA模型预测得出的数据与BP神经网络模型预测出来的数据进行加权处理,得到加权组合模型的预测结果。

(3)残差优化组合预测模型

以上模型预测结果如表6所示。

表6 2012—2018年事故数真实值、ARIMA预测值、BP神经网络预测值、ARIMA-BP加权组合预测值、ARIMA-BP残差修正预测值

年份事故数真实值ARIMA预测值BP神经网络预测值加权预测残差预测 201323952622256425932516 201430252552255325523295 201537823245254428943408 201619924474253535043258 201715881489252820081570 20181612483252116821727

3 模型评价

为验证四种模型的预测精度,我们分别对ARIMA模型、BP神经网络预测模型、ARIMA-BP加权组合模型、ARIMA-BP残差修正模型的预测结果进行分析评价。4种预测模型的预测值与真实值对比如图6所示。

图6 4种预测模型的预测值与真实值对比

从图中可以看出组合预测模型的预测结果比单一预测模型的预测结果更好。

为进一步分析两个组合模型的预测精度,本文采用平均绝对值误差(MAE)和均方根误差(RMSE)分别对4种模型的误差和稳定性进行分析,如表7所示。

表7 4种预测模型的误差值

模型MAERMSE ARIMA模型824.501155.31 BP神经网络模型711.83794.64 加权组合模型593.50765.82 残差修正模型360.67554.33

从表中可以看出,ARIMA-BP神经网络残差修正组合模型是明显优于加权组合预测模型,并且从图3来看,ARIMA-BP神经网络残差修正组合预测模型预测结果随时间变化的趋势与实际的变化趋势最为接近。由此可见,经过残差修正的ARIMA-BP神经网络预测模型更能反应未来铁路运输事故数的变化趋势。

4 结论

本文将4种预测模型进行对比。结果表明,ARIMA-BP神经网络残差修正组合预测模型对铁路运输事故数具有更好的预测效果。

(1)BP神经网络能较好地对影响铁路行车事故数的非线性部分进行解释性预测,但网络的推广能力较差,并且若要提高模型的预测精度,则需反复对神经网络的权重进行调整。

(2)依托国家铁路2002—2018年期间来发生事故数的历史数据,即铁路运输事故数的线性部分,利用ARIMA模型去拟合预测,可以较好掌握铁路行车事故数发生的规律。由于影响铁路行车事故数发生的因素具有很强的非线性特性,利用BP神经网络模型非线性映射能力去分析影响铁路事故发生的非线性因素,如设备状况、管理情况等,可以弥补ARIMA模型只能进行线性预测的不足。

(3)ARIMA-BP神经网络残差修正组合预测模型的预测结果表明,铁路行车事故数整体呈现下降趋势,这归功于我国国家铁路在设备技术上精进,在人员管理上的严谨。若要进一步降低铁路行车事故数的发生,铁路相关部门则需在安全生产技术上加大创新力度。

[1] 唐阳山, 葛丽娜, 黄子龙, 等. 基于BP神经网络的交通事故预测方法研究[J]. 辽宁工业大学学报: 自然科学版, 2016, 36(1): 27-30.

[2] 姚琦, 王林山. 基于BP神经网络的交通事故预测[J]. 滨州学院学报, 2016, 32(6): 45-53.

[3] 陈海龙, 彭伟. 改进BP神经网络在交通事故预测中的研究[J]. 华东师范大学学报: 自然科学版, 2017(2): 61-68.

[4] 王小凡, 朱永强. 基于灰色BP神经网络模型的道路交通事故预测[J]. 白城师范学院学报, 2019, 33(6): 36-40, 51.

[5] 蒋宏, 方守恩, 陈雨人, 等. 基于时间序列和灰色模型的交通事故预测[J]. 交通信息与安全, 2012, 4: 93-98.

[6] 王文博, 陈红, 韦凌翔. 交通事故时间序列预测模型研究[J]. 中国安全科学学报, 2016, 26(6): 52-56.

[7] 张天瑞, 周福强, 吴宝库, 等. 基于ARIMA和XGBoost的滚动轴承故障预测模型研究[J]. 制造技术与机床, 2022(4): 176-182.

[8] 胡剑波, 罗志鹏, 李峰. “碳达峰”目标下中国碳排放强度预测——基于LSTM和ARIMA—BP模型的分析[J]. 财经科学, 2022(2): 89-101.

[9] Qingyu Tu, Shihong Miao, Fuxing Yao, et al. Forecasting Scenario Generation for Multiple Wind Farms Considering Time-series Characteristics and Spatial-temporal Correlation[J]. Journal of Modern Power Systems and Clean Energy, 2021, 9(4): 837-848.

[10] Yan Chao, Zhang Yankun, Zhong Weiyi, et al. A Truncated SVD-Based ARIMA Model for Multiple QoS Prediction in Mobile Edge Computing[J]. Tsinghua Science and Technology, 2022, 27(2): 315-324.

[11] QIU Dexun, WU Changxue, MU Xingmin, et al. Spatial-temporal Analysis and Prediction of Precipitation Extremes: A Case Study in the Weihe River Basin, China[J]. Chinese Geographical Science, 2022, 32(2): 358-372.

[12] 范中洲, 赵羿, 周宁, 等. 基于灰色BP神经网络组合模型的水上交通事故数预测[J]. 安全与环境学报, 2020, 20(3): 857-861.

[13] 胡立伟, 张婷, 郭凤香, 等. 基于灰色BP神经网络的道路交通事故车型分担率预测及其预防策略研究[J]. 武汉理工大学学报: 交通科学与工程版, 2018, 42(3): 388-392, 397.

[14] 胡哨刚, 孔祥芳, 旷利平, 等. 基于灰色理论的铁路交通一般事故数据预测模型[J]. 交通科技与经济, 2021, 23(4): 27-31.

[15] 徐东星, 尹勇, 张秀凤, 等. 长江干线水上交通事故的灰色分析与预测[J]. 中国航海, 2019, 42(2): 59-65.

[16] LIDA B, RODRÍGuez NIBALDOR, CECILIA M. Smoothing strategiescombined with ARIMA and neural networks to improve theforecasting of traffic accidents[J]. The Scientific WorldJournal, 2014(11): 1-12.

[17] 班福忱, 吴丹, 黑月明. 基于自适应过滤与BP神经网络的城市时用水量组合预测模型[J]. 给水排水, 2017, 53(11): 107-111.

[18] 徐超, 项薇, 等. 基于ARIMA与自适应过滤法的组合预测模型研究[J]. 计算机应用与软件, 2018, 35(11): 296-300, 320.

[19] 孙斌, 陈思伶, 杜丽慧. 极端事件下铁路货运量预测——基于ARIMA模型[J]. 华东交通大学学报, 2021, 38(2): 67-72.

Forecast of Railway Transportation Accidents Based on ARIMA-BP Combined Model

XU GUO-quan, ZHANG Jia-hui, KUANG Jian

(School of Traffic and Transportation Engineering, East China Jiaotong University, Nanchang 330013, China)

In order to more accurately predict the number of railway traffic accidents, on the basis of the ARIMA model and the BP neural network model, the ARIMA model is used to analyze the linear part of the number of railway traffic accidents; the BP neural network is used to analyze the nonlinear part that affects the number of railway traffic accidents, such as equipment condition, management status, transportation volume, etc., the ARIMA-BP neural network lagrange multiplier method weighted combination prediction model and ARIMA-BP residual correction combination model are constructed. The prediction accuracy of the four models is compared. The results show that the ARIMA-BP neural network residual correction combined model has the highest prediction accuracy. This research can provide a reference for railway departments to understand the trend of accidents, effectively prevent accidents, and formulate reasonable countermeasures.

number of railway accidents; lagrangian multiplier method; residual correction; combined forecast

10.15916/j.issn1674-3261.2023.03.007

U298

A

1674-3261(2023)03-0174-06

2022-04-12

国家社会科学基金项目(17BJY140)

徐国权(1969-),男,江西丰城人,副教授,硕士。

责任编辑:陈 明

猜你喜欢

行车残差差分
基于双向GRU与残差拟合的车辆跟驰建模
数列与差分
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
夜间行车技巧
吉普自由光行车制动易熄火
平稳自相关过程的残差累积和控制图
基于差分隐私的大数据隐私保护
调度调整在地铁行车组织中的应用
相对差分单项测距△DOR