基于最优加权组合模型的道路交通事故预测
2015-11-07创新者阎光伟
创新者:杨 琭 阎光伟
基于最优加权组合模型的道路交通事故预测
创新者:杨 琭 阎光伟
当前我国交通事故状况严峻,对其进行有效预测十分必要。本文鉴于单一模型的局限性,建立了一种基于多种单一模型的最优加权组合模型。针对事故死亡人数的季节周期性、单调性和趋于平稳性,选取季节模型SARIMA、灰色模型GM(1,1)和Verhulst模型建模以及最优加权组合模型。结果表明,SARIMA、GM(1,1)、Verhulst模型预测相对平均误差分别为5.43%、11.92%、10.16%,而SGV(SARIMA、GM(1,1)、Verhulst)加权组合模型的平均误差仅为1.19%,因而最优加权组合模型克服了单一模型的不足,具有良好的精度,可以利用该模型对我国未来交通事故死亡人数进行预测。
随着我国经济的快速发展,全国汽车保有量急剧增长,在为人民生活带来极大方便的同时,出现了大量交通事故。2013年全年,共发生交通事故198394起,事故死亡人数58539人,居世界第一,造成直接经济损失103897万元。与欧美发达国家相比,交通事故总量大、死亡率高、恶性事故多。按照发达国家交通事故的治理经验,在提高驾驶人安全意识、执法必严的基础上,对交通事故进行预测、制定合理的政策法规,是缓解交通事故状况严峻的有效措施。
当前对于交通事故的预测方法主要有时间序列法、灰色模型预、贝叶斯网络方法、BP神经网络方法等,这些单一模型受自身建模的局限性,对交通事故的预测能力都有限。近年来,也出现组合模型对交通事故的预测研究。这些组合模型相对单一模型,其预测能力和精度都有了不同程度的提高,但误差仍较大。本文对交通事故历史死亡人数统计数据分析发现,数据存在明显的季节周期性、单调减少趋平稳的特点。针对数据的季节周期性、单调性和趋向平稳性,本文选取时间序列SARIMA模型、灰色GM(1,1)和Verhulst单个模型,基于MATLAB和Eviews软件对我国2003-2013年交通事故进行预测,在此基础上,建立优化加权组合模型,并以相关指标对各模型进行评价。
预测模型介绍
SARIMA模型
SARIMA模型(Seasonal Autoregressive Integrated Moving Average),即季节性差分自回归滑动平均模型,是在ARIMA模型基础上,与随机季节模型组合而成。当研究的数据具有明显季节趋势,如月度、季度、年度等周期性的变化时,单纯用ARIMA模型预测偏差大,因而将ARIMA模型改进成SARIMA模型,预测精度大大提高,对周期性变化序列具有很好适用性。SARIMA建模先对原始序列进行平稳性检验,对非平稳序列平稳化,进行模型的诊断、参数识别,确立模型并检验,检验通过后利用所建立的模型进行预测。
灰色GM(1,1)与Verhulst模型
灰色理论是针对“部分信息已知,部分信息未知”的不确定系统,通过对已知信息的深层次挖掘来认识系统的特征规律。道路交通系统就是一个灰色系统,既有信息确定的汽车行驶速度、道路宽度、驾驶人员,也有信息不确定的驾驶人心里状态、某时刻确定地段的交通流量等元素。GM(1,1)模型与Verhulst模型均是灰色系统预测模型的一种,其中GM(1,1)是灰色模型中最经典的模型,具有广泛的应用性,对具有单调变化且呈指数特征的数据具有精确的预测能力。灰色Verhulst模型是德国生物学家Verhulst在研究微生物繁殖时提出的,主要针对具有S形饱和状态的序列,具体建模过程见文献。GM(1,1)与Verhulst模型建模过程相似,都是通过对原始序列进行累加预测再还原思想建模,GM(1,1)具体建模过程见文献。
最优加权组合模型
最优加权组合模型是对单一模型预测结果组合,以误差平方和最小为准则构造目标函数,求得权重系数而形成一个新的模型,来大大提高对原始数据预测能力的一种方法。
该模型对单一模型所得预测数据,通过计算得到拟合误差矩阵,以最小二乘原理构造误差目标函数,通过求解目标函数误差平方和最小得到和各模型的权值分布,从而反映了各个单一模型的优点,具体建模过程见文献。
模型的应用
原始数据分析
本文数据来源于《中华人民共和国交通事故统计年报》,具体数据见表1。图1与图2分别是以年份与月份所得原始数据趋势图。由图知数据存在明显的季节周期性,事故死亡人数自2004年呈现单调递减趋势且数据不断平稳,因而选取具有时间序列特征的SARIMA模型、适用于单调指数变化的GM(1,1)模型、适用于饱和S形态的Verhulst模型进行建模。
表1 交通事故死亡人数分月统计
单一模型建模
SARIMA模型
SARIMA模型建模使用Eviews 6.0软件,SARIMA建模须经数据平稳性检验、模型识别与参数估计及模型检验,建模过程如下。
图1 历年道路交通事故死亡人数
图2 原始数据Y趋势图
(1)数据平稳性检验:将2003-2011年原始数据记为Y序列,图2是其序列图,图示序列有明显的年度周期性和长期下降趋势,数据不平稳,并且由图3一阶差分偏相关图知,偏自相关系数在12倍数的滞后期显著不为零,序列DY存在显著季节性,需做季节差分。对序列DY做一阶步长为12的季节差分,得序列D12Y。数据平稳性的ADF检验结果如表2所示,由检验结果知经过一阶差分与季节查分,序列平稳。
图3 一阶差分序列DY偏自相关图
图4 季节差分序列D12Y偏自相关图
(2)模型的识别与参数估计:对该SARIMA模型(p,d,q)×(P,D,Q)s,由ADF检验过程,原始序列经一阶差分和步长为12的季节差分后,序列平稳,故d=D=1,s=12。图4是D12Y序列的偏自相关图,自相关图显示为一阶截尾,取q=1,偏相关图为拖尾,取p=1、2、3,偏自相关系数在K=12时均显著不为零,但SARIMA模型中P、Q难以识别,因此对P=1、2,Q=1、2分别组合,最后根据AIC和SIC最小准则,在兼顾可决系数R2最大和MAPE最小的准则下,对不同的(p,d,q)×(P,D,Q)s分别进行反复试验发现,(3,1,1)×(1,1,1)12模型最优。
(3)模型的检验与预测:对所建立的(3,1,1)×(1,1,1)12模型检验其适应性,判断是否是白噪声序列,根据残差序列的偏自相关图,残差序列的自相关系数和偏自相关系数全部落入随机区间,可知残差序列是白噪声序列,检验通过。利用该(3,1,1)×(1,1,1)12 SARIMA模型对2003年—2013年数据进行静态滚动预测,将所预测得到的各月数据求和得到历年交通事故死亡人数,其值见表3。
灰色GM(1,1)与Verhulst模型
此部分运用MATLAB7.0实现,具体计算如下所示。以2003-2011年原始数据建立GM(1,1)与Verhulst模型,根据文献,得参数值
模型时间响应序列为:
Verhulst模型记原始数据为序列X(1),累减生成序列X(0),由X(1)邻权等值生成序列Z(1),构造矩阵
最优加权组合模型
最优加权组合模型的建立
利用上述SARIMA、GM(1,1)与Verhulst单一模型对近年我国交通事故死亡人数进行了预测,由于SARIMA建模过程中的季节差分,只得到了2006-2013年的交通事故死亡人数,因而SGV加权组合模型以2006-2011年数据为基础建模,并以2012与2013年数据进行样本外验证。
模型评价与结果分析
将上述模型预测结果列于表3,各模型相对误差均在7%以下,说明本文中采用季节周期模型建模是很恰当的。以各误差指标对各模型进行评价,结果列于表4。结果显示组合模型预测误差最小,SARIMA模型与Verhulst模型次之,GM(1,1)预测误差最大,且组合模型各误差指标远远小于其他模型,平均相对误差低至1.19%。可见,将单一模型加权组合后,得到的组合模型预测精度大大提高,克服了单一模型的局限性。这是由于SARIMA模型只是体现了数据的周期性,而GM(1,1)模型体现了数据的单调性,Verhulst模型体现了数据近年趋于平稳性,但都只体现了数据的部分特点,而将各个模型最优加权平均得到组合模型后,则囊括了各个单一模型的优点,预测能力大大提升。各模型预测值与实际值对比趋势如图5所示。
另外本文误差数据与同类研究结果相比,误差大大降低,表明以季节模型SARIMA建模由于表征了原始数据强烈的周期性,而使SGV加权组合模型预测精度得到很大提高。故上述建模方法,即先以单一模型SARIMA、GM(1,1)、Verhulst建模,在单一模型预测值基础上,建立SGV加权最优加权组合模型,预测结果误差小、精度高,预测数据可以为相关部门制定有效政策提供依据参考,对交通事故的预防与减少是有利的。
表3 各模型对2006-2011年(样本内)数据预测结果与相对误差
表4 各模型对2012-2013年(样本外)数据的预测及性能比较
图5 各模型预测值与实际值对比趋势图
结语
我国目前道路交通事故多发,每年交通事故死亡人数高居世界第一,交通事故的有效预测对当前严峻状况的改变具有重要意义。本文以2003-2011年我国道路交通事故死亡人数做样本内数据,根据数据的季节周期性、单调递减性和趋于平稳性,分别采用SARIMA、GM(1,1)、Verhulst模型对交通事故死亡人数进行预测,在得到单一模型预测数据的基础上,建立最优加权组合模型并以2012年与2013年数据作样本外数据,将预测值与实际值对比验证组合模型的有效性。结果显示,SARIMA、GM(1,1)、Verhulst模型预测到的平均相对误差分别为5.43%、11.92%,10.16%,而SGV最优加权组合模型该数值仅为1.19%,组合模型预测误差大大降低,其精度高于同类研究,可见将多个单一模型进行科学组合,可以有效降低单一模型的预测误差。可利用本文提出的SGV组合模型对我国未来交通事故死亡人数进行有效预测,从而为交通部门进行科学管理提供依据。
10.3969/j.issn.1001-8972.2015.23.015