时间序列模型在乌鲁木齐交通事故分析中的应用
2016-11-10丁董吴俊刘锴
丁董 吴俊 刘锴
(大连理工大学交通运输学院,辽宁大连 116024)
时间序列模型在乌鲁木齐交通事故分析中的应用
丁董 吴俊 刘锴
(大连理工大学交通运输学院,辽宁大连 116024)
文章研究时间序列模型在乌鲁木齐月交通事故中的应用。分析了乌鲁木齐2007年1月至2013年12月的月交通事故数,建立一般时间序列ARIMA模型和季节时间序列SARIMA模型。结果表明剔除时间趋势和季节性的SARIMA(0,1,1)(0,1,1)12模型适合研究乌鲁木齐月交通事故数,利用模型进行短期预测并比较了2014年1月至8月的月交通事故数的实际值和预测值,验证了模型的准确性和科学性,可为乌鲁木齐政策制定者在预测未来交通事故时提供一定参考。
ARIMA模型 SARIMA 模型 交通事故 分析 预测
1 引言
随着国家西部大开发的深入进行以及对新疆发展的大力支持,乌鲁木齐经济建设迅速发展,汽车保有量急剧升高,引起交通事故频繁发生。据统计,乌鲁木齐2007年1月至2014年8月共发生交通事故5158起,其万车事故率是北京万车事故率的2.1倍,是上海万车事故率的1.3倍[1],交通安全形势十分严峻。
从统计学角度来说,在道路交通样本数据比较少并且表现为严重的非平稳性时,获得准确的预测结果并不容易。时间序列模型中的ARIMA模型及其扩展模型——SARIMA(seasonal ARIMA model)模型可以拟合数据少的样本,而且在众多的预测方法中,其短期预测精度较高[2]。目前,时间序列模型被广泛地运用于医疗领域[3]和经济领域[4],将模型运用于交通事故数据分析并进行短期预测的研究较少。
本文利用乌鲁木齐2007年1月至2013年12月的月交通事故数建立ARIMA模型和SARIMA模型,找出最佳时间序列模型,再进行2014年1至8月短期交通事故数量的预测。
2 模型方法
表1 所有拟合模型的参数比较
ARIMA 模型是一类随机差分自回归移动平均模型,包括自回归模型(autoregressive model,简称AR模型)和移动平均模型(moving average model,简称MA模型)。该模型的一般形式为ARIMA(p,d,q),其中p为自回归项数,q为移动平均项数,d为差分次数。对于p阶的自回归AR(p),模型可以写为:Yt=β0+β1yt-1+…+ βpyt-p+εt。对于q阶移动平均过程MA(q),模型可以写为:Yt=μ+ εt+θ1εt-1+θ2εt-2+…+θqεt-q.。将AR(p)与MA(q)结合得到ARIMA(p,d,q)模型:Yt=β0+β1yt-1+…+βpyt-p+εt+θ1εt-1+…+θqεt-q。其中,εt为白噪声,满足期望值为0,方差相同且无自相关性。该方法将随时间变化而形成的数据序列视为一个时间序列,用数学模型拟合后,可根据序列的过去和现在的值来预测其未来值。
SARIMA模型是一类季节性差分自回归移动平均模型,由ARIMA 模型和随机季节模型(stochastic seasonal model)组合而成。该模型的一般形式为SARIMA(p,d,q)(P,D,Q)S,其中P是季节自回归阶数,Q是季节移动平均阶数,D为季节差分次数,月度数据s为12。相对于一般的ARIMA模型,SARIMA模型考虑时间序列中的周期性和季节性,可作为既有季节效应又有长期周期效应的时间序列的预测。
3 模型建立与分析
3.1数据预处理
本文使用的数据为2007年1月至2013年12月乌鲁木齐市公安交警支队接到报警后现场勘察的共5158起事故记录的统计数据(其中2013年12月以前的数据用来拟合模型,之后的数据用来验证预测的准确性)。乌鲁木齐在每年的5月至10月事故数量有所增加,旅游旺季8月的事故数较多。将乌鲁木齐的月交通事故进行对数化处理,消除原始序列的异方差[5]。
3.2ARIMA模型的建立与检验
将处理过的时间序列进行单位根检验,其检验统计量的值为-3.451小于5% 置信水平的值-2.904,说明该时间序列的波动性已经消除,成为平稳的时间序列,再进行一般时间序列ARIMA模型的拟合。
由于月交通事故取对数的时间序列没有进行差分就达到平稳,所以d=0,通常情况下p,q≤3。当AR(p)和MA(q)的值小于0.05时,模型具有显著性,才能拟合时间序列。通过比较显著性时间序列模型的AIC和BIC的值来选取最佳拟合模型。其中,ARIMA(3,0,2)模型AIC和BIC的值最小,拟合程度最高。进行白噪声检验后,发现其残差序列的检验值为0.041小于0.05,说明该拟合模型不适合解释当前时间序列,还存在有用信息未被提取。
3.3SARIMA模型的建立与检验
考虑乌鲁木齐的月交通事故数具有周期性和季节效应,进行季节时间序列SARIMA模型的拟合。对原月交通事故取对数的时间序列进行一阶差分后再进行十二阶季节差分再进行单位根检验,其检
············验统计量的值为-11.410小于5% 置信水平的值-2.914,为平稳的时间序列。
由于月交通事故取对数的时间序列进行一阶差分和十二阶季节差分达到平稳,所以d=1,D=1,通常情况下p,q≤3,P,Q≤1。选取具有显著性的时间序列模型,比较AIC和BIC的值,选取最佳SARIMA模型。
结果(表1)表明具有显著性的拟合模型中SARIMA(0,1,1) (0,1,1)12模型的AIC和BIC的值最小,其白噪声检验值为0.661远大于0.05,残差序列中有用的信息已被提取完,模型拟合程度很好。
3.4模型预测与分析
利用SARIMA(0,1,1) (0,1,1)12模型对乌鲁木齐2007年1月至2013年12月的月交通事故数进行了拟合,并进行月交通事故数预测与对比。结果表明(图1):模型预测值与实际值的变化趋势非常接近,尤其是2008年和2013年的交通事故数量;但是部分月份数值存在偏差,如2009年7月的预测值略大于实际值,可能是模型未考虑乌鲁木齐发生“7.5事件”后出行旅游人数减少等因素。
4 结论
乌鲁木齐的月交通事故数表现出明显的周期性和季度性的变化。由于乌鲁木齐每年10月至来年4月是冬季,虽然道路常有结冰现象,行车条件不好,事故风险较大,但是一方面总交通量有所减少,另一方面驾驶员安全意识更高,交通事故数反而比较少。5月至10月,天气转暖,市民出行增加,旅游人数也会增加,交通量激增,导致交通事故数增多,因此在旅游季节应加大交通安全管理力度。
相对一般ARIMA模型,考虑季节性的SARIMA(0,1,1) (0,1,1)12模型能更好的拟合乌鲁木齐的月交通事故数。预测2008年2月至2014年8月的交通事故数,发现预测值与实际值基本吻合。SARIMA模型在短期交通事故预测中的成功应用为政策制定者在预测未来交通事故时提供一定参考。
[1]程巧梦,张广泰,王立晓.乌鲁木齐市道路交通事故特性及多发路段鉴别研究[J].交通与运输(学术版),2014(A01):192-196.
[2]张辉,刘嘉焜,柳湘月.交通流的季节ARIMA模型与预报[J].天津大学学报,2005,38(9):838-841.
[3]吴家兵,叶临湘,尤尔科.ARIMA模型在传染病发病率预测中的应用[J].数理医药学杂志,2007,20(1):90-92.
[4]赵喜仓,周作杰.基于SARIMA 模型的我国季度GDP 时间序列分析与预测[J].统计与决策,2010,22:18-20.
[5]张娜,佟连军.基于SARIMA模型的黑龙江省冰雪旅游国际需求预测[J].资源开发与市场,2012,28(7):660-663.