基于PLS的道路交通事故经济损失预测模型的构建
2017-03-30高波
高 波
(辽宁警察学院 治安管理系, 辽宁 大连 116036)
基于PLS的道路交通事故经济损失预测模型的构建
高 波
(辽宁警察学院 治安管理系, 辽宁 大连 116036)
有效预测道路交通事故造成的经济损失的相关因素、并确定相关影响程度,由此得出影响道路交通事故经济损失的关键环节。借助偏最小二乘回归方法(PLS)构建道路交通事故经济损失预测模型,对道路交通造成的经济损失与GDP、人口数、公路总里程、机动车保有量四项影响因素进行相关性分析,确定最相关的影响因素及其相关性。该模型的相对误差为0.18%~8.48%。
道路交通;经济损失;偏最小二乘;回归建模;分析预测
随着社会的快速发展、机动车保有量的急速增长,道路交通事故频发,随之带来的是道路交通发生起数的剧增及经济财产的巨大损失,据统计,平均每年直接经济损失达数十亿元,虽然这是我们国家在发展过程中必然经历的阶段,但若能及早进行统计分析,总结事情发生的规律,分析原因,有针对性地提出解决对策、减少损失,是目前临亟需解决的课题[1]。
图1 2005—2014年全国道路交通事故直接财产损失统计图
每次发生道路交通事故都面临不可避免的或多或少的经济损失(如图1),对我们正在大力发展经济建设的发展中国家来说,研究道路交通事故发生的规律,总结经验教训,减少经济损失,是能够最大限度地发挥科学生产力,维护国家可持续发展的另一贡献,因此有必要对道路交通事故带来的经济损失进行预测研究,为提高道路交通的科学管理和交通安全风险评估提供科学依据。[1]
一、PLS预测模型算法
预测是运用科学的判断方法或计量分析法,对事物未来可能演变的态势提前做出估测。其实质是探求和把握事物发展规律,预估事物未来发展状况,为各种决策提供科学的参考依据。
目前各种领域的预测方法真正在实际中广泛应用的有多元回归分析法、灰色系统预测、指数平滑法、趋势外推法、计量经济法等。偏最小二乘回归(PLS)是一种比较新型的多元统计分析方法,它具备了多元线性回归分析、主成分分析以及典型相关分析的基本功能。它首先应用在化工领域,随后又在市场分析、资源分析、工程建模以及金融等领域得到广泛的应用[2]。PLS解决了模型自变量存在多重共线性的问题,更优异的表现是当因变量的个数大于样本量时,该回归模型依然是成立的,同时保持较好的拟合优度。其基本思想如下:
设有q个因变量组成的因变量集合Y和p个自变量组成的自变量集合X。为了研究因变量和自变量的统计关系,偏最小二乘回归在建模过程中采用信息综合和筛选技术,先不考虑因变量集合对自变量集合的回归模型,而是分别在X和Y中提取出主成分t与u(即t是自变量X提取的主成分,u是因变量Y提取的主成分),在提取这两个成分时,需满足下列两个要求[3]:(1)t与u应尽量携带上各自的数据矩阵中所含包变异的信息;(2)t与u的相关程性应是最大的。这表明,t与u应尽量代表数据矩阵X和Y,同时自变量的成分t对因变量u的成分又具备最强的解释能力。
当第一个成分t1与u1被提取后,偏最小二乘回归算法分别进行X对t1的回归和Y对u1的回归;若回归方程已达到令人满意的精度,则算法会终止;否则,算法分别利用X被解释后残余的信息以及Y被解释后残余的信息进行第二轮的主成分(t2与u2)提取…;依次进行下去…,直到可以达到满意的精度才能停止。最后利用偏最小二乘回归方法建立Y对主成分t的回归,然后再还原为Y关于原变量X的回归。
二、构建道路交通事故经济损失回归模型
道路交通事故预测是提高道路交通安全管理水平的重要内容,道路交通事故的发生受到多个因素的影响,选择道路交通经济损失这一指标进行回归分析,根据常用的分析道路交通事故的四大影响因素:GDP、人口数、公路总里程和机动车保有量作为自变量来进行统计分析,为合理有效地进行道路交通事故分析和预测提供了科学依据。
表1 辽宁省道路交通经济损失及四项影响因素统计数据
(一)构建回归模型
以辽宁省2006~2013年道路交通事故经济损失①作为因变量,与同期该省的GDP、人口数、汽车保有量、公路总里程长度四项影响因素(数据如表1)作为自变量进行相关分析,建立回归模型,其中:y—道路交通死亡人数(人);(亿元);x2—人口数(万人);x3—公路总里程(公里);x4—汽车保有量(万辆)。根据辽宁省统计局资料,得到相关数据如表1。
对原始数据利用PLS思想进行统计分析并建模,其根据交叉有效性选择最佳主成分2个[3],运行计算后结果如图1:
图示说明目前模型建立良好,拟合比例很接近于1,根据计算提取主成分的具体数据可得出:提取1个PLS成分对y的交叉有效性是0.815,第二个、第三个主成分对Y的交叉有效性成分分别是:0.337和-0.416,根据:所以停止运算,取m=2个主成分建立模型。由图可以看出,模型对Y的解释能力为91.3%,达到了较高精度,说明模型的吻合度很高。根据提取2个主成分,求得到原始变量y对的回归方程:
图1 模型拟合结果显示图
(二)模型的有效性与合理性分析[3]
1.通过绘制t1-u1图(见图2),可看出全部样本在图中近似一条直线排列,说明t1-u1的线性关系较强,而偏最小二乘回归的提取的主成分t1及u1的相关关系能直接反应出自变量与因变量之间的关系,因此,运用偏最小二乘法建立回归模型是合理的。
图2 t1-u1平面图
2.精化模型(检查样本特异点并排除)。T2椭圆图用于在t1-t2图上观察样本点的分布情况,如果所有样本点都落在椭圆内,则认为所有的样本点的分布是均匀的,若有样本点落在椭圆外,则可以认为这些点是特异点,它们的取值远离所有样本点的平均水平,通过画T2椭圆图(图3)可以看出,在椭圆区域代表95%的置信区间内,得到了非常好的t1-t2关系图,并且没有异常点。
图3 t1-t2成分椭圆图
3.模型的拟合优度。建立模型后,需要对其拟合优度进行论证,利用建立的模型计算预测值,并与实际观测值进行比较(表3),根据实测值与预测值数据,画出散点图(图4),可以看出,预测值YPredPS(y)与实际观测值YVarPS(y)差异很小,模型的拟合优度较高。
图4 实际值与预测值比较图
4.基于PLS辅助分析技术进行模型评价。根据PLS辅助分析技术,自变量对因变量的解释能力用变量投影重要指标VIP来解释,对X和Y相关的重要性进行分析(见图5),观察到VIP值大于1的变量有x4、x2、x1,自变量对因变量的影响因素按显著程度排序为:汽车保有量;人口数;GDP,说明在模型中,变量x4对道路交通事故经济损失的影响作用是最强的。
图5 VIP值排序图
三、结 论
(一)模型分析
为了观测自变量对道路交通事故经济损失的正负向作用,绘制回归系数图,如图6。由图6看出,GDP、人口数、公路总里程和机动车保有量对道路交通事故经济损失都起负向作用,说明增大它们的数值反而对道路交通事故经济损失的增长起抑制作用,这与我们实际生活常识恰恰相反,但仔细观测统计数据可以看出,虽然这些年交通事故总数及各自变量总数逐年上升,但根据统计,道路交通事故造成经济损失却逐年下降,并且下降幅度还很大,说明虽然统计模型的结果与常识相违背,却与官方公布的统计数据相吻合,排除统计数据存在误差的可能性,则数据说明了全省交通管理部门取之不易的成绩:根据统计数据可看出全省交通事故经济损失自2006年起连续8年下降,在全省机动车保有量、机动车驾驶人数据快速增长的情况下,全省发生道路交通事故起数、死亡人数却能实现连续下降,而且下降幅度还很大,能取得这来之不易的成绩,说明在近些年驾驶人素质得到了提高,全省交管工作成绩显著,从统计分析结论上看所建立的模型是符合实际数据的,是严谨的。
(二)误差分析
根据偏最小二乘法建立的模型对道路交通事故经济损失进行预测,将预测值与实测值进行精度比较(见表3)可知,偏最小二乘法回归模型预测相对误差最大为8.48%,最小为0.18%,相对误差均值为2.93%,说明在建模样本量只有8个,而自变量有4个的情况下,却能很好地在低样本情况下建立精度较高的模型,说明用偏最小二乘回归方法具有很高的预测能力,所建立的预测模型分析的精度较高,建模较准确。
图6 回归系数图
表3 预测值与实际值精度比较
注 释:
①见辽宁省统计局编《辽宁省统计年鉴》。
[1]房曰荣,沈斐敏.道路交通事故发展趋势分析与预测[J].中国安全生产科学技术,2012,8(3):144-145.
[2]董玉波.道路交通事故多元线性回归模型及检验方法[J].中国人民公安大学学报(自然科学版), 2013(2):73-75.
[3]王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业科技图书出版社,1999:201-206.
(责任编辑:李 刚)
Construction of the Predictive Model of Traffic Accidents Based on PLS
GAO Bo
(Public Order Administration Department, Liaoning Police College, Dalian Liaoning 116036, China)
in this paper, the relative factors of economic losses owing to traffic accident are predicted effectively and the level of relativity is confirmed. Consequently, the key procedures effecting on the economic losses of traffic accident can be concluded. The mode of predicting the economic losses is constructed using the partial least-square regression-method, which analyses the economic losses dependence on the GDP, the population, the road traffic mileage and the vehicle parc. The most relative factor is found. The relative error of the mode is 0.18%~8.48%.
road traffic; economic losses; partial least squares; regression model; analysis prediction
D631.5
A
2096-0727(2017)02 -0059-05
2016-09-21
高 波(1975-),男,汉,山东临沂人,讲师,硕士。研究方向:道路交通管理。