基于主成分贡献度的道路事故热点成因分析

2018-06-22曾令秋王瑞梅韩庆文朱颖祥

城市交通 2018年3期

曾令秋，王瑞梅，韩庆文，曾孜，朱颖祥，张程

(1.重庆大学计算机学院，重庆400044；2.重庆大学通信工程学院，重庆400044；3.重庆市第七中学校，重庆400030)

0 引言

事故热点是影响道路通行时间和拥堵状况的重要因素，其产生原因复杂，例如，由于地形因素客观成为事故热点区域(南美玻利维亚北永加斯路被称为“死亡之路”)、由于高车流密度和人流量成为事故热点区域的闹市区。对驾驶人或自动驾驶决策系统而言，不同成因的事故热点的决策方案必然不同。因此，从提升道路交通安全的角度来看，需要为驾驶人或自动驾驶决策算法提供与事故热点相关的内特性信息，即需要发掘事故热点成因并以之为依据提供相关的控制决策信息。

热点成因识别是一个历史数据分析问题，即通过分析海量历史数据，发现对象热点中事故的生成共性因素，并以之为依据识别热点成因。目前，中国描述交通事故的数据局限于某一城市或某一路段的统计，并没有公开的权威数据库可以提供相应的数据。英国国家数据库STATs19[1]记录了自1926年起英国发生的所有交通事故，并通过82个属性描述单个事故，STATs19是迄今为止英国记录最详细、最完整、最可靠的提供道路交通碰撞信息资源的数据库，并被广泛应用于道路交通安全评估。由于该数据库能够为热点分析提供充足的事故数据，本文基于该数据库开展研究。

从STATs19数据库82个属性变量中发掘成因因素需要进行降维，本文采用较为经典的降维法——主成分分析法实现事故热点分析。文献[2]采用主成分分析法评估高速公路交通安全状况。文献[3]将主成分分析纳入道路交通事故预测中，消除一些重叠信息，并结合神经网络对道路交通事故进行预测。文献[4]提出评价区域交通安全的主成分分析模型，展现了主成分分析法在交通数据库分析中的可行性。以上研究皆基于大区(如行政区域)展开，虽然分析结果能在一定程度上反映对象区域的特性，但是区域特性可能包含多个事故热点，热点成因也有差异，分析结果难以体现事故热点本身的特性，也难以生成针对特定事故热点的合理控制决策。

热点识别是成因分析的基础，在文献[5]前序研究中笔者提出一种基于自然最近邻聚类的改进算法DTH3N对事故区域的历史事故点进行识别，本文将以DTH3N算法识别的事故热点为对象，探索一种新的事故热点成因分析方法。

1 概念阐述

1.1 事故热点

事故热点指具有某种关联特性的交通事故发生位置点的集合，即交通事故多发区域。区域内的事故成因有内在关联性，区域具有不规则边界，区域的覆盖范围与道路本身特征(例如交叉口等)有直接关系。

热点是聚类的结果。聚类就是将需要处理的整个数据集划分成多个不同的类簇，类簇与类簇之间距离或者相异性尽量大，使得类簇内部尽量紧凑[6]。常用的聚类算法有：1)基于距离的K-means，K-medoid和Nearese Neighbor Hierarchical Clustering等，这些方法聚合的空间对象是欧氏距离而非网络距离，聚合的空间对象形成的区域形状受限；2)基于密度的DBSSCAN和KDE等聚类算法，可以发现任意形状的簇类，但对阈值的设置比较敏感，例如半径阈值和簇密度阈值；3)自然最邻近聚类算法(3N)，克服了以上算法存在的问题，但处理大面积区域时面临热点定位困难的问题[5]。

本文采用文献[5]中提出的一种基于自然最近邻聚类的改进算法DTH3N，并结合具有区域约束等优点的3N聚类方法来识别事故热点。图1为多事故点按DTH3N算法聚类生成事故热点的示例，图中黑色圆点表示事故点，而多个相连接的事故点构成一个事故热点。

1.2 事故热点成因

事故热点成因具有多样化特征，可归结为两个大类：道路物理成因和社会成因。道路物理成因指导致事故多发区域生成的道路因素，例如路况、道路设计和区域环境。社会成因指导致事故多发区域生成的社会因素，例如区域治安条件、人口素质和人口密度。

1.3 事故热点成因因素

事故热点成因因素指影响事故发生的因素，本文根据STATs19数据库提供的属性参数定义5个因素：道路因素X1、行人因素X2、车辆因素X3、环境因素X4和管制因素 X5(见表1)。

图1 事故热点与事故点的关系Fig.1 Relationship between accident hotspots and accident points

1.4 事故热点成因因素贡献权重

根据事故热点成因因素与道路物理成因和社会成因之间的贡献关系设定贡献权重，以此为依据构造道路物理成因矩阵CR和社会成因矩阵CS。表1中道路因素X1仅与道路物理成因相关，因此设置X1对应的CR=1。相较于道路特性，区域的社会因素如犯罪率、人口密度等更容易获取，因此本文从社会因素入手计算热点成因贡献权重。为了充分表现社会因素与道路事故的关联性，选择高社会因素区域和低社会因素区域进行对比计算，具体方法如下：

1）对比区域选取。根据人口密度和犯罪率两个社会因素，分别选择高人口密度和高犯罪率、低人口密度和低犯罪率区域作为对比区域。

2）典型道路区域选取。分别从对比区域内筛选高事故发生率主要道路作为典型道路区域。

3）分别统计典型道路区域的 X1，X2，X3，X4，X5对应数据库指标涉及的总事故数A。

4）根据人口密度和犯罪率分别计算选择区域的社会因子

表1 事故热点成因因素Tab.1 Causation factors of accident hotspots

式中：Density(i)为典型道路区域i的人口密度/(人·km-2)；DensityMAX为所有典型道路区域中人口密度最大值/(人·km-2)；Crime(i)是典型道路区域i的犯罪率；CrimeMAX为所有典型道路区域中犯罪率最高值。

5）计算两个典型道路区域的A比值和Fs比值，获得社会因素贡献权重。其中，A比值为不同区域中事故数的比值，即AccNum(i)/AccNum(j)；Fs比值为不同区域社会因子的比值，即Fs(i)/Fs(j)。

在此选择Islington区域和Sutton区域作为对比区域，根据公式(1)可得Fs(Islington)=1.91， Fs(Sutton)=0.77。选取Islington的A501道路区域和Sutton的Green Wrythe Lane道路区域进行事故数统计，统计时段为2011—2015年，统计结果见表2。

表2 典型道路区域事故数据统计Tab.2 Data statistics of accidents in typical road areas

表3 CS值Tab.3CSvalue

表4 事故热点成因因素贡献权重Tab.4 Contributing weight of causation factors at accident hotspots

表5 测试对象区域人口密度和犯罪率Tab.5 Population density and crime rate in the surveyed areas

社会因素权重CS表现为社会因子Fs对相关事故数的影响程度：

计算得到CS值与本文中实际取值如表3所示，进而可得事故热点成因因素贡献权重(见表4)。

2 事故热点成因因素计算方法

计算事故热点成因因素是识别热点成因的关键，计算方法为：

第一步：根据表1对STATs19属性参数进行整合计算，获得X1，X2，X3，X4，X5。

第二步：计算X1，X2，X3，X4，X5的贡献率，此处采用主成分分析法获得，具体过程如下：

1）构建原变量矩阵。

利用事故热点成因因素Xj(j=1,2,…,5)构造原变量矩阵；假设热点中包含n个事故点，基于此构建参数矩阵

2）构建参数矩阵X的标准归一化矩阵

式中：为的元素值；X为参数矩阵Xj中列的平均值；Sj为参数矩阵X中每一列的方差。

3）构建协方差矩阵

4）获取协方差矩阵R的特征值矩阵λ1×5和特征向量矩阵V5×n，对特征值进行排序使得λ1≥λ2≥…≥λ5。各成分与标准归一化矩阵的线性组合为

式中：Vi为协方差矩阵R的第i个特征向量；λi为所对应的特征值。

5）提取主成分个数m，计算公式为

图2 伦敦市各行政区域人口密度和犯罪率Fig.2 Population density and crime rate in different administrative districts in Lond

表6 测试对象区域经纬度范围Tab.6 Longitude and latitude range of different surveyed areas

图3 Islington事故热点识别聚类结果Fig.3 Results of accident hotspot clustering in Islington

表7 测试对象区域事故热点数量Tab.7 Number of accident hotspots in the surveyed areas

图4 各测试对象区域的Croad和CsocietyFig.4 CroadandCsocietyin different surveyed areas

基于主成分分析，得到主成分特征值矩阵 λ1×m(λ1≥ λ2≥ … ≥λm)所对应的主成分特征向量矩阵V5×m。

6）获取主成分特征值的方差贡献矩阵

7）构建事故热点事故影响指标综合权重矩阵

F5×1矩阵相应的5个权重是事故影响参数X1， X2， X3， X4， X5所对应的贡献率，即参数变量对事故热点整体的贡献率。

第三步：计算事故热点成因因素。

3 数据处理流程

为了检验前文提出方法的有效性，基于STATs19数据库事故历史数据信息进行验证。首先需要对数据进行处理，包括实验区域筛选、基于区域事故点聚类的热点识别，以及成因因素计算。

3.1 实验区域筛选

文献[3]阐述了基于道路物理成因和社会成因两个因素预测中国道路交通事故发生的可行性。本文关注事故热点的道路物理成因和社会成因，因此，实验区域的筛选可采用基于道路因素和基于社会因素两种模式展开。

基于道路因素的筛选以路况条件作为参照，路况条件不仅与道路本身有关，也与道路地理特性相关，较难获得准确的评价参数。

基于社会因素的筛选以区域社会因素(如区域人口密度、犯罪率及受教育程度)作为参照，这类数据较易获得，因此本文选择基于社会因素的筛选模式。基于STATs19数据库选择区域人口密度和犯罪率两个社会因素进行区域筛选。图2为伦敦市32个行政区域的人口密度和犯罪率分布。

对人口密度和犯罪率进行分析，筛选5个区域进行实验测试(见表5)。在5个区域内，各选择一片面积基本相等的测试对象区域，区域经纬度如表6所示。

以上根据社会因素筛选获得的5个测试对象区域，其道路特性也表现出多样性，例如Sutton目标区域为山区，而Westminster则为商业区，满足实验的基本条件。

3.2 基于DTH3N 算法的热点识别

采用DTH3N算法对5个测试对象区域进行事故热点聚类识别，Islington聚类结果如图3所示，事故点发生的位置用(X,Y)来表示，X和Y分别为事故发生点的经度和维度抽象后得到的数值型坐标，图中不同颜色代表聚类形成的不同的簇，同一颜色代表同一个簇。

文献[5]中，对5个测试对象区域的事故点进行聚类获取事故热点，聚类后获得各测试对象区域的热点数量(见表7)。分析数据可知，区域的人口密度与事故热点数量密切相关，由此证明了区域筛选方法的合理性。

3.3 成因因素计算

根据表1定义，从STATs19数据库中筛选相关属性参数，累加计算可得道路事故热点成因综合权重指标Croad和Csociety。

4 实验结果及分析

实验通过MATLAB对5个测试对象区域进行事故热点成因分析，验证本文提出的基于主成分贡献度的道路事故热点成因分析方法在事故热点评估中的性能。

各测试对象区域中事故热点成因综合权重指标Croad和Csociety如图4所示。可以看出，Islington,Hillingdon,Westminster地区大部分事故热点Csociety比Croad大，因此驾驶人行至这些区域时需更多地注意社会成因对行车的影响；Wandsworth中一小部分事故热点的Csociety和Croad差距比较明显，其他部分相差不大，因此在此区域中行车需要注意社会成因和道路物理成因的影响；而Sutton中所有事故热点的Croad大于Csociety，因此在此区域中行车更需注意道路物理成因的影响。

为了更深入地分析各事故热点成因与其所在区域道路特性的联系，计算分析各测试对象区域Csociety和Croad的均值及其方差均值(见图5)。可以看出：区域人口密度相对较高的 Islington，Wandsworth 以及 Westminster，Csociety均值大于Croad均值，但Wandsworth的Csociety和Croad均值差距并不明显。区域犯罪率相对较高的Islington和Westminster的Csociety方差均值远大于Croad方差均值；而区域犯罪率较低的Wandsworth中Csociety方差均值略大于Croad方差均值。因此，可以宏观地认为Islington和Westminster中事故热点的形成主要受到Csociety影响，而Wandworth中事故热点的形成受Csociety和Croad共同影响。此外，人口密度和犯罪率都相对较低的Sutton，Croad均值及其方差均值都远远大于Csociety，可以认为Sutton事故热点的形成主要受Croad影响；区域人口密度非常低而高犯罪的Hillingdon事故热点的形成主要受到Csociety的影响。由图5b可以看出，Hillingdon事故热点成因综合权重指标的方差特性与Islington等高犯罪率区域类似；图4中Hillingdon的Csociety值大于Croad。因此可以推断Hillingdon的Csociety较高是受到较高犯罪率的影响。因此，高犯罪率是测试对象区域事故热点形成主要受社会成因影响的主要因素。

图5 Croad和Csociety均值和方差均值Fig5 Mean and variance mean ofCroadandCsociety

5 结语

在道路交通安全研究领域，事故热点成因探究是解决交通安全问题关键的一步。通过运用事故热点成因因素对事故热点进行评估，可以有效地指导驾驶行为决策和优化交通管制。本文在DTH3N算法识别的事故热点的基础上提出事故热点成因分析方法，对事故热点进行内特性分析，并从伦敦市32个行政区域中选取5个测试对象区域验证方法的有效性。实验结果表明，获取的内特性参数Croad和Csociety能直观地反映事故热点形成的影响因素，指导驾驶人行车中更多地注意相对危险的内特性参数对行车的影响。本文构建的两个热点成因因素权重矩阵CR和CS只是一个近似估计值，在未来研究中需进一步修正，同时热点成因因素还有待进一步完善。

[1]Yu Hao,Liu Pan,Chen Jun,et al.Comparative Analysis of the Spatial Analysis Methods for Hotspot Identification[J].Accident Analysis&Prevention,2014,66:80-88.

[2]薛大维，纪峻岭，白竹.基于主成分分析法的高速公路交通安全评价[J].黑龙江工程学院学报(自然科学版)，2014(2)：46-49.Xue Dawei,Ji Junling,Bai Zhu.Study on Traffic Safety Evaluation for Freeway Based on Principal Component Analysis[J].Journal of Heilongjiang Institute of Technology,2014(2):46-49.

[3]Yu Rende,Zhang Qiang,Zhang Xiaohong,et al.Traffic Accidents Forecasting Based on Neural Network and Principal Component Analysis[J].Research JournalofApplied Sciences Engineering&Technology,2013,6(6):1065-1073.

[4]Li Qiangwei.Evaluation Model of Region Traffic Safety Based on Principal Component Analysis[R/OL].2009[2016-07-10].https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnum ber=5168451.

[5]Han Qingwen,Zhu Yingxiang,Zeng Lingqiu,et al.A Road Hotspots Identification Method Based on Natural Nearest Neighbor Clustering[R/OL].2015[2016-07-10].https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7313189.

[6]黄金龙．基于自然最近邻的无参聚类算法研究[D].重庆：重庆大学，2014.Huang Jinlong.Study on Non-Parametric Clustering Based on Natural Nearest Neighborhood[D].Chongqing:Chongqing University,2014.