交通事故的时空热点分析

2020-03-12刘尧王颖志王立君张丰杜震洪刘仁义

浙江大学学报(理学版) 2020年1期

刘尧，王颖志，王立君，张丰*，杜震洪，刘仁义

（1.浙江大学浙江省资源与环境信息系统重点实验室，浙江杭州310028；2.浙江大学地理信息科学研究所，浙江杭州310027；3.浙江警察学院交通管理工程系，浙江杭州310053）

近年来，随着我国城市化进程的加快，机动化水平不断提高，机动车保有量和驾驶员人数不断增加，城市的交通安全问题日益突出。我国是世界上交通事故发生最多的国家之一[1]，交通安全不容乐观，1990年交通事故成为我国意外死亡的第10大因素，2010年超过癌症，排第4，2013上升至第3[2]。在我国，交通事故已成为威胁人身安全、造成经济损失的重要因素之一，采取行之有效的措施降低交通事故的发生，对社会的稳定与发展具有重要意义。

国外学者早在20世纪70年代就开始研究交通事故的高发点，国内的研究大致起步于20世纪90年代，但发展迅速，目前交通事故已成为公共安全领域的研究热点之一，主要分析方法有数理统计方法[3-6]和空间统计方法[7-10]。例如，OKABE 等[11]系统阐述了Voronoi 图、网络核密度估计、网络Huff模型等方法，并用来分析道路网络上发生的事件；郭晓魁等[12]运用核密度估计原理和数理统计方法对不同时段、季节的交通事故进行了分析，得到了城郊公路交通事故的时空分布规律；朱杰等[13]用统计方法分析了城市交通事故在不同道路实体上的时空分布规律，采用基于网络的核密度估计方法分析了事故易发点；聂可等[14]的研究表明，网络核密度估计法可直观体现交通事故沿城市路网的聚类模式，对核密度估计结果进行局部Moran’s I 统计，能够鉴别交通事故的易发路段。总体而言，现有的研究在交通事故的时空分析上取得了一系列成果，但将时空属性纳入统一分析过程的研究相对较少，因此往往无法具体把握交通事故的时空分布特征。

本研究以H市2013―2015年3 a的交通事故数据为研究对象，根据自组织神经网络、平行坐标系、时空颜色矩阵和时空网络核密度估计、热点分析法分别从行政区划以及道路网络上进行交通事故时空特征分析，以期从宏观和微观角度揭示交通事故的时空热点区域，准确确定交通事故时空热点路段的范围与边界，为交通事故的分析提供新的视角，也为该市的交通安全整治工作提供科学依据。

1 研究方法

1.1 自组织神经网络

自组织神经网络[15]（self-organizing map，SOM）是一种非监督神经网络学习方法，通过自适应的学习竞争可以进行数据的聚类划分，由于其引入了具有拓扑关系的邻域函数，较传统的K-means 等聚类算法受初值影响小[16]，结果较为稳定。自组织神经网络中每个输入层神经元都与所有的输出层神经元相连，连接的权值为wij，计算方法为：首先将权值wij随机初始化，并令迭代次数为0，然后随机加入输入向量x，并计算输入向量x与输出层神经元j之间的距离dj，选择与输入向量x距离最小的输出层神经元作为获胜神经元，最后更新获胜神经元及其领域内其他神经元的连接权值，完成之后增加迭代次数，重复以上操作，直到达到最大迭代次数时聚类结束，其计算公式如下：

式(1）～（3)中，dj为输入向量与输出层神经元j之间的距离，m为输入层神经元个数，xi为第i个输入向量，wij为第i个输入层神经元与第j个输出层神经元的网络连接权值，t为迭代次数，α(t)为学习速率。

1.2 时空网络核密度估计原理

核密度估计原理[17-18]（kernel density estimation,KDE）的基本思想：认为某一点处的密度值大小与该点一定范围内所包含的数据点有关。时空网络核密度估计原理是在核密度估计原理的基础上，用网络距离代替欧氏距离，基本分析单元由空间子路段拓展为时空子路段形成。如图1所示，其搜索区域不再是以核中心为圆心，以宽窗为半径的圆形区域（虚线圆表示），而是以核中心为起始点，以宽窗为长度极限所能到达的所有道路的线段范围（加粗线表示），其公式为

1.3 热点分析法

空间统计方法主要有空间自相关法（Global Moran's I）[19]，高/低聚类法（Getis-Ord General G）[20]，聚类和异常值分析法（Anselin Local Moran's I）[21]，热点分析法（Getis-Ord Gi*）[22]等。其中热点分析法非常适合犯罪、流行病学、投票模式、经济地理学、零售、交通事故分析以及人口统计学分析[23]。热点分析法计算研究区域中每个要素的Getis-Ord Gi*统计，其原理是查看每一要素，计算每个要素及其相邻要素的局部总和并与所有要素的总和进行比较，当局部总和与预期的局部总和差距较大，无法成为随机产生的结果时，会产生一个具有显著统计学意义的z得分。正值z得分越高，高值（热点）的聚类就越紧密；负值z得分越低，低值（冷点）的聚类就越紧密，其计算公式为：

图1 时空网络核密度估计原理Fig.1 Principle of spatial-temporal network kernel density estimation

式(5）～（7)中，xj为要素j的属性值，wi,j为要素i与要素j的空间权重，n为要素总数，G*i为z得分。

2 实例分析

2.1 研究区域概况与数据

2.1.1 研究区域概况

H市下辖8个镇、4个街道，共有161个行政村、64个社区。本研究使用的数据包括交通事故数据与道路交通网络数据，如图2所示。交通事故数据来自该市2013—2015年3 a的交通事故记录，共计176 897 条。每条交通事故记录包含6 大类属性，分别为基本属性、时间属性、位置属性、天气属性、道路属性以及事故评价属性。道路交通网络数据来自经该市行政边界裁剪的openstreetmap（OSM）2017年的矢量路网数据。为了尽可能地还原真实路网情况，裁剪后的道路交通网络数据还需根据高精度的遥感影像数据进行人工补全和细化，共计11 270 条路段。

图2 H市交通事故数据与道路交通网络数据Fig.2 Traffic accident data and traffic network data in H city

2.1.2 数据预处理

交通事故记录是由交通安全管理部门在事故发生地记录而来，由于人为记录的不完善和采集仪器误差，数据中难免出现空值和错误，因此，需要进行数据清洗，根据实际情况共删除13 503 条包含空值的数据，修正2 089 条存在错误的数据，剩余实验数据163 394 条。

图3 路网匹配原理Fig.3 Road network matching principle

交通事故数据点的空间位置往往并不准确位于道路网络上，如图2放大区域所示，因此需要进行路网匹配，具体方法如图3所示。首先对道路网络建立一定宽度（h）的缓冲区，如果事故点（点A）位于缓冲区以内，则将事故点投影到道路网络上（点B）；若事故点（点C）位于缓冲区以外，则剔除这些偏离过远的数据。在实际操作中，通过统计使缓冲区包含80%的数据点，设置缓冲区宽度为44 m，将130 715条交通事故数据匹配到道路网络上，删除其余不在缓冲区内的数据。

每起交通事故的严重程度不同，严重程度大的交通事故具有更大的危害性，在分析交通事故的时空分布规律时需考虑交通事故的严重程度，只有这样才能真实反映交通事故的实际分布情况。因此，引入事故严重程度指数S作为权重因子，根据《道路交通事故等级划分标准》，交通事故严重程度指数主要由事故经济损失值和人员伤亡数量来确定，其公式为

式(8)中，Si表示第i起交通事故的严重程度指数，A1，A2和A3分别表示死亡人数、受伤人数和经济损失值，W1，W2和W3为权重系数，分别设置为0.5，0.02和1/300 00。

2.2 基于行政区划的时空特征分析

在行政区划上，本研究采用自组织神经网络对不同等级的交通事故进行聚类划分，并结合平行坐标系和时空颜色矩阵分析结果[24]。首先采用Jenks自然间断点分级法确定交通事故严重等级。Jenks自然间断点分级法是基于数据中存在的固有自然分组对分类间隔进行识别的方法，因此可以对相似的值进行最恰当的分类，并且使各分类之间的差异达到最大化[25]。本研究中根据交通事故严重程度指数将交通事故划分为5类：轻微事故、较轻事故、一般事故、较重事故、严重事故。然后利用自组织神经网络进行聚类分析，输入向量由不同时段、不同区域、不同等级的交通事故率构成，输入向量在时间维度上包含一天24 h，分为8个时段，在空间上包含H市12个镇或街道，输出层为8个神经元，最大迭代次数为1 000。图4(a)～(h)为分层设色法填充的地图矩阵，每种颜色代表一种聚类；平行坐标系表示每种聚类在不同严重等级下交通事故率的聚类中心，其横轴代表不同等级的交通事故，纵轴代表每km2的交通事故率；时空颜色矩阵具有多维图例的作用，表示对应时间、空间的聚类类别，通过3种方法的结合可以直观表现交通事故热点区域在时间和空间上的演变情况。

图4 基于行政区划的H市交通事故时空热点图Fig.4 Spatial-temporal hotspots map for traffic accidents based on administrative divisions in H city

从图4的平行坐标系中可以看出，整体上看8个聚类，从聚类1到聚类8 严重程度依次下降，其中聚类1、聚类2、聚类3的5种交通事故率均处于较高水平；聚类4的一般及以下事故率处于较高水平，较重及以上事故率处于较低水平；聚类5的轻微事故率处于较高水平，较轻及以上事故率处于较低水平；聚类6的一般及以下事故率处于较高水平，较重及以上事故率处于较低水平，但整体上小于聚类4；聚类7、聚类8的各种交通事故率均处于较低水平，并且聚类7 略大于聚类8。结合图4的平行坐标系和时空颜色矩阵，从地图矩阵中可以看出，0:00―6:00 全市所有镇或街道均处于聚类8，说明凌晨至黎明时段全市各类交通事故率均处于最低水平，从全天看，只有C 镇和H 镇一直处于聚类8，其他镇或街道在6:00 以后均有不同变化，说明C 镇和H 镇交通情况良好，全天各类交通事故率均处于最低水平；A 镇、B 镇在6:00―21:00 处于聚类7，D 镇、E 镇在6:00―18:00 处于聚类7，说明这4个镇在白天时段各类交通事故率均有所上升，D 镇、E 镇在进入夜晚后有所下降，而A 镇、B 镇会继续持续一段时间；相较夜晚，F 镇只在早高峰时段各类交通事故率有所上升，而G 镇在早、晚高峰时段均有所上升；I 街道在6:00―18:00 处于聚类6，说明该街道白天与夜晚严重交通事故率变化不大，但一般及以下交通事故率有明显上升；J 街道在6:00―15:00 处于聚类2，在15:00―18:00 处于聚类1，说明J 街道白天时段，尤其是在晚高峰时段是全市各类交通事故率最高的区域；K 街道在6:00―18:00 处于聚类4，是H市中各类交通事故率第2高区域；L 街道在6:00―19:00与15:00―18:00 处于聚类5，说明该区域在早、晚高峰时段较轻及以上事故发生率与夜晚相差不大，但轻微事故发生率却显著上升。整体来说，从时间上看，白天各类交通事故发生率高于夜晚，并且在早、晚高峰时段达到最高；从空间上看，4个街道各类交通事故率高于8个镇，并且市政府所在地J 街道是各类交通事故率最高的区域。因此，在H市交通安全整治中应着重关注4个街道所在的城市中心区域，尤其是J 街道；各镇或街道在治理过程中应着重关注早、晚高峰时段。

2.3 基于道路网络的时空特征分析

在道路网络上，采用时空网络核密度估计方法进行交通事故的时空分析，由于交通事故是严格约束在道路网络上的事件，采用网络距离代替欧氏距离可以更好地反映核中心的真实密度，并且通过时间维度的拓展可以反映交通事故在时间维度的聚集性，因此，有助于具体把握交通事故的时空分布特征。由时空网络核密度估计的原理可知，其考量标准为宽窗内数据点的数量与距离，这样势必会在交通事故多发区域形成密度热点，但由于交通事故的严重程度不同，因此将事故严重程度指数S作为权重因子，构建一种顾及交通事故严重程度的时空网络核密度估计方法对交通事故进行密度估计，其计算公式为：

式(9)和(10)中，λ表示顾及交通事故严重程度的时空网络核密度估计值，K为高斯核函数，其余参数同式(4)。

根据近似密度与真实密度的均方误差最小时的宽窗为最优宽窗的原则进行计算，得到空间宽窗h1为669.4 m，根据最优宽窗的十分之一确定空间步长为66.94 m。按照空间步长将11 270 条路段划分子路段，其中不足空间步长的部分单独作为子路段，最后得到58 414 条子路段。同样经过计算得到时间宽窗h2为0.34 h，空间步长为0.03 h，考虑到交通事故的现实情况，将时间步长划分至1 h 以下没有现实意义，因此根据实际情况，设置时间宽窗h2为3 h，时间步长为1 h，最终得到58 414×24 条时空子路段。然后，分别计算每条时空子路段的核密度估计值，利用ArcScene 实现可视化显示，结果如图5所示。图5中，道路交通网络的高度代表时间维度，分为24 h，最底部为0:00―1:00的核密度，最高处为23:00―0:00的核密度。从图5中可以直观地看出，交通事故存在明显的时空聚集性，但通过目视判读的方法无法有效确定交通事故的严重区域，尤其是对于严重区域边界的判定存在主观臆断性，因此需要对核密度估计的结果进行有效的鉴别。

图5 H市交通事故时空网络核密度估计图Fig.5 Spatial-temporal network kernel density estimation map for traffic accidents in H city

统计所有时空子路段的核密度估计值发现，绝大多数处于较低水平，仅有少部分处于高水平。在核密度可视化显示中，高值要素（红色）会引起注意，但是该要素可能不是具有显著统计学意义的热点，要成为具有显著统计学意义的热点，该要素应该具有高值，且应该被其他具有高值的要素包围。本研究采用热点分析法对核密度估计的结果进行鉴别，选取时空子路段的核密度估计值作为计算Getis-Ord Gi*统计的要素属性值，选择置信度为99%的统计显著性进行空间热点分析计算，计算结果同样使用ArcScene 进行可视化显示，结果如图6所示。图6中，采用该市行政区划作为地理底图，方便判断交通事故热点位置，交通事故热点可视化方式不变，纵轴为时间维度，不同的是图6中只包含置信度为99%的统计显著性的交通事故热点时空子路段，其余时空子路段不再显示，因此可以清晰准确地判断热点时空子路段的时空位置与边界。

由图6可知，H市交通事故热点区域在空间上呈现明显的“两带一中心”分布，市政府所在的行政中心区域为交通事故最大热点区域，位于H市东北部，其中心位置交通事故最为严重，严重程度由中心向四周扩散并逐渐下降；其余交通事故热点区域主要为各镇或街道的中心区域，这些热点区域主要沿硖许线与101 省道分布，形成东西走向的带状区域。可以发现，行政中心区域由于结构功能复杂、社会资源丰富、生产部门集中等，导致人员、货物流动量大，交通繁忙，是交通事故热点最突出的区域；此外，城市主要干道运载能力强、车速快、车流量大，导致交通事故热点区域多发于主干道上，并且大多是主干道与行政中心区域相交的区域。

同样由图6可知，H市交通事故热点区域在时间上呈现明显的区域特征分布，结构功能不同的区域,热点时段不同，结构功能相同的区域,热点时段基本一致，具体为：以工业办公区为主的区域，交通事故热点出现在9:00 前后的早高峰时段，如d 区域东部、h 区域、o 区域；以生活住宅区为主的区域，交通事故热点出现在17:00 前后的晚高峰时段，如d 区域西部、f 区域、i 区域；以商业消费区为主的区域，交通事故热点出现在18:00―21:00的夜晚时段，如g区域、k 区域、m 区域；此外a 区域、b 区域、c 区域、e 区域、j 区域、n 区域为行政中心区域，这些区域内包含多处住宅区、商业区、办公区、学校等，其结构功能复杂，在9:00和17:00 前后的早晚高峰时段均出现交通事故热点。可以发现，交通事故热点区域多为作为“目的地”的区域，出行人员在早高峰时段集中前往工业办公区，晚高峰时段集中前往生活住宅区，夜晚时段前往商业消费区，加大了这些区域内的交通流量，引起交通拥堵、人车混行等不良交通状态，更容易发生交通事故。

图6 基于道路网络的H市交通事故时空热点图Fig.6 Spatial-temporal hotspots map for traffic accidents based on road network in H city

针对以上分析结果，在H市交通安全整治工作中应着重关注东北部行政中心区域以及硖许线和101 省道等主要干道，并根据区域功能特征分时段重点整治，加强交通事故热点路段的疏导与管理，严格规范机动车与行人的行为，并逐步改善道路环境，完善道路设施，减少交通事故的发生。

3 结论

交通事故具有明显的时空聚集特性，准确判断交通事故的时空热点区域对于交通安全整治工作意义重大。因此，本研究以H市2013―2015年3 a的交通事故数据为研究对象进行分析，结果表明，H市交通事故在空间上，街道区域热点高于镇区域热点，并呈围绕主要干道聚集、在行政中心区域形成热点的模式；在时间上，早、晚高峰时段最为严重，夜晚较为轻微，并呈现与区域特征相关分布。

在方法选用上，首先结合自组织神经网络、平行坐标系、时空颜色矩阵在行政区划上分析不同严重等级交通事故发生率的聚类模式，通过3种方法的结合可以直观表示交通事故热点区域的时空演变情况；然后构建一种顾及交通事故严重程度的时空网络核密度估计模型，在道路网络上对交通事故进行密度估计，并对结果采用Getis-Ord Gi*统计，在道路网络上准确鉴别了交通事故时空热点路段的范围与边界。本研究将时空维度同时纳入考量范围，有助于具体把握交通事故的时空分布特征，对交通安全整治工作提供了更加准确的依据。

本研究有助于交通安全管理部门集中精力优先解决热点区域的交通安全问题，形成的分析方法也可应用于其他约束在网络上的事件，如零售分析、犯罪分析等。但本研究局限于分析交通事故的时空分布，下一步，将应用其他属性信息，定量分析影响交通事故严重程度的因素，以期对交通安全整治工作提供更详细的依据。