APP下载

面向道路交通安全分析的多源异构数据汇聚研究

2022-02-12赵晓华吴大勇闫鹏威赵净洁毕超凡

现代交通与冶金材料 2022年1期
关键词:异构交通事故标签

郭 淼,赵晓华,吴大勇,闫鹏威,赵净洁,毕超凡

(1.北京工业大学北京市交通工程重点实验室,北京 100124;2.招商新智科技有限公司 北京 100070;3.北京市交通运行监测调度中心 北京 100161;4.高德软件有限公司高德未来交通研究中心,北京 100102)

引 言

交通事故是人、车、路、环境等多维要素共同作用的结果。以往研究中学者们重点关注了交通条件(如:流量、速度)、道路条件(如:道路线形、车道数量)、环境条件(如:天气、风力等级)等部分因素对交通事故的影响关系,这部分数据通常由道路运营单位、政府相关管理等部门存储,数据的采集与使用比较容易。由于数据可获得性、可使用性等的限制,学者们对于驾驶行为(如:急加速、急减速、急并道等)与交通事故之间关系的研究相对较少。而随着车载导航软件的广泛使用,通过智能手机等设备采集驾驶员的驾驶行为数据得以实现,为更加全面的解析交通事故的影响因素提供了新的数据支撑,与此同时也对多源海量、异构的数据的互联汇聚提出了挑战。

在多源数据的汇聚研究中,根据研究需求和数据可获得性、可使用性的差异,学者们主要将人、车、路、环境中部分来源的数据进行汇聚。其中,研究较多的是交通流一个维度数据的汇聚,包括将环形线圈检测器、红外检测器、微波检测器、视频图像监测设备等采集的交通量、速度、交通密度、车辆占有率排队长度等数据进行汇聚[1];也有研究将车和路两个维度的数据进行了汇聚,通过将数据划分为道路静态数据和交通动态数据,在交通流数据的基础上,从公路设计文件中提取道路几何线形、路面摩擦系数、交叉口数量等数据与交通流数据进行匹配汇聚,进而研究二者作用下的道路交通安全风险[2];此外,在环境维度中关注较多的是天气数据的互联汇聚,通过将数据库将事故发生地点的经纬坐标与距离事故发生地点最近的环境气象站相匹配,然后利用事故的发生日期和时间,从环境气象站的历史气象数据中提取事故发生前的气象信息,最终实现车、路、环境三个维度数据的汇聚[3];而在人、车、路、环境全维度的数据汇聚研究中,对于与人这一维度相关的数据汇聚主要集中在驾驶人酒后驾车、无证驾驶、违章装载、疲劳驾驶等个人属性方面[4]。

基于现有的多源数据基础,国内外相关学者一直致力于从多个维度挖掘交通事故的影响因素,已取得丰硕的研究成果。在交通条件方面,宋艳艳[5]表明高速公路上、下行流量对事故的相关影响为49%;杨奎等[6]研究上海市快速路事故与交通流关系,发现上游平均速度、下游流量及标准差对事故有显著影响;Quddus[7]发现当控制交通流量、道路几何线形(如坡度和弯道曲率)、车道数量等外部条件时,速度变化与事故率呈统计正相关关系。在道路条件方面,Abdel-Aty等[8]发现多的车道数会导致更多的事故;Baek等[9]的研究表明城郊公路两侧入口过多引起道路安全问题,入口数增加、间距减少,事故数上升;马壮林等[10]基于广珠东线高速的路测事故数据,采用零堆积负二项回归建立事故预测模型,结果表明车道数、曲率变化率、曲线比例、曲度和平均纵坡坡度对路测事故数有显著影响;王雪松等[11-12]应用分层负二项模型和分层贝叶斯模型分析信控交叉口道路设计对事故的影响。在外部环境方面,罗慧等[13]将事故数据与常见天气因素相对应,研究发现气象因素对于交通事故的影响程度大小依次为:能见度、相对湿度、降雨量。此外,也有研究认识到驾驶行为在交通安全致因分析中发挥重要作用,通过驾驶模拟技术分析交通环境和驾驶行为风险间的关系,映射反映安全风险致因机理。Upchurch等[14]开展模拟实验评估高速公路出口设置引导标志的安全效能;Fitzpatrick等[15]通过模拟实验比较互通立交出口导向标志对驾驶行为安全性影响。综上所述,已有研究主要从一个或两个维度挖掘影响交通事故的因素,对于多源数据耦合作用下的交通事故影响因素研究较少;此外,研究中主要使用了模拟驾驶行为数据,对于道路上驾驶员自然驾驶行为数据的应用还比较缺乏。

基于此,本文依托智能手机与导航软件相结合进行数据采集的优势,引入道路上驾驶员的风险驾驶行为数据,使用GIS数据字段提取与数据融合匹配等技术,突破数据之间粒度不一致、标签不统一的壁垒,实现多源异构数据的互联汇聚,建立包含多维影响因素的交通安全分析数据库,在此基础上对多源异构数据汇聚下的高速公路安全影响因素进行分析。为交通安全分析中多源异构数据的互联汇聚提供方法参考,为高速公路管理部门制定交通事故防范措施提供依据。

1 多源数据概况

1.1 数据采集

影响交通事故的多源数据(包括:驾驶行为数据、交通条件数据、道路条件数据、环境条件数据等)涉及到多个维度多种结构的多个因素,仅凭一个部门很难获取涵盖人、车、路、环境等多维要素全面的多源数据。实际上,多源数据需要依靠道路运营单位、政府管理部门以及出行服务企业等基于多种数据采集设备进行采集。其中,驾驶行为数据通过行驶在道路上司机的手机导航软件和手机传感器获取;交通条件数据通过布设在道路上的微波检测器获取;道路条件数据通过道路设计部门提供的CAD图纸获取;环境条件数据提供道路所在区域的气象监测设备获取。此外,事故数据可以通过视频监控、司机报告等获取。具体数据的采集设备以及维护单位如表1所示。

表1 多源数据的采集设备以及维护单位

1.2 数据结构

基于上述多源数据采集手段,可以获取涵盖驾驶行为、交通条件、道路条件、环境条件在内的4个主要维度的数据。其中,每个维度的数据又包含多个字段(/变量),并且由于采集手段以及数据维护单位的不同,各类数据的标签并不统一,数据之间的异构特征对多源数据的互联汇聚提出了挑战。多源数据结构如表2所示。

表2 多源数据结构

1.3 指标计算说明

在数据维护单位提供的原始数据中,有些字段(/变量)可以直接用于交通事故影响因素关系分析,有些还可以在此基础上进一步合成新的交通事故影响因素。为了明确相关指标的含义,对上述数据中包含的重点指标的计算说明如下:

1.3.1 可直接使用的变量

驾驶行为变量。六个驾驶行为变量是通过手机传感器采集驾驶员的加速度和角速度数据,手机GPS系统收集车辆的速度和角速度数据。传感器检测驾驶员是否产生六种驾驶行为中的任何一种,当某些低端移动手机传感器不可用时,GPS可用于补充检测驾驶行为。在此基础上,将急加速与急减速定义为:在手机姿态固定的情况下,若线性加速度大于一定的阈值,将识别并记录为一次急加速或急减速;将急并道和急转弯定义为:在手机姿态固定的情况下,判断原历史转弯的向心力,如果检测角度大于一定的阈值,则判定为一次急并道或急转弯。

拥堵指数变量。交通拥堵状态数据包括时间、平均速度(km/h)、拥堵指数和道路ID。所有道路每2分钟采集并上传一次交通运行状态数据。拥堵指数是指当前道路自由流速度与其平均速度的比值,计算方法如下式

导航软件将拥堵指数划分为四个等级,驾驶员在使用导航软件时分别以不同的颜色显示四个等级。导航软件的交通拥堵状态四个等级定义为:畅通,拥堵指数∈[0,1.5);缓行,拥堵指数∈[1.5,2);拥堵,拥堵指数∈[2,4);严重拥堵,拥堵指数∈[4,+∞)。

1.3.2 可直进一步合成的新变量

速度变异系数(CVS)。道路安全性与速度变化有关。速度的相对波动性越大,道路就越混乱,交通风险更大。因此,提出速度变异系数(CVS)评估道路安全性。速度变异系数的定义如下式

式中CVS为速度变异系数,σ为速度标准差,为速度平均值。

2 多源异构数据融合

为了将多源异构数据应用于交通事故影响因素分析中,需要以事故数据为中心将驾驶行为数据、交通条件数据、道路条件数据以及环境条件数据在相同的时间和空间维度上进行融合。由于多源数据来源不同,各类数据的索引以及数据采集粒度存在较大差异,因此需要在统一数据标签的基础上实现各类异构数据的融合匹配。

2.1 统一数据标签

如前所述,驾驶行为数据主要从出行服务企业(如高德软件有限公司)获取,这类数据的标签包括行为发生的时间和空间(经纬度和路段编号)两个方面,其中经纬度是进行驾驶行为数据空间定位的关键标签。而以道路运营单位、道路设计单位等为主要数据来源的交通条件数据、道路条件数据以及交通事故数据则以桩号作为空间定位的关键标签,同时也包含了时间、方向等数据标签。因此,需要建立经纬度和桩号这两种标签的关系,以转换为同一种数据标签进而实现多源异构数据在空间尺度上的互联汇聚。

实际上,以桩号作为空间定位的标签并未实现道路实体与在线电子地图的同步,因此本研究基于对桩号所在的道路实体空间位置的在线电子地图标定,获取千米桩桩号所对应的经纬度标签,使桩号的经纬度标签与驾驶行为的经纬度标签可以相互映射,最终实现了多源异构数据在空间上索引标签的统一。此外,多源数据在时间上索引标签的区别主要是数据采集粒度的差异,可根据研究需要进行选择,索引标签的统一难度不大。

2.2 数据融合匹配

数据索引标签的统一为多源数据的互联汇聚奠定了基础。如图1所示为多源数据空间匹配过程,基于GIS可视化工具,首先根据标定桩号的经纬度标签,实现道路实体千米桩桩号在在线电子地图上的定位与可视化,并且可以根据桩号的大小顺序确定道路的上行与下行方向,图1(a)所示为桩号位置空间定位。这一操作将以往以桩号作为空间定位的道路条件数据、交通条件数据同时赋予了桩号和经纬度双重标签。其次,原始驾驶行为数据的空间标签主要是经纬度,图1(b)所示为三急行为空间定位,需要注意的是由高德软件有限公司提供的驾驶行为数据不含方向标签,需要借助QGIS中的要素筛选模块,根据桩号的大小顺序为驾驶行为数据赋予方向标签。

通过在线电子地图标定桩号和经纬度标签后,采用QGIS软件中的图层叠加模块即可实现以桩号为标签的交通条件数据、道路条件数据与以经纬度为标签的驾驶行为数据的直接匹配。如图1(c),(d)所示,分别为上行和下行方向上的数据匹配结果。至此,已实现驾驶行为数据、交通条件数据、道路条件数据在空间维度上的融合匹配,环境条件数据以区域编号为空间标签可直接根据研究路段所在的区域进行匹配。

根据研究的需要,可形成每个桩号(1 km)范围内在单位时间(5 min,1 h,1 d等)跨度下各维度中的变量值,形成道路交通安全影响因素多源数据库。多源数据匹配汇聚结果示例如表3所示,表中各变量单位同表2。

表3 多源数据匹配汇聚示例Table 3 Example of multi-source data matching aggregation

3 交通事故影响因素分析

多源数据库的构建汇聚了人、车、路、环境等多维道路交通安全影响因素,为更加全面的挖掘驾驶人因素、交通状况因素、道路条件因素、环境因素对于交通事故的影响关系奠定了基础。基于多源数据的可获得性以及本文提出的多源异构数匹配汇聚方法,将有效提高多源异构数据在交通安全影响因素分析、模型构建等方面的可用性。本文选取高速公路部分路段,获取了多源异构数据资源并构建数据库,对交通事故影响因素进行了初步分析,如下。

研究案例选取沈海高速(G15)的部分路段(桩号1755~1775之间),如图1所示。其中,驾驶行为数据由高德软件有限公司提供,交通条件、道路条件、环境条件以及交通事故等数据由浙江温州甬台温高速公路有限公司提供。基于上述多源异构数据匹配汇聚方法,构建多源交通安全影响因素分析数据库,进行初步的交通事故影响因素分析,验证本文提出的多源异构数据互联汇聚方法的可行性与合理性,进而揭示多源异构数据应用的可行性和因素分析的全面性等方面的重要价值。如图2所示为相关性和显著性分析结果。

以事故数为因变量,以驾驶行为、交通条件、道路条件、环境条件4个维度中的字段为自变量进行相关性和显著性分析。其中,对于连续变量,选择Spearman检验法对各因素变量与事故数进行相关性分析,取90%的置信区间,显著性检测概率P>0.1则该变量对事故数有显著性影响;对于分类变量,使用单因素ANOVA检验法计算显著性水平。研究发现连续变量中,各三急行为、交通流量、平均速度、CVS、上坡长度、平均坡度、警告标志牌数量、禁令标志牌数量的显著性水平大于0.05,如黑色实线所示;分类变量中天气状况、道路类型、车道数对事故数有显著性差异,分类变量的显著性的关系以红色实线表示。需要指出的是多源数据汇聚后,在该研究案例中拥堵指数、直/曲线长度、出入口数等变量与事故数的相关性不高,因此这部分变量未体现在相关性、显著性分析结果图中,这主要是受数据源的影响,未来应采集更长时间的多源数据对上述变量与事故之间的关系做进一步分析。

与事故数相关性较高的变量共包含16个。其中,在与驾驶人有关的因素中,急加速、急减速以及急右转的相关系数均大于0.600,表明驾驶行为对于交通安全的影响不可忽视。一方面,在行车过程中应尽量避免急加速、急减速等风险驾驶行为以提高驾驶的安全性;另一方面,应当重视路段上发生急加速、急减速等风险驾驶行为较多的位置,通过工程等技术手段降低路段的事故风险。在与交通状况有关的因素中,速度变异系数(CVS)的相关系数最大,这表明当道路上车辆的速度波动较大时,交通流的不稳定性增加,发生交通事故的概率也随之上升。在与外部环境有关的因素中,对交通事故有显著影响的变量为天气状况,恶劣的天气状况(如:雨、雪、雾等)会导致路面湿滑、能见度降低,严重影响行车安全,应及时提醒司机谨慎驾驶,严重时应封闭道路。此外,道路因素中的平均坡度、上坡坡长、路段类型、车道数等均对交通事故有显著影响,但是由于研究道路的长度有限,这部分变量的相关系数较小,未来应采集更长的道路数据,进一步论证道路条件对于交通事故的影响关系。

可见,基于多源数据库进行的交通安全分析能够涵盖更多、更全面的交通事故影响因素,特别是自然驾驶行为变量的引入弥补了以往研究中数据的可获取性、可利用性较差以及影响关系不明确的不足。通过本文中的交通事故多源影响因素分析可以为后续交通事故预测、因果关系解析等研究中的变量选择提供参考。

4 结束语

在人、车、路、环境等多源异构数据可获取的情况下,重点解决出行服务企业数据与道路运营管理单位数据标签不统一、粒度不一致的问题,提出以桩号-经纬度相互映射的多源异构数据融合方法,基于QGis在线电子地图可视化工具,实现驾驶行为数据、交通条件数据、道路条件数据、环境条件数据以及交通事故数据在空间上的互联汇聚,并根据研究需要统一多源数据的时间粒度,建立适用于交通安全影响因素分析的多源全面数据库,通过初步的交通事故影响因素分析,从四个维度识别了影响交通事故的重要变量。本研究阐明了多源异构数据匹配汇聚方法的可行性,对搭建包括驾驶行为数据在内的多源海量异构数据的互联汇聚架构、论证多源异构数据应用的可行性和全面性方面具有重要参考价值,为驾驶行为大数据的应用以及交通事故与多维影响因素之间因果关系的挖掘奠定了基础。

猜你喜欢

异构交通事故标签
试论同课异构之“同”与“异”
不同寻常的交通事故
预防交通事故
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
overlay SDN实现异构兼容的关键技术
标签化伤害了谁
LTE异构网技术与组网研究
一起高速交通事故院前急救工作实践与探讨
基于多进制查询树的多标签识别方法