基于车辆GPS数据的出租车驾驶人行为分析
2020-03-15贾兴林
贾兴林
(对外经济贸易大学统计学院 北京市 100029)
通过对驾驶员进行管理是预防交通事故,实现交通安全的有效途径。一方面,在人、车、道路组成的复杂交通环境中,人为因素是导致道路交通事故并产生事故伤害的最主要因素[1]。另一方面,已有研究表明,一部分驾驶人存在“事故倾向性”更易发生交通事故[2]。而对驾驶人行为进行监控、分析是进行驾驶员管理的基础。随着车联网、通信技术的发展,出租车运行中的大量数据被采集和存储,以及大数据处理和分析技术的快速发展,为出租车驾驶员行为分析奠定了基础。
驾驶人的驾驶行为受到驾驶习惯的影响,并且在驾驶过程体现出来,但目前已有研究主要集中在驾驶人的异常行为监控识别上。文献[3]在OBD 数据的基础上,对驾驶人猛踩油门、平均加速度等操作行为进行了研究和讨论。文献[4]利用车辆GPS 数据通过高速道路上车辆的速度、加速度等数据识别驾驶人的超速、逆行、紧急制动等行为预测和分级预警。现有驾驶人分析研究中通常会结合车载传感器、视频、道路限速等信息进行异常行为的识别,数据采集成本较高。文献[10]对利用浮动车辆GPS 数据对驾驶人的相对异常行为指标的定义和计算进行了研究。总体而言,对出租车驾驶人长期驾驶中表现的驾驶行为习惯进行分析研究尚较少。
本文以出租车长期积累的GPS 数据为基础,对出租车驾驶人行为数据分析的方法进行了研究。首先,介绍了车辆GPS 数据预处理的技术。然后,重点研究了基于时空领域多车辆GPS 数据的相对驾驶行为特征指标设计和计算的问题,讨论了驾驶人的行为数据分析的方法。最后以四川某地市的实际出租车GPS 数据,对驾驶人的行为进行了实证分析。
1 数据介绍及预处理
本文以时空邻域内多车辆的GPS 数据为核心对驾驶人的行为进行分析。考虑到在同一时刻双向道路间的实际交通状况差异,需通过匹配道路信息以提高空间邻域分析的精度。本节将对车辆GPS和交通道路网络数据进行介绍。
1.1 数据介绍
1.1.1 车辆GPS 数据
随着卫星定位技术(GPS)在出租车管理及监控中的广泛应用,车辆GPS 数据也被大量采集。车辆的单条GPS 数据通常包含了车辆编号、时间、所处经纬度、速度、车头方向等车辆的瞬时信息,如表1 所示。
GPS 数据中的时间信息和经纬度信息代表了车辆的时空信息,速度、车头方向等信息表达了车辆的状态特征。由一系列具有时空属性的GPS 数据点形成了车辆的运行轨迹,称为车辆的GPS 轨迹。本文通过对车辆的长期运行的GPS 轨迹数据的分析,实现对驾驶人的超速、变道、加减速等驾驶行为习惯的刻画和分析。
1.1.2 道路网络拓扑数据
图1:车辆GPS 数据预处理流程
图2:基于HMM 的道路匹配流程
车辆GPS 数据的经纬度信息表达了车辆的空间位置,但道路通常是双向,且同一时刻不同方向上的交通状况差异可能是巨大的。而单点的GPS 经纬度信息并不能区分出车辆所在道路,因此需将GPS 轨迹数据与道路信息进行匹配。
本文采用开源的wiki 地图OpenStreetMap(OSM)数据作为地图数据,并从中解析出道路网络拓扑信息[12]。所解析出的道路网络数据可以区分出道路的方向信息,同一道路的相反方向采用不同道路编号予以区分。
1.2 数据预处理
对GPS数据进行预处理是进行驾驶人行为分析的基础。一方面,受定位精度、天气因素、障碍物、电磁环境等因素的影响,车辆的GPS 数据会产生一定偏移或丢失,需要对GPS 数据的数据项进行处理。另一方面,在驾驶人驾车、休息等不同状态下GPS 数据均会持续记录,需对GPS 轨迹数据进行处理。通常车辆GPS 轨迹数据的预处理包括异常数据处理、停留点发现、数据插值、数据压缩、地图匹配、数据过滤等操作[5][6]。
本文基于出租车GPS 数据特点及驾驶人行为分析的需要,采用如图1 所示数据预处理流程进行GPS 数据预处理。
1.2.1 GPS 数据处理
GPS 数据预处理主要针对GPS 数据中各数据项的异常值及重复值进行处理,包括:空间坐标异常点检测及处理,单指标异常值检测,重复记录检测及处理。
(1)空间坐标异常数据处理。空间异常包括由于信号原因造成数据偏移会出现GPS 数据的空间坐标偏移现象,以及远超出正常行驶空间范围的GPS 记录两种情况。对坐标偏移问题可采用均值过滤算法[7]予以处理,对不合理空间范围的少量坐标点采用直接剔除的处理方法。
表1:车辆GPS 数据示例
表2:驾驶人的行为特征指标
图3:对原始特征采用PCA 降维处理后的聚类结果可视化展示
(2)重复记录处理。GPS 数据的重复记录是指同一车辆在同一时刻有两条及以上完全相同的数据记录。出现这种情况可能与网络传输异常等因素相关。对这类数据的处理方法是:异常仅保留第一条记录,其它记录予以删除。
(3)单指标异常数据处理。单指标异常处理主要指GPS 数据中的速度、方向数据项的异常值进行处理,可采用基于业务或统计的方法进行识别和处理。本研究仅对车辆GPS 数据中车头方向不在0~360,车辆速度不在0~120km/h 的记录予以删除。
1.2.2 GPS 轨迹预处理
GPS 轨迹预处理主要针对车辆的GPS 轨迹数据序列进行处理,以更好反映车辆驾驶人驾驶行为特点。主要包括:停留点发现、GPS 轨迹数据分割、GPS 轨迹数据地图匹配三方面。
(1)GPS 轨迹的停留点。受驾驶人休息、交通拥堵等因素的影响,车辆可能会长时间停留在某个位置,该部分GPS 数据并不能反映驾驶人的真实驾驶行为,因此应予以识别。本文采用基于时空聚类的停留点检测算法[8]进行GPS 数据中停留点的检测,并将停留点的GPS 记录予以剔除。
(2)GPS 轨迹数据分割。在车辆GPS 数据采集设备出现故障或经停留点处理后的轨迹数据中,会出现车辆轨迹在时空上中断、不连续的情况。这种不连续的轨迹数据会影响轨迹数据地图匹配的准确性,进而影响行为分析的结果。因此需从原始的GPS 轨迹中识别出相应的连续子轨迹序列,即对GPS 轨迹进行分割。轨迹数据分割算法包括tdbscan[9]等。
(3)GPS 轨迹数据的地图匹配。车辆GPS 数据仅有车辆自身的时空及速度等信息,而通过将车辆GPS 数据映射到道路交通网络上,能够利用该路段上同时段多辆车的GPS 数据,对驾驶人的相对驾驶行为进行刻画。地图匹配的常见算法包括局部算法、HMMM、ST-Matching、IVVM 等[7]。本文采用基于隐马尔可夫(HMM)的地图匹配算法,将经过轨迹分割后的子轨迹数据分别与道路网络进行匹配,流程如图2 所示。
经1.2 章节的数据预处理,得到了可用于驾驶人行为指标计算的基础数据,在原有GPS 数据的基础上新增了GPS 子轨迹编号、道路编号信息。
2 基于车辆GPS数据的驾驶行为分析
驾驶行为分析主要是为了对驾驶过程中的超速、变道、急加速/刹车等操作进行识别。本文提出以时空邻域内多车辆GPS 数据为核心对驾驶人的超速、变道、加减速行为进行分析,主要方法是:通过将目标车辆GPS 数据与同时段、同一道路上的多车辆的GPS进行比较,提取相对行为指标,进而得到驾驶人的驾驶行为特征。
2.1 驾驶行为特征计算
本文的驾驶人行为特征主要包括:相对超速行为、变道行为、变速(加速/刹车)。
2.1.1 相对超速行为
考虑到在道路限制速度数据获取难度,以及道路通行状况随着事故、拥堵等因素实际道路的允许最大速度是不断变化的。本文通过将时空邻域内多车辆的平均速度作为参照对目标车辆的相对速度进行转换,作为相对超速行为的识别方法。
首先,计算出驾驶人在不同时刻的相对超速倾向。相对超速倾向是某个车辆与时空邻域(一段时间内同一道路上)所有车辆的平均速度的比值,计算公式为:
其中,si,t,r表示第i辆车在t时刻在道路r上的相对超速行为指标;
vi,t,r表示第i 辆车在t 时刻的速度;表示t 时刻的w 时间领域内道路r 上所有出租车数,仅对的时刻进行计算;表示该时段中该路段的平均速度。
然后,通过对第i 辆车所有si,t,r进行统计概括得到驾驶人的超速行为特征,包括:均值avg_si、标准差std_si、最大值max_si、中位数median_si。
2.1.2 变道行为分析
变道行为分析主要对驾驶人在驾驶过程中变道的习惯倾向进行评估。本文通过将车辆在每条道路上车头方向的标准差与同一道路上所有驾驶人车头方向的标准差的进行比较分析,判断该驾驶人在该路段上相对变道行为。
首先,计算驾驶人在每条道路上的相对变道行为指标,计算公式为:
其中,di,r表示第 辆车在道路r 上的变道行为指标,为第i辆车在道路r 上方向角的标准差,表示经过r 道路的所有车辆方向角的平均标准差。
然后,通过对di,r进行统计概括得到驾驶人的变道行为特征,包括:均值avg_di、标准差std_di、最大值max_di、中位数median_di。
2.1.3 变速行为
本文将车辆短时间加速度[8]的绝对值作为驾驶人变速(加速/刹车)行为的评估指标,计算方式如下:
其中,ai,t,r表示车辆i 在t 时刻在r 路段的加速度绝对值,单位m/s2;vi,t,r表示车辆i 在t 时刻r 路段上的车速,vi,t-w,r表示车辆i 在w 时间邻域内在道路r 上的车速;w 表示GPS 记录的时间窗口。
通过对所有ai,t,r进行统计概括得到驾驶人的变速行为特征,包括:均值avg_ai、标准差std_ai、最大值max_ai、中位数median_ai。
2.2 驾驶人的驾驶行为数据分析
基于车辆历史GPS 数据的驾驶人驾驶行为数据分析的主要目的是:帮助车辆运营管理公司提升管理效率。2.1 定义了基于车辆GPS 数据的相对行为指标,可基于这些指标进行后续数据分析工作。
(1)可对驾驶人的驾驶行为指标进行统计分析。一方面,通过计算每个驾驶人各项行为指标的均值、方差、四分位数的统计特征,得到驾驶人的行为概括,同时可结合多种统计图形、可视化技术进行分析。另一方面,可与时间、道路等维度进行关联统计分析,以分析驾驶人的危险驾驶行为与时间、道路的关系。
(2)可利用上述驾驶行为特征数据对驾驶人进行分群能够帮助管理团队更好认识驾驶人,提升管理效率。而聚类分析是一种无监督学习方法,利用相似性或距离计算将样本数据划分为多个簇,簇中差异尽量小,簇间差异尽量大[10][11]。常用的聚类算法包括k-means、分层聚类、基于密度聚类等。本文在驾驶人行为指标的基础上,采用k-means 算法对驾驶人进行聚类分析。
3 实证分析
本节中将以四川某市的出租车GPS 数据为基础,对驾驶人的行为指标进行计算,对驾驶人行为进行分析。
3.1 数据说明
数据来源于四川某市的营运车辆监控平台,分析所抽样数据包含79 辆出租车79 位驾驶人在2018年9月29日至2019年2月16日期间的1486.3058万条GPS记录,车辆GPS数据采样周期为10秒。采用1.2 数据预处理方法处理后,保留1046 万多条有效GPS 记录进行驾驶人行为特征指标计算和后续分析。
3.2 数据分析
设置相对超速行为指标计算的时间窗口w=10 分钟,变速行为指标的时间窗口w=10 秒,根据2.1 中驾驶人行为特征指标计算公式对驾驶人行为特征进行提取。
对表2 特征数据进行归一化操作后,采用k-means 算法将驾驶人分层3 类。聚类结果如图3 所示。
从聚类结果可以发现:cluster_2 驾驶人在最大变速指标上明显高于其他两类驾驶人,说明该类驾驶人的急加速/减速行为较多;cluster_3 类驾驶人最大相对速度指标要高于其他两类,说明该类驾驶人相对而言高速行为更多。
4 结论
本文对以车辆GPS 数据为基础对出租车驾驶人的行为分析问题进行了研究。在车辆GPS 数据进行预处理的基础上,提出了基于时空邻域中多车辆的相对驾驶行为特征计算方法,提出了相对车速、变道倾向、变速(加速/刹车)三类行为的计算指标和统计特征。最后对驾驶人行为数据的分析方法进行了简要说明。实证分析的结果表明,本文所采用的方法和流程在利用车辆历史GPS 数据进行出租车驾驶人行为分析方面的有效性,有助于提升驾驶人的分类管理。
本文提出的基于时空邻域多车辆的相对驾驶行为计算方法具有一定创新和推广价值。但同时,该算法在海量GPS 数据上的计算复杂度较大,难以满足实时计算需求,后续可进一步研究、优化。