APP下载

基于多源数据融合的过江OD调查技术
——以江苏省过江OD调查为例

2019-02-25

中国公路 2019年1期
关键词:信令交通量数据源

江苏省规划2018年至2020年间新建9座过江通道,然而,自2007年开展“江苏省主要公路机动车OD调查”以来,近十年全省性交通调查数据未更新,因此开展了本次江苏省过江OD调查。随着交通和信息化的快速发展,传统的路边拦车调查难以适用高速机动车调查,越来越多的城市采用大数据技术开展调查工作。

本研究结合大数据技术,充分利用行业数据、手机数据和微信问卷进行OD调查,极大提高了调查效率,降低了调查成本。后期在数据处理时,采用多源数据融合技术,汲取各种调查手段的长处,结合各数据特点全面详实的调查乘客过江出行行为,全面掌握过江出行的交通量、车型、客货比、OD和出行时耗、载客人数,出行目的、载货货重和货种类型等。

多源数据获取

本次调查在调研国内外学者对调查技术的研究基础上,结合江苏省实际数据存储情况,共获得高速公路联网数据、汽渡票根数据、行业统计数据、调查问卷数据和电信手机信令5种数据。

调查方法选择

传统的人工问卷调查和微信调查能获得较完整的交通出行特征信息,但费时费力,并且成本太大而覆盖率较小,不能完全满足本次要求。交通行业数据全面,准确度高,但行业数据对乘客行程路径、出行目的等特征信息了解不够。随着大数据技术的兴起,越来越多的学者采用手机信令数据和百度LBS数据等做交通调查。不同的调查手段获取的数据质量好坏不一,本次调查综合各种调查方法的优势,采用取长补短,针对全省23处过江调查采取不同调查方法,如表1所示。

表1 各调查方式与内容汇总

多源数据结构

从江苏省高速公路联网营运管理中心搜集联网收费站数据,调用了调查期间约1个月的3000万余条数据,该数据可以获得OD出行,车型、出行频次、出行时间等信息,但无法获取实载率、货物种类、出行目的、收费敏感性等信息;本次采用Oricle进行数据存储和处理。通过各汽渡管理处搜集获得13处汽渡过江车辆收费数据及对应的数据字典;通过过江隧道监控数据可获得不同车型(主要以客车为主)的每日流量数据。

在高速公路过江通道和南京、扬州、泰州航段汽渡,当车辆停车取卡时,调查员站在自助刷卡站台前向司机发放二维码卡片,司机在得空时填写问卷,问卷信息回传问卷星。本次问卷调查共出动调查员500余名,调查进行三天三夜,共发放问卷约16万份,回收约8万余份,有效问卷约4万余份,圆满完成了本次调查任务。

手机信令数据覆盖范围广,数据量大,是进行数据补充调查的重要手段。本次利用调查期间全省电信公司的手机信令数据,在Hadoop环境下完成手机数据清洗、过江行为识别、OD目的地识别,并形成OD矩阵。

图1 过江通道大桥客流量调查一览表

图2 区域OD出行特征无限细分画像

5种不同类型的数据均从特定的角度反应了真实的过江特征,本次调查需对获得的多源异构数据进行整合,形成具有完整的出行特征参数。

多源数据融合

多源数据融合体系框架

多源数据融合主要分为三类:数据层融合、特征层融合和决策层融合。本研究主要在特征层和决策层进行融合,采用集中式分布体系,通过对比分析不同数据源的出行特征、OD结果进行融合扩样,构建居民过江出行完整的出行属性表。

多源数据融合与扩样

本次获得的交通行业数据较全,基本满足过江OD出行分析及主要的出行频次、出行时间、载重等参数分析,因此本次数据融合采用对比扩样法,以交通行业数据为主,以微信调查数据和手机信令数据为扩样对象,以每个过江通道的OD对小区为扩充对象,按照不同OD小区对交通量的差值进行出行特征扩样,并形成完整的出行特征表(包含OD出行对)。

无效数据剔除方法:微信调查问卷填写者的素质参差不齐,在实际调查中还存在盗刷问卷红包的现象,无效问卷较多,对微信问卷无效数据剔除主要规则如下:一是根据填写用户的IP地址批量查询,与车籍信息匹配,不匹配用户数值剔除;根据起点地址判断位于长江南岸或北岸,根据终点地址判断位于长江南岸或北岸,根据起终点判断是否具备过江行为,不具备过江行为的剔除;根据起终点给出可能的过江通道,对明显不符合逻辑选择的用户进行剔除等。二是根据用户编码、问卷填写时间,答题时长、人数等,利用箱型图提取出异常值。三是对开放性问题,如车型、载客人数、载货重量进行匹配判断,对载客人数过大,载货重量过大等明显不符合逻辑的问卷进行剔除。

在自校核中,可很据每个过江通道(大桥和汽渡)形成的出行特征进行校核,例如对比区县间OD对之间误差是否大于20%,出行频次、出行目的、载客人数、载货和货种等信息是否合理,以此来判断各通道的数据结构是否正确。同时,在同一个数据源下,对比相同区县OD对的出行特征在不同过江通道的结构差异性,对差异较大的OD对进行进一步审查,分析其原因。

对于同一数据源形成出行特征自校后,需要对不同数据源形成的出行特征进行对比和融合。本次数据源中,交通行业数据最全面、最权威,获得区县OD出行对、出行频次、车型结构及载重是本次对比参照的依据。本次数据对比融合主要对问卷数据和手机信令数据而言,通过将区县OD对和特征与交通行业获得的特征对比,确保数据结构偏差不大,为后续数据扩样提供基础。本次调查对历史调查数据和本次调查数据进行对比分析,各已建大桥工可预测数据和实际调查数据进行对比分析,同时还对政策、新建过江通道对过江运输量的影响进行分析。

表2 长江二桥客运出行属性表(整理后)

在完成数据清洗、校核之后,即可对不同数据源进行融合与扩样。本次融合与扩样均以各通道的区县OD对为基础,首先,将客运单位统一归并到人,货运单位统一归并到吨,完成单位归一化处理;其次,依据各通道各区县OD对的比例,对非全样本数据(微信问卷数据和手机信令数据)进行扩样,对应的其他出行特征相应进行扩样;然后,以各通道区县OD对为唯一标示码,用Python语句的Join功能将不同数据源进行连接,将问卷数据中出行目的、载货货种、载客人数、出发时间等信息链接到OD数据对后;最后按照通道、区段和全省三个维度进行数据合并。对隧道过江数据而言,按照南京市内过江出行形成OD属性表,并形成OD属性对、出行时间和出行人数一一对应的属性表。

出行属性表的扩充及结论。为了深入分析过江出行规律,更好的建立过江出行模型,本次在完整的出行属性表之后,加入了时间、距离和费用参数。本次通过Python语句,调用高德地图的API接口,按照Driving模式,最短时间模式提取任何两个区县OD对之间的出行时间、距离和费用;并且,通过各区县的统计局统计各自的经济GDP数据,并将二者GDP链接到OD对属性表后面,建立了OD交通量、出行特征、时间费用及经济参数一一对应的属性表。

从出行属性表各参数的相关关系,可以得出以下结论:客运交通量、载客人数、经济之间有明显的正比关系,而且两城市间经济差越大,其客流量越大;出行时间越短,其交通占比越大,出行频次也越高,上班上学等通勤出行特征更明显;货运量运输对出行费用更加敏感,客运出行对出行时间更加敏感;以上班上学为目的的车辆载客人数明显大于商务出行,载运粮食、快递等货物的货运的出行频次相对较高,载重较小。

数据可视化展示

对手机信令处理后的数据,按照实际坐标导入GIS平台中,按照南京市街道行政区划划分小区,对融合汇总的客货运OD数据按照江苏省各市区县行政区显示交通量。

结合实际地理区划信息、经济、产业及交通网络信息,区域过江出行主要表现为南北方向过江出行,城市内部过江出行主要表现为东西向出行。江苏省过江呈现两头重中间轻的空间格局,主要客流沿江分布,沿江城市连绵化特征明显。从过境出行来看,省内出行占比78%以上,过境出行以苏中到上海、山东到浙江的交通量为主。

结语

本次基于多源数据融合调查方法成功应用于区域OD调查实践中,按照交通特征层融合制定了详细的融合扩样规则,以区县OD对为标识码的出行属性表更加科学高效,便于存入数据库中;加入出行时间、经济和费用等参数后,方便利用机器学习深入分析各出行特征与交通量的关系,便于后期利用分布式算法进行运算和数据更新;而且从数据收集、处理、融合、分析到可视化均提供了技术方法,可供其他调查者参考。

本研究未涉及机器学习部分,需要其他学者进行深入的研究;虽然本研究发现手机信令数据得出结论与实际数据有较大差距,但仍难以找到适当的调查方法能对隧道出行车辆OD进行准确分析,期待其他学者进一步研究。

猜你喜欢

信令交通量数据源
基于ETC门架数据的高速公路交通量转换探究
一种多源数据融合过程中的实体关联性计算方法
移动信令在交通大数据分析中的应用探索
利用属性集相关性与源误差的多真值发现方法研究
Web 大数据系统数据源选择*
基于信令分析的TD-LTE无线网络应用研究
基于四阶段法的公路交通量预测研究
LTE网络信令采集数据的分析及探讨
装备保障数据集成平台