APP下载

多源数据融合的出行者画像研究

2017-06-19吕明程歆

科技创新导报 2017年10期

吕明+程歆

摘 要:用戶画像分析利用用户使用手机、PC时留下的网页浏览痕迹等进行分析,确定并勾勒用户在互联网中的身份,完整地构建用户画像能够相对明确地了解用户需求,这对于互联网时代提升用户体验非常重要。该文通过将用户画像的概念转移应用到交通领域,利用多源出行数据描绘出行者与交通行为画像,分析出行者交通选择行为在不同交通状况下的异同,为交通规划决策提供量化支持和决策依据。

关键词:出行者画像 出行选择 多源数据融合 出行链

中图分类号:P208 文献标识码:A 文章编号:1674-098X(2017)04(a)-0143-03

所谓用户画像,一是指单个用户所有标签的集合,通过可以获取的用户的社会属性(如性别、年龄、工作、收入等),将用户所有的选择偏好综合起来,勾勒出该用户的整体特征与轮廓;二是根据其属性或标签集进行分类和预测,从而实现特定的目的,如信用评级、受众类型等的划分。用户画像更深层次的意义,是根据用户数据和行为,为特定的客户进行按需定制。在大数据分析中对特定的用户群体进行分类分析,形成不同维度的属性标签,从而采取不同的商业行为和措施,以达到特定的利益目标。

对于出行者行为的画像来说,首先需要指出的是分析的对象不是特定的某个出行者,而是每个出行者参与到整个交通系统中所呈现的群体行为,从非集计的角度来分析和研究个体行为对整个交通系统的影响,同时对相同交通行为的选择结果进行分析,找出影响群体交通选择行为的主要因素,量化影响因素的程度和范围。

1 多源交通数据的搜集和应用

随着GPS设备和智能手机应用的普及,与交通相关的数据已经从传统的粗放型、局部性的数据逐渐细化,以下是大数据时代下产生的与交通相关的新型数据。

(1)GPS数据是车载GPS设备在指定的时间间隔内记录的速度、方向角、经纬度信息、时间戳以及其他信息。现阶段GPS设备广泛应用于公交车辆、出租车辆、网约车以及其他特种车辆,记录了车辆在运营过程中的位置信息以及其他一些与运营相关的信息。

(2)公交刷卡数据是指各个城市发行的针对公共交通(通常包括公交车和轨道运输)的IC卡在使用时所记录的刷卡信息。刷卡数据对于公交公司优化企业运营、提高服务质量有很大的帮助,同时也可以反映出出行人流在空间和时间上的移动规律。

(3)手机信令数据是由手机信号发射和接收所产生的数据,通常指通讯运营商为维持移动通讯的正常运行而搜集和回收的数据。但是随着GPS模块在智能手机的广泛运用,部分APP也可以定期收集并上传使用者的位置以及其他一些与交通相关的信息。

(4)网页爬取数据是一个比较宽泛的概念,在这里主要是指从特定的网站如搜房网、58同城、美团、大众等爬取的与出行者活动相关的设施如居住场所、办公场所、餐馆、运动场所、娱乐场所等。

(5)卡口数据与路网数据。卡口数据指的是在某些控制性的道路路段断面安装线圈、微波、红外等设备,监测断面的车流量和速度等信息,是监测交通流量的主要方法。路网数据指的是道路路段的基本信息,如路段长度、宽度、车道数、设计通行能力以及拓扑结构;运行于其上的交通管理控制设施;实时的道路运营情况如道路大修、事故占道等信息。

与交通相关的数据还有很多,现阶段对交通数据的处理、应用和分析通常只是针对单数据源的。由于数据源本身的限制,导致数据分析的结果或多或少带有偏差,多源数据融合的过程是将以上数据综合起来分析,利用数据挖掘和分析的方法对整个城市的出行者的交通活动做更精准的提取、量化和扩样,从而尽量避免单一数据源分析所带来的样本偏差。

2 出行者行为画像

2.1 多源出行数据融合画像

出行者多源出行数据融合画像就是基于以上的基本理论,整个多源数据融合过程其实是作为整个交通大数据应用的一部分,使用多源数据提取出行者的详细出行信息,形成并探讨其实际出行选择与备选方案之间的差别;对出行链效用方程中的参数进行估计,并将出行根据大数据以及传统的城市人口数据和土地规划等结合起来对整个城市的出行者进行泛化和扩样,利用非集计模型对整个城市的出行者进行仿真并将结果应用到实际工作中;同时,仿真模型再与大数据中的各项观测数据进行对比,矫正模型参数和精度。整个过程循环递进优化,同时勾勒的出行者画像也在不断的迭代调优中更加准确。

2.2 出行链

出行者通常会按照自己的意愿或作为社会一份子而产生的活动安排出行,而各项社会活动或生计需求就会产生各种时空上的移动,把出行者的各项活动之间用出行连接起来就形成了出行链。

一般情况下,正是大量工作开始时间相近的刚性出行活动导致了交通系统的高峰期,而大量出行时间、地点等的弹性可变的非刚性出行导致了交通系统的不确定性。基于出行链的出行理论主要有以下5点:(1)出行的需求源于社会经济活动的需要;(2)人的行为受时空的限制要在不同时间和地点进行不同活动,并且去各个活动地点都要花费时间;(3)通常人的出行都是以家庭为基本单位,家庭影响个人的活动和出行决策。许多决策作为家庭决策的一部分,受家庭中其他成员的限制,所以家庭类型和生活方式也影响个人的选择;(4)活动和出行决策是动态的,一次决策受过去和预期事件的影响[1],同时也受到当前环境的影响,出行计划可能根据实际情况而实时变化;(5)出行过程中出行者将面临一定数量的选择,并在各个选项间衡量对比后做出决策,最终实施的出行计划虽然可能由于路网的动态变化和交通系统的不确定性导致与预期有所差别,但却是决策时选择集中效用最大的一项。

前文已经提到,作为出行行为决策的出行者(或家庭)在出行活动中面临的一系列可以选择的、选择分支相互独立的集合中,会选择他认为效用最大的选择项,这个被称为效用最大化行为假说。而量化这一过程中目前广泛应用的模型为Logit模型,Logit模型正是以某次出行行为的选择集为基础设定效用函数,计算各选项被选择的概率并估计影响各选项的参数,而将每一次的出行连接起来,就形成了基于一天活动的出行链。其效用方程如下所示:

其中Sact為第q项活动如工作所产生的效用值,计算方法如下:

Sdur,q为第q项活动持续时间所产生的效用值。

Swait,q为第q项活动开始前等待所产生的效用,通常此项效用为负值,即等待时间越长,其产生的负效用越高。

Slate.ar,q为第q项活动到达活动地点晚于预计时间的效用,通常用于衡量到达工作地点晚于规定时间的惩罚值。

Searly,dp,q为第q项活动期间提前结束此项活动而产生的效用值,通常为负。

Sshort.dur,q为第q项活动停留时间的效用值,与Searly,dp,q稍有不同,通常每项活动都设有一最短停留时间,有的活动即使迟到早退,只要停留时间超过规定阀值,就不会产生负效用,如周日的逛街购物计划。

Strav,mode(q)为活动间转换产生的出行效用,通常计算方法如下:

出行的计算考虑了出行模式Cmode,距离dtrav,q、出行时间ttrav,q、换乘因素Xtransfer,出行费用mq等,而其中的参数就是描述出行者画像的主要量化指标。这些参数的值决定了不同出行者在面临不同的选择方式时的决策结果,对这些参数的估计就是多源数据融合的出行者画像的最重要的部分,也是对出行者出行过程最精确的描述。

2.3 出行者行为分析和仿真

通过多源数据的融合,可以得到部分出行者的出行信息,再根据城市土地规划、各区人口数据等将数据进行泛化扩样,从而得到了整个城市所有出行者一天的交通活动的初始计划,并利用MATSim对其进行仿真。为保证模型的仿真精度,使用MATSim对整个城市的交通系统的运行状况及出行者的出行采取开放的方式,即出行者的出行画像、基本出行集等按照多源交通大数据进行校正,每一次的数据矫正是建立在其他数据源的基础上进行迭代寻优,以迭代收敛为主要目标,旨在充分利用和融合各数据源,从而使模型精度不断提高。

3 应用

对出行者的出行行为进行画像,根据其选择偏好进行参数估计,最终通过仿真模型将整个城市的模型进行仿真,其主要的应用可以体现在以下几个方面。

3.1 交通相关政策的辅助决策

通过对如拥堵收费、划定公交车专用道、换乘优惠、停车费用调控等相关交通政策实施前后整个交通系统运行状况的仿真,可精确量化政策实施前后各项交通指标,如道路使用效率、出行者广义出行费用的变化以及出行方式变化比例等,为相关政策和措施提供决策支持。

3.2 片区交通改善的前后对比

对于某一片区交通设施、交通组织方式等的改善方案进行仿真,针对改善目的对各个方案进行量化评价和对比,从而选出最优改善方案。

3.3 出行者出行的出行划分和诱导建议

对整个深圳市区域内所有出行者的仿真过程,是对出行者出行时所面临的一系列的决策进行分析,通过对这些离散选择模型的分析和研究,了解其选择过程中的决定因素,对整个系统对仿真和掌控了解可以很好地把握各项交通相关决策的临界点,对出行进行诱导,从而降低路网交通压力,提高出行者出行效率。

3.4 公共交通优化的对比与决策支持

对整个深圳市的交通系统进行仿真,了解使用公交系统的实际情况,掌握公交、地铁的客流集散情况,可根据实际的客流集散点对公交线路、班次进行优化,同时对比优化前后的交通状况。

3.5 交通状况预测和预警

通过设置仿真时间,基于现状交通进行仿真,同时可以回拨或加快仿真对形式、对交通状况进行预测,对交通拥堵区域提前预警,从而可以提前采取相应的管理、应对方案,对整个交通的运行状况进行掌控。

3.6 重大事件的交通疏散方案对比

对重大交通事件的疏散方案进行仿真对比,对各方案的疏散效率进行分析评价,从而找出最终方案;或通过设置限定条件与疏散要求,对重大事件发生时的疏散进行仿真,从而自动获取疏散方案。

3.7 车辆调控方案评价

通过仿真的手段可以了解全市机动车拥有量逐年增加的情况下动态和静态交通设施的承载能力,有效地对机动车拥有量进行宏观调控。

3.8 路网可达性、可靠性评价

通过分析出行者个人的出行链和出行方案,对整个深圳市的路网可达性以及可靠性进行有效的量化评价。

4 结语

在“互联网+”的背景下,大数据技术在交通业务领域的应用不断扩展,而智能手机、物联网等技术的不断更新,进一步触发了交通规划和管理模式的转变。在妥善解决个人信息安全与隐私保护的前提下,多源数据的融合和应用在未来一段时间内将成为趋势。利用数据融合对出行者的交通相关行为的画像,有利于各方充分利用现有的数据资源,有效实现规划和管理的精准实施和相关政策、措施的支撑,同时在出行者行为和选择模型方面也可进行创新性的探索和实践。

参考文献

[1] 余孟杰.产品研发中用户画像的数据模建——从具象到抽象[J].设计艺术研究,2014(6):60-64.

[2] 刘海,卢慧,阮金花,等.基于“用户画像”挖掘的精准营销细分模型研究[J].丝绸,2015(52):37-47.

[3] 张慷.手机用户画像在大数据平台的实现方案[J].信息通信,2014(2):266-267.