基于手机数据的人口出行行为分析研究
2018-10-25吴乃星钤建考汤长猛董路熙张瑞李燕敏高翔
吴乃星,钤建考,汤长猛,董路熙,张瑞,李燕敏,高翔
(1.中国联通网络通信有限公司深圳市分公司;2.深圳北斗应用技术研究院有限公司)
0 引言
了解人们的日常出行行为模式(例如空间位置、出行时间长短、出行顺序、出行模式和活动类型)可以支持城市规划和交通管理。因此,在过去几年里,相关研究越来越受到关注。
各种方法用于采集人们出行数据,例如GPS数据、公交和地铁卡数据,居民出行调查数据、遥感数据、信用卡交易数据等。每种数据都有其独特优势,但手机数据可作为移动传感器,实时采集居民出行数据。首先,移动蜂窝网络覆盖面广[1]。其次,作为人们日常生活中必不可少的交流工具,手机通常全天都在工作,所以记录时间长。再次,生活中手机普及率较高。除了少数买不起手机或者年纪太小以至于无法使用手机的人之外,几乎所有城市居民都可以通过移动手机进行监控,而无需额外的硬件成本[2]。因此,立足于数据驱动角度,手机数据在人口出行行为分析方面具有很大潜力。
海量的手机数据给预处理和特征提取带来困难。主要困难是人们日常出行模式的异质性[3]。在本文中,我们采用可视化技术从手机数据中提取有用的信息。可视化是显示和分析多维数据的直观而有效的方法,有助于发现隐藏出行模式[4]。自2005年以来,可视化分析方法已逐渐成为研究方向。最近大数据可视化给出定义:“可视化将自动分析技术与交互式可视化相结合,以便在庞大异构的数据集基础上进行理解、推理和决策[5]”。基于图像可视化是传达动态信息的自然技术。动画增加视觉可扩展性,而静态可视化技术不能提供足够的空间来显示大规模数据集[6]。
国外方面,文献[7]提出能够识别用户停留点的方法,以测试用户作为实验样本研究出行特征和规律。文献[8]利用手机定位数据分析居民出行特征,建立居民出行特征表和城市交通规划模型。文献[9]开发一种基于手机数据的智能工具,帮助政府机构探索市民的移动规律和优化公共交通。
国内方面,杨飞[10]通过手机定位平面坐标对用户进行追踪,获取居民运动状态,分析活动位置的集中特征,得到出行OD数据。张新虎等[11]通过手机定位方式提取OD数据,总结当前研究中存在的问题,指出未来研究方向。扈中伟[12]利用手机数据分析居民出行特征。张惠等[13]对手机信令数据进行处理,提取用户出行特征,评估城市总体交通水平,为交通规划提供指导建议。
在本文中,我们通过以下两种动画分析居民出行行为:①出行OD图,揭示出行需求的空间结构;②人口密度图表征城市居民的连续空间分布;③人口流线图描述大规模人口运动规律。基于此动画,我们研究以下模式:①城市出行需求结构;②城市居民的日常动态分布;③居民聚集和消散的时空格局。居民出行行为的研究结果可为地方政府在城市交通规划和居民出行规划中提供帮助和借鉴。
1 数据说明
本文模拟的手机信令数据。数据内容主要包括用户编号(User_ID)、时间戳(Timestamp)、经纬度(Longi⁃tude、Latitude)、小区编号(Cell_ID)。
2 数据预处理
2.1 基站位置提取
模拟原始数据中的位置数据存在重复,统计Hash⁃set得到基站坐标。通过新建ID并结合Hashtable建立位置数据与ID间的映射关系,格式为{1,(121.311212,31.472341)},并存储为基站位置文件。
2.2 冗余数据剔除
由于传输过程或通信系统的未知因素,会产生冗余数据。这部分数据无法用于后续研究,主要表现为两类:
一类是空行、字段缺失,数据采集的信息无法分析,因此将其删除。
另一类是异常数据,模拟原始数据中Flag字段表示记录是否获取手机IMSI。若Flag为001,表示为没有获取到手机IMSI,意味着记录的用户ID有误,需将其删除。
2.3 时间粒度处理
本文中的时间粒度是指识别用户位置变化的最小时间间隔。因此选择一分钟作为时间粒度,需过滤因基站频繁切换引起的噪声数据,同时满足视觉连续性的要求。
3 可视化设计和行为分析
本文通过三种方法研究居民出行行为:①出行OD图,②人口密度图,③人口流线图。每个动画都表征一种出行行为模式。
3.1 基于连续时间间隔的相对人数提取方法
由于手机记录不能反映每个基站用户的实时数量,所以在各基站中计算用户的相对数量。基点时间为凌晨3点。然后统计每个基站的用户相对数量,统计规则如下:
Step1:如果用户是以前没有记录的新用户,则对应基站的相对人数加1;
Step2:如果用户以前已经记录过,那么我们应该判断用户是移动到基站还是留在基站。以下的条件将被判断;
Step3:如果用户进入,则前基站的用户数减1。如果是停留,基站的用户数量保持不变。
3.2 出行OD图
出行OD图反映基站间的出行需求。为了尽可能简化呈现元素,画面由连线和圆圈组成。每条连线代表从出发地到目的地的人口转移行为。线段权重代表转移人数。圆心是以基站经纬度为中心,圆圈大小代表基站小区的当前用户数量。
图1
我们可以发现居民聚集过程。出行开始时间是在上午7点30分。上午9:30之前,大量居民涌入城市中心和分中心。当城市中心倾向于饱和时,聚集现象消息在上午11点。
城市主要走廊将城市主要中心与分中心及其周边地区连接起来。分中心周围也可以看到聚集现象,主要是由于分中心有交通枢纽来转移区域居民。
3.3 人口密度图
密度图展示人口密度时空分布。模拟手机数据只能提供各基站小区的人口总数,为了刻画人口密度在时空上的连续变化,我们对基站的人口密度数据进行高斯滤波平滑,得到时空连续的人口密度图。
平滑方法:按照相对人数的统计方法,得到各基站的相对人数Ci,t,即第i个基站t时刻的相对人数。PXi和Pyi表示第i个基站在地图中的位置。本文使用二维高斯低通滤波方法,对各基站小区离散人数进行平滑处理。高斯滤波器结构如下:
图2
3.4 人口流线图
传输网络图表示了人口在不同区域之间的移动,呈现人口移动的完整网络,因此引入了人口流动矢量场图。
首先将地图分成900个格点作为控制点,其中控制点包含中心点,再以30×30网格顶点为中心点,得到控制点。然后将密度图按照十分钟的时间间隔进行时间差分,得到城市人口密度变化量图。最后求出各差值点到各控制点的梯度:
用箭头长短和颜色表示grad(xi,yi)的大小,箭头的方向表示grad(xi,yi)的方向,得到网格化的人口流线图。
按照向量图的方法,以控制点为起点画出相应的向量。此时的向量我们只用长短代表人流的大小,颜色不变。得到向量的终点后,计算个向量终点处的梯度,再以终点为起点画出相应的向量,并保持一定的时间间隔,这样便刻画出流线的效果。
最后对人流较大的地方,按照一定概率随机增加一些向量,形成线簇,来丰富流线的线条。这个概率与该处梯度大小成正比。流线图绘制的线条不再是单一的直线,而是细小的线段。细小的线段首位相连形成流线的效果。
4 案例研究
通过人口密度图和人口流线图可研究城市各区域出行需求状况。研究居民的聚集和消散模式,定性分析居民出行状况。
图3
聚集过程:从上午8:00到中午12:00,人口出现了聚集的现象。从上午8:00开始人口从各个方向聚集到城市中心。8:30-11:30人口聚集速度最快,11:30点之后人口聚集速度有较大幅度回落,12:30聚集过程结束。
消散过程:从下午5:00到晚上11:30,出现人口外流情况,与上午正好相反的过程。
5 结语
可视化是一种新兴技术,适合从大数据中提取居民出行行为特征。本文采用三种可视化方法,揭示出行需求的空间结构和刻画城市居民出行行为模式。基于手机数据的人口出行行为分析研究表明,可视化方法有助于政府制定合理的城市规划方案。