基于移动信令数据的城市热点识别方法
2019-02-25彭大芹罗裕枫江德潮刘艳林
彭大芹,罗裕枫,江德潮,刘艳林
(1.新一代信息网络与终端重庆市协同创新中心,重庆 400065;2.重庆邮电大学 电子信息与网络工程研究院,重庆 400065)
0 引 言
随着我国国民经济的快速发展,人们对生活质量的要求也越来越高,根据城市人口聚集特点进行城市热点区域的判定及功能类型标定,对于现代城市规划,使人们能更加便捷、舒适地生活,以及针对性地开展引导性的人群疏散、规避交通拥堵等具有重要意义[1-2]。
近年来,通过分析用户的时空轨迹来研究用户的行为模式[3]、出行起止点(origin destination,OD)[4]、区域人口密度[5]、职住地分布[6]等已经取得了一定的成果,而时空轨迹分析的主要方法是基于全球定位系统(global positioning system,GPS)数据与手机信令数据。其中,用户驻留点的判别是用户行为分析的关键,亦是后续出行OD、职住地等研究的前提[7]。目前热点区域分析方法大部分是基于GPS的轨迹数据,从轨迹数据中提取经度、纬度、速度等关键字段判断用户在城市中的驻留位置,进而识别城市热点区域。文献[8]主要基于大量用户位置服务数据,对用户停留点用DBSCAN聚类算法挖掘热点区域,文献[9]则主要从出租车GPS原始数据进行停靠点的提取,然后对按时间段分块的停靠点并行运行基于密度的空间聚类来发现不同时段的热点区域。GPS定位数据相比手机信令数据定位精度高,但在实际的研究与应用中,GPS数据的获取都必须通过装有GPS的设备,存在成本高、设备投资大等问题,同时GPS数据也会由于遇到“城市峡谷”、遮挡物等引起信号丢失,从而造成数据缺失等诸多问题[10]。
随着移动通信系统的不断优化和完善,为移动网络定位技术的实现提供了条件。手机信令定位技术目前存在的问题在于定位的精度很低,基本在几百米至几千米的范围内。但是手机信令有它得天独厚的优势:①城市基站实现全覆盖,能对手机用户实现时空位置的识别;②手机用户的普及率和使用率均达到了相当高的比例;③定位可以在现有网络资源下,产生的附加成本小。因此,利用手机信令数据,可以了解到任意时刻手机用户在城市区域内的分布情况,从而实现对区域内人群数量的统计,达到对区域内热点识别的效果。然而基于移动信令的定位技术,到目前为止主要用于完成区域内人群实时监测,包括区域内实时人流量大小、人流密度分布等。文献[11-14]证明了利用移动信令描述手机用户移动模式是可行的。文献[15]设计了改进的基于密度的DBSCAN算法,从大量用户手机位置数据挖掘人流密度较大的区域,并将该算法成功应用于华盛顿热点区域的分析。
综合上述研究,提出了基于移动信令数据的方法来判断城市热点,采用上述类似的方法判断用户的驻留点,但是在驻留点识别结果中考虑到处于用户居住地或者工作地等常驻地用户在热点区域活动的不确定性,引入了衰减因子来计算常住用户对热点区域的贡献度,增加了聚类结果的精准度,同时对判断出的热点区域标定了功能类型,对用户的出行、旅游等提供了方便,还可以对新发展城区的 POIs 数据库的扩充提供一定的参考价值。
1 基本概念
1.1 移动信令数据与POI数据
移动信令数据是由移动用户发生相应通信事件所产生的,以下对产生移动用户信令数据的通信事件进行简单介绍,如图1所示。
图1 通信事件简介图Fig.1 Communication events introduction diagram
本文利用上述5类通信事件产生的移动信令数据作为城市热点识别的数据源,其包含的主要字段与说明如表1所示。在本文中用到了序号为3,4,6和9的字段,其中,CELLID字段中包含了经度(Lngt)和纬度(Lat)。一条信令数据由用户编号、经度、纬度、进出小区的时间构成,即小区Cell(ID,Lngt,Lat,t1,t2)。而一条信令轨迹Track由用户移动过程中所经历的小区(Cell1(ID,Lngt1,Lat1,t11,t12),Cell2(ID,Lngt2,Lat2,t21,t22),…,Celln(ID,Lngtn,Latn,tn1,tn2))组成。
兴趣点(point of interest, POI)数据,即包含名称、类别、经度和纬度等多个属性的数据,用以在电子地图上标示出某个地方的某个地标或景点。其作为描述城市的地标性建筑物数据,描述实体位置的能力是很强大的,在研究中可以有效地帮助我们提高识别出的城市热点的精度与速度。
表1 移动用户信令数据部分字段说明Tab.1 Mobile user signaling data part field description
1.2 用户驻留点
关于手机轨迹中驻留点的描述不尽相同,但总的可以归结为在一个蜂窝内,用户的停留时间超过一定的时间阈值,即可以判定用户在该小区内驻留。
1.3 活跃蜂窝
活跃蜂窝表示某个蜂窝内的用户驻留数超过了一定的人数范围,该蜂窝即为活跃蜂窝。
1.4 热点区域
一个城市热点区域是指商业较发达区域、大量用户驻留或一个用户多次驻留的场所,例如重庆解放碑、观音桥等。所以,一个城市热点区域包含一个或多个活跃蜂窝。
2 思路分析
本文的设计思路主要是①原始信令数据的清洗和预处理;②根据用户的驻留时长识别驻留点;③计算常驻用户对热点区域的贡献度,判断活跃蜂窝;④对活跃蜂窝进行相似性度量并进行基于密度的聚类,挖掘出城市热点区域;⑤获取热点区域的POI数据,设置热点区域的功能类型。具体的流程图如图2所示。
2.1 数据清洗与预处理
由于移动网络的复杂性和周边环境的影响,信令数据采集系统实际采集到的原始信令数据中经常夹杂较多的“噪音”数据。对数据进行清洗和预处理可以有效减少“噪音”数据对于驻留点识别的影响,提高识别准确度。信令数据处理过程如图3所示。
图2 流程图Fig.2 Flow diagram
图3 数据预处理Fig.3 Data preprocessing
2.2 用户驻留点识别
用户驻留点的识别没有采用目前应用广泛的基于GPS数据的方法,而是选取了基于移动信令数据的方法。从用户的移动信令轨迹数据中提取驻留点的主要方法是在移动信令数据中,根据用户进出单个蜂窝内的时间字段,计算该用户在此蜂窝内的驻留时长,判断驻留时长是否超过单个蜂窝内的时间阈值,如果是则判定该蜂窝即为用户的一个驻留点。
2.3 提取活跃蜂窝
根据某个时间段内蜂窝中驻留人数的不同,提出了活跃蜂窝的概念。但是在统计蜂窝内驻留人数N时,考虑到驻留用户分为常驻用户和非常驻用户2类,其对某个蜂窝活跃性的判断更甚者对某个区域是否为热点的判定都是有不同的影响。因此,在本文中对蜂窝内驻留用户根据其历史轨迹进行了常驻用户的识别,并引入了衰减因子λ(0<λ<1),计算得到常驻用户数n为该区域成为热点做出的贡献度。最后综合计算该蜂窝内的有效驻留人数P=N-λ·n,判断驻留人数是否超过了单个蜂窝内的人数范围,如果是,则判定此蜂窝为活跃蜂窝。
其中,λ与常驻用户是否在功能区域存在活跃行为相关,若常驻用户在区域内存在多点驻留点,则判定该常驻用户做出了贡献,统计常驻用户中做出了贡献的用户数n1,则λ=1-n1/n。
2.4 挖掘热点区域
热点区域的挖掘是对识别出的活跃蜂窝进行了相似性的度量后,采用了目前应用比较广泛的基于密度的聚类算法。挖掘的过程就是把所有的根据上述过程判定的活跃蜂窝利用欧几里得的相似性度量后,按照他们密度分布不同划分到不同的组内,每个组就代表一个热点区域。这里的密度是表示活跃蜂窝之间的距离,而组即为聚类的结果簇。具体的实现步骤如下。
步骤1活跃蜂窝的位置表示。从上述内容知用户移动过程中的手机信令轨迹可表示为Celln(Lngtn,Latn,tn1,tn2),则活跃蜂窝的位置表示(Lngtn,Latn)。
步骤2对识别出的所有活跃蜂窝进行相似性的识别,其中相似性是指对2个活跃蜂窝对象之间的相似程度的定量度量,若2个蜂窝对象之间越相似则其相似性也就会越高。相似性的计算方法有2种。一种方法是用一个K维空间的点来表示对象,然后用2个点之间的距离来度量对象之间的相似性,距离越小就表示2个对象间的相似性越高。另外一种用来衡量对象间相似性的方法就是分别比较对象的基本特征与某些典型特征。目前相似性的计算技术不下几十种,本文结合数据源特征并综合考虑一些常用方法的优缺点,最终选取了最常用的欧几里得距离算法。根据三角推导,可以得到计算2点距离为
d(x+y)=R·arccos(C)·π/180
(1)
C=sin(Latx)·sin(Laty)+cos(Latx)·
cos(Laty)·cos(MLngtx-MLngty)
(2)
则采用欧几里得的相似度计算公式为
Sin(x+y)=1/(1+d(x+y))
(3)
(1)—(3)式中:R=6 371 km是地球半径;x(Lngtx,Latx),y(Lngty,Laty)是K维空间的2个点,x,y2点的经纬度经过正负处理后得x(MLngtx,MLatx),y(MLngty,MLaty),d(x+y)是2点之间的欧几里得距离,sin(x,y)表示2点间的欧几里得相似度。
步骤3对由相似度度量后的活跃蜂窝进行基于密度的聚类算法,将其划分到不同的组内,而组就是聚类结果的簇,即代表一个城市热点区域。
基于密度的聚类方法要求聚类空间中的一定区域内包含的对象数目不能低于某一阈值,相比于其他聚类算法的优点在于不需要输入聚类划分的个数、能够处理任意形状和大小的簇、具有明显的抗噪声优势等。
2.5 功能类型的标定
对挖掘出的热点区域利用百度地图API获取POI数据,其中每条POI数据中包含POI的名称、类别、经度、纬度等多个属性值。根据热点区域内包含的POI类别个数的不同,分情况讨论热点区域功能类型的标定方法,具体过程如图4所示。
对于包含多个POI类别的热点区域,则利用信息增益法计算出该热点区域内影响较大的类别并标定为该城市热点区域的功能类别。具体步骤如下。
步骤1假设热点区域包含m(m≥1)个POI类别Ci,i=1,2,…,m则热点区域类别的期望信息为
I(C1,C2,…,Cm)=-P1lbP1-
P2lbP2-…-PmlbPm
(4)
(4)式中,Pi=Si/S;Si表示第i个类别在热点区域内出现的次数;S表示所有类别在热点区域内出现的总次数。
步骤2热点区域内第i(0
E(Ci)=Pi·I(Ci)
(5)
步骤3在热点区域内类别Ci的信息增益为
Gain(Ci)=I(C1,C2,…,Cm)-E(Ci)
(6)
步骤4根据前面步骤依次计算出热点区域内所有类别Ci的信息增益值,比较大小,将信息增益值最大的类别即标定为该热点区域的功能类型。
图4 热点区域功能类型的标定流程图Fig.4 Hot spot area function type calibration flow diagram
3 实 验
3.1 移动信令数据与POI数据
实验使用的移动信令数据是由重庆市某运营商提供的并经过加密处理,主要包括用户ID、事件发生时间、基站信息和道路编号等字段,数据以一条信令一行的方式进行存储。其中,用户编号是用户手机号匿名化以后的显示,jumpin表示用户进入目标覆盖区,jumpout则表示用户离开目标覆盖区。部分原始信令数据如图5所示。
图5 部分原始信令数据Fig.5 Part of the original signaling data
POI数据则是利用百度地图API接口获取,可以得到POI的名称、类别、经纬度等属性,部分样例数据如图6所示。
3.2 数据清洗
移动信令数据的质量将直接影响到城市热点识别结果的准确性和有效性,因此,需要对原始的数据进行清洗。首先从原始的移动信令数据中过滤与本文无用信息,提取关键字段;然后删除由于在信息传输过程中发生丢失或错误或重复的无效数据;最后过滤掉产生乒乓切换现象的数据。以移动用户为单位,提取该用户的所有信令数据并按照时间先后顺序构建用户移动轨迹,从而达到减少后期存储、提高查询性能与数据处理能力的效果。
图6 POI样例数据Fig.6 POI sample data
3.3 用户实例与结果分析
本文圈定了重庆市较场口附近区域作为研究目标区域,图7为基站的位置信息图,区域中包含了230个基站,并以区域基站2016年11月30日一天的原始数据作为研究对象,特别地,该天的常驻用户是通过与运营商在该区域的常驻用户库进行对比得到的。运用上述方法进行了城市热点的识别与功能类型的标定。
图7 较场口区域基站位置示意图Fig.7 Location of base station in JiaoChangKou
首先对一天的原始数据进行数据清洗,然后对清洗后的数据进行驻留点识别,主要识别出用户在某个基站的停留时间,根据时间阈值来判断是否为驻留点,经过驻留点判别处理后的部分中间结果数据如图8所示,数据字段为用户ID(USER_ID),进入基站时间(TIME_IN),离开基站时间(TIME_OUT),基站经度(LNG),基站纬度(LAT),基站类型(STATION_TYPE),驻留时间(STAY_TIME)精确到分,是否为驻留点(IS_STAY)。然后确定基站的驻留人数,统计分析得到的部分结果数据如图9所示,数据的字段为基站ID号(ID),基站经度(LNG),基站纬度(LAT), 基站类型(STATION_TYPE),驻留人数(NUM)。最后利用百度地图API的可视化开源库Mapv展现活跃基站的热力图如图10所示。
图8 驻留点样例数据Fig.8 Held point sample data
图9 基站驻留人数样例数据Fig.9 Base station resident number sample data
图10 活跃基站热力图Fig.10 Active base station thermal chart
由图10可以明显的看出,所圈定区域的用户停留点呈现出明显的区域集中性特征,从图10中可以看出,日月光广场、八一广场、解放碑中心、临江门、女人广场等区域人流最为密集,人流多数选择在以上几个区域中停留。
以基站驻留人数分析结果数据为基础,转换为[{LNG,LAT,NUM},{LNG,LAT,NUM,…}]的数据格式,对活跃基站进行距离的聚类,把相近的热点基站归类到一个区域,并利用百度地图的开源库mapV将数据可视化,其效果如图11所示。图11中数字为区域人数。
图11 活跃基站聚合图Fig.11 Active base station aggregation chart
将从百度地图API接口采集到的区域POI数据对应到相应的热点区域中,并对热点区域中的POI数据进行统计分析表如表2所示。
表2 区域POI数据统计表
对热点区域与热点区域中的POI数据结合分析,利用信息增益法实现对热点区域的功能类型的标定。结果如表3所示。
3.4 结果验证
针对实验的结果,本文通过实地调查问卷和实地考察的方式进行结果的验证,每个区域随机选择了100人做考察,结果如表4所示。
表3 区域功能类型结果表
表4 调查问卷结果表
可以看出,实地调查的结果与实验的结果基本一致,但是当2个区距离较近的时候,由于是抽样随机调查,一个区域会受到另一个区域的人流的影响而产生偏差,如表4中的3 387(日月光广场区域)的实验标识结果与调查问卷结果有误差。总体来说,通过实地调查问卷和实地考察的方式说明了本文城市热点识别方法是可行的。
4 结束语
城市热点的识别对于合理地进行城市规划具有重要的参考意义。随着移动网络的全面覆盖,手机信令数据成为了智慧城市、城市规划等研究的一项重要的数据源。本文基于大量用户的信令数据挖掘城市热点区域,并提出了对常驻用户引入衰减因子的新方法,最后结合POI数据对热点区域标定功能类型。某个区域内的POI类别本就是区域标志性的建筑或景点,引入POI数据对热点区域进行功能类型的标定,其实也从侧面印证了文中方法挖掘的热点区域的准确性。另外,还可以通过热点区域的挖掘来扩充区域内的POI数据库。除此以外,还有一点值得引起我们的注意,那就是目前多番提倡的多源数据融合,关注数据之间的联系、隐藏价值以及彼此之间的相互验证等。