结合手机信令数据和地理空间数据的居民职住信息识别
2019-06-05侯笑宇司连法王梅红
侯笑宇,司连法,王梅红,贺 风
(中国地图出版社,北京 100054)
大数据是继物联网、云计算之后最为热门的信息技术,适用于各行各业的数据融合、处理和挖掘。近年来由于手机大量普及,城市人口的手机覆盖率接近百分之百。手机用户频繁的通话、短信,以及主被动的上网行为使得手机信令数据激增。手机大数据使得获取大量动态的、带有精准时空信息的群体行为数据成为可能,为分析群体行为提供了重要的契机和数据基础。因此,通过海量的手机信令数据,分析研究城市居民的职住信息成了大数据时代下的研究热点[1-6]。
目前,国内外已有一些基于手机信令数据分析居民职住空间的研究。文献[7]通过对手机信令数据进行分析,抽取了居住、就业信令数据的通信特征,如时间分布特征等,并通过模式识别的方法,运用权重的思想提出了一种改进判别方法,从而实现了对就业停留点和居住停留点的识别;文献[8]根据手机通话的位置分布,通过空间聚类等分析识别个体的重要活动地点,结合活动时间判别居住地和工作地。文献[9]在自定义的居住和工作时间段内,通过判断手机用户通话频繁程度识别居住地和工作地。但由于手机信令数据定位精度的不准确性,且判断职住地时只使用了用户轨迹的地理特征,而忽略了用户轨迹的背景地理信息,使得基于手机信令数据职住地的识别仍然具有较大的完善空间。
本文结合成都市基站位置信息和脱敏用户手机信令数据,融合地理信息空间运算能力,通过将手机信令数据与地理信息区块绑定,根据时间特征和地理信息区块的标签属性(如城市住宅小区、大型商场等)识别用户职住信息,对数据处理流程和实现方法进行详细的阐述,并对职住地识别结果的可靠性和适用性进行深入的结果验证,旨在为商业选址、客群管理、城市规划等应用提供丰富的数据支撑。
1 数据处理
1.1 手机信令数据
手机信令数据是典型的大数据[10]。手机在开机状态下,会定期或不定期、主动或被动地与附近基站进行通信,平均每个用户每天会发送10余万条信号,这些信号连续地记录了用户的移动轨迹。与传统数据和其他大数据相比,手机信令数据具有网络覆盖面积广、采样及时、更新及时、数据稳定可靠、样本量大等优势,能够细粒度地记录用户每一时刻的位置信息,因此在识别居民职住信息上最符合需求。同时,手机信令数据也有其自身的不足[11],主要体现在:
(1) 定位数据的不准确。手机信令数据通过基站所处的位置来表征用户的实际位置,因此该位置是在基站的覆盖范围内,并不是用户的真实位置,与实际存在一定偏差。定位精度的高低通常由信号覆盖范围的大小来决定。在城市内,基站密度较高,宏蜂窝覆盖范围为100~300 m,微蜂窝的覆盖范围则通常为几十米;在郊区,覆盖范围多为500~1000 m。
(2) 存在无效的切换数据。用户位于基站交界处时,会导致移动设备所连接的基站反复在相邻基站之间快速跳变;同时地形因素导致手机无法连接就近基站时,会出现异常定位数据,这些无效数据成为数据应用面临的难题。
1.2 地理信息区块数据
本文使用了中国地图出版社自有的地图数据和地理信息区块数据资源,该数据内容丰富,要素齐全、准确、时效性强,内容主要包括地理信息区块、行政区划、居民地、路网、河流、POI数据等。其中地理信息区块是矢量地图数据,表现形式为不规则多边形,包括居民楼区,办公楼区、工业园区、学校园区、医院区域、旅游景点区域等类型。
区块数据的具体表现形式为:
(1) 居民楼区为居住区域,以小区的范围线成块表示。
(2) 工业园区、学校园区、医院区域等属于工作区域,以其范围线成块表示。
(3) 大型商场、大厦、写字楼、机关单位等单体建筑单独成块表示。
每个地理区块具有精细和多样化的属性数据,包括地理区块的自然属性、商业属性、用户属性,多标签的地理区块数据提高了职住信息的获取准确性。地理信息区块数据如图1所示。
1.3 数据预处理
数据预处理主要包括数据缺失处理、地理空间匹配、删除无效切换数据及数据压缩等[12]。针对手机信令数据量大的特点,本文选择Spark集群作为数据处理的平台。具体过程如下:
(1) 将信令数据以天为单位存储到Spark集群。
(2) 将地理信息区块数据通过解析算法存储到Spark集群[13]。
(3) 将手机信令数据与基站进行关联,同时去除其中时间信息与空间信息残缺的记录条目。
(4) 运用空间匹配算法,通过判断基站小区与地理信息区块多边形的拓扑关系,并结合相交面积等因素,将手机信令数据映射至地理实体[14-15],解决了传统基站定位数据不准确的问题。手机信令数据绑定地理实体后,定位点精度收敛稳定,数据可用性高。未绑定地理实体与绑定地理实体的定位点精度对比如图2、图3所示。
(5) 删除无效切换数据,具体算法如下。
输入:绑定地理区块的手机信令数据。
输出:删除无效切换数据后的手机信令数据。
步骤1:将手机信令数据按照用户编号分组,按照时间升序排序。
步骤2:针对同一用户,计算每个时刻相对于上一时刻的距离和速度。
步骤3:依次取信令数据的第n-1条、第n条、第n+1条数据,根据速度和区块编号、区块标签属性,建立用户当前的行为模型,当第n条数据的速度和位置与第n-1条、n+1条数据的速度和位置不满足连续性行为状态时,转到步骤4。
步骤4:将第n条数据修正或删除,转到步骤3。
(6) 基于地理信息区块,对上述算法处理后的数据进行压缩处理,清除大量重复数据。这里的重复数据是指单个用户连续时间位于同一地理区块内,如在9:00—17:00这段工作时间内,同一个人有可能持续位于同一栋办公楼内。清除重复数据的算法如下。
输入:清除无效切换数据后的手机信令数据,按照用户分组、按照时间排序。
输出:清除重复数据后的手机信令数据。
步骤1:遍历数据,按照用户编号分组,以天为单位,找出区块编号相同的连续记录。
步骤2:对于连续相同的记录,进行合并,将第一条数据的时间作为起始时间,最后一条数据的时间作为终止时间。
步骤3:处理完所有连续记录之后,根据每条数据的起始时间和终止时间,计算停留的时间。
2 职住信息获取方法
职住信息的获取是用户行为分析的关键环节,对出行方式、出行目的、行为预测等行为分析会产生重要影响。本文使用职住停留点的时间分布特征对居民职住地进行判别,同时选取该时间范围内绑定的区块属性作为描述职住属性的另一个特征变量。以成都市上下班时间为参考,结合成都市居民的作息时间,选定判断就业时段和居住时段的时间阈值,见表1。
表1 居住与工作判别时间范围
居民的居住场所一般相对固定,本文认为一个手机用户在一天之中,只有一个居住地。本文以识别居民居住地为例,具体算法如下。
输入:经数据预处理之后的手机信令数据。
输出:标有居民居住信息的数据。
步骤1:将手机信令数据以用户和时间分组,按照在区块的驻留时长排序。
步骤2:筛选同一用户驻留时间均位于居住时段,且驻留时长大于预设的阈值T,标注为居住点。
步骤3:通过绑定的区块和区块属性,筛选出有效的居住点。
步骤4:观察重复7 d(工作日)以上信令数据中居住点出现的次数,次数大于预设阈值的居住点标注为用户的居住地。
上述算法忽略了夜间工作、白天休息的部分人群,但考虑了大数据样本的优势,误差在可接受范围内,因此该算法具有较高的实用性。工作地的识别方法与居住地的识别方法相同。
最后,笔者选取了成都市特定人群连续两周的信令数据,通过该算法计算用户的职住地,并与用户实际的职住地进行比较,定位精度高于70%。
3 应用案例
本文的研究成果可为客户提供商业选址、客群管理、广告监测、精准营销、城市规划等决策分析服务,涉及通信、电力、零售、政府等多个行业。现阶段,该成果已应用于运营商的渠道选址规划中,实现的功能主要包括职住分布分析、渠道评估、渠道规划,以及对基础渠道数据的管理。图4为居民职住分布图;图5为渠道规划图,通过对现有渠道的分析,实现选点咨询。
4 结 语
本文通过搭建Spark集群,利用地理信息空间分析服务,对手机信令数据进行与地理实体的绑定计算和用户行为分析。这种基于“区块定位”判断用户位置信息的方法弥补了传统基站定位精度的局限性。依据时间特征,构建了数学模型和算法识别用户的工作地和居住地,并选取特定人群数据进行了精度比较分析,验证结果表明该方法准确性较高,具有较强的实用性。