APP下载

电信大数据分析下的时空区域经济可视化应用

2022-03-08李娜刘文敏孟繁瑞刘岩

北京航空航天大学学报 2022年2期
关键词:活跃轨迹基站

李娜,刘文敏,孟繁瑞,刘岩

(国家计算机网络应急技术处理协调中心山东分中心,济南 250002)

随着移动互联网、智能手机、大数据等新一代技术的发展,信息化技术日益普及,极大程度上改变了居民的生活方式。社会信息化和网络化发展导致数据量激增,数据的规律性特征在一定程度上反映了人群在现实生活中的活动特征。在“以人为本”的社会中,人群的行为特征和方式也能够反映出特定区域的发展状况[1-2]。大数据技术时代,国内越来越多的城市提出要加强“智慧城市”建设,“智慧城市”通过有效整合多源信息资源,为城市规划、建设和管理构建新的模式。“智慧城市”建设过程中,如何处理、整合海量数据并加以利用成为了关键。同时,在区域发展规划及经济趋势预测中,大数据的运用已成为新的研究方式,该方式有别于过去普遍采用的问卷调查方式。传统区域经济的研究数据来源多通过人口普查和经济调查的方式进行,其实时性低、泛化性低、准确性低等缺点难以避免;在数据层面,其体量小、不全面、质量参差不齐,获取数据的人力成本高、区域覆盖范围小,且多为政府人员采集,非公开性的特点更是为经济预测带来重重困难。而大数据的5V特征,即规模性(volume)、多样性(variety)、高速性(velocity)、价值性(value)和真实性(veracity),一定程度上克服了传统方式的缺点,其数据量大、获取统一、成本低等优点极大地弥补了传统数据的不足。在众多可用的海量数据中,基于通信网络的电信大数据更具有得天独厚的优势,其时空全覆盖的特点是其他数据所不拥有的。数据的时间连续性能够在历史数据和当前数据的基础上对未来数据进行预测与趋势分析;空间多样性能够在广阔的覆盖面上,动态、实时、快速地进行更新、共享、融合分析。《中国移动互联网发展报告(2020)》指出,截至2019年12月底,中国4G手机用户数量达到12.8亿,占移动电话用户总数的80.1%[3]。利用数据挖掘技术,能够刻画覆盖用户人群的行为画像,提取行为特征[4-5],结合区域经济政策进行评价,可为经济发展提供决策依据。

本文采用多源数据融合分析的方法,在充分研究遥感影像技术[6-7]、手机信令技术[8-9]、交通热力图技术[10]等的基础上,将传统数据与电信大数据融合,实现在电信大数据下的区域经济分析,本文主要工作如下:

1)通过分析数据特征,利用数据挖掘技术完成数据清洗和时空关系关联,获取并补充电信大数据中精确的时间戳、地址等属性,提高数据质量。

2)结合多源数据,对数据特征规则进行筛选和建模,定量分析关联特征,设计基于电信大数据的区域经济分析方法框架,全方位、多角度地分析区域经济状况。

3)对电信大数据下的时空区域经济进行可视化实验分析,结合优化选址方法,指导城市热点商圈布局与调整,挖掘投资商业价值,提高城市系统效率,为“智慧城市”规划提供参考。

1 电信大数据清洗分析

本节对电信大数据进行清洗分析,并选取其中关键项进行数据设计和分析处理。

电信大数据数据量庞大,以2019年9月某省1日内产生的数据为例,数据总量达6TB,涵盖约9 000万用户产生的700亿条记录。其数据格式如表1所示,部分关键项包含用户标识、基站标识码、位置信息、时间戳、手机归属地、手机所在地、事件标识等信息。

表1 电信大数据基本格式Table 1 Basic for mat of telecom big data

对海量的电信大数据进行清洗、去噪和纠偏尤为重要。研究过程中,利用Spark集群计算框架与HDFS文件存储框架,对大量原始的数据进行了预处理,采用Hive存储各类中间结果,采用Hbase存储用于可视化的大规模数据,采用Redis快速存取各类配置和用于界面实时展示数据量较少的分析结果,进而完成了数据的过滤清洗。

1.1 无效数据清洗

原始数据中存在部分无效数据,包括空值、重复值、错误值及格式错误数据等,占比约为0.8%。对于存在极小概率的某些属性字段中会出现缺失信息,采用直接删除的处理方法;对于某些属性字段完全一致的重复数据,保留其中一条数据,删除重复数据,进一步减小计算量;对于存在偏差范围无法覆盖的异常数据及格式错误数据(如不在指定区域经纬度范围内的数据、日期异常、停留时间异常等),采用条件筛选或聚类算法进行清洗。

1.2 噪点数据清洗

原始数据中的人群位置信息是用户处于手机联网时连接的基站位置,由于终端和基站之间通信复杂、时有干扰,在基站比较密集的地区其手机上报的基站附着点会有很多噪声,对基站附着点进行去噪,可以提升数据质量,有利于后续数据分析。

首先对数据进行去重操作,按取10位Geo-Hash算法[11]对数据点合并,利用空间密度聚类DBSCAN算法[12-13]对附着点区域直径50 m、样本量少于5的孤点去噪,利用K-Means算法[14]进行聚类,按聚类类别进行排序,将同类数据合并,得到去噪后的数据结果。同一基站1 d内的数据处理前,基站附着点有4 430个,如图1所示。对其进行数据点去噪,共去除820个,保留3 610个,保留81.49%数据体量,去噪后基站附着点如图2所示。去除冗杂的数据点后,提升了数据质量。

图1 数据清洗前的基站附着点分布Fig.1 Distribution of base station attachment points before data cleaning

图2 数据清洗后的基站附着点分布Fig.2 Distribution of base station attachment points after data cleaning

1.3 轨迹纠偏

在基站比较密集的地区,手机附着的基站其连接轨迹点会来回跳转,使局部轨迹呈现网状结构,并产生乒乓数据[15-16],轨迹纠偏变得更加复杂。对基站轨迹的纠偏去噪,可以从3个方面进行处理。

依次进行7位的GeoHash算法[11]取坐标值,对异常数据纠偏、速度异常数据纠偏、乒乓数据降噪纠偏。舍弃提取的误差范围以外的异常数据,得到清洗后的轨迹数据。轨迹纠偏流程如图3所示。

图3 轨迹纠偏流程Fig.3 Flowchart of track rectification

图4和图5为纠偏前后对比,该轨迹为放置在公交车上的用户手机在相同线路行驶2个来回、共4趟距离的轨迹路程。其原始轨迹如图4所示,轨迹点有879个,对其进行轨迹纠偏,共去除94个,保留785个,保留89.31%数据体量,纠偏后轨迹如图5所示。对比图直观地显示出,移除明显的漂移轨迹点可以提高数据的聚敛性,去除乒乓数据影响后的网状结构,轨迹更加平滑,为后面的分析提供更准确的数据支撑。

图4 数据纠偏前的轨迹Fig.4 Trajectory before data correction

图5 数据纠偏后的轨迹Fig.5 Trajectory after data correction

2 基于电信大数据的区域经济分析方法

区域经济在一定程度上反映了居民的生活水平。基于电信大数据进行规则筛选并对其特征建模,结合电子地图、交通出行数据、人口普查数据等多源数据,进行多尺度、多维度分析,可以为区域经济决策提供参考,具体方法框架如图6所示。在大量原始数据基础上,通过数据清洗提高数据质量,在定义规则中选取特定时间和区域,精确缩小时空范围,进行时空关联并分析。通过数据结果将其可视化,利用图表模式展示分析,将数据通过计量经济学模型进行政策评价,对分析居民社会生活属性、经济发展、政策区域选址等工作提供了有力的数据支撑。本节选取特定时空区域,以某市“夜经济”为例进行区域经济分析方法框架设计。

图6 电信大数据的区域经济分析方法框架Fig.6 Framework of regional economic analysis method for telecom big data

夜经济起源于英国,1995年被英国政府纳入城市发展目标[17],2017年,夜经济占英国GDP的8%,涵盖约1/8的就业岗位。在中国,城市夜经济经历了3个发展阶段,即初始市场、零散夜市和集成商圈[18]。许多一二线城市在2019年纷纷制定夜经济发展战略,并有向三四线城市扩散的迹象。某市在2019年6月出台了《关于推进夜间经济发展的实施意见》,同时进行了大规模的灯光亮化工程、定点夜市鼓励政策等,使夜经济快速升温。2019年11月,首届中国夜间经济论坛上,该市入选“夜间经济十佳城市”。2020年5月,中国受疫情影响,为恢复消费活力,国家再次开放发展夜市经济,推出了“五允许一坚持”政策,下文将基于电信大数据并结合相关政策进行有效评价。

首先,针对某市“夜经济”定义规则,结合已有电信大数据、用户轨迹、人物画像库等信息,提取数据特定属性。其次,划定空间区域范围,选取特定时间范围,查找范围内对应用户轨迹、结合人物画像知识库属性建模,通过Hadoop平台进行分析。最后,对夜间活跃人口行为、出行游玩地点、交通情况等连同经济政策进行评价,并提出选址优化方法,指导城市热点商圈布局与调整,有助于政府决策区域优化选址方法。

2.1 数据规则定义

1)夜间经济:18:00至次日6:00城市各种商业经营活动的总称。

2)夜间人口:18:00至次日6:00活动的人口。

3)夜间活跃人口:夜间发生2 km以上且排除前往火车站位置的移动人口。

4)夜间人口驻留点:夜间出现停留时长在0.5 h以上及5 h以下的位置点。

5)某景点夜间游玩人数:某日夜间在景点基站附近,提取停留时长大于0.5 h且为外地归属信号与停留时长大于0.5 h且为居住地不在该景点的信号,二者加和。

6)夜间人流走廊:夜间活跃人口在某市区迁移情况。

7)外出情况:每小时与常居住地距离在2 km以上的连接数数量统计。

8)夜间人口聚集点识别:提取夜间某时间段内终端所在地,组点形成分布,排除与家庭住址一致的终端,进行聚类。

9)区域范围:某市。

通过对以上规则可视化分析,通过图、表、热力图等对该市区域夜经济情况进行剖析,具体见第3节电信大数据下时空区域经济可视化实验分析。

2.2 电信大数据下时空区域经济发展政策评价算法

地方政策实施效果评估是微观计量经济学的前沿主题。2019年6月,中国出台了《关于推进夜间经济发展的实施意见》,针对夜间的外出意愿和夜经济政策的相关性进行统计学分析,采用双重差分(difference-in-differences,DID)模型算法[19],通过控制实施组和对照组在政策处理前后存在的差异实行政策评价。

DID是评估一项政策是否有效的重要算法,特点为事前差异,即除了要研究的核心变量差异外,还包含产生干扰的其他因素。DID模型的基础是自然实验数据,即被解释变量是由带参数的连续解释变量、离散解释变量控制的。通过建模,控制事前差异,得到真实结果:

式中:Y为被解释变量;X为连续解释变量;Di为离散解释变量;u为截距项,截距项表示解释变量为0时被解释变量的值,在回归算法中意义不大。

式(1)中重点关注α、β、γ的斜率变化,斜率的正负反映出解释变量和被解释变量的正负相关性,斜率为正则代表两变量正相关,斜率为负则代表两变量负相关。

2.3 政策区域选址

将特定时间内的经济活跃区域景点人流数、人口出游数、交通拥堵区域位置、电信大数据呈现的人流密度等数据整合分析,划定时空区域关联分析,利用专家判断、趋势分析、模拟等方法进行经济活跃区域和热门地点输出预测,如特定法定节假日、每日特定时段、重要时间节点等相关区域分析。有助于政府对相关时段的区域经济发展做出决策,选取合适的热门地点有助于市民对市场经济响应。

3 电信大数据下时空区域经济可视化实验分析

3.1 实验环境与数据

3.1.1 实验环境

对海量原始的数据进行处理并建模,分析和计算建模结果。应用技术工具主要为Spark、Spark streaming、Hive、Hbase、Redis、Kafka等,其中Spark用于运行离线计算程序,Spark streaming用于进行实时的流处理,Hive用于存储各类中间结果,Hbase用于存储可用于界面展示的大规模数据库,Redis用于快速存取各类配置和用于界面实时展示的数据量较少的分析结果,Kafka用于在各个程序模块之间实时发布和订阅消息。用于实验的服务器及其配置如表2所示。

表2 实验环境Table 2 Exper imental environment

3.1.2 实验数据

1)数据来源。电信大数据及部分政府统计年鉴数据。

2)数据周期。主要数据来源于2019年9月至10月,部分数据来源于2019年12月。

3)数据处理。利用集群计算框架及文件存储框架,对原始数据进行去重清洗处理,将原始数据解释为区域化数据、轨迹数据和停留数据,并进一步分析。获取轨迹停留数据后,对数据进行基站圈点,得到局部数据,按照时间点、地点等需求打点,利用pyecharts等相应的第三方工具包,在地图上根据经纬度和量值,离线画出热力图等,呈现可视化分析结果。

3.2 时空区域经济可视化分析

基于提取数据特征信息,结合交通、天气等多源数据,将可视化分析形成报告,分为5个方面:夜间活动总概况、游在夜间、行在夜间、玩在夜间及政策评价和结论。

3.2.1 夜间活动总概况

1)夜间活跃人口。随着夜晚来临,居民活动总体趋势下降,22:00左右出现骤降,23:00有32万人在外活动,如图7所示。将2:00—3:00点活动人群视作夜间上班人群,进行差分计算,22:00仍有超15万人在外休闲娱乐。活跃人口随时间分布符合事实规律,进一步验证了数据的准确性。

图7 九月夜间活跃人口Fig.7 Active population at night in September

2)夜间活跃人口年龄和性别比例。夜间活跃在外人群以男性为主(67.18%),年龄分布集中在15~40岁,如图8所示。一方面是年轻人相对有活力,另一方面是男性比女性拥有更强的夜间外出休闲、娱乐意愿。

图8 夜间活跃人口年龄和性别比例Fig.8 Age and gender ratio of active population at night

3)不同行政区活跃人口及人口流动情况。热闹的夜晚正改变着夜生活,从某市范围看,居住在历城区居民活跃人口最多,而从居住地与活跃人口比例上来说,某市槐荫区、历下区和天桥区占比前3,最不活跃的是章丘区,图9反映了某市各区的夜间经济活跃情况。

图9 各区夜间活跃人口数量和比例Fig.9 Number and proportion of active population in different districts at night

从夜间人口迁移数量中可以看出,某市历城区是整个人口流动网络的中心节点,商河县是人口流动的边缘节点,如图10所示。同时,历城区还是整个网络图的桥节点,该市各区域夜间人口流动依靠历城区作为中转实现迁移。

图10 夜间人口迁移数量Fig.10 Population migration number at night

4)某市夜间活跃人口省内来源。从夜间活跃人口中的外省来源绝对数量可以看出,某市周边德州、泰安、济宁和菏泽来源最多(见图11)。考虑外市常住人口基数后(即活跃人口/地区常住人口),发现某市周边泰安、德州两市和莱城区人口在夜间留驻该市的意愿最强。符合距离越近的市被吸引参与该市“夜经济”活动人口比例越高的特点。进一步分析,相近区域受该市夜经济辐射影响更强,距离较远区域受夜经济辐射能力相对较弱。地区人口基数来源:《山东省2018年统计年鉴》。

图11 省内夜间活跃人口来源Fig.11 Sources of night active population in the province

3.2.2 游在夜间

通过图12中展示的4个时间点人口分布来看,21:00某市景点大明湖南岸和环护城河带的市民数量居多,说明夜经济政策点燃了市民夜间休闲的热情。

图12 不同时间点的晚间热力图Fig.12 Thermal map of different time at night

3.2.3 行在夜间

截止2019年12月23日,某市24小时公交K101已运行满1个月,夜间总运送人数超2 000人。图13为当日公交沿线热力图,路线串联了某市几大经济活跃区域(如芙蓉街、世贸购物中心、恒隆购物中心)和人口密集区域(如山大中心校区、裕园小区等),24小时公交提供了便利的夜间回家途经,为该市夜经济注入了新活力。

图13 K101公交沿线热力图Fig.13 Thermal map along K101 bus

3.2.4 玩在夜间

由图8可以看出,夜间活跃人口中15~40岁年龄段占比较高,年轻人常常利用互联网获取交通或消费信息,大数据时代让“线上”服务与“线下”O2O(online to offline)模式被广泛应用。本节选取周六19:00—24:00区间,对某市人口使用地图导航和消费APP情况进行分析,如图14所示(列举部分APP展示)。当夜晚来临,居民活动总体趋势下降,使用支付宝、美团等消费APP的用户数量都高达上万。22:00仍有万级人口使用各类交通导航工具,体现出某市的“夜经济”场景也是万物互联时代的夜经济场景。

图14 娱乐APP夜间使用人数Fig.14 Number of recreational APP users at night

3.2.5 政策评价和结论

采用基于DID的统计学方法,对夜间出游和夜经济政策进行相关性分析。由于政策影响夜间因素,选择是否执行政策和是否以夜间作为虚拟变量,以是否执行政策和是否为夜间的交互项作为政策评价系数,进行统计分析。

假设1 实行夜经济政策对出游行为有显著正向影响,建立回归模型:

式中:Y为出游人数,为被解释变量;X1为人力最适宜温度(25℃)差值;D为解释变量,D1表示是否为假期,D2表示是否为夜间,D3表示是否执行夜经济政策;根据DID理论,δ3为政策影响,δ4为政策实际效果,并考虑了夜间D2与政策D3的交互项。其中,采用分层回归算法:第1步,模型一只纳入2个解释变量对被解释变量进行解释;第2步,模型二利用其他解释变量对被解释变量进行解释。其分析结果如表3所示。

由表3可得,以25℃为基准,当气温每偏离1℃时,每小时出行人数降低1 633人;周末相较于非周末,每小时出行人数增加12 974人;晚上相较于白天,每小时外出休闲人数减少9 066人。将气温、节假日、昼夜等因素差分排除影响后,可得夜经济政策使得夜间每小时出行人数增加了621人。

表3 分析结果Table 3 Analysis r esults

采用DID和层次回归方法对数据进行回归分析,结果表明,政策影响为正向且显著,通过了假设检验,证实了夜经济政策对夜间出游行为有着促进作用。夜间人们的活跃程度较白天显著性降低,该市夜经济还有更大的发展前景。

3.3 热点选址

选取7天内(2019年9月1日至7日)不同时间段经济活跃区域景点的人流数、人口出游数、交通拥堵区域位置和基站附着点人流密度数据整合分析,并进行专家判断和趋势分析,确定位置在某市泉城路、大明湖、趵突泉、甸柳庄环联区域、万达广场等地点为活跃区域点。部分位置预测如图15所示,经济活跃区的判定有助于政府对夜经济发展做出决策,也有助于市民对夜市经济的响应,促进经济消费。

图15 经济活跃区热力图Fig.15 Thermal map of economically active areas

4 结束语

本文结合反映人群活动特征的电信大数据开展研究,将其解释为轨迹数据和区域化数据进行分析应用:

1)对电信大数据进行数据清洗和轨迹纠偏,定量抽取和分析关联特征,减少无效数据,提高数据质量。

2)结合多源数据,对数据规则筛选及特征建模,多角度全方位分析用户行为,将时空区域数据进行可视化分析研究,采用双重差分统计模型评价区域经济政策。

3)提出政策选址结论,用于指导城市热点商圈布局与调整,为区域经济发展提供决策依据。

本文还有很多方面可以改进,未来的研究重点集中在以下3个方面:

1)在本文基础上结合应用信息推送、社交平台及微博热词推荐提取数据,多角度分析,进一步增强信息可靠度。

2)海量数据处理方面,采用多种数据处理算法融合进行清洗排序,增加数据质量可信度和可用度。

3)将区域经济进一步扩展,从时间和空间延伸区域经济的可分析范围,例如,时间可选至重要节点日期等;空间可选购物、美食、旅馆、景区等。扩大经济区域效益范围,可为区域发展提供多方位参考。

猜你喜欢

活跃轨迹基站
基于NETMAX的基站网络优化
浅谈求轨迹方程中的增解与漏解
无从知晓
5G基站辐射对人体有害?
5G基站辐射对人体有害?
5G辐射比4G小
活跃在抗洪救灾一线的巾帼身影
这些活跃在INS的时髦萌娃,你Follow了吗?
捕捉物体运动轨迹
数据分析