APP下载

基于基站定位数据的商圈研究*

2018-01-19周昌顺

通信技术 2018年1期
关键词:人流量工作日商圈

张 良,张 欣,周昌顺,文 章

(贵州大学 大数据与信息工程学院,贵州 贵阳 550025)

0 引 言

轨迹挖掘可以定义为从移动定位数据中提取隐含的﹑人们预先不知道的﹑但又潜在有用的移动轨迹模式的过程。轨迹本身的价值及其产生的便捷性,催生了一批基于轨迹的位置服务。目前,轨迹挖掘已经应用到多个重要领域,如社交网络﹑公共安全﹑智能交通管理﹑城市规划与发展等[1]。商圈是现代市场中企业市场活动的空间,最初是站在商品和服务提供者的产地角度提出的,后来逐渐扩展到商圈,同时也是商品和服务享用者的区域[2]。本文基于用户的历史定位数据,采用层次聚类算法,对基于基站数据的商圈聚类。重点在于对不同的商圈分群进行特征分析,比较不同商圈类别的价值,以选择合适的区域进行运营商的促销活动。

1 GSM蜂窝网络结构

GSM网络的基础结构是由一系列蜂窝基站构成的。这些蜂窝基站把整个通信区域划分成如图1所示的一个个蜂窝小区[3]。用移动设备在GSM网络中通信,实际上就是通过某一个蜂窝基站接入GSM网络,然后通过GSM网络进行数据传输。

图1 移动基站

2 数据处理

手机用户在使用短信业务﹑通话业务﹑开关机﹑正常位置更新﹑周期位置更新和切入呼叫时均产生定位数据。定位数据记录手机用户所处基站的编号﹑时间和唯一标识用户的EMASI号等。历史定位数据描绘了用户的活动模式,一个基站覆盖的区域可等价于商圈,通过归纳经过基站覆盖范围的衡量区域的人流特征,识别出不同类别的基站范围,即可等同地识别出不同类别的商圈。

2.1 数据抽取

从移动通信运营商提供的特定接口上解析﹑处理并滤除用户属性后得到用户定位数据。以2016年6月1日为开始时间,2016年12月31日为结束时间,作为分析的观测窗口。抽取观测窗口内某市某区域定位数据形成建模数据,部分数据见表1。

2.2 数据探索分析

以单个用户为例进行数据探索分析,研究在不同基站的停留时间。为了便于观察数据,先提取EMASI号为“55552”的用户在2016年6月1日的定位数据。如表2所示,可以发现用户在2016年6月1日00∶31∶48处于36908基站的范围,下一个记录是用户在2016年6月1日00∶53∶46处于36902基站的范围,表明用户从00∶31∶48到00∶53∶46都是处于36908基站,共停留了21分58秒,并在00∶53∶46进人了36902基站的范围。再下一条记录是用户在2016年6月1日01∶26∶11处于36902基站的范围,可能是由于用户在进行通话或者其他产生定位数据记录的业务。此时的基站编号未发生改变,用户依旧处于36902基站范围。若要计算用户在36902基站范围停留的时间,则需要继续判断下一条记录。可以发现,用户在2016年6月1日02∶13∶46处于36907基站范围,故用户从00∶53∶46到02∶13∶46都是处于36902基站,共停留了80分钟。

表1 某市某区域的定位数据示例

表2 EMASI号为“55552”的用户在2016年6月1日的位置数据

2.3 数据规约

原始数据的属性较多,但网络类型﹑LOC编号和信令类型3个属性对于挖掘目标没有用处,故剔除这3个冗余属性。而衡量用户的停留时间并不需要精确到毫秒级,故可把毫秒这一属性删除。

在计算用户停留时间时,只计算两条记录的时间差。为了减少数据维度,把年﹑月和日合并记为日期,时﹑分和秒合并记为时间。

2.4 数据变换

挖掘的目标是寻找出高价值的商圈,需要根据用户的定位数据提取出衡量基站覆盖范围区域的人流特征,如人均停留时间和﹑人流量等。高价值的商圈具有人流量大﹑人均停留时间长的特点。但是,在写字楼工作的上班族白天所处的基站范围基本固定,停留时间也相对较长;晚上住宅区的居民所处的基站范围基本固定,停留时间也相对较长。因此,仅通过停留时间作为人流特征,将难以区分高价值商圈﹑写字楼与住宅区。所以,提取出来的人流特征必须能较为明显地区别这些基站范围。下面设计工作日上班时间人均停留时间﹑凌晨人均停留时间﹑周末人均停留时间和日均人流量,将其作为基站覆盖范围区域的人流特征。

工作日上班时间人均停留时间是所有用户在工作日上班时间处在该基站范围内的平均时间。居民一般的上班工作时间是在9∶00—18∶00,所以工作日上班时间人均停留时间是计算所有用户在工作日9∶00—18∶00处在该基站范围内的平均时间。

凌晨人均停留时间是指所有用户在00∶00—07∶00处在该基站范围内的平均时间。一般居民在00∶00—07∶00都是在住处休息,利用这个指标则可以表征出住宅区基站的人流特征。

周末人均停留时间是指所有用户周末处在该基站范围内的平均时间。高价值商圈在周末的逛街人数和时间都会大幅增加,利用这个指标则可以表征高价值商圈的人流特征。

日均人流量指平均每天曾经在该基站范围内的人数。日均人流量大,说明经过该基站区域的人数多。利用这个指标可以表征高价值商圈的人流特征。

这4个指标的计算直接从原始数据计算比较复杂,需先处理成中间过程数据,再从中计算4个指标。中间过程数据的计算以单个用户在一天里的定位数据为基础,计算在各个基站范围下的工作日上班时间停留时间﹑凌晨停留时间﹑周末停留时间是否处于基站范围。

假设原始数据所有用户在观测窗口期间(T天)曾经经过的基站有N个,用户有M个。用户i在j天经过的基站有station1和station2,则用户i在j天在station1基站的工作日上班时间停留为weekday station1ij,凌晨停留时间为night station1ij,周末停留时间为weekend_station1ij,是否停留时间为stay_station1ij,在station2基站的工作日上班时间停留时间为weekend_station2ij,凌晨停留时间为night_station2ij,周末停留时间weekend_station2ij,是否停留时间为stay_station2ij。其中stay_station1ij﹑stay_station2ij的值均为1。对于未停留的其他基站,工作日上班时间停留﹑凌晨停留时间﹑周末停留时间是否处于基站范围的值均为0。

对于基站station1,4个基站覆盖范围区域的人流特征的计算公式如下。

工作日上班时间人均停留时间:

凌晨人均停留时间:

周末人均停留时间:

日均人流量:

对于其他基站,计算公式一致。

对采集到的数据,按基站覆盖范围区域的人流特征进行计算,得到各个基站的部分样本数据,见表3。由于各个属性之间的差异较大,为了消除数量级数据带来的影响,进行聚类前需要进行离差标准化处理。标准化后的部分样本数据,见表4。

3 模型构建

3.1 构建商圈聚类模型

数据经过预处理后形成建模数据。采用层次聚类算法[4]对建模数据进行基于基站数据的商圈聚类,画出谱系聚类图,如图2所示。

表3 样本数据

表4 标准化后样本数据

图2 谱系聚类图

3.2 模型分析

针对聚类结果按不同类别画出3个特征的折线图,如图3﹑图4和图5所示。对于商圈类别1,日均人流量较大,同时工作日上班时间人均停留时间﹑凌晨人均停留时间和周末人均停留时间相对较短,其基站覆盖的区域类似于商业区。对于商圈类别2,凌晨人均停留时间和周末人均停留时间相对较长,而工作日上班时间人均停留时间较短,日均人流量较少,其基站覆盖的区域类似于住宅区。对于商圈类别3,基站覆盖范围的工作日上班时间人均停留时间较长,同时凌晨人均停留时间﹑周末人均停留时间相对较短,其基站覆盖的区域类似于白领上班族的工作区域。

图3 商圈类别1折线图

图4 商圈类别2折线图

图5 商圈类别3折线图

商圈类别2的人流量较少,商圈类别3的人流量一般,且白领上班族的工作区域一般的人员流动集中在上﹑下班时和午间吃饭时间,这两类商圈均不利于运营商的促销活动。由于商圈类别1日均人流量较大,同时工作日上班时间人均停留时间﹑凌晨人均停留时间和周末人均停留时间相对较短,所以可选择商圈1进行商家的促销活动。

4 结 语

本文从移动通信运营商提供的特定接口上解析﹑处理并滤除用户属性后得到用户定位数据,然后以单个用户为例进行数据探索分析,研究在不同基站的停留时间,并进一步进行预处理,包括数据规约和数据变换。最后,利用形成的已完成数据预

处理的建模数据,基于基站覆盖范围区域的人流特征进行商圈聚类,对各个商圈分群进行特征分析,从而选择合适的区域进行商家的促销活动。

[1] 洪钦敏.基于张量的用户轨迹数据挖掘技术研究[D].武汉:华中科技大学,2015.

HONG Qin-min.Users of the Tensor Trajectory Data Mining Technology based on the Research[D].Wuhan:Huazhong University of Science and Technology,2015.

[2] 王春燕,王超.商圈生态的概念与体系[J].上海商业,2007,10(01):40-42.

WANG Chun-yan,WANG Chao.The Concept and System of Business Circle Ecology[J].Shanghai Business,2007,10(01):40-42.

[3] 杨帆.基于GSM和Google Map的定位与地图标注关键技术研究[J].陕西科技大学学报:自然科学版,2011,2(02):122-125.

YANG Fan.Research on Key Technologies of Location and Map Annotation based on GSM and Google Map[J].Journal of Shaanxi University of Science and Technology(Natural Science Edition),2011,2(02):122-125.

[4] 段明秀,杨路明.对层次聚类算法的改进[J].湖南理工学院学报:自然科学版,2008,21(02):28-29.

DUAN Ming-xiu,YANG Lu-ming.Improvement of Hierarchical Clustering Algorithm[J].Journal of Hunan Institute of Science and Technology(Natural Science Edition),2008,21(02):28-29.

猜你喜欢

人流量工作日商圈
打造世界级文旅窗口 构建千亿级黄金商圈
机器学习在商圈运用管理中的应用
自动门人流量检测系统设计
提高高职院校图书馆现刊阅览室人流量的策略研究
对于马克思关于工作日的思考
关于休闲的量的问题的考察
三级客运汽车站服务能力影响因素分析
促进哈尔滨市商圈发展的建议
对《资本论》中工作日问题的哲学思考