基于大数据技术的游客分析系统
2016-08-18郑邦峰高飞郑源杰
郑邦峰++高飞++郑源杰
摘要:游客分析系统主要是通过采集手机信令数据,并对该数据进行数据建模分析,针对海南省旅游特点将有用的数据内容进行提取和汇总,根据手机实时位置信息有效分析出游客出行行为,实时反应海南省旅游热点旅客位置分布、来源地分布、出行动向、驻留信息、游客密度、团散信息、国际游客信息等。
关键词: 大数据;旅客;分析;位置
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)19-0014-02
Visitor Analysis System Based On Big Data Technology
ZHENG Bang-feng, GAO Fei, ZHENG Yuan-jie
(China Mobile Communication Group Hainan Co.,Ltd,Haikou 570125,China)
Abstract:Visitors analysis system is mainly through the acquisition of cellular signaling data, and the data of data modeling analysis, extract and summarize to the Hainan provincial tourism characteristics will be useful data. According to the real-time location information of the mobile phone effectively analyze the tourists travel behavior, real-time response in Hainan Province tourist hot spot passenger position distribution, source distribution, travel trends, information resides, visitor density, group scattered information, international visitors information etc.
Key words: big data; visitors; analysis; position
随着海南旅游的迅速发展,大量的散客成为了旅游的主导,传统观光游的项目比例日益减少。我国目前旅游行政法规及行业运营模式和管理均是建立在旅行社为主体的传统观光游基础上的。
面对这种团散比变化的现状,在新型旅游业态下, 当前旅游行业迫切需要一套相对准确、能够实时统计旅游信息的系统,为旅游管理部门的分析决策、政策规划提供辅助,为景区景点的客流量监控、疏导,游客驻留分析提供信息化手段,为旅行社、酒店分析游客来源地信息,规划旅游线路提供可靠依据。
海南移动挖掘自身网络数据资源,通过对海南移动Mc口(A接口+Iucs接口)信令数据的采集解析、建模分析、数据挖掘等,建设游客分析系统。
1 系统主要功能模块
“全省游客数据及分布”模块:该模块以旅游目的地为基点,对全省实时和查询时段内游客的总量和在各市县行政区域内的分布状况进行呈现和展示,为旅游管理部门精确掌握游客在各个目的地分布情况及变化趋势提供有效参考。
“客源地分析”模块:对游客的来源地信息进行统计分析,直观分析出各省游客的比例情况,可以细分至地市层级,同时可按各省及重点地市分析,可包括港澳台游客或外国游客。精确掌握客源分布情况,为旅游推广、宣传提供数据支撑。
“游客到达方式”模块:根据游客初次“接入”海南移动网络的具体基站位置,判断游客是从机场、港口还是火车站抵达,进而对游客到达方式作出实时统计。
“游客驻留时长统计”模块:分析统计游客在海南的驻留时间,按照驻留天数1天、2天、3天、4天及以上的时长进行分类统计,通过游客驻留的时间可以反映出各省份游客的旅游习惯,可以为精准营销提供相应支撑。
“旅游线路分析”模块:识别和采集各线路游客移动轨迹信息,挖掘频繁和热门的游览线路,分析出游览的热点线路信息,可以得出不同各类型游客在旅游目的地的游览线路选择结果,并找到热门线路等。
2 系统架构
游客分析系统分为数据采集层、数据挖掘层、应用层3个层级。其中数据采集层为最底层,主要采集海南移动Mc口信令数据。数据挖掘层为中间层,对底层接入上来的数据完成数据清洗、转换、压缩、数据建模、存储等工作。应用层为最上层,实现相关部门的各种应用。
数据采集层:负责系统与外部的一切数据交换业务,包括与各种外部系统的数据交互适配,以及将来可能扩展到的其他数据来源的支持,都在本层做统一的规划与实现。
数据挖掘层:本层实现数据的统一管理、分析、预处理功能,使得数据支持通用的上层行业应用。负责对获取的信令数据进行清洗、入库,形成上层应用所需的各种数据,并且能够根据不同的模块调用,计算出不同的分析成果。
应用层:基于B/S架构,灵活的功能模块部署机制,每个模块都可以基于数据挖掘层所能提供的数据灵活扩展。
3 基于大数据的游客行为计算和建模技术
3.1基于移动信令的协同定位技术
为了解决传统无线定位技术中定位精度不高的问题,利用不同移动台之间的协同通信对目标移动台进行协同定位,并利用非线性最优化理论解决移动台协同定位问题,将该问题转化为线性最小二乘问题,最终利用Gauss-Newton算法估计目标移动台的位置。
3.1.1 移动网络覆盖与覆盖场景匹配技术
为了保证为移动用户提供连续的移动通信服务,移动网络信号需要覆盖到城市空间上每一片区域,减少盲区,而为了以最小的成本为更多用户提供服务,移动通信网络覆盖逻辑上被设计成由若干正六边形的基站小区相互邻接而构成的面状服务区。移动用户总是会定期或不定期地主动或被动地和其中一个基站小区保持联系。
覆盖场景与移动蜂窝网络中基站小区,在空间分布上有规则地对应着。因此,只要建立特定的匹配规则,处理好一对多、多对多、多对一的关系,就能根据移动用户在移动蜂窝网络中的出行情况,推断出移动用户在不同区域间的出行情况。
3.1.2 基于手机数据的出行链分析技术
利用时间序列的手机数据及移动网络覆盖与不同覆盖场景区域的匹配关系,判断移动用户在各个区域的进、出、驻留情况,能够直接分析得到各个移动用户的出行链信息。
3.1.3 手机用户空间分布及密度分析技术
利用对所有手机用户时间序列手机数据的出行链分析成果,判断每位手机用户在各个统计时间段分别所处的空间位置区域,进而统计不同时间段各个空间位置区域内手机用户数量,并逐级扩样至群体,统计当前时间各个空间位置区域内的人员数量,并计算当前时间段内各个空间位置区域内对应的人员密度。
3.1.4 手机用户居住地、工作地识别技术
基于多天手机数据分析得到的手机用户多天出行链信息,结合手机用户作息时间规律,如夜间休息,白天工作,识别各个手机用户的居住地区域及工作地区域。
3.1.5 通勤出行行为分析技术
利用长期历史数据,分析得到手机用户居住地区域和工作地区域,并根据出现频率和出行频率,判断居住地区域单一且工作地区域也单一的手机用户群体是否具有通勤出行行为。
3.2数据挖掘与建模技术
3.2.1 团散客识别模型
模型目的:识别团队游客和散客。
模型算法:团客通常有固定和相同的游览线路。在游客识别和浏览线路识别基础上,结合基于密度的搜索聚类方法DBNS算法和基于样本学习的加权多点重合度算法MSOWL,通过进入和离开每一个景点的时间趋同性、人群规模识别团客和散客。
3.2.2 人群分类模型
模型目的:识别当地住户,过路人群、工作人员以及真正游客。
模型算法:TWO STEP聚类算法结合业务规则的方法,对人群进行分类。
3.2.3 游览线路挖掘模型
模型目的:识别和采集景点游览线路,挖掘频繁和热门的游览线路。
模式算法:采用改进的基于有向图的GSP数据挖掘算法,挖掘频繁游览线路。
3.3 关键算法
基于密度的搜索聚类算法DBNS(Density-based Neighborhood Search Method)和基于样本学习的加权多点重合度算法MSOWL(multiple-spot overlap ratio computing with weighting Based on Sample Learning)为针对智慧旅游所研发的特有算法。算法过程如下:
(1)第一个景点进入时间每分钟是一个间隔,统计每个间隔上的人数。
(2)每5分钟为一个进入时间中心点搜索区间,区间内人数最多的对应的分钟为中心点(必须满足10人以上,如不满足,时间窗口往后平移一分钟)。
(3)对中心点,搜索前后两分钟内进入人群,并标记为已搜索人群和已搜索区间;中心点前超过2分钟如果人数大于10,也标识为未搜索。
(4)对搜索人群观察最后一个景点离开时间每分钟的分布人数,每5分钟为一个中心点搜索区间,从第一个时间点开始,找到人数最多的点(必须满足10人以上,如不满足,时间窗口往后平移一分钟),搜索前后两分钟内的人群,这些人群标识为同一批团客。中心点前超过2分钟如果人数大于10,为离开时间比他们早的另一批团客。
(5)对未搜索离开时间的区间,进行下一个中心点的搜索,按同样的方法找到下一批团客。
(6)未搜索进入区间的下一个区间的搜索,重复2-5的过程;中心点前超过2分钟未搜索区间,不用寻找中心点,直接为一批人群。
(7)直到进入区间全部搜索完毕。
4 结束语
游客分析系统的客户包括海南省旅游委、市县旅游局、景区景点及旅游行业企业,运用系统“客源地分析功能”,准确掌握了国内及国际游客客源地情况,在国内、国际市场展开精准营销。由于有了实时、科学的数据支撑,旅游广告布放、接待网点规划都比以往更加有效。
(1)省旅游委行业监管处运用系统的“团散客”分析功能,实时跟踪旅游团的行程轨迹,对旅行社、导游进行监管,避免黑景点以及黑消费点对游客满意度的影响。
(2)省旅游委行业监管处运用系统的“景区游客数量统计”功能,对黄金周海南主要景区景点游客数量进行实时统计汇总,制定景区人流量控制应急预案,通过“信息发布”、“LED大屏公告”等手段对游客的游览计划进行合理的引导。
(3)省旅游委旅游资源开发出运用系统的“旅游线路分析”功能,开发新的热点旅游线路。
参考文献:
[1] 谢邦昌.数据挖掘Clementine应用实务[M].北京:机械工业出版社, 2008:516.
[2] (美) Anand Rajaraman,Jeffrey David Ullman,王斌.大数据:互联网大规模数据挖掘与分布式处理[M]. 北京:人民邮电出版社,2012:258.