消费大数据在旅游数据分析中的创新及应用
2019-08-26吕勤于卫国
吕勤 于卫国
摘要:本文从应对国家及各地旅游局分析消费发展趋势的需求出发,针对复杂客流情况无法分析的难点,从消费大数据出发,剖析消费数据中隐含的消费者归属地规律,概述了归属地模型行成旅游消费偏好、热门旅游消费区域、客源分析等旅游数据模型的建立过程,阐述了旅游大数据对市场经济的推动作用。
关键词:旅游大数据;旅游消费;归属地;旅游数据;节假日消费
中图分类号:TN-9 文献标识码:A 文章编号:1007-9416(2019)05-0087-03
随着我国旅游市场不断发展,近年来出游人群呈井喷式增长。为响应国家旅游局提升国家旅游发展质量的要求,我司依托海量消费数据,通过大数据技术挖掘旅游消费数据,分析旅游发展的变化。通过项目研发、制作,形成旅游大数据分析能力,定期发布包括年度、半年度、节假日(五一、国庆中秋、春节、双十一)等报告以及各细分行业旅游分析课题、报告等。旅游大数据分析展示如图1所示。
1 需求分析
应国家旅游局要求,同时为了满足各地旅游局的个性化旅游消费大数据分析需求,我司需从宏观分析入手,制作发布中国旅游消费大数据报告及各地旅游消费大数据报告。制作这些分析报告,需要提供各地的旅游人数、旅行者去过的地方、旅行者购买过的商品与服务等数据。如何获得这些数据,是完成消费旅游大数据报告的关键。银联商务作为全国最大的第三方支付机构,具有基础的消费数据,为了保护客户隐私,满足数据保护的要求,数据的处理分析结果均不针对个体,而是以消费者群体为对象,从宏观上分析获取有关消费地点、消费业态和消费能力等维度的数据。但困难的是消费者归属地以及消费喜好无法从原始数据中直接获取,需要利用大数据技术,通过模型计算,挖掘出有关信息。
2 旅游大数据的分析模型
2.1 归属地分析模型
消费者归属地模型是旅游大数据分析的重中之重,只有知道了消费者的“原籍”,再结合消费轨迹,才能知晓消费者是不是存在旅游行为。那么如何判断持卡人的原籍呢?原始的交易信息中并不包含交易者的个人信息,仅有卡号信息,可以通过一个卡号标识一个自然人。那么卡号又如何与自然人的归属地关联呢?众所周知,各银行发行的银行卡卡号长度不一样,除了卡bin①标识以外,编码规则完全不同,所以银行卡卡号是没有统一的规范的。经过进一步的分析,发现发卡行②为了便于发行卡片,往往是分批次给各地区分行发行新卡的,也就是说同一地区在某个时间段发行的卡片,序号应该是连续的。因此能否通过此假设推算出发卡地区规则呢。就此我们尝试使用分类算法,将卡号的9位~16位编码作为特征码,按不同的长度分别统计召回率③和准确率⑤,当置信度高于阀值时,即将该编码作为归属地特征编码记入特征库中。通过对百亿数量级别的已知消费区域的消费记录的计算,总共推演出数万个卡片规则特征,覆盖几乎所有发卡行的卡bin,模型建立成功。
2.2 旅游消费偏好分析模型
通过行为学分析,持卡人消费地点不在归属地原籍的交易即可认为是旅行交易。从横向上来说,通过对某一地区消费行业进行聚类,即可得出该地区热门的消费行业和业态。从纵向上来说,比对持卡人历来的旅行消费轨迹亦可得出其旅游消费偏好。通过分析旅游消费偏好可以帮助相关部门更合理的规划各种旅游服务项目。
2.3 热门旅游消费区域分析模型
通过分析持卡人异地消费行为,利用聚类算法k-means⑤进行消费地坐标聚类,可以获得旅游消费者在旅游城市的消费聚集地区。通过进一步的模型计算,可以判断指定城市热门的旅游消费商圈,通过统计可以得出旅游对推动当地消费规模的贡献度,为旅游消费大数据报告提供依据。
2.4 客源分析模型
客源模型也是各地旅游局比较关心的课题。通过归属地分析模型即可得到景点周边商户的客源分布情况,利用大数据技术,通过海量数据计算可以进一步得出每个景区对应的客源分布情况。游客来源分析展示如图2所示。
3 模型构建
根据旅游大数据的业务需求,获取持卡人的归属地信息是重中之重,归属地模型是其他几个业务分析模型的基础。归属地模型的特征相对明确,可以根据卡号来识别,但无法确定具体是卡号中的哪几位。我们利用大数据技术的海量计算能力,通过迭代的方式进行特征推演(从卡号前9位开始迭代,直到16位为止),利用百亿级别的交易数据,通过二分类算法拆分出多组训练集和测试集,分别进行模型的计算和验证。找到所有卡号段满足置信度(同一地区聚集度超过阀值)的号段,并以这些号段作为号根来判断新的卡号归属地。卡号归属地计算模型示意图如图3所示。
4 旅游大数据的系统架构
旅游大数据主要由后台算法服务群和前端应用展示服务群组成。后台算法服务群主要是基于hadoop的Hive和SparkMLlib组成,用于从数据仓库及外部系统获取海量交易数据用于模型训练。Hive主要用于前期的数据清洗和特征矩阵生成,MLlib主要负责执行聚类、分类等机器学习算法。经过预设模型计算完毕的数万归属地号根,通过大数据平台同步到数据仓库中。数据仓库利用号根可以将节假日消费数据中卡号的归属地通过归属地匹配模型计算出来,用于后续其他旅游数据计算。数据仓库完成旅游数据计算后,同步到应用服务器上,由应用服务器进行展示和报告生成。系统架构图如图4所示。
5 旅游大数据的价值
我国经济的不断进步,宏观层面上需要拉动内需,从百姓生活出发也有旅游的强烈诉求。大数据应用到旅游数据分析中,使原先无序的消费数据变得有迹可循、原先无法计算的消费数据变得可见。旅游大数据的发布有利于协调区域经济,合理化旅游产业布局,优化旅游服务业以及关联产业。通过了解游客的行为特点,便于景区配套迎合游客需求的产业布局,通过分析客源,为各地旅游局及旅游企业提供了明确的营销对象,直接提升了城市的旅游宣传效能。分析旅游经济,给国家发展旅游产业提供宏观数据,提振发展旅游的信心和动力。
注释
① 卡bin:Bank Identification Number发卡行识别码,中国境内,银联一般是以62开头,visa一般以4开头,master一般以5开头,长度一般是六位,也可能是其他长度.
② 发卡行:发行银行卡的机构,简称发卡行,一般以银行居多.发卡机构的主要职能是向持卡人发行各种银行卡,并通过提供各类相关的银行卡服务收取一定费用.
③ 召回率:召回率(Recall Rate,也叫查全率)是检索出的相关文档数与文档库中所有的相关文档数的比率,衡量的是检索系统的查全率.
④ 准确率:准确率又称精度(Prec- ise)是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率.召回率(Recall)和精度(Precise)是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。参考资料:周志华.机器学习:= Machine learning[M].清华大学出版社,2016.
⑤ K-Means:k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心.聚类中心以及分配给它们的对象就代表一个聚類.每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算.这个过程将不断重复直到满足某个终止条件.终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小.