大数据视角下的游客人数统计问题研究
2020-04-10保继刚王亚娟汤勇刚莫明建王宪章陈辉炎
保继刚,王亚娟,汤勇刚,莫明建,王宪章,陈辉炎
(1.中山大学 旅游学院,广东 广州510275;2.桂林旅游学院a.文化与传播学院,b.旅游数据中心,广西 桂林541006;3.深圳市大也智能数据有限公司,广东 深圳518066)
0 引言
旅游统计是国家国民经济核算体系的重要组成部分,作为测度旅游发展、评估旅游经济影响的重要手段,能够为政府与旅游企业的决策提供依据,也是地方党委和政府出台旅游政策的重要参考。按照国家旅游统计调查体系,旅游人次数是衡量旅游接待水平的重要指标。但是,长期以来,从各级行政主管部门发布的数据来看,存在着“纵向不可加,横向不可比”的重要问题,国内旅游统计数据的准确性频频受到学界、业界人士的质疑。
传统的人工统计方法基于统计学的填报和抽样调查,存在着游客规模估计不准、统计效率低下、统计和数据建设普遍存在“怎么算”不清楚、“何时发”无预期、“谁应对”没体系等问题。在新的发展环境和发展模式面前,传统的做法越来越难以应付。旅游企业和旅游管理部门对新的统计方法,特别是大数据等新技术应用的热盼和渴望,源于对发展掌控力缺失的忧患。由于大数据具有客观性的特点,可信度大大高于调查问卷,将之纳入旅游统计是发展的必然趋势。不但如此,大数据等新技术的应用带来的不仅仅是方法的变革,而且将带来实践和认知模式的重塑。引入新的技术手段,不能“新瓶装旧酒”,简单套用原有的统计框架和统计模型;若不是系统性的全面革新,将带来一系列的冲突和矛盾,产生事与愿违的效果。
在旅游统计中,游客规模与旅游收入是最为核心的两个指标,而旅游收入又与游客规模紧密相连,因此及时准确地了解游客的规模就成了旅游统计最为重要的课题。因此,我们拟从最基础的游客人数统计数据入手,深入剖析传统统计学方法存在的问题和在大数据视角下游客人数统计的利与弊,尝试从数据思维的角度分析和讨论旅游人数统计模型,并通过实际案例数据进行验证,试图为建立切实可行、简单实用的旅游统计模型和统计标准提供可行的参考方案。
1 传统旅游人数统计数据的主要方法和存在的问题
长期以来,我国的旅游统计依据国家旅游局和国家统计局颁布的《旅游统计调查制度》,统计项为“人数”和“收入”,数据采集方式主要是基于传统统计学的填报和抽样调查。比如游客数量,既不是到达目的地的总人数,也不是过夜人数,而是规模以上酒店入住游客的前台登记人数,叫“人次”。传统的统计办法可简单描述如下:
住亲友家的游客规模=(景点接待总人数 ×住亲友家的游客比重)÷ 住亲友家游客平均游览的景点数;
一日游游客规模=(景点接待总人数×一日游游客比重)÷一日游游客平均游览景点数。
以上各种游客的比重、平均游览景点数均通过在宾馆和景点的抽样调查得到,而旅游设施接待总人数和景点接待总人数则根据各相关单位上报信息汇总得到。
上述旅游人数统计方法存在以下问题:
1.1 旅游人次重复计算
旅游人次是统计的旅游目的地各个景点、酒店、交通等数据的简单加和。如果1位游客某天在1个旅游目的地登记入住酒店,并且游览了多个景点,那这个游客就会被多次统计,结果大于1个人次。大量的重复计算导致得出来的统计数据可信度不高,对政策制定者、管理者、投资者的参考意义很小。
1.2 难以保障数据完整性、准确性
传统的旅游人数调查采取在旅游住宿设施调查过夜旅游者情况为主,由酒店、旅行社通过表格填报以及在景点、农家乐、火车站、客运站等地点调查一日游游客和在亲友家过夜的旅游者情况为补充的方式进行。
随着全域旅游的推进,景点与非景点的界限将不再明晰,在特定的时空条件下任何具有吸引力要素的地方都有可能成为景点,比如景区之外的城市旅游功能区、乡村旅游集聚带、历史文化名镇名村、中国传统村落等。随着散客时代的到来,不住酒店的游客人数越来越多,混业经营越来越普遍。一方面一些居住场所(如民宿)未登记在册,另一方面有相当数量的游客未选择当地的住宿设施,例如住帐篷或房车。政府很难掌握该地区所有住宿设施和景点的信息,因此,采用现有的旅游人数调查方法,得到的数据不完整。虽然采用多阶段随机等距方法抽选调查点和调查样本,但抽样调查在各个环节上涉及的人为因素较多。实践中,由于县(市、区)级旅游统计工作人员多为兼职,且工作繁重,很难对问卷调查实施有效监督,问卷笔迹雷同、填报数据缺失、填写问卷复印充数等现象时有出现,调查问卷真实性和有效性存在不足,调查数据质量不高。因此,根据抽样调查得出的各种比重的准确性也存在疑问。
1.3 传统指标体系难以支撑新形势下旅游及相关产业的统计需求
在全域旅游时代,旅游与农业、体育、医疗、文化、教育融合形成乡村休闲旅游、体育旅游、康养旅游、文化旅游、研学旅游等新业态、新商业模式。国家旅游及相关产业统计分类表(2018)根据《国务院关于促进旅游业改革发展的若干意见》对全域旅游和文旅融合大趋势下的旅游及相关产业的统计指标体系进行了调整。然而,仍然沿用的传统报表和抽样调查方式收集的信息相对有限,时效性较差,难以跟踪旅游产业快速、多变而复杂的变化趋势,并全面呈现旅游产业的发展状况,尤其是难以覆盖新的旅游业态和产品。当前的调查问卷对于乡村旅游、海洋旅游、生态旅游、民宿旅游等快速发展的新业态没有细分,笼统概括为休闲度假。除此之外,利用少量的样本推算全国旅游数据,虽然抽样误差能事先计算并加以控制,但分散到各省(区、市)和各种业态以后,样本容量变小且样本分布极不均匀,降低了样本代表性,这样得到的数据结果,无法对产业升级提供有效的决策指导。
2 在旅游统计中采用大数据统计方法的优势
大数据技术是信息技术发展的最新成果。由于互联网的普及,网络传输能力,特别是移动通信网络性能的大幅度提高,基于分布式的计算机存储能力和计算能力不断取得突破,我们具备了直接从游客、旅游企业和涉旅各个行业及管理部门直接获取海量数据,以及存储和处理这些数据的能力。大数据的统计方法与传统的统计学方法有本质的不同:传统的统计学方法考虑到数据采集、存储和处理的能力有限,因此只能采取抽样的方式,用小的数据样本推算事物之间的联系和规律;基于大数据的方法突破了数据采集、存储和处理能力的限制,因此采取尽可能多地搜集数据的方式,从大量的、不同来源的、冗余的数据当中去发现和挖掘事物之间的联系和规律。大数据不能视为数据总体,但是其无限增大的多维度样本空间可以大大弥补样本不足带来的信息损失和估计精度问题。另外,基于大数据的统计工作从数据采集、数据存储到数据处理都是由机器和算法来执行,大大减少了人工干预,能够确保统计结果的客观性。充分利用大数据开展旅游统计,有利于提高统计数据的时效性、客观性、科学性和公平性,能够从更多的维度、按照更细的颗粒度解析数据,这是技术进步导致的必然趋势和旅游统计变革的必然要求。
3 引入大数据技术手段后旅游人数统计存在的问题及原因
过去采用人工统计时,缺乏客观依据。现在有了大数据,理应提供准确和令人信服的统计结果。但是,在引入大数据之后,却存在较为严重的旅游统计数据虚高的现象。除了旅游部门(实际上,旅游部门自己也存在怀疑)“相信”这些数据,其他政府部门(如统计局)不采纳,学者也不敢以之作为研究依据。如果再不正本清源,长此以往,不但会对旅游统计数据的社会公信力造成不良影响,影响地方党委政府对旅游业的宏观调控和有效管理,也会毁了中国旅游的声誉。
3.1 问题一:国内旅游人数“纵向不可加,横向不可比”情况仍然存在
“纵向不可加,横向不可比”是原来存在于传统旅游统计的顽疾,在引入大数据统计方法后仍然存在。国内旅游人数虚高,与常识相悖。如2019年“五一”假日旅游数据的统计中,联通大数据公司、穷游网、银联智惠共同发布的《2019“五一”旅游大数据报告》中,最大游客流入城市为北京,旅游人数441万,环球网与深大智能联合发布的《2019年“五一”出游数据报告》中苏州成为最热门旅游目的地城市,重庆移动发布的《2019年“五一”大数据》中,重庆一地的旅游人数已达到493万。一些省区的国内旅游统计人数远大于无论是人口基数还是经济发展水平明显更高的其他省份。近几年(2016-2018),地方接待国内旅游人数之和已经达到了全国数据的2倍,甚至接近3倍之多,旅游统计部门的接待入境游人数也远远大于公安部门登记的入境人数。
3.2 问题二:大数据统计方法在旅游统计工作中仍然属于补充手段
在各级全域旅游示范区的建设中,建成的数据中心不在少数。各地政府、研究机构与大数据企业的合作也比较频繁。以大数据报告为例,中国旅游研究院、马蜂窝旅游网在贵州发布《2018中国省域自由行大数据系列报告之贵州》,中国旅游研究院、驴妈妈集团联合实验室发布《2018年端午小长假出游消费报告》,中国旅游研究院、银联商务联合发布《中国旅游消费大数据报告2018》,中国旅游研究院、携程联合实验室发布《中国在线旅游发展大数据指数报告2018》,但此类大数据报告,所涉及的游客人数数据往往仅引用政府发布的官方数据,甚至大部分报告中没有出现具体的游客数量,以热度排行等方式进行业态分析,实验性质较明显。
大数据技术的引入突出了数据分析和实证研究的重要性,给旅游统计带来的不仅是海量数据,还有不同的思维方式和操作模式。然而,在旅游统计的实际执行过程中很多环节仍然沿用传统的概念、思路和统计方法,在统计的范围、尺度和计量单位等细节问题上没有统一的标准,在具体执行层面上各省、市各自为政,存在一定程度上的歧义和混乱,这是造成上述问题的主要原因,具体表现在以下几个方面。
3.2.1 数据统计口径不合理
按照原国家旅游局的《旅游统计调查制度》的定义,国内游客按离家6小时、10公里计算出游1次。由于中国城市规模不断扩张,城市特别是大城市的居民在日常生活中离开家6小时以上、超过10公里通勤的人数已经十分普遍,按照这个标准界定游客出游显然会夸大国内游客的数量。
3.2.2 地理尺度使用不当,逐级上报机制不合理
按照游客的基本定义,旅游人数需要统计某一行政边界外的人进入该边界内旅游的人数。尺度与旅游人数呈现一定的负相关关系。地理尺度越小,相应的地理边界范围越小,边界两侧的互动越频繁,边界外的人口越多,意味着拥有更多的潜在游客。因此,选择不同尺度的旅游人数统计结果会产生极大差异。如果以县级尺度作为基层统计单位,通过逐级汇总,最终得到市级、省级和国家级的总体统计数据,其结果无疑会偏大。“人次”这个指标在不同统计空间尺度上的不同解读是导致旅游统计中国内旅游人次差异的根源。
3.2.3 游客的定义和游客人数统计方法存在矛盾
根据世界旅游组织(UNWTO)关于旅游的定义:一个人旅行到他/她惯常环境以外的地方,时间少于一段指定的时段,主要目的不是为了在所访问地区获得经济效益的活动。国内旅游是指一国的居民到他/她惯常环境以外的国内另一个地方旅行,时间不超过6个月,主要目的不是为了从访问地获得经济效益。
欧盟统计局对旅游的定义是:“旅游”是指来访者出于某种主要目的,包括商务、休闲或者其他个人目的,而非受雇于被访问目的地的本地实体,旅行到其惯常环境以外的主要目的地,出行时间不满1年的活动。旅游包括休闲旅游和商务旅行。旅游包括过夜游和一日游。
我国关于旅游和游客的定义与国际上的定义基本一致。国家统计局给出的定义为:旅游指个人出于游览观光、休闲娱乐、探亲访友、文化体育、健康医疗、短期教育(培训)、宗教朝拜,或公务、商务等目的,在惯常环境以外进行的,连续停留时间不超过1年,并且不是为了在所访问的地方获取报酬的经济活动。惯常环境指个人经常居住或频繁出入的生活、工作、学习的住所或场所。游客是旅游活动的实施者,指出于个人休闲、或商业及政府事务等目的到惯常环境以外的地方旅行,并且在访问地连续停留时间或预期连续停留时间不超过1年的个人。游客不包括主要目的是在访问地谋生的旅行者,也不包括在其公务地点和家庭所在国之间旅行的外交和军事人员。原国家旅游局关于国内旅游人数的定义是:指报告期内在国内观光游览、度假、探亲访友、就医疗养、购物、参加会议或从事经济、文化、体育、宗教活动的本国居民,其出游的目的不是通过所从事的活动谋取报酬。统计时国内游客按每出游一次统计1人次。国内游客包括国内过夜游客和国内一日游游客。其中,国内一日游游客指国内居民离开惯常居住地10公里以上,出游时间超过6小时、不足24小时,并未在境内其他地方的旅游住宿设施过夜的国内游客。
按照上述定义,在实际操作时往往难以严格执行。按传统方法填报时,各景区、酒店等旅游接待单位按照实际接待人数填报,如果1个游客在出游过程中出入多个景区和酒店,则得出的统计结果远大于1人次。利用手机信号的大数据统计方法可以避免多个接待单位的重复统计,但一般是将每日的游客人数加和,得到的统计结果实际是人天,也远远大于《统计调查制度》定义的“每出游一次统计1人次”。另外,哪些人的哪些活动应该被界定为离开惯常环境和不以谋取报酬为目的,在实际执行过程中各地有各地的规定,标准并不统一。例如,有的地方将外出返乡(务工和上学)的人员不计为游客,有的地方则相反。
3.2.4 数据模型和数据处理不合理
科学、有效的抽样调查方法在传统数据获取中被普遍重视。采用大数据统计方法时,如何确保样本和数据的有效性、代表性并没有得到深入研究和很好解决。实际上,数据源直接提供的数据,并不一定能有效地代表完整的研究目标群体。例如,在游客数统计方面重要的数据源来自三大电信运营商,这些数据一方面没有覆盖所有的游客,另一方面还包含大量非游客和重复计算的数据。更确切地说,从三大电信运营商得出的统计数据对应的是包含了重复统计的游客数量的上限最大值。如果不经过认真筛选和清洗,或者采用的模型不恰当,往往会得出夸大游客人数的统计结果,具体包括以下几种情况:
·过路旅客被计入游客数量
随着国内交通日趋发达,经高铁、高速过路的旅客人数不断增加。通过电信运营商数据统计游客数量时容易把这部分旅客计为游客,导致结果偏大。
·双卡双待或两部以上手机的游客被重复计算
目前国内游客携带两部以上手机或手机双卡双待的情况十分普遍。采用电信运营商数据进行统计时会将这部分游客重复计算,导致结果偏大。
·电信运营商数据不能覆盖所有游客群体
如果使用1到2家电信运营商的数据进行统计,再按照市场比例修正,由于游客来自不同的地区,其比例值各不相同,按照当地的比例推算会造成一定的误差。另外,由于不是所有境外游客的手机都进行国际漫游,所以通过电信运营商数据统计境外游客的数量是偏少的。
·电信运营商数据统计出来的是人天数,不是人次
为了便于动态监控游客人数,每天根据电信运营商的数据统计游客人数,然后将每天的游客数据相加得到累计游客人数,这样产生的游客人数单位实际上是人天,而不是按照旅游统计制度规定的“出游一次按1人计”的人次。例如:一位游客在某地停留了3天,则被统计为3人天而不是1人次。
·智能终端的SIM卡被计入游客数
很多车载导航系统、导航仪和物联网设备均使用用于移动数据通信的SIM卡,如果不加筛选,则这部分设备可能被计入游客数,导致结果偏大。
·日常活动跨越行政区划边界的居民被计入游客数
一些居住在行政区划边界附近的居民,由于生活、生产需要,在日常活动中经常跨越边界,如果不加筛选,则这部分居民可能被计入游客人数,导致结果偏大。
4 以实用为导向建立大数据旅游统计体系
4.1 基于大数据的统计体系
为了满足建立旅游数据体系“体系统一、科学适用、方法创新、合作接轨、世界眼光”六个要点的要求,需要建立符合旅游产业新业态的发展趋势、能够与世界数据体系对接、适合多维数据源的大数据统计体系。新的统计体系应该重点考虑以下几个方面:
4.1.1 按地理尺度分层统计
目前国内旅游统计是以县级尺度作为基层统计单位,通过逐层上报汇总,最终得到市级、省级和国家级的总体统计数据。但是旅游的本质是产品出口的一种形式,外地人在本地的旅游消费,才能真正反映旅游对本地区的经济贡献。依据传统统计方式得出的结果进行决策,可能出现较大误差。不同级别的政府需要正确评估和判断辖区内的旅游发展现状,就需要关注不同尺度的旅游统计数据,当旅游统计概念体系增加尺度要素后,更容易满足此类诉求。合理的评估和判断地理尺度应该分为 “国、省、市、县”四级。其中“省、市、县”三级按照各自行政区划分别统计,即各省、市、县分别独立按照本级别的模型进行统计,上级尺度的统计结果不是由下级统计结果加和得到。
4.1.2 因人而异设定惯常环境的判据
按照原国家旅游局的定义,游客界定的要点在于:离开惯常环境、不以获取报酬为目的。问题在于离开惯常环境和是否以获取报酬为目的实际执行的判据如何确定。
随着城镇化发展,原来的以“离家6小时,10公里”为离开惯常环境的判据已经明显不符合社会发展的实际情况。如在北京,家住北京昌平区的人每天到30公里以外的北京城内上班是常见的情况;即使在三线城市,人们通勤距离超过10公里也很正常。
惯常环境的标准应该是因人而异的。例如,老年人的活动范围往往集中在居住地点附近,惯常环境的范围比较小;而出租车司机的活动范围则有可能遍布整个城市,惯常环境的范围大得多。因此,惯常环境的判据应该因人而异。在大数据的背景下,可以对每一个观察对象进行画像,勾勒出其日常活动的范围(划定出游红线)。则离开惯常环境判据为:
超出出游红线的区域范围。如果在当地停留时间比较长,如超过6个月,则判定为在目的地工作的人员和上学的学生。
4.1.3 多维数据源的选择
与传统统计抽样调查不同,基于大数据技术的旅游统计主要利用全域覆盖的手机信号数据来对游客进行统计。随着手机的普及,目前三大通信运营商的信令数据,已经基本覆盖全量用户(只有少部分低龄儿童或高龄老人没有使用手机)全时段位置信息数据和行为数据。使用通信运营商的信令数据作为主要数据源,经过清洗及合理的模型算法后,基本接近全域游客量的“天花板”数据。因此基于大数据技术的旅游统计,可以选择以运营商信令数据为主、其他数据为辅的多维数据源进行建模和运算。
4.2 基于大数据技术的旅游统计模型设计思路
根据上述原则,我们设计了基于电信运营商信令数据为主要数据源的旅游人数统计模型,并通过实际案例数据的对比进行验证。
4.2.1 建模基础
以通信运营商信令数据为主,另外需要如下数据及模型作为辅助。
·POI数据
POI是“Point of Interest”的缩写,是指来自景区、商圈、酒店等地点相关的数据,为旅游人数统计提供辅助。
·电子围栏
电子围栏是以运营商基站位置+用户上传的位置信息结合为基础划分的区域边界范围。电子围栏分为多个层次。不同尺度的统计,需要使用不同层次的电子围栏。
行政区域电子围栏:用于识别游客是否游览到了某个行政区域,如地市、县区等。
POI电子围栏:用于识别游客在对应POI游玩及逗留时间,如景区、商圈、酒店等。
个人电子围栏:用于识别用户常驻区域(包括生活、工作),用于识别用户是否出游(主要是本地人游本地)。
上述辅助数据及模型构成主要的建模基础。
·常驻漫游用户判定
号码归属地为外地,但在当地停留时间超过6个月,且未超出出游红线的区域范围6小时以上,则判定用户是常驻本地的人员而非游客。
·过路旅客的判定
同时满足以下地理判据和时间判据的手机用户判定为过路旅客。
地理判据:在统计时间范围内持续的运动轨迹与高速公路或铁路线吻合;
时间判据:在区域内停留的时间小于等于穿过本区域最长高速公路区段的平均通过时间。
·双卡双待或两部以上手机的游客统计数的处理
1)在一天内,同一时间内,轨迹高度重合。
2)两张手机卡或手机的使用偏好存在差异,如某个用户一张卡主要是上网和App使用,另外一张卡主要接打电话,两张卡或手机的使用偏好上会存在比较明显的差异。
3)在统计时间段内,针对单卡的使用偏好打上标签,再结合高度重合的游玩轨迹,可识别大部分双卡双待用户。
·智能终端SIM卡的处理
插SIM卡接入4G/5G网络的车载行车记录仪、导航仪和物联网设备等不计入游客人数。可依据只有数据流量、无话音流量作为判据将这部分用户剔除。
·不携带手机游客的处理
鉴于目前的实际情况,出门在外的旅客一般都会携带手机,包括老年人和年龄比较大的未成年人。少部分不携带手机的游客要么是不会使用手机或自理能力很弱的老人,要么是还不具备自主行为能力的低龄儿童。这部分游客数量少且消费能力很弱,因此暂可以忽略不计。
·日常活动跨越行政区划边界居民的处理
频繁到同一目的地,如1周2次以上到同一目的地,则该用户不计入游客人数。
·人天和人数的处理
根据手机用户驻留时间进行换算。
4.2.2 省/市/县级游客数量的旅游统计模型
省(市、县)级游客数量(人天)的统计模型可描述如下:
其中,
S为当天本省(市、县)的游客总数,S为当天国内其他地区到本省(市、县)的游客数量,
S为当天省(市、县)内游客出游到本省(市、县)的游客数量,S为当天国外到本省(市、县)的游客数量。
其中n为电信运营商的个数,一般取n=3;L为第i个电信运营商的外地漫游手机用户总数;α为 第i个电信运营商的常驻漫游用户的数量;β为 判定为过路旅客的第i个电信运营商外地手机用户数量;γ为 第i个电信运营商的双卡双待或两部以上手机的用户数量的扣除数;ε为第i个电信运营商的智能终端SIM卡数量;η为第i个电信运营商的日常跨界活动用户数。
其中n=3;M为出游到本地的第i个电信运营商的手机用户总数;μi为第i个电信运营商的双卡双待或两部以上手机的用户数量的扣除数;ν为第i个电信运营商的智能终端SIM卡数量。
其中n=3;N为国外漫游到本省(市、县)的第i个电信运营商的手机用户总数;λ为选择手机国际漫游的第i个电信运营商的入境游客比率。在m天时间内的游客人数累计数(人天)为
根据停留天数的比率,可换算为人次S:
其中,ρ(k)为停留天数为k天的游客比率。
5 旅游统计数据对比和验证
为了对上述模型进行检验和验证,我们对2019年国庆黄金周期间广西、南宁、桂林及玉林的游客人数以三大通信运营商的信令数据为主数据源进行了统计,统计的时间段为2019年10月1日至7日。统计的地域范围分别为广西、南宁、桂林和玉林的行政区划范围。按照本文第三部分提出的2~7各项规则进行数据筛选,并对结果进行了对比和分析。
5.1 2019年国庆广西游客人数统计对比分析
表1为广西全区的游客统计人数对比。其中未筛选的区外游客人数由区内14个地市的统计数据加和得到,筛选后的游客人数则直接以全区为统计尺度统计得到。筛选前后的总游客数相差1 029.55万人天,其中,区外游客人数筛选前后的差值为560.02万人天,区内游客前后差值为469.53万人天。差值达到总人数的40.3%。如果不筛选,统计结果明显偏大。值得注意的是,官方统计数为3
330.04 万人次,这个数字比筛选后的总人天数还要大很多,反映出官方统计数也可能含有大量重复计算的人数。
表1 筛选前后的2019年国庆广西游客人数对比
表2为区外游客人数筛选前后差值的细分项及其占总差值的比例。其中,筛选前以广西全区14个地市为基本地理尺度分别统计,加和后得到全区游客人数。筛选后直接以全区为基本地理尺度统计得到全区游客人数。由于前后地理统计尺度的变化造成的统计人数差值占比最大,达到54.9%。这个结果说明,地理尺度的选择对统计结果有明显影响。由各地市的统计数据加和得到全区的数据包含重复累加的区外游客,造成统计结果偏大。
表2 区外游客人数筛选前后差值分项及其占比
表3为区内游客人数筛选前后差值分项及其占比。由于区内游客的统计只能以地市为基本地理尺度,故统计结果均由14个地市的统计数据加和得到。筛选前后差值为469.53万人天。其中由于未区分漫游常驻用户造成的误差占比最大,达到73.1%,即把常驻该地市的非本地号码使用者也误认为游客。但是,由于筛选前后的数据均由14个地市加和得到,因此其中仍然可能含有由于各地市重复统计造成的误差。假设1个游客在同一天既在柳州停留了一段时间,又在桂林停留了一段时间,则有可能被计为2人天。
表3 区内游客人数筛选前后差值分项及其占比
5.2 2019年国庆南宁和桂林游客人数统计对比
表4为2019年国庆南宁和桂林的统计游客人数对比。从数据来看,桂林作为著名的旅游城市,对区外游客的吸引力显然大于南宁。但是南宁作为首府,有更大的人口基数和经济体量,区内游客数量明显大于桂林,总的游客人数仍然大于桂林。
表4 南宁和桂林的2019年国庆游客人数对比
筛选前南宁的区内游客人数比桂林多205.26万人天,区外游客比桂林少49.05万人天。筛选后此两差值分别缩小为136.02万人天和39万人天。两地旅游总人数的差值则从156.21万人天缩小为97.02万人天。通过筛选剔除的人数主要包括过路旅客、漫游常驻用户和探亲返乡旅客。南宁和桂林筛选过程中剔除的游客数的分项分别见表5和表6。其中南宁的区内和区外漫游常驻用户的比例分别占76.4%和80.7%,桂林的区内和区外漫游常驻用户的比例分别占66.2%和72.3%。可见剔除的人数主要部分为漫游常驻用户。南宁作为首府,常驻的非本地号码用户达到74.43万人天,远大于桂林的18.66万人天;由于地理位置的关系,桂林的过路客比例大于南宁,这是经过数据筛选后两地区内游客统计数和总游客统计数差距缩小的主要因素。
表5 南宁游客人数筛选前后差值分项及其占比
表6 桂林游客人数筛选前后差值分项及其占比
表7和表8为南宁和桂林的游客停留天数统计。通过对比可以观察一个现象:南宁停留1~2天的区内游客占比高于桂林,而停留3~7天的游客占比则低于桂林;南宁停留1~2天和6~7天的区外游客占比高于桂林,而停留3~5天的区外游客占比则低于桂林。
表7 南宁游客停留天数统计
表8 桂林游客停留天数统计
表9为探亲返乡游客的统计数对比。在这项对比中,我们增加了玉林市作为参照地,因为玉林外出打工者数量特别多。可以发现玉林的区外探亲返乡游客数量特别大,占到了全区区外探亲返乡游客的39.6%。如玉林这样外出务工人员比较集中的地区,节假日往往会出现大量的探亲返乡人流,对游客统计人数带来比较大的影响。如果不加以分辨,可能会让统计结果呈现一定的错觉,未必能真正反映一个地区旅游产业的发展状况。
表9 探亲返乡游客统计对比
6 结论和讨论
6.1 地理尺度的选择问题
从上述数据的对比来看,以地市为基本地理尺度进行统计,加和后得到全区的统计人数,明显大于直接以全区为基本地理尺度统计的人数。这个结果证实了地理尺度的选择的确对统计结果有很大的影响。在统计区内游客人数时,我们仍然采用各地市加和得到全区的总数,其中仍然包含由于地理尺度带来的重复计算问题。因此,应构建“省—市—县”的国内旅游数据层次体系,即“省际国内旅游人数”“市际国内旅游人数”和“县际国内旅游人数”三个层次的指标,各地能够按照统一的标准进行统计,是有望解决“纵向不可加,横向不可比”问题的。
6.2 常驻漫游用户的问题
从上述数据的对比来看,除地理尺度的因素外,对统计结果影响最大的是常驻漫游用户。特别是取消漫游费以后,目前很多在异地工作和学习的手机用户选择不换号,出现了大量常驻异地的漫游用户。从广西的数据来看,区内的居民常驻异地的情况要明显多于区外居民。特别是南宁作为首府,有大量区内其他地市的居民到该市工作和学习。这一类用户不应被计入游客数量,在统计时应该按照一定的标准认真筛选并予以剔除,才能得到准确的统计结果。
6.3 人次和人天的问题
从上述数据的对比和分析来看,如果按照传统的方法采用抽样调查的填报数据,其结果的人次数甚至要大于大数据方法统计的人天数,说明其中包含了大量的重复统计人数,难以按照统计调查制度的规定落实出游1次按1人次计。从经济核算的角度出发,过去采用抽样调查的结果,按照游客人次和平均停留时间来进行旅游支出的估算,结果未必能反映真实的旅游消费情况。利用大数据可以实时监控每天的游客人数,经过逐日累加获得累计的游客人天数,算法相对简单,统计结果更准确。游客出游的天数不同对经济做出的贡献差别很大,而人天数不但反映了游客人数,还隐含了游客的停留时间,故使用人天来计量应该是一种更合理的选择。
6.4 探亲返乡游客的统计问题
返乡探亲游客按照国家统计局和原国家旅游局的定义应该被统计为游客。但是这类游客具有一定的特殊性,其消费行为不同于一般的游客。探亲返乡的游客一般很少会选择住宿酒店和到景区游玩,其消费更倾向于餐饮和零售行业。像这样具有特殊地域性、特殊时间性的特殊人群应该予以特殊的分析和处理,否则会带来统计数据的异常,不能反映旅游行业的真实情况。另外,这种现象也说明,从大数据的视角进行旅游统计,应该充分发挥大数据样本量大、客观、多维度的特点,从多维度、多视角和更细的颗粒度进行统计,从而更好地为经济发展和提升社会管理水平服务。
6.5 局限和未来研究展望
本文主要解决利用电信大数据统计游客量时可能出现重复统计的清洗问题,但尚未解决诸如在酒店过夜还是在亲戚朋友家过夜、一日游、参观的景点、具体的客源地等问题。游客在不同的地区消费可能有比较大的差别。例如:游苏州,住上海,在苏州的消费只有景点门票和午餐,在上海的消费包括早餐晚餐、夜经济和住宿及购物,其中住和吃的消费往往占比较大。预计《消费税法》2020年可能审议通过实施,消费税将从在产地(生产环节)征收转为在消费地(批发和零售)征收,这样一来各地都会更加重视旅游发展。游客统计是为了给政府和企业做决策参考,因此,从准确掌握旅游消费的目的出发,应该进一步细化统计模型,以县(区)为统计单元进行统计,细分市场,并且与公安过夜游客数据对接,尝试与银联消费数据打通,这样就可以对以县为单位的目的地进行旅游经济的精准画像,更好地为政府和企业决策服务。
致谢:感谢澳大利亚格里菲斯大学商学院旅游系Dr.Xin Jin提出论文修改意见。
注释
①根据《2018年广西统计年鉴》“外出农民工(离开本乡镇)”的指标为912.4万人,《2018年玉林市国民经济和社会发展统计公报》显示:年末全市总人口732.73万人,年末常住人口为584.97万人,流出人口占比较高。