丹霞山网络关注度时空演变特征及影响因素分析
——基于空间自相关及空间回归方法
2020-04-24田广增李航飞
田广增,李航飞
(韶关学院 旅游与地理学院,广东 韶关 512005)
根据第43次《中国互联网络发展状况统计报告》,截至2018年12月,我国网民规模为8.29亿,互联网普及率达59.6%。随着我国互联网普及率的日益提高,网络(手机移动网络)已逐渐成为广大游客出游的重要工具。旅游者在出游前或出游过程中会通过网络搜索旅游目的地的相关信息,“网络关注度”(或搜索指数)即为所统计的搜索痕迹。近年来,利用网络平台提供的大数据,对旅游者网络关注度进行研究受到了国内专家、学者越来越多的关注;其研究领域主要包括以下几方面:第一,研究空间尺度上,有省域[1]、市域[2]及具体的旅游景区如平遥古城[3]、五台山[4]等;第二,研究内容上,主要有游客的网络关注度与游客流量间的相关性[5]或耦合性[6]研究、网络关注度的时空分布特征[7]、网络关注度的影响因素[8];第三,研究方法,主要利用相关指数来分析网络关注度的时空分布特征,利用相关分析、普通回归分析等方法来探讨游客网络关注度的影响因素[9]。
现有研究在旅游目的地的网络关注度方面做了大量的工作,但在研究方法方面存在一定的不足,没有考虑网络关注度的空间集聚或依赖特征。几乎所有空间数据都具有空间依赖或空间自相关特征[10],传统的数理统计模型(一元或多元统计分析等),仅关注数据之间的相关性;而地理信息系统(GIS)中的空间关系和空间叠加等分析方法,则只注重二维空间上的联系;科学的空间统计模型需要做到二者兼顾,即在分析空间关系的基础上要进行数值的相关性分析,空间自相关分析模型很好地解决了这一问题[11]。空间自相关分析受到越来越多的学者、专家关注,其被广泛应用于自然、人口、经济和社会问题等方面的研究,研究成果非常丰富。论文在已有研究基础上,利用空间自相关分析和空间回归分析方法来探讨丹霞山景区网络关注度的时空演变特征及其影响因素。
一、研究方法与数据来源
(一)研究方法
本文首先采用空间自相关分析丹霞山网络关注度时空分布上的集聚性(依赖性)特征,然后建立空间计量回归经济模型,对影响丹霞山网络关注度的相关指标进行空间计量估计和检验。
1.空间自相关分析
空间自相关分析是在分析空间关系的基础上进行数值的相关性分析,可分为全局空间自相关及局域空间自相关两种形式,论文用其来探讨丹霞山网络关注度的时空集聚特征。空间自相关的相关理论及计算公式、检验方法详见参考文献[12]。
2.空间回归模型及选择
(1)空间滞后模型(SLM),其数学表达式如式(1):
式(1)中,Y为被因变量;X为外生自变量矩阵;ρ为空间回归系数;W为所构建的权重矩阵(本文采用空间邻接标准);WY为空间滞后因变量;ε为随机误差项向量。
(2)空间误差模型(SEM),其数学表达式如式(2):
式(2)中,λ为因变量向量的空间误差系数;ε的含义同式(1);μ为正态分布的随机误差向量;W为空间权重矩阵(本文采用空间邻接标准);参数β反映的是自变量X对因变量Y的影响程度。
(二)数据来源
百度指数以百度搜索引擎为数据平台,可以为用户提供以“网页搜索”以及“新闻搜索”为基础的大数据分析服务,其能够反映出不同关键词在过去一段时间内的“网络关注度”情况。“网络关注度”是以网民在百度中搜索的“关键词”为统计对象,并以搜索量为基础数据,统计出各关键词在百度网页搜索中频次的加权之和,能够以曲线图的形式直观展现。丹霞山是世界自然遗产、世界地质公园、5A级旅游景区,也是网络关注的重点景区。本文采用百度指数中的用户对丹霞山的关注度作为衡量网络关注度的指标,以“丹霞山”为关键词,获取2011年1月1日至2018年12月31日8年每年度的日平均搜索量作为基础数据,利用空间自相关分析和空间回归分析方法对丹霞山景区网络关注度的时空演变特征及其影响因素进行分析;回归分析中的人口规模、经济发展水平数据来自《中国统计年鉴(2013、2015、2017)》,空间距离数据来自百度地图,网络化水平数据来自历次《中国互联网络发展状况统计报告》。
二、丹霞山网络关注度时空集聚特征分析
(一)丹霞山网络关注度全局空间自相关分析
根据全局空间自相关的计算公式,利用软件Geoda计算出丹霞山旅游景区2011年以来网络关注度的Moran’I值①论文采用空间邻近作为权重,即相邻(有接壤)为1,反之为0,故省份没有包括港澳台及海南。,结果见表1。
表1 全局自相关分析结果
由表1可知,2011年以来,丹霞山网络关注度的 Moran’s I 值变化不大,较为稳定且都大于 0,在0.05的显著性水平下都通过显著性检验;说明2011年以来,丹霞山网络关注度在空间分布上的自相关性(依赖性)特征非常明显,即表现出网络关注度高的省份和网络关注度低的省份分别在地理空间上集聚且这种集聚状态较为稳定。
(二)丹霞山网络关注度局域空间自相关分析
1.丹霞山网络关注度散点图分析
以散点图的形式对变量Z(2011-2018年各省份对丹霞山网络关注度的日平均值)及其空间滞后向量Wz之间的相互关系进行描述,则形成Moran’s I散点图,可将其分为4个象限,分别对应4种空间差异类型(右上为HH象限:省份本身和周边省份对丹霞山的网络关注度都较高,相互间空间差异较小;左上为LH象限:省份本身对丹霞山的网络关注度较低,周边省份对丹霞山的网络关注度较高,相互间空间差异较大;左下为LL象限:省份本身和周边省份对丹霞山的网络关注度都较低,相互间空间差异较小;右下为HL象限:省份本身对丹霞山的网络关注度较高,周边省份对丹霞山的网络关注度较低,相互间空间差异较大;在空间自相关分析过程中,高(H)和低(L)是相对于网络关注度的平均水平而言,“高高”和“低低”表明的是空间分布上具有较高的正相关,即区域具有集聚性和相似性特征;“高低”和“低高”则表示空间分布上存在较强的负相关,即区域有异质性。见图1①文只选取2012、2014、2016及2018四个年份的散点图,其它年份类似。。
图1 丹霞山网络关注度散点
从图1可知,对于丹霞山的网络关注度,全国大部分省份位于散点图中的HH、LL象限,说明丹霞山网络关注度的空间分布存在较强的依赖性,与前面全局自相关分析的结论一致;但是从图中也可看出HH象限的省份较少,一定程度上说明这种空间集聚或依赖性是处于低水平的,由于区域的特殊性,广东省比较特殊,其对丹霞山的网络关注度独树一帜(位于HH象限,远离坐标中心);另外,处于不同象限的省份2011年以来的变化不大,丹霞山网络关注度的空间格局相对比较稳定。
2.丹霞山网络关注度局域统计量(LISA)分析
同样利用GeoDa软件计算出各省份对丹霞山网络关注度的局域自相关系数,在0.05的显著性水平下能通过检验的省份空间分布见图2(LISA聚集图或称为 Local Moran’s I显著性水平图),反映出各省份对丹霞山网络关注度的局域象限分布是否显著。图2②图1相对应,只展示2012、2014、2016及2018四个年份的聚焦图,其它年份类似。中标识出对应于Moran散点图不同象限且 LISA显著的相应省份。
图2 丹霞山网络关注度LISA聚集
由图2可知:丹霞山网络关注度空间差异形成的空间集聚中心(热点或冷点省份)变化不大,较为稳定,与全局自相关分析基本一致。广东、湖南、江西3省一直处于“凸”字型(HH)集聚中心,即热点省份;“凹”字型(LL)集聚中心主要分布于西部地区的新疆、甘肃、青海及西藏4省区,即冷点省份;广西壮族自治区一直处于“V”字型(LH)集聚中心,其自身对丹霞山的网络关注度较低,而周边省份对丹霞山的网络关注度则较高;随着时间推移,HL型即“A”字型集聚中心主要位于四川省,与广西壮族自治区相反,其自身对丹霞山的网络关注度较高,而周边省份对丹霞山的网络关注度则较低。
三、丹霞山网络关注度影响因素分析
由前文分析可知,丹霞山网络关注度的空间分布具有明显的自相关特征,故利用基于地理加权的空间回归方法来分析其影响因素更为合理。在已有研究基础上,论文以各省份对丹霞山的网络关注度为因变量,各省份经济发展水平(人均GDP)、网络化水平(互联网普及率)、人口规模(年末人口总数)及各省省会(首府)到丹霞山的空间距离为自变量,利用空间回归分析方法对影响丹霞山网络关注度的因素进行分析。
根据前文SLM模型和SEM模型选择的判别标准及各年度回归分析结果,论文最终选定空间误差模型(SEM)作为回归分析模型,回归分析结果详见表2、表3。其中表2为普通回归分析(OLS)与空间误差回归(SEM)分析的效果比较,表3为相关回归系数比较。
表3 OLS回归与SEM回归系数比较
由表2、表3可知,空间误差模型(SEM)的各项指标都要优于普通回归分析(OLS),SEM模型各系数的显著性水平也优于OLS模型;说明受到地理事物空间依赖(自相关)特征的影响,在分析其空间分布及成因机制时,基于地理加权的空间回归分析方法较普通最小二乘线性回归分析,能更好地对因变量和自变量之间的关系进行解释,所得出的结论一定程度上与实际情况更加吻合。
另外,由表3空间误差模型(SEM)回归结果可知,影响旅游目的地(丹霞山)网络关注度的因素主要为网络化水平,其次是人口规模;而空间距离对网络关注度的影响不明显,与已有研究不一致,应该是研究方法不同所导致;同时,随着互联网的普及及移动网络水平的不断提高,空间距离对网络关注度的影响越来越小,网络关注度可能更多的是受认知距离、时间距离、成本距离等的影响。
2016年,在SEM模型中,网络化水平(互联网普及率)提高1个百分点,网络关注度相应提高10.357 9个百分点,较普通最小二乘线性(OLS)回归分析的结果(8.239 0个百分点)更能促进网络关注度的提高;人口规模提高1个百分点,网络关注度相应提高0.047个百分点,较普通最小二乘线性(OLS)回归分析的结果(0.041个百分点)更能促进网络关注度的提高,但差异不大;2014年类似。
四、结论与讨论
论文在已有研究基础上,基于百度指数数据,利用空间自相关及空间回归分析方法探讨了丹霞山网络关注度的时空演化特征及影响因素,研究发现空间误差模型回归效果要优于普通最小二乘线性回归模型,2011年来丹霞山网络关注度的空间分布呈现出明显的集聚性(依赖性)特征,受网络化发展水平、人口规模、空间距离等因素的影响和制约;广东、江西、湖南3省成为显著的高值集聚中心,新疆、青海、甘肃、西藏等省区则为显著的低值集聚中心;由于研究方法考虑了地理事物空间分布的依赖性或自相关特征,论文得出的结论可能更符合实际情况。同时,论文还存在一些不足之处,如空间权重的设定仅以是否相邻为标准,网络关注度影响因素指标选取较为简单等,空间权重的设定、影响因素指标的选取等有待进一步深入研究。