APP下载

基于文本挖掘的典型旅游网站旅游分享比较研究以甘肃省为例

2017-12-01

资源开发与市场 2017年1期
关键词:特征词旅游景点游记

(西北师范大学 旅游学院,甘肃 兰州 730070)

王耀斌,杨 玲,孙传玲,蒋金萍

(西北师范大学 旅游学院,甘肃 兰州 730070)

旅游分享作为旅游研究的新兴领域,受到国内外众多专家学者的关注。选取四大典型旅游网站----携程网、蚂蜂窝网、驴妈妈网和途牛网为研究样本,以样本网站上有关甘肃省旅游景区景点的网络游记为研究内容,采用文本挖掘的方法,对网络游记中的词频、情感和语义网络进行分析。研究显示:具有典型旅游符号表征且处于核心旅游资源的自然与人文旅游景点最受来甘旅游者的关注,其中以人文旅游景点最为典型;来甘旅游者的情感类型以积极情绪为主,消极情绪所占比例较小;甘肃省旅游景点的社交网络中心度较低,1/2以上的景区景点或旅游吸引物对资源不具有控制力,语义社交网络结构较为松散,不存在派系林立和小团体现象。

文本挖掘;典型旅游网站;旅游分享;甘肃

随着应用领域的扩大,互联网逐渐成为人们相互交流信息和外出旅游的重要平台。大量的旅游者在借助互联网分享自己的旅游经历与内心感受的同时,也为潜在旅游者了解相关旅游目的地信息提供了一条更加便捷的途径。因此,对旅游者的旅游分享进行研究,能更加深入地了解旅游者的旅游偏好,同时对激发潜在旅游市场需求、增强旅游目的地的吸引力有着重要作用。

1 国内外旅游分享研究综述

国外关于旅游分享的研究开始的较早、较成熟,研究成果也较多。Scott Noel等探讨了旅游与酒店业相关知识分享的概念及其运用[1]。此后,关于旅游分享的研究成果大量涌现,研究范围也在不断扩大。Lon M J等指出,决定旅游者在虚拟社区进行旅游分享的因素与旅游者的个人看法、分享行为和社区忠诚度有关[2];Serena Volo以旅游者的博客为资料来源,对旅游者分享的旅游体验进行了评价[3];Park等研究了不同文化背景下的旅游者信息分享行为[4];Anil Bilgihana等借助旅游社交网络,研究了消费者对旅游知识分享的感知行为,指出实用性感知和诚信感知对分享行为有着积极的影响[5]。与国外相比,国内对旅游分享的研究较晚,研究成果主要集中在旅游知识分享、旅游体验分享、旅游虚拟社区分享等方面。苗学玲对旅游网络主帖进行了研究,确立了分类体系,指出分享帖是主要类型之一[6];保继刚、苗学玲采用扎根理论,借助旅游者在虚拟社区分享的结伴帖子,探讨了在互联网平台上寻找“游伴”的现象,揭示了分享是旅游者选择结伴旅行的原因之一[7]。此外,王婷婷采用定性与定量的分析方法,研究了旅游虚拟社区的分享帖并提出了改进建议[8];陈雅茜利用系统调查的方式,以旅游相关信息为对象,重点研究了旅游体验的分享技术,并提出了基于相册的旅游体验分享原型系统[9];欧阳震青、彭润华运用MOA(Motivation Opportunity Ability)理论和知识分享模型,研究了移动UGC(User Generated Content)环境下旅游者的知识分享[10];胡传东等利用内容分析法,对游客分享的骑行体验进行了研究[11]。

总体来看,所有这些研究为旅游分享研究做出了较大贡献,研究者主要采用传统的方法研究旅游知识分享、旅游体验分享和虚拟旅游社区分享帖。事实上,网络游记作为一种网络文本用于旅游者行为研究时,可在一定程度上避免传统旅游调查中受时间、地点、问卷设计等问题的限制,样本内容更加真实地反映旅游者的主观感受[12],因此对典型网站的旅游分享研究有着重要价值。同时,数据挖掘中的文本挖掘方法,较传统常用的旅游分享研究方法而言,在不规则问题处理中优势十分明显。本研究拟采用数据挖掘中的文本挖掘方法,选取国内典型网站作为研究样本,以网站上旅游者发表的有关甘肃省旅游景区景点的游记为研究内容,开展典型网站旅游分享比较研究,旨在为潜在的来甘旅游者和区域旅游发展决策提供参考服务。

2 研究过程与方法

2.1 典型旅游网站样本选取

作为评价某一网站访问量的重要指标,Alexa排名提供了包括综合排名、到访量排名、页面访问量排名等多个评价指标信息。基于Alexa排名的功能,本文选取旅游者发表旅游游记较多的旅游网站作为研究样本,即携程旅行网、蚂蜂窝旅游网、途牛旅游网和驴妈妈旅游网。携程旅游网是目前Alexa排名最高的综合性旅游网站,日均IP访问量达216万人次[13];蚂蜂窝旅游网是中国领先的旅游社交网站,也是目前国内较大的旅游分享网站,旅游社区近月访问量达94.94%[13];驴妈妈作为中国自助游资讯服务平台,近月网站访问比例达94.57%[13];拥有全球最大中文景点目录和中文旅游社区的途牛旅游网,日均网站页面浏览量达261.6万人次[13]。基于此,本文选取这四大网站作为研究旅游分享的典型网站。

2.2 文本内容的获取与处理

分别在选取的携程、驴妈妈、蚂蜂窝和途牛四大国内旅游网站上进行收集和筛选有关甘肃省旅游目的地以及景区景点的游记。在筛选获取文本内容的过程中遵循三条原则:①识别网络游记的真实性,剔除一些为商家宣传旅游景点、路线与酒店而撰写的有关酒店体验与航班感受的游记;②选取的游记内容必须要信息完整并能真实地反映旅游者的旅游体验与感受;③删除一些旅游者在多个网站重复发表的游记。遵循上述三条原则,首先将研究时间段定为2013年4月到2015年12月。经过筛选,在选取的典型旅游网站上收集有关甘肃省景区景点的网络游记80篇,共112970字。其次,按照网站名称将收集的网络游记分为4个word文档,利用word软件对收集到的相关资料进行处理,将数据中同一旅游景点的多个表达名称进行统一,如雅丹在数据中指雅丹国家地质公园。第三,为了便于分析软件的识别,将修正完成后的word文档全部转化成txt文件格式并保存。第四,利用ROST CM 6软件对数据词频进行分析,将获得的初步分析结果进行词汇过滤处理,将“这些、去哪、的、吗”等一些旅游游记中常见但与旅游者分享无关的词汇纳入软件词汇表;利用ROST软件的过滤功能,过滤无意义的词汇,提高数据词频分析的相关性,从而完成以甘肃省为例的四大典型旅游网站的旅游分享比较研究。

2.3 社交语义网络中心度

网络中心度是衡量整个网络中心化程度的重要指标,中心化程度越高,越容易获取资源与信息,拥有的权力和影响力就越大。计算公式为:

(1)

式中,CD(ni)为点度中心度,Rij为节点的联系强度。若Rij=0,表明节点i与节点j之间没有关联;Rij=1,表明节点i与节点j之间相互关联。

中间中心度测量节点位于网络图中其他节点中间的程度,计算公式为:

(2)

式中,CB(ni)为中间中心度,gjk为节点j到节点k的最短路径数。若CB(ni)=0,表明该节点不具有对其他节点的控制力;若CB(ni)=1,表明该节点处于网络的中心位置,完全可以控制其他节点。

接近中心度能衡量网络中各节点之间的距离,节点的中心度越高,与其他节点的联系就越紧密,计算公式为:

(3)

式中,CC(ni)为接近中心度,d(ni,nj)表示节点i与节点j之间的距离。

3 研究结果

3.1 网络游记文本内容词频整体分析

依据研究方法,统计获得典型旅游网站旅游分享所使用的高频特征词共20个(表1)。从表1可见,旅游者分享的网络游记中最终提取的有关甘肃省旅游目的地的词汇主要是体现旅游景点和旅游吸引物的名词,旅游目的地词汇可归纳为四种类型:地质地貌型(丹霞、雅丹、沙漠、戈壁、冰川)、自然风光型(草原、景观、黄河、月牙泉、鸣沙山)、城市风貌型(兰州、张掖、夏河、敦煌、嘉峪关、玉门关)、名胜古迹型(莫高窟、马蹄寺、拉卜楞寺、洞窟、壁画、石窟)。甘肃作为旅游资源大省,地质地貌景观分布集中且独具特色,不仅拥有浓郁的民族风情和众多的红色胜迹,还拥有以敦煌为代表的佛教圣地、以梦柯冰川为代表的冰川雪山和以甘南草原为代表的草原绿洲,高频特征词统计的类型正好印证了这一点。

从表1统计的高频特征词的频数可知,词频在140以上的高频特征词有7个,其中敦煌的词频为298,是样本总体中频数最高的特征词,说明敦煌被旅游者提及的次数最多,最受旅游者的关注。敦煌富集众多优质的旅游资源,世界知名度较高,加之各大旅游网站的重点宣传,使敦煌成了来甘旅游的必游之地。兰州的词频为194,列居第二。作为黄河唯一穿城而过的城市,兰州可为旅游者提供西北特有的感官享受。此外,中山桥、黄河母亲像等众多标志性景观进一步加深了旅游者对兰州旅游的印象。莫高窟、鸣沙山、丹霞、雅丹、张掖七个高频特征词的频数介于140—170之间,是旅游者较为关注的热门旅游景点。事实上,作为甘肃省独特的旅游资源,地质地貌类景观已引起来甘肃旅游者的极大兴趣,成为来甘肃旅游者观光游览的重要组成部分。词频在90—120之间的中频特征词有6个,其中黄河的词频相对较高,表明近年来部分旅游者开始关注黄河旅游,但黄河并非甘肃的特有,青海、河南等地也在打造黄河文化旅游品牌,相对于前面的7大高频词而言,旅游者对黄河旅游的认知较弱。此外,拥有较高知名度的月牙泉未出现在高频之列,可能与景区娱乐单一、价格昂贵、体验程度较低等有关。中频词中出现了沙漠、骆驼这两个甘肃典型符号特征的词汇,表明沙漠旅游逐渐受到旅游者的青睐。对大多数旅游者而言,在沙漠中乘坐骆驼观看日出、日落将是一种珍贵的旅游体验与经历。词频在90以下的低频特征词有7个,玉门关、嘉峪关等知名景点位列其中,由于景区蕴含的深厚文化内涵没有得到很好的挖掘、旅游特质单一等原因,较高的知名度并没有引起旅游者的极大兴趣。甘南旅游景点拉卜楞寺在样本总体中出现频数为67次,在样本总体中排名最低。由于甘南的旅游景点大都以自然景点为主,季节性明显,使来甘南旅游的游客数远低于甘肃中西部其他旅游景点。整体而言,具有典型旅游符号表征且处于核心资源的自然与人文旅游景点最受来甘旅游者的关注,其中以人文旅游景点最为典型。

表1 典型网站游记文本内容高频特征词统计

3.2 样本网站高频特征词的对比分析

从表1可知,在高频特征词中,敦煌不但在样本总体中排名最高,而且是各典型旅游网站都存在的热门景点。敦煌因莫高窟这一世界文化遗产而享誉中外,受到旅游者的普遍关注,使旅游者形成一种“游甘肃必去敦煌”的意识观念。莫高窟在样本总体中列第三位,在驴妈妈网中则列第十七位。未进入样本总体前20名的拉卜楞寺、拱北,在驴妈妈网中分别列第四位、十四位。据统计,驴妈妈旅游网约有55%的旅游者以“自由行”为主要出游方式,在空间景点选择上具有更多的自主性,这部分旅游者更加青睐那些被团队游所忽略的景点。此外,同样出现在样本高频序列的雅丹,在驴妈妈网中则列第十四位。在中频特征词中,黄河在样本总体的中频序列中排名最高,在蚂蜂窝、途牛网站中则未进入高频特征词的前20名。其次,位居样本总体中频序列第二位的地貌,在途牛中列第十七位,表明与传统旅游景点相比,这两大网站更加关注一些新奇景点。出现在样本总体低频序列中的玉门关,是各典型网站排名较低的特征词;其次是嘉峪关,在携程、驴妈妈中同样排名较低,在蚂蜂窝中则未出现。关于嘉峪关的旅游分享,一旅游者在蚂蜂窝网站上写道:“嘉峪关只是一座古建筑让我有点失望。”表明玉门关和嘉峪关景区虽然蕴含丰富的文化内涵,但对以娱乐体验为主的旅游者而言,单一的观光特点难以对广大游客形成吸引力。各样本网站高频特征词的对比分析表明,来甘肃旅游者的旅游分享不但与各典型网站的主营业务有关,而且与旅游景点的自身特色和景观组合状况有关。

3.3 典型网站游记文本情感对比分析

网络游记文本情感分析是在网络游记词频分析的基础上,借助ROST MT6软件的情感分析功能进行分析。如表2所示(由于中性情绪无法反映旅游者对旅游目的地的偏好,所以本研究主要分析旅游者的积极与消极情绪):从总体上看,共有972条体现旅游者的积极情绪,占61.91%;消极情绪所占比例较小,为19.49%。即来甘肃旅游者的情感态度以积极情绪为主,表明甘肃省作为旅游目的地对游客具有较高的旅游吸引力,这一现象与表1网络游记词频表的分析结果相吻合。从各类网站呈现的旅游者情感类型来看,驴妈妈网有303条体现旅游者的积极情绪,占59.88%,是旅游者体现积极情绪最多的旅游网站。其次,蚂蜂窝旅游网中有249条体现旅游者的积极情绪,占59.15%。携程网则有205条体现旅游者的积极情绪,是所有网站中体现旅游者积极情绪最少的网站。经过分析表明,积极情绪在各分类网站中有着较为明显的优势。此种状态与各网站所追求的理想宣传效果相一致,但其中的消极情绪同样存在,且在携程网、蚂蜂窝网和途牛网中占有较高的比例。尤其是蚂蜂窝网,有96条体现旅游者的消极情绪,数量在所有网站中排名第一,这一现象的出现与甘肃省旅游基础设施相对滞后是分不开的。根据旅游者的相关游记,有相当一部分旅游者因对市内交通拥挤、景点门票较高而存在着不满情绪,这是值得重视的。

表2 典型网站游记文本情感分布

3.4 典型旅游网站社交语义网络分析

分析社交语义网络图能有效地判断组成该网络的结构体系,了解网络隐藏的语义信息以及各组成部分之间的关系,并且能从多个角度分析事态的全局状况[14]。

社交语义网络中心度分析:借助UCINET软件与式(1)—(3)对甘肃旅游景区景点等的社交语义网络中心度进行分析(表3)。由表3可知,敦煌的绝对点度中心度最大,处于社交语义网络的核心位置,说明敦煌与甘肃省其他旅游景点和旅游吸引物相比共现次数最多,对旅游者的吸引力最大。其次,莫高窟、地貌、雅丹的绝对点度中心度也较高,处于社交网络的次核心。此外,由于景点之间的关联性较低,仅有52.54%的景点中心度在零度以上。中间中心度统计结果显示,敦煌是整个社交语义网络中间中心度最高的景点,表明该地富集大量的旅游资源,且拥有较高的资源控制力。其次,鸣沙山、雅丹、地貌、莫高窟的中间中心度也相对较高,资源控制力较弱于敦煌但高于甘肃省其他旅游景点。统计发现,甘肃省景点中间中心度在零度以上的有21个,占总体的17.65%,即有1/2以上的景区景点或旅游吸引物对资源不具有控制力。从整体来看,中间中心度较高,点度中心度和接近中心度较小。例如,鸣沙山、丹霞等,这些景点拥有较高的资源控制力,具有一定的旅游吸引力,但由于这些景点共现的节点缺少与其他景点的相互关联,导致接近中心度较低。

表3 社交语义网络中心度分析结果(部分)

注:由于点出度与点入度相同,本文只对点入度进行统计。

社交语义网络凝聚子群密度分析:凝聚子群密度能对网络中小团体现象的严重程度进行判断,与派系林立程度密切相关,密度越接近于1,则派系林立的程度就越大,小团体或抱团现象就越难产生[15]。由样本游记中甘肃省各景点构成的社交语义网络图见图1。

甘肃省内的旅游景点或旅游吸引物之间彼此相互关联较松散。甘肃省旅游景点所构成的社交语义网络凝聚子群的密度为0.0302,较低的凝聚子群密度表明甘肃省各旅游景点在社交语义网络中不存在派系林立和小团体的现象。处于同一子群内的各个景点相互之间联系较松散,在一定程度上很难出现抱团现象,同时也反映出甘肃省各旅游景点之间的联系较少。因此,加强各景点之间的交流合作对甘肃省旅游业发展而言尤为重要。

4 结论与建议

根据有关甘肃省旅游景点网络游记文本,对不同旅游网站旅游者分享的游记进行特征词频、情感和旅游景点共现社会网络图进行分析,得出以下结论。

从高频特征词来看,具有典型旅游符号表征且处于核心旅游资源的自然和人文旅游景点最受来甘肃旅游的旅游者的关注,其中以人文旅游景点最为典型。这一状况与甘肃省各旅游目的地所具有的资源特色和相关组织所追求的营销宣传效果基本符合。基于此,甘肃省应以具有典型符号表征的人文旅游地为中心,根据游客的旅游分享,进行相关旅游产品的开发设计,促进旅游产品向多元化转化;其次,应加快特色文化与创意产业的结合,在兼顾娱乐性与体验性的同时,重点打造具有地方和区域特色的文化旅游项目,培育甘肃特色旅游品牌,完善各景点之间的地域协作,逐步推动单一观光旅游向复合型旅游转变。

旅游者关于甘肃省的旅游分享情绪以积极情绪为主,消极情绪占比较小。对来甘肃旅游者的消极情绪分析表明,交通拥挤、门票价格过高、“旅大于游”、体验项目的缺乏是造成旅游者消极情绪的主要因子。因此,旅游目的地应首先改善道路交通环境,完善道路交通基础设施,对旅游者进行合理疏导,避免出现过度拥挤现象;二是在制定门票价格时要充分考虑大众旅游者的经济承受能力,适时推出门票优惠政策或免门票的知名旅游景点;三是增加具有旅游目的地特色的体验旅游项目,丰富旅游者的旅游体验等。

网络中心度和凝聚子群密度分析表明,甘肃省旅游景点处于核心位置的较少,处于网络边缘的景点较多,且凝聚子群的规模较小、密度较低。这种状况表明,甘肃省各景点与景点之间的沟通合作范围较小,大部分旅游景点只与少数的旅游景点有连接关系。在实践中,甘肃省应将处于核心位置的景区景点作为未来打造特色旅游目的地品牌、构建旅游目的地形象的核心关注点。积极推进大景区建设,进行景区资源整合,在突出重点的前提下将低知名度的边缘景点与高知名度的景点进行组合,既能实现景区双赢的目的,又能很好地扩大景区之间的合作范围。此外,低知名度的边缘景点,在抢抓大景区建设这一契机的同时,要积极加强自身建设,主动与知名度高的景区景点展开合作,不但能有效提升景区自身知名度,而且还能有效避免其他景点的排挤。

[1]Scott Noel,Laws Eric.Knowledge Sharing in Tourism and Hospitality[J].Knowledge Sharing and Quality Assurance in Hospitality and Tourism,2006,7(1)∶1-12.

[2]Lon M J,Hung S,Chen C.Fostering the Determinants of Knowledge Sharing in Professional Virtual Communities [J].Computer in Human Behavior,2009,25(4)∶929-939.

[3]Serena Volo.Blogger′s Reported Tourist Experiences:Their Utility as a Tourism Data Source and Their Effect on Prospective Tourists[J].Journal of Vacation Marketing,2010,16(4)∶297-311.

[4]Park,Reisinger,Yvette,etal.Cultural Differences in Wed Communication:A Preliminary Study[J].Tourism Analysis,2012,17(6)∶761-774.

[5]Anil Bilgihana,Albert Barredab,Fevzi Okumusc,etal.Consumer Perception of Knowledge-sharing in Travel-related Online Social Networks[J].Tourism Management,2016,52(2)∶287-296.

[6]苗学玲.自驾车旅游研究的新视角:旅游网络论坛的主帖分类研究[J].商业研究,2006,343(11)∶158-160.

[7]苗学玲,保继刚.“众乐乐”:旅游虚拟社区“结伴旅行”之性质研究[J].旅游学刊,2007,22(8)∶48-50.

[8]王婷婷.基于内容分析的旅游虚拟社区分享帖研究[D].九江:江西师范大学硕士学位论文,2012∶20.

[9]陈雅茜.基于相册的旅游体验分享技术的研究[J].西南民族大学学报(自然科学版),2012,38(3)∶462-465.

[10]欧阳震青,彭润华.移动UGC环境下旅游者知识分享行为研究[J].旅游科学,2015,29(2)∶47-49.

[11]胡传东,李露苗,罗尚火昆.基于网络游记内容分析的风景道骑行体验研究——以318国道川藏线为例[J].旅游学刊,2015,30(11)∶99-107.

[12]张艺镒,柯彬彬,苏欣慰.穷游研究——基于网络文本分析方法[J].未来与发展,2014,38(7)∶37-39.

[13]Alexa 网站排名查询[DB/OL].http://www.alexa.cn/,2016-02-23/2016-03-08.

[14]李亚婷,马费成.基于标签共现的社会网络分析研究[J].情报杂志,2012,31(7)∶103-109.

[15]廉同辉,余菜花,宗乾进.我国旅游网站的网络结构研究——基于社会网络分析法[J].旅游科学,2012,26(6)∶80-88.

WANG Yao-bin,YANG Ling,SUN Chuan-ling,JIANG Jin-ping

(Tourism College,Northwest Normal University,Lanzhou 730070,China)

As a new field of tourism research,travel sharing attracted the attention of many experts and scholars in China and aboard.Selected Taking Sconic Spots Gansu Province as an example,the ctrip,mafengwo,lvmama and tuniu travel websites were as research sample,using the text mining method to analyze the word frequency,emotion and semantic website.The results showed that tourists were most concerned with the characterization of typical tourist signs and at the core of tourism resources of the natural and humanistic attractions,especially in the humanities was the most typical.From the perspective of emotion type,positive emotion dominated in emotional components,negative emotion accounted for a small proportion.As a tourist destination,Gansu Province had a high tourism attraction to tourist.But the negative factors that affected the emotion of tourists,such as infrastructure lag,traffic congestion and ticket price were too high which could not be ignored.Furthermore,more than half of the scenic spots or tourist attractions had no power for resources.Finally,the centrality of semantic website of scenic spots was low and structure of semantic website was relatively loose,so there was no factionalism and small group phenomenon.In addition,in the same subgroup of the various attractions were not connect too good.To same extent,the huddle phenomenon was difficult to appear,and it also reflected the connect between the various attractions in Gansu Province which was very seldom.Therefore,it was particularly important to strengthen the communication and cooperation among the attractions in Gansu Province.

text mining;typical travel website;tourism sharing;Gansu Province

2016-11-17;

2016-12-24

国家自然科学基金项目“粗糙集与模糊集结合的民族地区乡村旅游扶贫精准识别研究”(编号:41661107);国家旅游局旅游业青年专家培养计划项目“主客双重感知视角的民族地区旅游影响模型构建与实证”(编号:TYEPT201453);西北师范大学人文社科骨干项目(编号:SKGG14024)。

及通讯作者简介:王耀斌(1976-),男,甘肃省会宁人,副教授,硕士生导师,研究方向为区域旅游、旅游影响。

F590.3

A

1005-8141(2017)01-0100-05

猜你喜欢

特征词旅游景点游记
基于类信息的TF-IDF权重分析与改进①
贫民窟也能成旅游景点?
美人鱼
一种面向财务文本分类的TF-IDF改进算法
地心游记(十)只剩我一个人
寻梦环游记
寻梦环游记
基于改进TFIDF算法的邮件分类技术
OPEN:一个基于评论的商品特征抽取及情感分析框架
超市游记