基于在线评论数据挖掘的旅游订购意愿研究
2020-08-17胡伟利
摘要:自1999年携程成立,中国第一批OTA平台形成,将传统的旅游行业与互联网有机的结合起来。随着时间的推移,在线旅游平台已步入稳步完善阶段,为旅游爱好者提供了比价和信息收集的平台,同时也增加了旅游行业的竞争压力,如何在同质化的旅游平台中脱颖而出,提升平台的服务质量是其发展的关键问题。本文基于消费者视角,通过从在线旅行社携程中挖掘消费者旅游后的在线评论,提取有关旅游的相关词进行语义相关性处理,通过网络可视化可以清晰反映出消费者对在线旅游团购服务的关注点,为在线旅游产业链中的企业提供切实可行的有益建议。
关键词:在线旅游评论,语义挖掘,语义关联
1.背景
随着互联网的发展,推动着传统企业与互联网的快速融合,旅游和互联网的结合使旅游行业逐步成为中国经济的一大支柱性产业。随着互联网发展的进一步提升,游客的声音将通过互联网传播的更快更远,通过挖掘游客旅游后对景点的用户体验能够了解消费者对待在线旅游景点需求的态度,进一步提升旅游相关企业的服务质量,改善旅游行业的口碑,提升旅游爱好者在线订购意愿度。
1.1 研究进展
自1999年起,携程等OTA平台初建,旅游也越来越受到消费者的青睐,旅游行业逐步发展壮大起来,旅游服务的同质化、消费者对旅游服务的不满成为在线旅游行业需要解决的问题,学术界对在线旅游的研究由来以及,本文以中国知网(CNKI)数据为例,键入“在线旅游服务”检索到9225条记录,选取1999年及以后的相关文献,由以下图表可知,在线旅游认为学者们研究的重点。
1.2 在线评论
在线评论是由购买者发布的使用产品或服务后的体验、评价和意见[2]。在线评论可以快速帮助消费者了解商品信息,然而过多的在线评论可能导致消费者信息过载,难以处理影响消费者对有用信息的判断[1]。众多研究表明在线旅游评论对旅游行业有显著影响,影响消费者对旅游目的地的形象感知、旅游决策行为和在线旅游的销量[3]。消费者可以通过阅读其他消费者旅游后所发表的评论减少风险的不确定性,制定切实可行的旅游计划[4],大数据时代可以对海量在线旅游进行分析,对于预测消费者行为及服务的升级有着至关重要的作用[5]。
2、研究方法
2.1 研究设计
提高在线旅游消费者的意愿度是从根源上了解在线旅游消费者的需求,根据存在的矛盾点对症下药。本文从消费者旅游体验出发,通过挖掘在线旅游订购消费者购后景点体验即消费者旅游后的在线评论,利用网络爬虫从携程网站中挖掘多个景点消费者旅游后的在线评论,对数据进行预处理(剔除少于10个字,信息含量低的语句),利用ROST CM6.0對挖掘到的信息进行分词,形成独立的单词,统计词频,最后对生成的根据生成的共线矩阵利用Gephi0.9.2形成网络可视化分析图。
2.2 数据收集
为了保证数据的非单一性和可靠性,保证所选取的数据具有一定的代表性,选取南京、厦门、北京等多个景点作为研究对象,避免数据的重复性或地点的单一所造成的数据的非客观性,选择携程这一集旅游、酒店订购、机票、签证、门票和邮轮旅游等多元化产品为一身的在线平台,使用Phthon编程语言提取其个景点的在线评论,较具有代表性。
根据消费者对搜索引擎的翻页数的使用习惯,消费者使用搜索引擎时大多只关注前5页,以及携程数据更新的及时性,本文选取2019年1月-2019年8月的评论数据,共提取携程景点评论19875条,剔除其中数字过少或无意义的景点评论,剩余16784条携程景点在线评论,共998017个字符,每条评论平均长度为59.462个字符。
2.3 数据处理
从携程收集的旅游景点的在线评论需进行数据的预处理,首先,剔除单条评论数字少于10个字和单词语句重复提交的评论,由于评论数字过少时或重复,评论所能代表的有价值的旅游相关信息较少,故进行筛选剔除;其次,对剩余的在线评论进行整合,利用ROSTCM6.0进行所选内容的分词处理,形成1000个词频大于1的独立的单词,将同义、重复词语进行标记、剔除、整合,保证语义的非重复,对高频词语(即词频大于30的词)共词矩阵中的高频非相关性词语进行二次剔除,最终剩余119个高频词语用于后期的可视化分析;最后,对整合后的词语使用Gephi0.9.2绘制携程景点评论的网络分析图,以便直观的观察各词语社区分布以及相关性与重要程度。
3、数据分析
3.1 主题词分析
主题词对于分析语句含义具有重要性意义[6],可以有效快速的分辨出携程这一旅游的在线评论的社区分布,通过在线评论分词后的词频统计和共线矩阵的相关性分析可知,携程的在线旅游关键词主要可以分为四大类,可概括为导游能力、酒店环境、景点环境以及行程安排,每一模块的高频词汇又体现出消费者对此类旅游活动的关注点为何,词频越高关注度越大,通过提升这一方面的服务质量,可以迅速提升在线旅游消费者的好感度,提升携程在线评论的好评率,从长远看能够为企业树立良好的企业形象与口碑。
如下图3-1所示,高频词汇分类中景点环境的词频占比为27.03%,为四类高频词汇中比重最高的一大模块,消费者对去哪里玩和旅游目的地的选择有一定的自我选择性。通过高频词景点(1915)、历史(1027)、人文(125)、美丽(214)、漂亮(555)、景色(612)、推荐(596)、文化(984)、故事(334)这些高频词汇可知消费者不仅追求旅游过程中个人精神的追求,同时注重中华名族的文化传承。
导游能力的词频占比到了23.08%说明在线旅游订购者较为看重在旅游过程中导游发挥的相关作用,愉快(356)、周到(105)、感谢(175)、耐心(194)、关怀(1700)、方便(1178)、值得(1013)、幽默(716)、责任(553)、经验(302)、讲解(376)、文化(984)、服务(453)、专业(253)、耐心(194)、推荐(596)此类形容词可知旅游消费者关注旅游过程中与导游的互动活动,旅游是消费者离开忙碌生活回归自然美景和人际交往的手段之一,导游的个人人格魅力也决定着消费者对旅游的总体感受,提升消费者对旅游中的价值感受。
最后,行程安排和酒店安排的高频词汇的占比分别为13.46%和7.69%,从亲子游(1157)、时间(1261)、排队(425)、天气(446)、体验(476)、开心(484)等词汇及词频可知,旅游消费者有意愿选择主题型旅游项目,对旅游行程的时间安排较为看重,旅游需要满足消费者基本诉求即愉悦心情;对酒店体验而言,酒店的性价比,安全卫生是消费者关注的重点所在。
3.2 语义关联网络结构图
通过对ROST CM6.0形成的共词矩阵进行整合并调整为csv文件格式导入Gephi0.9.2中,删除不相关的独立节点,形成如下图3-2所示的无向网络图。首先,从图中可知,根据节点的颜色可将图中节点划分为四个社区,分别为导游社区、酒店社区、景点社区和行程社区,这一结论显示基本与表3-1高频词汇分类的结果相一致;其次,通过可视化图可知,每个社区分布为相互关联的节点集中构成,如图中导游与讲解、愉快、责任、详情此类高频词汇都有密切相关性,说明在线旅游订购者对导游的个人幽默感和责任心都有一定的要求,节点的大小表示消费者对此类活动的情感认同感,节点所占面积越大说明消费者对此类活动的个人感知程度越强,在旅游购后体验中占比越重,节点之间的连线(即两节点的边)的粗细各不相同,边的宽度越大证明两节点的相关性越强;最后,从携程在线评论可视化图可知,每个节点词汇之间非简单的一对一的关系,而是相互交错互相影响的,旅游产业链中的企业通过对其中一个节点服务质量的提升,可能对其他节点产生不同程度的改变,这种改变的规律无法简单概括,但相关服务的提升必然会导致这一社区总体占比的提升,在线旅游消费者对这一社区的认同感会得到相应的提升。
4、结论与建议
4.1 结论
本文通过携程平台挖掘旅游消费者的在线评论,运用ROST CM6.0对相关评论进行分词,形成词语间得得共词矩阵,最后利用Gephi0.9.2生成携程在线评论的可视化分析图。从图中我们可以精准的识别出在线旅游消费者关注的热门话题,主要可以分为四大主社区,其中导游主社区与讲解子社区联系紧密,说明消费者考察导游是主要从导游个人的信息掌握程度方面进行定位,其次是其社会责任感与幽默程度;行程的社区中与其紧密联系的子社区为规划,说明在线旅游订购消费者对整个旅游行程规划是否合理清晰较为看重,同时对拥堵排队等现象较为排斥;酒店社区中酒店的性价比是消费者的潜在关注点,酒店的位置、标准和房型反而与酒店的关联度不高说明此类点评的针对性不强,如何提高高质量的相关评论的发布是酒店管理的重点;最后景点的相关节点较松散联系度不足,但主要为关键词多为对景色的描述和对文化的追求,体现出消费者对精神境界的追求。
4.2 建议
根据以上的研究结果,本文提出以下几点建议,以期改善和提升携程在旅游爱好者心目中的形象感知。
(1)重视和改善人文旅游资源和产品的开发。通过以上研究分析可知,消费者对人文景点的感触较多,但联系不足,携程可挖掘当地的文化底蕴和历史内涵,提升消费者对旅游的认同感。
(2)增加主题信息的相关宣传。从在线评论扽分词结果可以看出,现如今的旅游多为家庭旅游和多人旅游为主,亲子游、老人团成为时下热门,增加消费者的体验性项目不仅可以吸引在线旅游订购者的注意同时增加消费者的好感度。
(3)提升旅游管理行业的自身修养。旅游管理行业应通过提升自身的素质来赢得消费者的好感度,如定期对导游进行行业培训以提高导游行业的服務质量;酒店行业要增加服务提供的质量,高质量的服务同时也能降低消费者对价格的敏感度。
参考文献:
[1] 孙茜甜. 在线评论内容特征及其效价的感知有用性研究[D].山东大学,2018.
[2] Litvin, S. W., Goldsmith, R. E., & Pan, B.Electronic word-of-mouth in hospitality and tourism management. Tourism Management,29(3), 458–468.2008
[3] Lian, T., & Yu, C. (2017). Representation of online image of tourist destination: A content analysis of huangshan. Asia Pacific Journal of Tourism Research, 22(2), 1–20. 2017
[4] Hu, Y. H., Chen, Y. L., & Chou, H. L. Opinion mining from online hotel reviews–a text summarization approach. Information Processing & Management, 53(2), 436–449.2017
[5] Wang, Y., Yang, L., Sun, C., & Jiang, J.Comparative research on travel sharing of typical travel website based on text mining: Taking gansu province as an example. 2017
[6] Hou,Z.Cui,F.&Meng,Y.Opinion mining from online travel reviews: A comparative analysis of Chinese major OTAs using semantic association analysis.Tourism Management,74(2019):279-289
作者信息:
胡伟利,研究生在读,上海工程技术大学,研究方向:企业管理。