APP下载

旅游网络舆情中关键词的提取方法

2016-03-15张贵红

大陆桥视野·下 2016年1期
关键词:舆情数据挖掘聚类

【摘 要】在旅游过程中,网民总会遇到各种各样的问题,网络新媒体让网民有了可以表达意见,传播新闻的自由,形成网络舆情。对于网络舆情正确引导,还原游客意见构成、听取游客诉求,有利于及时发现问题、化解矛盾、释放压力,实现旅游市场的良性健康发展。本文利用数据挖掘算法对舆情中文本关键词的提取提出了自己的看法。人工对比实验证明了该算法的有效性,有较高的准确率和召回率。

【关键词】旅游;关键词;舆情

一、前言

网络新媒体解放了人类的嘴巴,逐步消解新闻制造者与新闻阅读者之间的鸿沟,让每位新闻阅读者都拥有在公共领域自由表达的平台,打破传统媒体”一对多”的传播霸权,不再是媒体一家之词,新闻阅读者也可以制造传播新闻,形成了”多对多”的传播格局,新闻阅读者生产、新闻内容共享、自由的意见交流为特征的网络新媒体时代。

二、发现处理旅游网络舆情的重要性

在旅游过程中,网民总会遇到各种各样的问题,会听到或看到各种各样的现象,则不可避免的在网络空间针对这些听到或看到遇到的各种现象和问题发表意见,争取权益,建言献策,交流思想、抒发感情。通过新闻评论、论坛社区、博客空间、即时通讯、微博和微信等网络新媒体形式,网民可随时爆料、由此产生新闻话题。不同意见观点进入网络这个自由市场,有些尖锐的意见之间形成博弈、交锋、碰撞,与此同时,网络新媒体与传统媒体互相对接、引用和报道,传统媒体越来越将获取新闻线索和素材的重点放在网络新媒体上,改变着舆论的生成与传播机制,被官方垄断的话语权由于网络新媒体的出现而逐渐被下放和分解,形成旅游网络舆情。旅游网络舆情已成为旅游过程中游客社情民意的集中体现,是旅游管理方探察民情、倾听民意的重要渠道。通过对旅游网络舆情研究,还原游客意见构成、听取游客诉求,有利于及时发现问题、化解矛盾、释放压力,实现旅游市场的良性健康发展。旅游网络舆情作为我国现阶段最集中、最接近真实的游客民意代表,为旅游管理部门审视政策利弊得失,提供了成本低廉、反应快速的平台。某种程度上,旅游网络舆情代表的游客民意已成为旅游管理部门制定政策的民间智库。

根据新华网网络舆情监测分析中心、武汉大学、中国社会科学院(2011)的研究结果显示,地区网络舆情事件的发生频率和热度高并不一定对该地形象产生负面影响,然而事件处理失当对地区形象的破坏却是巨大的。旅游管理部门对旅游网络舆情事件的应对是影响地区旅游网络形象的关键。重视旅游网络舆情、倾听游客民意诉求、善用网络建构和提升旅游地区形象的理念,已被越来越多的地方所接受。

旅游业具有综合性、关联性、依赖性和异地性等特征,当政治、经济、社会、自然等危机事件发生时,旅游业是国民经济最易遭受冲击的行业之一。随着我国旅游产业进入大众化的全面发展阶段,国内旅游规模迅速扩大、出入境旅游均有大幅增长,游客构成更加多样、利益诉求逐步多元,加上网络新媒体和传统媒体监督报道的推波助澜,提高了旅游危机事件的发生几率和破坏程度。这会影响到旅游地区的声誉,也在一定程度上危及整个旅游产业的安全。如上文所述,新媒体时代的危机事件在发生、演化和传播上都与传统媒体时代有巨大差异。因此,要科学有效的应对各类旅游危机事件、修复和维护政府、企业和个人的受损形象,采用网络舆情的监测方法和管理手段必不可少。

三、旅游网络舆情中关键词提取的主要方法

关键词提取主要包括以下几种类别:(1)在基于有监督学习的关键词提取算法中,词频,TF-IDF,N-Gram,词长,出现位置,共出现频率等常常被当做有效的特征加以使用。这种方法主要是对较多的训练语料进行一定的训练,在训练中获得各项系统的相关参数并建立一定的模型,最后利用这种模型对语料库进行测试,从测试中检测此种模型提取关键词的效果,Kea算法是一个基于贝叶斯模型的非常有效的算法。基于“信息增益”(Information Gain)的英文关键词提取系统是以实用性为最终目标的算法,称为KPSpotter。(2)基于无监督学习的关键词提取。Mihalcea和Tarau受Page Rank的启发,把词看做网页,将词与词之间的语义关系看做链接,开发了Text Rank算法。他们提出了自己的短语合并算法。他们先将每个单词作为基本元素参与迭代,迭代完之后,取出排名靠前的一部分词作为候选。如果候选的词在文中相邻,则将他们合并成为短语。基于有监督学习的算法充分利用了各种先验知识,实验结果表现较好。但由于过度依赖训练数据,使得实用性较差。基于图的算法利用词语间的语义相似度建立网络,通过某种特定的规律构建一个比较复杂的网络模型,也取得了不错的成绩。很多工作都注意到了短语级别的关键词的重要性,同时也提出了相应的方法。

四、本文提出的关键词提取算法

给定阈值k, k 为最近邻对象个数

输入: 要聚类的数据集D,参数k

输出: 聚类好的簇列表S

对数据集D,计算所有对象的距离矩阵M,得到词语语义距离后,对所有词语进行聚类。

方法: repeat 判断输入点是否为核心对象P,P∈D

IF P为核心对象{以对象p 建立一个新簇C, 对簇C 内新加入的对象O, O∈C,递归将核心对象继续聚到簇C 中,直到没有新对象加入。

}

ELSE P为非核心对象{

如果P是一个边界对象,P被标记为噪声

}

until 所有输入点都判断完毕

repeat 针对所有核心对象的D领域所有直接密度可达点找到最大密度相连对象集合,合并密度可达对象。

util 所有核心对象的D领域都遍历完毕

输出聚类好的簇列表S={C1,C2,……Cm}

算法的主要思想是通过词语间的语义距离,对词语进行密度聚类,得到主题相关类,并简化参数输入, 同时能够发现空间密度不同的簇。人工对比实验证明了该算法的有效性,有较高的准确率和召回率。

五、总结

加强旅游行业网络舆情引导机制的研究,应用信息化技术加强旅游业网络舆情引导,营造一个有序、繁荣的旅游市场,随着数据挖掘技术等大数据应用越来越多的融入到旅游的各管理领域,通过互联网,指导人们的旅游行为和旅行计划,从而实现方便快捷的智能化感知和交互性旅游体验。今后旅游业还应在网络舆情预警分析的研究和应用方面进行进一步的探索。

参考文献:

[1]李 锋.目的地旅游危机管理:机制、评估与控制[D].西安:陕西师范大学,2008.

[2]吴晓梅.十年发展铸辉煌—十六大以来旅游业发展述评之一[N].中国旅游报,2012-9-12.

[3]刘 栋,张彩环.基于短语的中文标签自动生成混合算法[J].计算机科学,2014.

注:

项目名称:智慧旅游中的数据挖掘算法研究(项目编号:SKL2015C18)。

项目名称:数据挖掘算法在智慧服务中的应用(项目编号:LYC15-16)。

作者简介:

张贵红(1973—),女,乐山师范学院计算机科学学院,讲师,研究方向:数据挖掘。

猜你喜欢

舆情数据挖掘聚类
探讨人工智能与数据挖掘发展趋势
基于DBSACN聚类算法的XML文档聚类
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
舆情
舆情
舆情
一种基于Hadoop的大数据挖掘云服务及应用
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例