APP下载

网络游记中地方热度特产信息的抽取方法研究

2017-11-02李艳商洛学院经济与管理学院商洛726000

微型电脑应用 2017年10期
关键词:商洛特产游记

李艳(商洛学院 经济与管理学院,商洛 726000)

网络游记中地方热度特产信息的抽取方法研究

李艳
(商洛学院 经济与管理学院,商洛 726000)

通过调查问卷的形式对旅游爱好者进行调查,发现网络游记中特产这一信息可以直接或间接影响到出游者的购物导向。结合斯坦福大学开发的Protégé软件对特产信息进行本体库的构建,并在此基础上对游记文本进行预处理、解析,最终借助GATE平台对网络游记中特产信息进行抽取,并对抽取结果进行统计分析,从而为旅游地打造特色特产提供决策上的依据和帮助。

网络游记; 信息抽取; 本体; Protégé

0 引言

网络游记是旅游者根据自身的旅游体验自发主动地在网络中发表的一种文体形式,由于游记本身具有主观自发的特点,相比传统方式的问卷调查、座谈等方式更能体现出游客的真实态度,游记中关于景点、住宿、交通、特产信息等的记录往往会给众多的旅游爱好者提供一个更加真实可靠的信息。到目前为止,国内外根据网络游记所提供的信息对旅游地的研究越来越多,例如:通过网络文本方法对旅游感知进行形象分析[1-3]进而对旅游发展和管理提供依据[4-5];深入分析网络游记中热度地名信息的提取[6],通过链接分析方法对网页文本中核心地名的提取[7],为进一步研究旅游地认知行为提供重要依据。总体上看,目前研究的重点主要集中在网络游记目的地形象构建的作用分析以及有关旅游景点地名信息的抽取研究,对于游记本身所带来的出游决策、行为影响等方面还有待深入和细化。

本文通过对网络游记中的关键信息进行分析统计,进而对关注度较高的特产信息进行概念关联分析,借助本体库的建立,为网络游记中的特产抽取提供依据,进而为出游者提供一个购物的指导性建议,更能对旅游景点或是旅游区域建设中品牌特产的精准营销提供决策上的支持。

1 商洛地区特产发展状况与问题分析

商洛地处陕西省东南部,素有“秦岭最美是商洛”之称,近年来,商洛旅游已经成为商洛经济发展的支柱产业之一,先后建成了陕西省唯一5A级生态类旅游景区——“商南金丝峡”、柞水牛背梁、山阳天竺山三个5A级景区以及老君山、月亮洞、棣花旅游区、塔云山和丹江漂流5个4A级景区[8]。商洛旅游的快速发展,吸引了越来越多的旅游爱好者来到商洛、了解商洛、感受商洛。随着商洛旅游业的快速发展,旅游项目所在地热度特产信息的挖掘已经成为制约商洛旅游进一步发展的短板,自2013年起,商洛市旅游局连续三年在年终工作总结中均提出遴选“商洛旅游必购特产”评比活动,由于商洛地区特产发展多有重合之处,例如:商洛的地理标志产品中仅核桃这一特产就有:商洛核桃、洛南核桃、山阳核桃、丹凤核桃和柞水核桃五个品牌,加之此项评比采用问卷调查的形式,被调查者均带有个人感情因素,因此评比工作效果不佳。

商洛六县一区纷纷想借助旅游这一产业的发展从而带动当地特产的销售,然而由于各地特产特点不突出,种类繁多,没有代表地方特点的主打产品,对于旅游爱好者的购物偏向把握不准确,资源调配精准度不够,因此,特产的销售一直处在一个停滞的状态,相对于发展迅速的旅游业而言,特产销售的滞后性已经引起了有关政府部门和行业的高度重视。

2 网络游记中重点信息的统计

由于网络游记这种形式的真实性较高,旅游者在出游前会以网络游记中的相关记载作为一种参考,这种参考往往会为出游者的旅游决策提供参考性意见[9-10],那么网络游记中的哪些信息更容易引起出游者的关注,本文通过问卷调查的形式以QQ、微信等途径对商洛市旅游协会的旅游爱好者以及爱好旅游的家庭共计300人进行调查,问卷内容主要包括:网络游记对出行计划带来的影响以及最想通过网络游记获取什么信息作为重点内容,最终收到有效网络问卷267份,排除与所调查内容信息不符的35份,最终有效问卷232份,对于问卷中,以旅游者最想获取的信息作为关键词进行统计,被调查者可以有多种选择,最终词条结果排名前八的是“美食、特产、住宿、交通、花费、景点行程、图片、时间安排”,如图1所示。

图1 网络游记重点信息统计图

3 网络游记中特产信息的抽取方法

近年来,随着信息抽取在各领域的广泛应用,已经出现了相关领域的信息抽取系统,例如:基于自然语言处理方式的信息抽取系统:RAPIER 、WHISK等[11],基于机器学习方法的信息抽取系统:STALKER 、SoftMealy等[12]以及基于本体(ontology)的信息抽取系统:KEUOA、Artequakt等[13]。其中基于本体的信息抽取由于其对文档的结构依赖程度少,只要领域本体足够完善,就可以取得很高的准确率和召回率而受到广泛应用。本文对于网络游记中的特产信息主要采用的是基于本体的信息抽取方法,抽取流程,见图2所示。

3.1 特产信息本体库的构建

在网络游记中,记载特产信息的同时会突出景点的介绍,因此在建立本体库的过程中,景点名和特产是两个核心概念,而对于任何一个景点而言,它都隶属于某个县或区,这些地名信息在网络游记中有时会被游记书写者所忽略,因此在提取核心概念的时候需要补充地名这一重要信息,提取出的核心概念为:

图2 信息抽取流程图

地名:本文以县名作为最小单位,商洛地区包括了商州区、洛南县、丹凤县、山阳县、镇安县、柞水县、商南县;

景点名:包括各县的景点,例如商南县的金丝峡,柞水县的柞水溶洞等;

特产:主要是特产名,例如核桃、板栗、花生等。

通过斯坦福大学开发的protégé作为本体构建工具对提出的核心概念进行建模,分别对旅游景点和特产信息进行本体构建,如图3、图4所示。

3.2 文本预处理

本文所处理的网络游记信息主要来自于携程网(www.ctrip.com)、途牛旅游网(www.tuniu.com)、蚂蜂窝(www.mafengwo.cn)以及商洛旅游资讯网(www.sllyj.com)四个网站近三年有关商洛旅游的4 756篇网络游记作为研究样本,为了提高游记本身信息质量,需要对这些Web信息进行预处理:对于同一人发布的同一旅游地的游记进行合并,并删除信息涵盖量不足、篇幅较短的游记,最终保留有效样本集1 020篇,并通过ICTCLAS2016分词工具的JNI接口编写JAVA程序对样本文档进行批量分词标注[14]。

3.3 本体解析

本体解析的目的主要是为了把直接使用OWL语言编写的本体库中的信息进行解析,并把解析出来的概念、关系等结构存储到数据库中,解析的工具主要采用英国布里斯托市惠普实验室推出的Jena,它是Java的一个API,解析流程,如图5所示。

部分伪代码如下:

OWLRead ()

{

OntModel m;//定义一个本体模型

m=ModelFactory.createOntologyModel();//建立这个模型

m.read(特产本体.owl); //读取本体文件

for(对owl文件遍历)

{

getSubClass();//返回所有的子类

getSuperClass();//返回所有的父类

返回属性值及实例;

}

}

图3 旅游景点地名本体建立模型

图4 旅游地特产信息本体建立模型

图5 本体解析流程图

3.4 信息抽取

在抽取过程中,MUC定义的信息抽取任务中对于命名实体的抽取是做的最好的,其中利用GATE平台进行的抽取准确率可以达到92%以上,为了达到很好的抽取准确率,对GATE中的NE Transducer组件进行抽取模板的制定[15],信息如下:

……

4 结果分析

4.1 特产信息的抽取结果

为了验证前文提出方法的可用性以及实际效果,使用GATE[16]平台对样本文档进行抽取(以山阳县为例),样本数量为258份,最终抽取结果,如表1所示。

表1 山阳县景点特产信息抽取结果

通过对网络游记中的特产信息抽取的结果发现:挂面、九眼莲、核桃、鲜核桃等8种特产在游记中出现,现对抽取出来的这些结果进行出现频率统计结果,见表2所示。

表2 山阳县特产信息抽取结果频率统计

4.2 现实效应

通过对这些特产出现的频率进行统计发现,核桃、鲜核桃、天麻排在前三位,其中鲜核桃是一个特产信息中经常被忽略的内容,因为在山阳县的旅游产品销售中,核桃的影响力度远远超过鲜核桃,甚至很多产品都是依附于核桃这一特产而存在,例如:核桃油、核桃糖、核桃露等。通过对特产信息的抽取、统计得出鲜核桃这一特产在网络游记中受到广泛的关注,因此,在2016年8月,山阳县政府通过网红直播+手机淘宝的方式进行鲜核桃的网上推介,短短十小时,网上售卖上万斤,让全国人民吃上新鲜的核桃,并且对当地的经济起到了不可估量的价值和现实意义。

5 总结

对于商洛地区而言,旅游业已经成为商洛经济的支柱产业之一,近五年来,旅游业所带来的综合收入以每年超过10%的速度在增长,仅2015年全市共接待游客3 362.95万人次,综合收入174.87亿元[17],而旅游产品中特产的销售长期处在一个低速的发展水平,所带来的经济效益也微乎甚微,挖掘能够代表地方特点的品牌特产已经迫在眉睫。

网络游记由于它能够真实有效的反映出游者的出游过程和体会,而影响到出游者的旅游计划,对于游记中所反映出来的信息往往比问卷调查、座谈、采访更加真实,因此本文通过对网络游记文本中的特产信息进行抽取,进而对抽取出来的内容进行统计,从而为重点建设旅游地特色特产提供指导性帮助。目前本文的研究仅局限于网络游记中有关特产信息的抽取,相信在后续的研究过程中,会将此方法应用到旅游业的其他方面,从而为地方经济的发展提供一个可参考的数据支持。

[1] 徐小波,赵磊,刘滨谊,等.中国旅游城市形象感知特征与分异[J].地理研究,2015,34(7):1367-1379.

[2] Jovanovic J, Gasevic D, Devedzic V. Tangram for Personalized Learning Using the Semantic Web Technologies[J].Journal of Emerging Technologies in Web Intelligence,2009,1(1):6-21.

[3] Olga C. Santos, Jesus G. Boticario. Users’ experience with a recommender system in an open source standard-based learning management system[A]//Santos, O.C. and Boticario, J.G. HCI and Usability for Education and Work[C].Graz:Springer-Verlag,2008.185-204.

[4] 张珍珍,李君轶.旅游形象研究中问卷调查和网络文本数据的对比——以西安旅游形象感知研究为例[J]. 旅游科学, 2014, 28(6):73-81.

[5] 乐倩倩,曾超.南京市旅游形象供需关系研究——基于旅游官网和网络游记中的感知形象[J]. 市场周刊, 2016(7):49-51.

[6] 沈晓婉.从网络游记看凤凰古城的元素性符号[D].沈阳:东北财经大学, 2013.

[7] Xu Li,Youcheng Wang. China in the Eyes of Western Travelers as Represented in Travel Blogs[J]. Journal of Travel & Tourism Marketing .2011, Vol.28(7), 689-719.

[8] 王永明,王美霞,李瑞,等.基于网络文本内容分析的凤凰古城旅游地意象感知研究[J].地理与地理信息科学, 2015, 31(1):64-67.

[9] 静恩明,郭风华,李仁杰,等.基于新浪旅游博客的河北省A级景区网络关注度研究[J].地理与地理信息科学, 2015, 31(3):118-122.

[10] Saman Shishehchi, Seyed Yashar Banihashem. Ontological Approach in Knowledge Based Recommender System to Develop the Quality of e-Learning System[J].Australian Journal of Basic and Applied Sciences,2012,6(2):115-123.

[11] 李照航,郭风华,李仁杰,等.大量网络游记文本中热度地名提取方法与实证研究[J]. 地理与地理信息科学, 2015, 31(1):68-73.

[12] Woerndl W,Huebner J,Bader R,et al.A Model for Proactivity in Mobile,Context-aware Recommender Systems[C].Proceedings of the 5th ACM Conference on Recommender Systems (RecSys’11).New York:ACM,2011:236-241.

[13] Kang J, Choi J. An Ontology-based Recommendation System Using Long-term and Short-term Preferences [C]. Proceedings of 2011 International Conference on Information Science and Applications (ICISA), Jeju Island, South Korea. IEEE, 2011: 1-8.

[14] 钟翔,高勇,邬伦.基于链接分析的网页文本核心地名提取方法[J].地球信息科学学报, 2016,18(4):435-442.

[15] Hahn J. Location-based Recommendation Services in Library Book Stacks [J]. Reference Services Review, 2011, 39(4): 654-674.

[16] 程显毅,朱倩,王进.中文信息抽取原理与应用[M].北京:科学出版社,2010.

[17] 杨敏,马耀峰,李天顺,等.基于屏幕跟踪的大学生在线旅游信息搜索行为研究[J].旅游科学, 2012, 26(3):67-77.

ResearchontheExtractionMethodofLocalHotProductInformationintheNetworkTravel

Li Yan
(School of Economics and Management, Shangluo University, Shangluo 726000)

Investigation on travel enthusiasts through the form of questionnaire, found that the specialty of network travel information can directly or indirectly affect the tourists shopping willing. Combining Protégé software developed by Stanford University, ontology of specialty information was constructed, and based on this, journey text was processed anel analyzed. Finally, using GATE platform information was extracted for specialty in network travels, and the extracting results were statistically analyzed. It can provide basis for decision-making and help the tourism to focus on creating specialty products.

Network travels; Information extraction; Ontology; Protégé

P208

A

2016.11.28)

商洛学院项目(14SKY014);商洛市科技局项目(SK-2013-9)

李艳(1983-),女,讲师,硕士研究生,研究方向:信息抽取、数据挖掘.

1007-757X(2017)10-0033-04

猜你喜欢

商洛特产游记
陕西商洛:创出菌蔬轮种发展新模式
江阴特产——马蹄酥
作品赏析6
地心游记(十)只剩我一个人
寻梦环游记
寻梦环游记
欢迎订阅《中国林副特产》
超市游记
我的是故乡商洛
商洛加快培育千亿元新能源汽车产业集群