基于网络爬虫的旅游景区网络关注度动态检索系统研究
2019-05-15张宇星郑江华
张宇星 郑江华
在互联网+旅游的时代背景下,为促进景区的科学化建设与景区旅游资源的信息共享,实现景区资源的优化配置。本研究以旅游景区为研究实例,以Java为开发语言,以SQL Server 2016为存储数据库,以Apache为服务器设计并实现了基于网络爬虫的旅游景区网络关注度动态检索系统。
引言
随着互联网、物联网的盛行,线上线下的联动发展,大数据的出现促进了旅游产业融合、旅游体验智慧化、旅游方式转变和旅游消费升级。各地智慧旅游建设不断加强,基于互联网形成的旅游大数据应用主要体现在目的地形象感知、目的地流量预测、目的地偏好度分析等方面,而针对旅游景区网络关注度的数字化动态检索系统还未见报道。基于此,本文展开基于网络爬虫的旅游景区网络关注度动态检索系统研究。
一、系统目标与需求分析
(一)系统目标
系统能够以互联网中游客发布的各类信息,作为关注度要素的釆集对象,来自动爬取各级别景区的关注度信息,并进行动态更新,然后根据景区关注度算法建立的索引机制进行景区关注度综合排名,并分析出该景区关注度高低与其所处的级别的一致性,为今后景区定级和景区旅游资源的优化配置提供决策依据与信息化服务。
(二)需求分析
1.爬取与下载网页。系统能够对互联网中的旅游信息网页按照一定的搜索规则进行爬取与下载。
2.判别网页并提取信息。系统能够按照一定的判别算法从已下载好的网页中提取具体的景区关注度信息,包括景区名称、游记、评分和照片等数据。
3.实时更新网页。系统能够按照一定的更新规则对已下载的网页进行更新,确保传递给索引模块的信息都是最新、最有效的信息。
4.建立信息索引。系统能够将采集到的景区关注度信息通过遵循一定的规则来建立索引,从而快速响应用户查询需求。
5.信息检索并显示。系统能够提供一个简洁友好的景区关注度信息检索界面,使用户可以查询不同级别景区的关注度信息,并可以将查询结果按照综合排名显示给用户。
二、系统总体构架
根据功能需求分析,系统的主要功能模块可分为信息采集模块、数据索引模块、用户查询模块。
(一)信息采集模块
本模块负责从互联网中收集景区关注度信息。使用Web Magic对选中的网站进行景区关注度信息提取,并按照一定的规则保存在本地数据库中。
(二)数据索引模块
本模块负责对收集到的数据进行检索。首先要将获取到的景区关注度数据加工整理,以方便Lucene进行检索,然后建立的索引以文件的形式保存在本地索引库。
(三)用户查询模块
本模块负责接收用户的查询语句并显示结果,包含检索和显示两个主要功能。检索过程:用户在系统前台输入查询语句,系统后台对查询语句进行检索,处理成Lucene可识别的查询项,用查询项对索引库进行搜索,对匹配的结果进行打分,根据分数的高低依次排序返回。显示过程:采用Spring MVC构架,建立景区关注度索引对检索结果进行接收,前端采用JavaScript和EL表达式完成阈值的传递,将最终结果显示在页面上。
三、系统功能實现
(一)后台数据管理
系统后台数据管理有动态爬取数据、获取目标地址、历史纪录管理等主要功能模块。
1.动态爬取数据。网络搜索引擎需要实时采集数据,用户可以根据实际需要,在系统中选择动态采集时间,默认采集时间为24小时,以减少对采集目标地址的访问压力。
2.获取目标地址。网络爬虫在抓取数据时需要一个指定网址,以避免获取到无用的数据,设置一个合适的抓取地址可以使获取的数据更为精确。系统可以获取合适的目标地址,并填入标题和描述,以判别不同地址的属性。
3.历史纪录管理。用户可以查询、添加、删除和复制历史记录,包括序号、标题、描述、状态和发布时间等信息。
(二)前台页面设计
系统前台页面有景区信息查询、关注度排行、关注度异常提示等主要功能模块。
1.景区信息查询。用户可以根据景区目录下所对应级别的景区名称查询景区的详细简介,同时系统将同一级别的景区,使用同一种标注颜色,在电子地图上冒泡显示,方便用户浏览景区信息。
2.景区关注度排行。系统根据景区关注度的评分高低依次排序后显示给用户。
3.景区关注度异常提示。系统将景区关注度排行与景区所处的级别进行比对,如发现某个景区的关注度与其所处的景区级别不一致时,会自动发出警告提示,提醒用户其网络关注度出现异常现象。经过测试,本系统具有性能稳定、采集数据快、数据获取准确和动态更新及时等优点,达到了系统设计的最初目标。
四、结语
为促进旅游景区的信息化建设与旅游资源的信息共享,实现景区信息资源的可持续发展,笔者设计并实现了基于网络爬虫的旅游景区网络关注度动态查检索系统,该系统符合预期设计目标,并且具有较高的研究意义与应用价值,可为旅游景区旅游资源的优化配置提供决策依据。
(作者单位:1.新疆大学资源与环境科学学院;
2.新疆大学智慧城市与环境建模普通高校重点实验室)