APP下载

基于文本相似度算法的特色旅游线路开发研究

2021-10-21宦正东朱晓菲李翛

科教创新与实践 2021年32期
关键词:开发

宦正东 朱晓菲 李翛

摘要:本研究将苏州市内43个景点资料作为待处理文本,利用jieba分词对其进行了分词、去停用词、提取特征项、计算特征项权重的处理,继而用空间向量模型实现非结构化信息向数字化信息的转变,最后采用k-均值聚类方法,通过计算各文本间的相似度,确定类别数得出景点特征分类结果。继而利用分类结果设计出了5条苏州市特色旅游线路。

关键词:文本相似度算法;旅游线路;开发

一、研究背景和意义

随着经济的发展和技术的进步,人们的休闲时间与时俱增,恩格尔系数与时俱减,人们可支配收入大幅度增加,生活水平提高了,对旅游的需求也越来越大。旅游已经成为现代人生活中重要的部分,并且旅游者已不满足传统的旅游产品,越来越倾向于选择个性化的,具有鲜明特色的休闲度假旅游产品。旅游收入在国内生产总值中的占比越来越大,加快旅游业发展成为推动我国经济发展的重要方式之一。中国旅游业发展已进入爆发式增长期,大众旅游时代即将全面来临。旅游业发展与周边产业紧密联动。科技与创新是旅游发展的主要推动力,在线预订、电子旅游信息、社交网络等的广泛应用改变了原有旅游业的面貌,同时旅游业的发展也促进了科技技术的创新。旅游业不仅促进文化产业发展,文化更是旅游产品的灵魂,没有文化的旅游是不存在的。旅游业的发展还直接促进了与其相关的餐饮业、服务业和零售业的发展。当前的旅游线路产品参差不齐,文化内涵不够深厚,趋同性较高,品牌建设意识淡薄。

苏州市旅游资源丰富,旅游景点众多,但开发程度有待提高的问题明显。运用全新的旅游线路开发思路,将文本相似度算法应用到旅游线路开发中,通过描述景点的文本信息,分析得出景点的特征,将具有相同特征的景点归为一类,结合地理位置的特征将同类型的景点设计在一条线路中形成特色旅游线路。线路开发具有可行性且具有现实意义。旅游业较低的资源消耗、高度的产业关联、紧密的地域联系、显著的富民效应,在京津冀协同发展中占有重要的地位。丰富人们的休闲娱乐生活,提高居民幸福感。随着大众旅游时代的到来,使旅游成为人们在紧张的工作学习之余的首选;人们生活水平的提高、带薪休假的增加及对生活品质的追求,高质量旅游线路的设计是及其重要的;上班族在快节奏的生活下,需要释放压力,放松心情,才能更好地投入工作;老年人退休好,讲究健康养老,康养旅游正当时;年轻学生朝气蓬勃,更需要感受祖国大好河山的锦绣壮丽,激发爱国主义情怀,将来投身到祖国建设中来。如何针对现有的旅游资源进行有效的整合,打破现阶段“单打独斗”的状态,在充分利用苏州市古城区旅游资源的同时,进行资源整合,从而推动苏州市旅游业的整体发展,促进文旅深度融合。如何规划游览这些分散在苏州大街小巷中的古迹、有效地安排旅游线路、提升游客的旅游质量和旅游效率,在智慧旅游的设计中十分必要。特别是在散客时代,只有特色旅游线路的推出才能更好地满足游客的需求。

二、基于文本相似度算法的特色旅游线路的开发方法

(一)文本处理

文本通常是具有完整、系统含义的一个句子或多个句子,属于自然语言,是非结构化的信息。若要计算文本间的相似度,需要把这些非结构化的信息即文本,转化成计算机能够识别和计算的数字化的表示形式,这样才能计算出文本间的相似度。计算文本相似度前期需要完成的过程主要包括分词,去停用词、提取特征项、计算特征项权重,度量相似度等。文本预处理过程包括分词和去停用词。将要分析的内容为苏州市市内43个景点的文本信息。43个主要景点涵盖了苏州市古城内的主要苏州园林、博物馆、寺庙、古城门、历史文化名街。一个景点的信息为一个文本,其中包含着基本信息、历史、建筑特点、作用地位等,内容丰富全面,但是整个一句话,计算机是无法识别的,要实现文本相似度的计算,首先需要将文本进行预处理,就是将一句一句的话分成具有独立意义的词语。文本在预处理后得到幾百甚至几千个具有独立意义的词语,要想对文本特征有比较准确的把握,就需要对能显著体现文本特征的词语赋予高权重,对出现频率较低的词语赋予低权重,这样更能体现出景点的特征。但并不是每个词语都是有用的,都能代表景点特征,接下了的首要目的是提取能够代表景点特征的词语,一般意义上讲,文本中出现频率越高的词语,对文本的重要性越大越能在一定程度上代表文本的特征。提取出文本特征项之后就是计算特征项的权重,选用应用最多的、经典的TF-IDF 权重计算方法。这个权重计算方法的中心思想为:如果某个词语在整个文本中出现的频率高。然后利用k 均值聚类算法对需要的文本预处理、特征项提取及其权重的计算过程,之后将43个景点的文本信息进行分类。

(二)基于高频词的景点特征分析

首先将全部43个景点的资料作为待处理文本,调取 jieba 分词模块进行分词和去停用词的预处理。将预处理之后的文本进行生成高频词的操作,调用 jieba.analyse 包,对完成上述预处理后的文本提取出现频率最高的前 20 个词作为该文本的高频词。保存软件生成的景点的高频词,分析各景点的特征。接下来,将所有景点文本信息中的高频词整合在一起,从 wordcloud 包中调取Word Cloud 模块生成高频词词云,设置最大词量为 1000,出现频率最高的词大小设置为 40。分析生成全部景点的高频词词云,这样能够更直观得体现出这景点的总体特征。

(三)基于K-均值聚类的景点特征分析

上述43个景点文本信息完成了分词与去停用词的文本预处理,接下来,提取能够代表文本独特性和具体性的特征项,根据对各景点高频词的分析,可以得出,高频词能够作为各文本的特征项;用 TF-IDF 方法计算特征项的权重以降低文本表示模型的维度;用空间向量模型表示文本,完成文本为非结构化信息向计算机能够识别、计算的数字化信息的转变。最后调用 sklearn.cluster 包中的 KMeans 模块,用 k-均值聚类方法计算各文本间的相似度。在聚类的过程中,类别数设置的越大,同一类别里的景点数相对越少,景点之间的特征就越接近。经过反复计算,设置不同的类别数分析得出的景点之间特征的形式情况,设定类别数为 5,即将个景点分为5 类。利用 k-均值聚类方法将包括 43 个文本的集合划分为 5类,实现过程包括,随机选出 5个文本作为初始聚类中心点,之后计算还剩下的38 个文本与选出的这 5个点的距离,并把与中心点距离近的归为同一类,然后重新随机选取中心点,迭代计算上述过程,直至聚类中心点不再发生改变。分析各类别中包含的景点可以得出类别内部的特征,其中部分类别特征在一定程度上与高频词具有一定的联系。从侧面体现出算法具有科学性且与现实情况相符。

三、特色旅游线路开发——以苏州市为例

通过文本相似度算法得到了 5 类具有不同特征的景点分类结果,将各类别的特征确定为线路主题。在线路设计的过程中,为突出苏州市特色景点,只保留了苏州市内交通方便、历史文化内涵丰富、旅游设施相对完善、游客数较多的部分景点。最后,结合地理位置特点,设计出下列 5条苏州市内特色旅游线路。以 “韵存千秋·大美昆曲” 为主题,从中国昆曲博物馆到苏州昆剧传习所,再到江苏省苏州昆剧院,了解了昆曲的历史和文化;以 “匠心独妙·苏作天工”为主题,从苏州博物馆到苏州工艺美术博物馆,再到苏州民俗博物馆,以“一玉一木一锦,一灯一扇一绣”为主线,观赏出的玉雕、木雕、宋锦、灯彩、苏扇、苏绣,感受苏作工艺的匠心独妙;以 “康乾南巡·驻跸姑苏” 为主题 ,结合《康熙南巡图卷.第七卷.无锡至苏州》、《乾隆南巡图卷.第六卷.驻跸姑苏》的背景,从阊门出发,经过胥门、江苏巡抚衙门旧址、苏州府学,最终到苏州织造署旧址,了解康熙与乾隆南巡驻跸苏州的历史故事;以“状元故里·文脉寻根” 为主题,从悬桥巷的洪钧故居出发,经过临顿路来到钮家巷“状元博物馆”,再到十全街的状元第,最后到达三元坊,了解“中国历史上惟一的状元外交官”、“苏州门第最显赫的状元”、“祖孙状元”、“连中六元状元”的故事;以 “光辉之路˙红色遗迹” 为主题,游览张冀牖故居、中共苏州独立支部旧址、五卅路纪念碑、上海战役指挥机关旧址等红色遗迹,重温苏州革命历史。

参考文献:

[1] 张志雄、费理源、廖宇. 基于蚁群算法的苏州古城徒步旅游线路规划[J].看世界,2020(21)

[2] 黄文彬、车尚锟.计算文本相似度的方法体系与应用分析[J].情报理论与实践. 2019(11)

基金项目:2021年度苏州经贸职业技术学院院级课题“基于大数据的情感分析技术在苏州旅游网络评价中的应用研究”,项目编号为701K703。2021年江苏省高等学校大学生创新创业训练计划项目“基于大数据的情感分析法在苏州旅游网络评价中的应用研究” 。

猜你喜欢

开发
浅谈动力总成骡子车开发方法
高中历史教学中对历史图片的开发及实际应用
在线投稿与编辑系统的设计与开发
遵义红色旅游开发对策研究
基于J2EE和Ionic的ITer学习APP设计与开发
单片机在电子技术中的应用和开发
试析机械基础多媒体课件的研制与开发
老年人旅游市场的开发研究
浅谈企业人力资源开发
浅析彭店生态农业旅游开发