在线旅游信息推荐方法研究
2019-02-19史海燕郭海玲
史海燕 郭海玲
摘 要:在线旅游信息推荐是目前信息推荐的重要应用领域。在对已有旅游信息推荐方法进行梳理的基础上,提出了一种基于文本挖掘的在线旅游信息推荐方法。该方法从文本信息中提取旅游景点的内容特征,基于内容特征构建用户偏好模型,基于相似度计算实现旅游景点的推荐。实验表明,提出的方法可以取得较优推荐效果。
关键词:信息推荐;旅游信息;推荐方法
中图分类号:F2 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.06.013
信息推荐是解决信息超载问题的有效方法之一,也是提供个性化信息服务的主要途径。信息推荐技术或系统可以帮助用户从动态变化的信息流中过滤更符合用户需求的信息,降低用户的信息获取成本,减轻用户信息负担,满足用户个性化的信息需求。随着社会经济的发展,旅游成为人们经常开展的活动之一,而已有研究表明,网络已成为用户搜索和预定旅游服务的主要信息来源。网络空间拥有丰富的旅游信息资源,如旅游线路信息、景点评论信息、游记、旅游攻略信息等,但从纷繁复杂的信息中提取用于旅游决策的信息需要花费大量的时间和精力,用户需要有效的方法来解决这一问题,旅游信息推荐成为信息推荐重要的研究与应用领域。本文对国内外在线旅游信息推荐方法进行梳理,在此基础上提出一种基于文本信息挖掘的在线旅游信息推荐方法。
1 国内外在线旅游信息推荐方法
信息推荐的基本方法可以分为基于内容的推荐、协作式推荐和混合式推荐。基于内容的推荐需要提取待推荐项目的内容特征,在此基础上构建用户偏好模型,基于用户偏好模型实现推荐。协作式推荐可以分为基于用户的协作式推荐和基于项目的协作式推荐,前者基于相似用户推荐,后者基于相似项目推荐。混合式推荐是将基于内容的推荐和协作式推荐两种方法进行整合。具体到旅游信息推荐领域,根据推荐对象的不同,在线旅游信息推荐可以分为三类。
1.1 旅游地点推荐研究
这一类研究面向特定的旅游地点或兴趣点进行推荐。Xu等利用用户社交网络中照片的地理标签获取用户的数字足迹,基于用户在特定情境(季节和天气)下旅游历史的主题分布为用户推荐旅游地点。Clements等基于同时访问某一位置的用户数量,利用位置在共现空间的高斯密度估计来聚类相关的地理标签,以此计算两个旅游地点的相似度,进而提供推荐。TREC(Text Retrieval Coference,文本检索会议)的情境化建议任务(Contextual Suggestion Track)利用用户偏好和时空情境(后期仅包括空间情境)推荐POI(兴趣点)。
1.2 旅游套餐推薦
这一类研究面向组合成套的旅游产品进行推荐,如旅游公司提供的包含多个旅游景点、旅游天数、价格及配套服务的旅游套餐产品。Ge等考虑用户的时间成本和经济成本,为用户推荐旅行套餐。Xie等构建的CompRec-Trip系统也是在考虑用户时间成本和经济成本的基础上提供旅游套餐推荐服务。Yu等利用基于位置的社交网络构建用户和位置的模型,通过协作式过滤确定用户的偏好,同时考虑用户偏好和时空约束为用户推荐旅游套餐。
1.3 旅游线路推荐
这类研究关注的是旅游地点间的序列关系。Tsai和Chung考虑用户偏好和时间,为用户提供主题公园路线推荐。Zheng和Xie通过对用户历史GPS轨迹的挖掘为用户提供特定空间区域内景点及线路的推荐。
2 基于文本挖掘的旅游景点推荐方法
本文提出的方法是一种基于内容的信息推荐方法,推荐的对象是旅游景点信息。该方法首先从旅游景点的描述文本中提取文本特征,将文本特征作为旅游景点的内容特征。其次基于用户对旅游景点的评分数据,计算用户对不同景点特征的兴趣度(即偏好程度),在此基础上建立用户偏好模型。最后基于用户偏好与待推荐景点的相似度进行排序推荐。
2.1 文本特征的提取
在基于内容的信息推荐中,如何提取待推荐项目的内容特征是关键问题之一。对于旅游景点的推荐,已有研究中提取特征的方法大致分为基于类属特征进行提取、基于研究者选择的特征提取以及基于文本特征的提取。第一种方法是将旅游景点分类,以类目名称作为旅游景点的内容特征,这一方法易于实现,但不能反映单个景点特有的属性特征。第二种方法是由研究者选择特定的属性作为旅游景点的内容特征,如位置、价位、季节等,这一方法虽能凸显景点的属性特征,但通常研究者所选择的属性仅限于少数,因此对于景点特征的呈现也并不充分。本文拟采用第三种方法,即从旅游景点的描述文本中提取文本特征,将文本特征作为旅游景点的内容特征。网络空间中分布着大量的旅游景点信息,为提取内容特征提供了丰富的语料,也可以从中提取更为多元的内容特征。
文本特征的提取有多种方法,如逆文档频率(TFIDF)、信息增益、互信息、N-Gram法、卡方统计等,本文选取逆文档频率法。TFIDF作为一种文本特征抽取的基本方法,具有简单高效的特点,在文本信息处理领域有着广泛的应用,其基本原理为:一个词在某一文档中出现的频次越多,该词对文档内容的贡献越大,权值越高;一个词在某一文档集合中出现在越少的文档中,其对文档的区分能力越强,权值越高。在对旅游景点的描述文本信息进行采集和预处理后,计算特征项的TFIDF值,将TFIDF值大于特定阈值的特征项提取为景点的内容特征。
2.2 用户偏好建模
用户偏好模型(user profile),也称之为用户模型(user model)、用户个性化模型(user personal profile),通常描述的是用户兴趣和资源特征等概念节点和节点间的关联。本文采用向量空间模型表示用户偏好,具体如下:
兴趣度的计算为这一方法的核心问题。本文将用户ui对属性ak的兴趣度sk定义如下:
2.3 相似度计算
在構建了用户偏好模型后,就可以基于用户偏好模型进行旅游景点的排序推荐。将旅游景点表示为其内容特征的向量形式,通过计算景点向量与用户偏好模型的相似度即可以实现排序推荐。相似度的计算方法有多种形式,本文采取较为常用的余弦公式。
3 实验及结果
为验证本文方法的有效性,研究者采集了数据并进行了计算机实验。首先是实验数据的准备。本实验所需数据包括两方面:一是旅游景点的描述文本语料库;二是用户的评分数据。描述文本语料库通过自动采集与人工采集相结合的方式构建,最终得到5032条旅游景点及相应的描述文本。用户评分数据通过问卷调查的方法获得,调查了39位用户对100个旅游景点的偏好信息。实验基于Windows操作系统,利用Python编程实现文本信息特征提取、用户偏好模型的构建及相似度的计算。选取查全率、查准率和F均值作为评价指标。实验结果显示,本文提出的基于文本信息挖掘的推荐方法取得了较好推荐效果。
参考文献
[1]Xu Z.X.,Chen L.,Chen G..Topic based context-aware travel recommendation method exploiting geotagged photos[J].Neurocomputing ,2015 ,155(C):99-107.
[2]Clements M.,Serdyukov P.,Vries A.P.,et al..Personalised travel recommendation based on location co-occurrence[J].Computer Science,2011,June:1-30.
[3]Ge Y.,Liu Q.,Xiong H..,et al..Cost-aware travel tour recommendation[C]//Proceedings of the 11th KDD,San Diego,California,USA,2011:983-991.
[4]Xie M.,Lakshmanan L.V.S.,Wood P.T..CompRec-Trip:A composite recommendation system for travel planning[C]// International Conference on Data Engineering,Hannover,Germany,2011:1352-1355.
[5]Yu Z.,Xu H.,Yang Z.,et al..Personalized travel package with multi-Point-of-Interest recommendation based on crowdsourced user footprints[J].IEEE Transactions on Human-Machine Systems,2015,46(1):1-8.
[6]Tsai C.Y.,Chung S.H..A personalized route recommendation service for theme parks using RFID information and tourist behavior[J].Decision Support Systems ,2012,52(2):514-527.
[7]Zheng Y.,Xie X..Learning travel recommendation from user-generated GPS trajectories[J].CM Transaction on Intelligent Systems and Technologies,2011,2(1):389-396.