APP下载

基于综合相似度的旅游景点推荐∗

2019-10-08麻风梅

计算机与数字工程 2019年9期
关键词:景点标签特征

麻风梅

(安康学院电子与信息工程学院 安康 725000)

1 引言

随着大数据时代的到来,人们已从缺乏信息的时代进入了信息过载时代,网络上的海量信息让人们眼花缭乱,无所适从[1]。旅游业作为国民经济的支柱产业之一,近年来仍在不断升温,旅游网站不断兴起,旅游推荐算法成了该领域的研究热点[2]。针对个性化旅游推荐问题,学者们进行了深入研究,虽然取得了一定进展,然而它依然面临着诸多挑战[3]。譬如,当前的推荐系统建模技术并不能准确全面地描述游客偏好,没有充分利用含有丰富用户信息的用户特征数据,缺乏对用户兴趣的综合考虑等[4]。

针对上述问题,本文提出一种基于综合相似度的旅游推荐算法,将用户特征与综合兴趣合理结合。该算法使得系统的推荐效率、可扩展性进一步提高,提高了推荐的准确率。

2 基于综合相似度的旅游景点推荐算法

基于综合相似度的旅游景点推荐算法步骤如下。

1)计算用户特征和用户兴趣相似度,作为综合相似度。2)根据综合相似度找到相似用户群。3)对目标用户的兴趣景点进行预测,做出top-N推荐。

2.1 用户特征

用户特征即指人的年龄、性别、工作、学历、居住地和国籍等,即一般情况下用户注册时需要填写的信息[5]。而这些特征对预测用户兴趣有很重要的作用。中国旅游权威在线分析艾瑞咨询给出了一组数据,2017年中国旅游景区用户性别分布中,男、女各占62.9%和37.1%,其中25~40岁的中青年用户占到75.9%;地理分布上,广东、上海领跑,旅游用户最多;职业分布上,旅游景区用户多为家庭、事业稳定型群体,企业员工、公务员、事业单位人员所占比例最多。该网站的另一组数据分析也指出,在旅游过程中,年轻人更喜欢冒险项目,而老年人更喜欢休闲观光项目,女性更喜欢购物,而男性更喜欢度假。旅游用户的行为与其用户特征有着较大的关系。利用用户特征推荐相对随机推荐能够获得更好的推荐效果。

本文只对用户的年龄、性别、居住地和职业等用户特征进行用户相似度度量[6]。由于用户信息大多不是数值型,因此要对用户特征进行量化或转化为数值型,以方便计算。通过对数据集中用户的用户特征进行量化,形成了用户-特征矩阵,如表1所示。

表1 用户-特征矩阵

其中Ui为第i个用户,Fj为第 j个用户特征。Pij表示第i个用户的第 j个用户特征值。用户特征相似度计算方法公式如下:

因为不同用户特征对用户兴趣的影响程度不同,所以本文赋予特征相似度不同权值。公式如下:

其中SFp(a ,b)为用户a与用户b的性别特征相似度,SFq(a ,b)为用户a与用户b的年龄特征相似度,SFr(a ,b)为用户a与用户b的居住地特征相似度,SFs(a ,b)为用户a与用户b的职业特征相似度 。 其 中 , α∈[0 , 1],β∈[0 , 1],θ∈[0 , 1] ,ε∈[0 , 1],且α+β+θ+ε=1。

2.2 用户兴趣相似度

人的兴趣是由主观的表述与客观的描述两部分组成。在推荐系统中,我们把用户在兴趣调查中主动提供的本人兴趣倾向理解为主观的兴趣表述,这种表述相对固定,属于显性兴趣;而用户的种种搜索历史和访问行为反映了用户的实际需要,这种需要的不断变动往往表示原有兴趣的调整,这是用户兴趣的客观描述,属于隐性兴趣[7]。本文以会话的方式在线获取用户的偏好和需求,然后结合对用户浏览行为的分析得到综合兴趣。根据综合兴趣,分析用户之间兴趣的相似程度[8]。

为了更好地解决数据稀疏问题,本文在描述用户兴趣时,首先,利用从旅游游记中提取的信息构建景点本身的特征信息,为景点建立标签;然后,用景点标签来描述用户兴趣。在目前的旅游网站上,存在着海量的旅游游记。通过对游记的分析,我们发现用户在计划旅游选取景点时,最普遍考虑的因素是景点的所属区域、当季是否为最佳旅游时间、旅游的主题和景点的类型。所以,我们为景点设置的标签与这4个因素相关:区域、时间、主题、类型[9]。例如:在计划旅游时,不同的用户会偏好不同的主题,一些用户会偏好符合“徒步”主题的景点,而另一些用户可能会偏好符合“亲子”主题的景点。关于类型,是景点本身的特性。有的景点的类型是“古镇”,如凤凰古镇、束河古镇;而香港和上海则可以归到“城市”类型中。关于主题中的“亲子”、“情侣”这样的词汇,我们称之为景点主题标签。同样地,“城市”、“古镇”则称为景点类型标签[10]。

2.2.1 显性兴趣

显性兴趣是用户对景点信息认同程度的一种有意识地表达,其特征主要来源于用户对特定问题的答案分布。本系统采用在线问答的交流方式,各个问题的答案都以选项形式出现,指导用户在线回答,逐渐启发用户的偏好和需求[11]。通常用户在表达他们的需求时,描述都是模糊的,如“交通便利的”、“设施安全的”、“环境优美的”。为了快速准确识别出用户的需求目的,本文用景点标签描述用户的兴趣特征,使用户感兴趣的活动与一个或多个景点标签相对应,每个答案选项都标有对应的景点标签。例如,询问用户喜欢的运动类型时,提供的答案选项有:徒步、单车等。根据当前的会话情况,将用户的所有答案映射到不同景点标签。旅游资源的特性包含有用户的偏好越多则代表用户对其的兴趣越高[12~13]。

2.2.2 隐性兴趣

隐性兴趣主要体现于用户对景点的浏览行为信息,用户对感兴趣的景点往往会高频度地搜索和浏览[14~15]。如果用户访问了某一景点,就可以认为其对该景点感兴趣。用户对景点的感兴趣程度依赖于其对景点的访问频度。在某一时间段内访问同一景点的次数越多,用户兴趣度越大。隐性兴趣的获取方法较为简单,可从用户的浏览历史记录库中得到其感兴趣的景点。再将这些历史景点信息转换为与区域、时间、主题、类型4种因素相关的多个标签信息,并用这些标签信息来描述用户的隐性兴趣。

通过上述的方法得到显性兴趣标签和隐性兴趣标签后,将两者结合,形成用户的综合兴趣标签,进而计算用户间的综合兴趣相似度。

本文采用了John S.Breese提出的用户兴趣相似度计算公式,公式如下:

N(u)为用户u的兴趣标签集,N(v)为用户v的兴趣标签集,N(i)为用户u和用户v共同的兴趣标签集。

本文将用户特征相似度与用户兴趣相似度相结合,得到综合相似度,计算公式如下:

2.3 结合综合相似度的协同推荐

基于综合相似度的推荐算法主要包括两个步骤:1)利用综合相似度对用户进行分类,找到相似用户集合;2)依据相似用户的旅游记录为目标用户推荐感兴趣的景点[16]。具体地,对于每一个目标用户,我们先找到和目标用户相似度最高的k个用户,然后对k个相似用户去过的景点进行计数,选出最受相似用户欢迎且目标用户尚未去过的前N个景点作为推荐内容。我们用景点热度表示景点的受欢迎程度,如式(5)所示。一个景点被参观的频次越多,则该景点的热度越高。特别地,在为目标用户推荐时,我们提到的某个景点热度是在相似用户群中该景点的热度,而不是在所有用户中该景点的热度。

式中,p表示景点数量;ui表示用户i;Vui,p表示用户i参观景点 p的频次,如果没有用户去过景点p,则景点 p的热度为0。最后,按照景点热度值的高低来排序,选出前N个推荐给用户。

3 结语

本文提出了基于综合相似度的旅游景点推荐算法。该算法综合考虑用户特征数据、显性兴趣和隐性兴趣向用户推荐最适合的景点。同时,采用景点标签来描述用户兴趣,能有效解决数据稀疏问题。

猜你喜欢

景点标签特征
离散型随机变量的分布列与数字特征
抓特征解方程组
不忠诚的四个特征
无惧标签 Alfa Romeo Giulia 200HP
打卡名校景点——那些必去朝圣的大学景点
不害怕撕掉标签的人,都活出了真正的漂亮
英格兰十大怪异景点
让衣柜摆脱“杂乱无章”的标签
没有景点 只是生活
景点个股表现