基于新闻推荐的用户兴趣模型研究❋
2015-08-07程蕊蕊陈慧萍
程蕊蕊,陈慧萍
(河海大学物联网工程学院,常州213022)
基于新闻推荐的用户兴趣模型研究❋
程蕊蕊,陈慧萍
(河海大学物联网工程学院,常州213022)
随着互联网的迅猛发展,涌现出一大批新闻类网站,人们也逐渐开始通过网络获取新闻消息,因此针对不同用户推荐个性化的新闻内容将会极大地帮助网站增加用户粘性。为了提高新闻推荐的准确性,建立一种用户综合兴趣模型,首先根据用户浏览网页的行为习惯建立相应的用户稳定兴趣模型;然后根据新闻的时效性和主流性,提出以新闻新鲜度为基础的试探性推荐方法,建立用户的临时兴趣模型;最后,将这两种模型通过加权进行组合以建立用户综合兴趣模型。实验结果证明,提出的方法能从大量最新发布的新闻中推荐最符合用户阅读偏好的特定新闻文章。
用户粘性;新闻推荐;兴趣模型;浏览习惯;时效性;新鲜度
1 引 言
随着新闻类网站和各类社交网络的飞速发展,互联网上的新闻信息爆炸式增长,面对海量变化的网络新闻,用户面临的选择越来越多,在这样的环境下,如何能够更好的为用户推荐比较符合用户兴趣的新闻列表,成为网络新闻检索领域的一项重要内容。用户阅读新闻时一般是通过导航找到新闻列表分类,在新闻列表分类中寻找自己感兴趣的新闻,或者是通过在搜索引擎中输入关键词或新闻摘要进行直接搜索。而面向个性化服务的新闻推荐是根据每个用户的个性化兴趣主动推荐符合用户浏览习惯的新闻界面和新闻信息。因此,建立合适的用户兴趣模型是进行个性化推荐的核心。
根据用户喜好推荐新闻给用户,长期以来一直是推荐系统研究领域最受欢迎的。如通过在Twitter上用户的实时微博活动,建立用户个性化模型,进而实现个性化新闻推荐[1]。根据用户点击行为发现用户的兴趣,进而推荐用户感兴趣的新闻内容[2-3]。尽管现存的推荐系统有了突破性进步,并且有很多学者对推荐系统中的推荐算法做了大量改进[4-6]来提高推荐效率。但针对新闻推荐仍有一些因素制约向用户推荐的效率,它包括:①新闻的生命周期很短;②初次使用系统的用户带来的挑战,并且,最开始的时候,无法得知他们的兴趣;③推荐与用户喜好无关的新闻时,难以确定应该推荐哪些新闻;④尽管与用户的兴趣无关,用户依然会对重大主流新闻感兴趣。本文针对新闻推荐中无法得知初次使用系统的用户兴趣,根据文献[7-8]中提到的每个用户浏览网页有行为和习惯能够反应用户的兴趣特征,来对用户兴趣爱好进行分析,建立稳定的兴趣模型,并针对新闻生命周期短,用户对重大主流新闻感兴趣的因素,提出基于新鲜度的主流新闻试探性推荐,建立临时兴趣模型,从而在一定程度上提高了新闻推荐效率。
2 用户兴趣获取
用户兴趣获取一般是通过分析用户以前浏览网页的行为获得的,虽然能较为准确的获得用户的兴趣类别,但是对于突发性强、不易预测、很受关注的新闻来说,仅通过这种方法来获取用户兴趣,不能很准确地预测用户关注的新闻类别。
基于新闻推荐的用户兴趣的获得需要考虑两方面内容:①用户的稳定兴趣,即用户一段时间内的兴趣,不会轻易改变,主要是通过对用户一段时间内浏览新闻网页的行为习惯分析,捕捉用户的兴趣,而能够反应用户兴趣的行为主要有评价、分享、保存、发送链接;②用户临时兴趣,即用户只是在短时间感兴趣的项目,是不断变化的。本文通过对最近发生的重大主流新闻进行试探性推荐来预测,如果是用户感兴趣的新闻类别,就直接进行推荐,对于不属于用户感兴趣的新闻,根据新闻的新鲜度进行内容不断更新的推荐,由用户接受与否来预测用户对新闻的喜爱与否,从而构成用户的临时兴趣。最后,将稳定兴趣和临时兴趣结合构成用户的综合兴趣模型(见图1)。
3 用户兴趣建模
根据新闻推荐中用户兴趣的获取,基于新闻推荐的用户兴趣建模要建立稳定兴趣模型和临时兴趣模型,最后将这两种模型结合起来构成用户综合兴趣模型。
图1 用户兴趣获取
3.1 用户稳定兴趣模型
用户的稳定兴趣模型采用空间向量模型表示,假设新闻的分类集为:NW={NW1,NW2,...NWm},其中NWi是第i类新闻(1≤i≤m)。用户的兴趣向量模型可以表示为:
其中ID是用户标识,w1,w2,w3是相应新闻分类的兴趣度,即用户对某类新闻喜爱的程度。
能够反应用户兴趣特征的浏览行为有很多,但起关键作用的的主要有—评价(EV),分享(SH),保存(SV),发送文章链接(SD)等,将它们定义如下:
定义1:若用户对浏览过的网页给予评价,则将浏览某种类别所有新闻评分的平均值记为EV,规定0≤EV≤1,EV越大表示用户的评价越高;
定义2:若用户对浏览过的网页进行分享,记为SH,规定SH=1,表示用户分享该网页,SH=0,表示用户没有分享,SHi表示用户分享第i类新闻网页的次数;
定义3:若用户对浏览过的网页进行保存,则将保存第i类新闻网页的总数量记为SVi;
定义4:若用户发送浏览过的网页链接,则将发送第i类新闻网页的总次数记为SDi。
用户的兴趣度可以通过用户对网页的评价(EV)、分享(SH)次数、保存(SV)、发送链接(SD)的次数来评估,这些行为与用户的兴趣度成正比例,用户对第i类新闻的兴趣度可以表示为:
其中a,b,c,d是权重常量,且a+b+c+d=1,SH0,SV0,SD0是SH、SV和SD进行归一化处理后的结果。归一化计算公式如下:
根据公式(2)-(5),计算各个新闻类别的兴趣度,得出用户兴趣度高的新闻类别,即可得到用户的兴趣,建立用户的稳定兴趣(Stable Interest)模型,其中NWi是用户感兴趣的新闻类别。
3.2 用户临时兴趣模型
由于新闻时效性强,更新速度快,用户对新闻类别的关注有一部分是不断变化的,主要是根据新闻系统向用户推荐重大主流新闻,用户是否接受来判断的。在对用户进行推荐时,要考虑到新闻的新鲜度,处理好时间和新闻的关系,及时有效地将用户关注的主题相关新闻的最新状态推荐给用户,根据用户的接受程度来建立用户的临时兴趣模型(见图2)。
图2 新闻推荐的临时兴趣
3.3 加权后的用户综合兴趣模型
在个性化新闻推荐中,最重要的是推荐给用户有重要性的、最近发生的、用户又不反感的内容。根据用户浏览网页的行为习惯虽然能推荐给用户符合其兴趣特征的新闻内容,但是对于新闻推荐来说不够全面,而只推荐主流新闻忽略用户的兴趣偏好则会造成用户使用不满意。因此需要同时考虑用户的稳定兴趣和临时兴趣,将最符合用户当前阅读偏好的新闻推荐给用户,不仅能提高推荐系统的质量,还能最大程度满足用户的需求。用户的综合兴趣要将稳定兴趣和临时兴趣结合起来。用户的兴趣模型为:
α是用户稳定兴趣在兴趣中的权重,β是用户临时兴趣在兴趣中的权重,且α+β=1。
4 实验验证分析
实验数据是来自微博上用户浏览阅读的新闻内容。基于新闻推荐的用户兴趣研究中,重要的是要能推荐给用户接受的新闻内容,本文用查准率验证提出的方法。
在计算用户的综合兴趣时,出于新闻重要性,更新速度快的特征考虑,图3是本文令α=0.5,β=0.5时的模型查准率比较。
图3 用户兴趣模型比较
由结果可以看出,基于新闻推荐的用户兴趣模型在对用户进行新闻推荐时,更能将准确的新闻内容推荐给用户。随着推荐的新闻数目的增加,这种优势更明显。
5 结束语
提出了一种基于新闻推荐的用户兴趣研究方法。不仅考虑用户浏览网页的行为习惯,来获得用户的稳定兴趣,而且通过对用户推荐重大主流新闻,发现用户关注主流新闻的临时兴趣,再结合稳定兴趣和临时兴趣建立用户的综合兴趣,此方法在新闻推荐系统中能更全面的将用户感兴趣的主流新闻推荐给用户。虽然文中的方法对于新闻推荐系统有一定的提高,但是随着移动网络新闻用户的增加,用户对新闻的偏好不仅依赖于主题和内容,也依赖于用户现在的背景,如用户现在的地理位置、时间、社会环境和外部事件等。下一步的研究工作要将这些因素考虑进来,以更高的精确度提高推荐系统的质量。
[1] Abel F,Gao Q,Houben G J,et al.Analyzing usermodeling on twitter for personalized news recommendations[M].//User Modeling,Adaption and Personalization. Springer Berlin Heidelberg,2011:1-12.
[2] Liu J,Dolan P,Pedersen E R.Personalized news recommendation based on click behavior[C].//Proceedings of the 15th international conference on Intelligent user interfaces.ACM,2010:31-40.
[3] Phelan O,McCarthy K,Smyth B.Using twitter to recommend real-time topical news[C].//Proceedings of the third ACM conference on Recommender systems.ACM,2009:385-388.
[4] Sarwar B,Karypis G,Konstan J,etal.Item-based collaborative filtering recommendation algorithms[C].//Proceedings of the 10th international conference on World Wide Web.ACM,2001:285-295.
[5] Chang Y,Shen J,Chen T.A Data Mining-Based Method for the Incremental Update of Supporting Personalized Information Filtering[J].JOURNAL OF INFORMATION SCIENCE AND ENGINEERING,2008,24(1):129-142.
[6] Han J,Pei J,Yin Y,et al.Mining frequent patterns without candidate generation:A frequent-pattern tree approach[J].Data mining and knowledge discovery,2004,8(1):53-87.
[7] 付关友,朱征宇.个性化服务中基于行为分析的用户兴趣建模[J].计算机工程与科学,2006,27(12):76-78.
Fu G,Zhu ZY.A User InterestModel Based on the Analysis of User Behaviorsfor Personalization[J].COMPUTER ENGINEERING&SCIENCE,2006,27(12):76-78.
[8] 杨继萍,王跃,高雪松.个性化流媒体服务中基于行为分析的用户兴趣建模[J].计算机应用与软件,2011,28(8):247-250.
Yang J P,Wang Y,Gao X S.User Interest Modeling for Personalized Streaming Media Services Based on Behavior Analysis[J].Computer Applications and Software,2011,28(8):247-250.
[9] 于洪,李转运.基于遗忘曲线的协同过滤推荐算法[J].南京大学学报(自然科学版),2010,46(5):520-527.
Yu H,Li Z Y.A collaborative filtering recommendation algorithm based on forgetting curve[J].JOURNAL OF NANJING UNIVERSITY(NATURAL SCIENCES),2010, 46(5):520-527.
Study on User Interest Model Based on News Recommendation
Cheng Ruirui,Chen Huiping
(College of Internet of Things Engineering,Hohai University,Changzhou 213022,China)
With the rapid development of the Internet,a large number of news websites were emerged and people gradually use the Internet to get news,so,introducing the personalized contents according to the users'different requirementswill help newswebsites increase user stickiness.In order to improve the accuracy of news recommendation,this paper establishes a comprehensive user interest model.First,a stable user interest model is established based on user browsing habits.Then,the freshness-based tentative recommendations are described on the basis of news timeliness and mainstream to get the user's temporary interest model.Finally,these two models are combined to establish a comprehensive user interestmodel.The experimental results prove that the proposed method can recommend specific news articleswhich bestmeets the user's reading preferences from a large number of the latest published news.
User stickiness;News recommendation;Interest model;Browsing habits;Timeliness;Freshness
10.3969/j.issn.1002-2279.2015.05.016
TP301
A
1002-2279(2015)05-0061-04
国家自然科学基金资助项目(61100045;61273170)
程蕊蕊(1986-),女,河南平顶山市人,硕士研究生,主研方向:数据挖掘。
2015-03-16