基于用户类别兴趣度的协同过滤推荐算法
2016-01-01冯文惠
冯文惠
(河南牧业经济学院 计算机系,河南 郑州450044)
基于用户类别兴趣度的协同过滤推荐算法
冯文惠
(河南牧业经济学院 计算机系,河南 郑州450044)
对教育资源按照学科进行分类,结合学习者的兴趣偏好集中、稳定等特性,提出一种基于用户类别兴趣度的协同过滤推荐算法。在该算法中,首先根据条件概率的方法计算用户类别兴趣度的相似性,然后将其融合到相关相似性计算公式中,提高用户相似性的准确度,实验表明提高了推荐质量。
推荐系统;协同过滤;相关相似性;条件概率;类别兴趣度
随着互联网的快速发展,网络教育日益受到社会的关注。网络教育具有学习方式灵活,不受时间、空间的限制,学习资源丰富等优点。但是海量教育资源提供给用户更多选择的同时,也带来了巨大的信息负担。帮助学习者快速、准确地获取自己想要的学习资源,可以使教育资源得到充分有效的使用,也可以提高用户对网站的满意度和粘合度。
个性化推荐技术是目前解决信息过载问题的最有效方法,它根据用户的兴趣爱好,挖掘其潜在感兴趣的信息,并向用户进行推荐。这种技术已广泛应用于许多领域,如商业领域,教育领域等。
1 教育资源和学习者兴趣偏好研究
在实际的教育资源网站中,教育资源被按照学科逐步细化进行若干级别的分类,例如工程与技术科学是一个大类别,下分电子与通信技术、计算机科学技术等多个一级学科;计算机科学技术学科又下分有计算机工程、计算机软件等多个二级学科,最终形成一个倒立的资源分类树。从直观上看,处于同一类的资源显然比不同类的资源具有的相似性高,同属于分类树中越下层的资源相似性越高,因为二者在资源内容上有更多的共同之处。
学习者选择特定领域的资源时,兴趣和偏好主要表现有如下特性:
集中性:通常学习者在学科领域的兴趣点有限,只能对一两个学科类别感兴趣[1]。
稳定性:兴趣、偏好等取决于学习者的社会文化背景和性格修养等不易变化的因素,所以用户的兴趣和偏好在一定时间内是相对稳定的,不会随意发生较大的变化[2]。
学习者兴趣偏好的获取主要有两种途径:(1)评分数据,学习者对访问的资源进行评分,分数越高,表明对该资源的喜爱程度越高;(2)学习者的访问行为,主要包括浏览和下载。很多学习者不愿意进行显式的评分,但其访问行为体现了其兴趣爱好[3],为了避免数据过于稀疏,所以融合了用户的浏览和下载信息。对于浏览而未评分的资源,采用该资源所在类别中所有已评分资源的平均得分,下载行为能充分表达用户对资源的肯定,采用最高分来填充用户评分矩阵。
2 传统的协同推荐技术
协同过滤推荐是推荐系统中应用最早和最为成功的技术之一,它又分为基于用户协同过滤推荐和基于物品的协同过滤推荐两种方法。在协同过滤推荐中,用户和物品的相似性度量是否准确,直接关系到整个推荐系统的推荐质量,计算用户相似性的方法主要有两种:余弦相似性、相关相似性。计算物品相似性时除了余弦相似性、相关相似性之外,基于条件概率的相似性也比较常用[4]。
余弦相似性:用户评分被看作是n维项目空间上的向量,用户间的相似性通过向量间的余弦夹角来度量,余弦值越大表明两个用户的相似度越高。
相关相似性:在计算时引入了用户平均评分的因子,能更好地避免因用户评分习惯带来的偏差,实验证明取得了更好的效果[5],计算公式如式(1)所示。其中Ri和Rj分别表示用户i和用户j对项目的平均评分。
基于条件概率的相似性:对于物品u和v,用P(u/v)表示选择项目v同时也选择物品u的条件概率,如公式(2)所示。它可以用来衡量物品u和v之间的相似性,其中Freq(X)为选择集合X中物品的用户数。
3 基于用户类别兴趣度的协同过滤推荐算法
传统的相似性度量方法并没有考虑用户的学术兴趣点有限,以及学科类别在计算用户相似性时的作用。我们认为用户非常感兴趣的学术类别中的资源评分比很少访问的学术类别中资源评分在计算用户相似性时更有效,也就是说在计算用户相似性时,相似性高的类别资源的评分比相似性低的类别资源作用更大。文献[5]使用协同过滤算法计算项目相似性时融入了项目类别和兴趣度,并通过实验证明提高了推荐质量。在此基础上,本文提出了一种基于用户类别兴趣度的协同过滤推荐算法。
3.1 用户类别兴趣度相似性Category similarity计算方法
利用概率的方法从相关性的定义中研究得到一种用户类别兴趣相似度,具体度量方法如公式(3)所示。
其中cn代表学术类别,类别集合表示为C={c1,c2,…,ck},Fcn(i)和Fcn(j)分别表示用户i和j对cn中资源评分的频率,计算方法如公式(4)。为了避免用户Fcn(i)和Fcn(j)过于相似导致计算类别相似性时值过大,对此我们引入了平衡因子w(0〈w〈1)。
3.2 改进的协同过滤推荐算法
本文在计算用户相似性时进一步修正了相关相似性计算公式,如式(5)所示。引入用户类别兴趣度的相似性,并将其融合到用户相似性公式中,以提高相似性计算的准确性。
学术资源p按照类别进行分类,Pn代表某一分类cn中的所有资源。
4 实验结果
4.1 数据集
本文提供的算法是针对教育资源的推荐,由于没有现成的数据集,本文使用的数据是选取笔者所在学校电子图书馆的一部分数据作为试验数据集。笔者所在学校的电子资源按学科分为10大门类,100多个一级学科,600多个二级学科。我们从服务器数据库中筛选出4 053条评分数据,并根据日志文件对用户的评分数据进行处理。整理后的实验数据集包含73个用户对42个学科类别854个教育资源的评分,数据的评分密度位4053/ 73×854=6.5%,保证数据集的稀疏等级。
4.2 实验结果
尽管在计算用户类别兴趣度相似性时使用的学科分类越细,用户的类别兴趣度相似性在计算用户相似性中作用越大,但是却极大地增加了算法的复杂度。我们在提高算法的准确性和不过多增加算法的复杂度间进行平衡,选择根据一级学科进行分类来计算用户类别兴趣度相似性。为了检验本文提出的算法的有效性,以传统的总体评分数据集作为对照,使用相关相似性算法,计算平均决定误差MAE,邻居个数从2增加到8,间隔为2,实验结果如图1所示。
5 结束语
本文根据学习者在访问教育资源时兴趣偏好集中、稳定等特性,提出了一种基于用户类别兴趣度的协同过滤推荐算法,并通过实验证明在推荐质量上优于传统的协同过滤算法。因此,本文提出的算法可以应用于教育资源管理系统、图书馆以及学术交流网站等,因而本文的研究具有一定的实际意义。本算法对协同过滤中的数据稀疏性和冷启动并没有有效的改善,这将是我们下一步研究的方向。
图1 算法比较
[1]周佳,罗铁坚.一种基于内容关联的学术资源协同推荐算法[J].中国科学院研究生院学报,2013(11):117-123.
[2]荆永君,李兆君,李昕.基础教育资源网中个性化资源推荐服务研究[J].中国电化教育,2009(8):102-105.
[3]刑东山,沈均毅,宋擒豹.从Web日志挖掘用户浏览偏爱路径[J].计算机学报,2003,26(11):1518-1522.
[4]Dietmar,Jannach,等.推荐系统[M].蒋凡,译.北京:人民邮电出版社,2013:8-13.
[5]韦素云,业宁,吉根林,等.基于项目类别和兴趣度的协同过滤推荐算法[J].南京大学学报(自然科学),2013(3):142-149.
Collaborative Filtering Recommendation Algorithm based on the Users'Category of Interest
FENG Wen-hui
(Department of Computer Science,Henan University of Animal Husbandry and Economy,Henan Zhengzhou 450044,China)
A collaborative filtering recommendation algorithm based onusers'category of interest is proposed by the use of educational resources which are classified according to subject,learner preferences,stability and other characteristics.The algorithm firstly calculates the similarity degree of user interest categories based on the conditional probability method,and then improve the accuracy of user similarity,and experiments show that the quality of recommendation is improved.
recommend system;collaborative filtering;correlation;conditional probability;degree of classification interest
TP301.6
A
1673-2022(2015)03-0023-03
2015-02-16
2014年河南省教育科学“十二五”规划课题“教育资源建设中个性化推荐研究”(JKGHC-0137)
冯文惠(1972-),女,河南新乡人,副教授,研究方向为计算机应用。