UGC标签推荐系统的一种新的标签清理方法
2016-06-17刘建东
刘建东
摘要:UGC标签推荐系统的推荐效果依赖标签的质量,因为UGC标签是用户随意标注的,并不是所有的标签都符合用户兴趣,有必要清空一些不符合用户兴趣的标签,提高标签质量。本文根据标签的频率和物品的流行程度,提出假设,建立衡量标签与用户兴趣匹配度的数学模型,通过设置阀值,建立筛选规则,并应用该规则进行了实验。实验的准确率和召回率达到70%和75%,一定程度上达到了提高标签质量的目的。
关键词:UGC标签;推荐系统;数据标签清理
一、引言
UGC标签推荐系统是指通过让普通用户给物品或者服务打标签,然后分析标签的内容和打标签的行为来进行推荐。UGC标签是普通用户对物品的评价,同时也表示了用户的兴趣,所以标签成了物品和用户兴趣之间的桥梁,成为推荐系统研究物品和用户兴趣的媒介。UGC标签推荐系统是一种新型的个性化推荐方法。
豆瓣是国内文艺青年广泛使用的社交网站,包含读书、电影、音乐等领域的信息,在这些领域内,豆瓣网站尝试了不同的个性化推荐算法,UGC标签推荐就是其中一种。它允许普通用户为电影,书籍,音乐打上自己的标签,标注用户的理解,从而改善推荐效果。
UGC标签推荐系统的推荐效果依赖用户为物品和服务打上的标签的质量,而因为UGC标签是普通用户根据自己的理解随意打上的,并不是所有的标签都会反映用户的兴趣。比如,在豆瓣网站上,用户看完一个电影,打上了“不好笑”这样的标签,那么并不代表用户喜欢“不好笑”的电影。因此,有必要对标签进行清理,提高标签的质量,从而更进一步改善推荐效果。
从另外一个角度来看,标签可以为推荐结果提供解释,方便用户理解推荐的理由,如果标签的内容冗余,也会影响用户对UGC推荐系统的体验。所以标签清理工作显得尤其重要。
二、相关工作
目前对于清理标签所做的研究,有一定的成果。赵亚楠等针对标签的冗余问题,提出通过计算标签之间的相似度,来消除同义词,也有其他学者通过利用IDF值清除冷僻标签,或者通过计算词频将高频的停止词进行清理。虽然解决了标签冗余问题,但是有些标签与用户兴趣不相符的问题依然存在。本文的主要工作就是要提出一种新的计算方法来筛选不符合用户兴趣的标签。
三、标签清理方法
(一)基本假设
(1)用户不能使用重复的标签对同一个物品进行标注。
(2)通过文献中方法,剔除了冗余标签和冷僻标签,所以候选的标签从使用频率来说属于正常标签。
(3)被候选标签qi标注的物品集W(qi)的长度是N(W(qi)),如果候选标签qi的出现的次数最多是t次,则用tN(W(qi))的比值来衡量候选标签qi与用户兴趣的匹配度,tN(W(qi))的值与匹配度成正比例。
(二)说明
现在对假设(3)进行说明,根据假设(2),候选标签qi的使用次数是正常,意味着对该物品集进行标签的人数属于正常范围。N个物品都被标签qi标注过,意味着至少有N人都知道标签qi。标签qi越符合用户兴趣,那么N个人越会对标签qi属性最明显的电影进行标注,从而qi的次数会接近N,因此可以用tN的比值来衡量匹配度。举一个例子,100部电影都被标注为“武侠”,基于假设(1),意味着有100个用户看过“武侠”的电影,如果100个用户都对“武侠”感兴趣,则他们一定会去看最经典的“武侠”电影,因此最经典的“武侠”电影的次数就会达到100次。也就是说“武侠”标签出现的次数与电影的数量是成正比的。相反,100部电影都被标注为“不好笑”,基于假设(1),意味着100个用户看过自己评价为“不好笑”的电影,因为对“不好笑”不感兴趣,所以就不会选择去看类似的电影,从而,被标注“不好笑的”电影的次数就越少。
四、结论
本文针对UGC标签推荐系统中标签质量不高的问题进行了研究,提出了清空标签的数学模型,建立了筛选的规则。从实验结果的准确性和召回率的比率来看,该方法一定程度上达到了提高标签质量的目的。(作者单位:吉首大学张家界学院)
参考文献:
[1]项亮.推荐系统实践[M].北京:人民邮电出版社,2012.
[2]JiaweiHan,Micheline Kamber 范明,孟小峰等译.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
[3]赵亚楠,董晶,董佳梁.基于社会化标注的博客标签推荐方法照[J].计算机工程与设计,2012,33(12):4609-4614.
[4]http://www.douban.com/
[5]CHAKPABORTY B. Integrating awareness in user oriented route recommendation system[A].CHAKRABORTY B.The International Joint Conference on Neural Networks[C].New Jersey:IEEE Press,2012.1-5.
[6]张斌,张引,高克宁,郭朋伟,孙达明.融合关系与内容分析的社会标签推荐[J].软件学报,2012,3(3):477-450.