APP下载

基于内容的个性化新闻推荐

2013-12-17蒲国林杨勇智

四川文理学院学报 2013年5期
关键词:命中率感兴趣文档

蒲国林,王 刚,向 伟,杨勇智

(1.四川文理学院 计算机学院,达州 635000;2.安康学院 科技处,安康 725000)

0 引言

信息量的暴涨,产品数量和种类的快速增长,使个性化推荐系统成为研究热点.Mizzaro认为,个性化服务是收集并存储用户的使用信息,分析这些信息得到用户的特定兴趣和需求,然后在合适的时间向每一位访问者发送正确的信息.早期的推荐系统主要有:由Xerox Palo Alto研究中心开发的推荐系统 Typestry;[1]1995年 3月,卡耐基.梅隆大学的Robert Armstrong等人提出的个性化导航系统Web Watcher;斯坦福大学的Marko Balabanovic等人推出的个性化推荐系统LIRA;1995年8月,麻省理工学院的Henry Lieberman提出的个性化导航智能体Litizia.近期的成功应用主要有:Overstock运行个性化横幅广告取得了惊人的成果,“广告的点击率是以前的两倍,伴随而来的销售增长也高达20%至30%”;国内首个个性化推荐系统科研团队北京百分点信息科技有限公司专注于个性化推荐、推荐引擎技术与解决方案,[2]每天为数以千万计的消费者提供实时智能的商品推荐.

新闻推荐是推荐系统的一个重要应用,其推荐算法有三类:协同过滤的推荐方法、基于内容的推荐方法和混合推荐方法.协同过滤是从海量用户中挖掘出兴趣偏好相同或相近的用户,并以“如果用户A和用户B具有相近的兴趣偏好,那么用户A感兴趣的信息用户B也感兴趣”为假设前提,如 Let’s Browse.[3]基于内容的推荐是将与用户过去感兴趣的新闻相似度高的新闻推荐给用户,它以“如果用户A过去对某类信息感兴趣,那么用户A现在甚至将来也对该类信息感兴趣”为假设前提,如 Web Personalizer.[4]兴趣具有指向性、持久性等品质.兴趣的指向性,即对什么发生兴趣;兴趣的持久性,即兴趣的稳定程度.基于内容的推荐符合兴趣相对稳定的特征,协同过滤的推荐又能发现或挖掘出用户新的兴趣指向,混合推荐则是将两种方法综合起来.

1 系统架构与关键技术

如图1所示,基于内容的个性化新闻推荐系统可以分为三层:语义处理层、兴趣模型层和用户交互层.在语义处理层主要通过语义处理完成新闻分类;在兴趣模型层主要实现兴趣模型的建立与更新,以及兴趣的发现与新闻推荐;在用户交互层记录用户的相关行为信息,为用户兴趣模型的更新提供依据.

图1 系统核心架构图

在该系统架构中,进行个性化新闻推荐前的技术处理有:

1)新闻获取.网页的获取是通过Java的I/O操作完成.利用开源的目前公认最好的html解析和分析工具Htmlparser,实现网络爬虫,获取新闻资源.

2)中文分词.目前中文分词方法主要有:使用词典匹配分词和词频统计分词.本系统利用中科院的ICTCLAS完成中文分词和频数统计.ICTCLAS具有分词、自定义用户词典、关键词提取和指纹提取等功能.在关键词提取中,还统计出了各关键词的频数权重.在系统中,考虑到标题、关键词和正文中的特征项具有不同的重要程度,还可以设置其对象权重 Wt、Wk和 Wb,如:Wt=1,Wk=0.9,Wb=0.5.

3)文档分类

用特征项的频数权重与其所属对象权重之积来描述该特征项的权重,并将权重大于某一阈值的前n个关键词作为该文档的特征项,以此建立新闻文档的特征模型.新闻文档模型采用向量空间模型表示,[5]如式(1)所示:

其中,NDMi表示第 i个新闻文档的特征模型,Tj表示该新闻文档的第j个特征项,Wj表示此特征项Tj在该文档中的权重.在该模型中,阈值取得越大,特征项越少,计算越简单,分类也越粗糙;阈值越小,特征项越多,计算越复杂,分类越精准.特征项取多少合适,这与个体的兴趣取向的维度有关系.

本系统在上述新闻文档特征模型的基础上,采用式(2)改进的互信息法进行新闻分类:

其中P(Tk,Ci)代表特征项 Tk在Ci中出现的概率,P(Tk)表示特征项Tk在所有类别中出现的概率,P(Ci)表示Ci类在所有类别中的概率.对该新闻与所有类进行互信息计算,与某类的互信息越多,则该新闻属于该类的概率越大.

4)用户兴趣模型

用户兴趣模型表示用户对信息的稳定需求,能够反应用户在一段时间内对新闻的主要倾向.用户兴趣模型在个性化推荐系统中起到核心作用,真实地表现了用户的偏好,在很大程度上决定个性化推荐的效果.用户兴趣模型有一个动态更新的过程,更新依据主要是用户行为信息.良好的用户兴趣模型有利于个性化推荐,本文设计的用户兴趣模型具有指向性和持久性.用户兴趣模型亦用向量空间模型表示,在结构上与新闻文档模型一致,如式(3):

其中,UIMi表示用户Ui的用户兴趣模型,Cj表示用户感兴趣的类别,Wj表示该用户对该类别感兴趣的程度,即权重.如:{(军事,0.2),(经济,0.1),(食品安全,0.2),……}.

在文献中,研究了用户兴趣模型的建立、更新、降维和兴趣度的归一化处理等问题,在此不再细述.[6]

2 系统主要功能实现

2.1 建立动态的用户兴趣模型

考虑到用户评价的惰性和被动性,在该系统中,设置一个“我感兴趣”按钮.如果用户点击“我感兴趣”按钮,则可直接判断用户对该类新闻感兴趣;如果用户未点击该按钮,则根据用户在页面的停留时间来判断.一个人的正常阅读速度是在每分钟100字到300字左右.如果用户的停留时间远远小于正常阅读的时间,说明用户对该类新闻不感兴趣;如果用户的停留时间远远大于正常阅读的时间,同样说明用户对该类新闻不感兴趣,因为用户已离开电脑或者是在做其他操作.有用户行为反馈的基础上,动态更新用户兴趣模型.

建立用户兴趣模型的AJAX代码如图2所示:

图2 建立用户兴趣模型

动态更新用户兴趣模型的AJAX代码如图3所示:

图3 更新用户兴趣模型

2.2 基于内容的个性化新闻推荐

系统根据用户的注册信息建立用户的初始化兴趣模型.并依据该模型进行新闻推荐,同时根据用户的行为对用户兴趣模型动态更新.这样用户可以不用花时间从大量的新闻中去寻找自己感兴趣的新闻.

用户兴趣模型和新闻文档模型都是基于向量空间的表示方法,利用向量空间模型的相似度计算得到与用户兴趣模型匹配的新闻文档集,并完成新闻推荐.关键代码见图4:

3 系统测试

推荐系统向用户推荐新闻,可以向同一用户推荐多条新闻,也可以向多个用户推荐同一新闻.不同的用户收到新闻后,会表现出不同的兴趣度,其具体表现在用户的不同的眼神和面部肌肉表情中.对于系统向用户推荐的新闻,假设共得到n人次的用户体验,且第i人次用户体验的兴趣度为Ii(已进行了归一化处理),则定义推荐系统的推荐效率即命中率h为:

该式表明,系统推荐命中率的计算总是从第一条信息开始的.初期的较低的推荐命中率对后期的推荐命中率有较大的影响.总的说来,推荐系统的命中率高,则推荐效率高,用户体验好.对于商品广告信息则可以增加广告点击率,提高销售业绩.

图5 命中率测试

在三种情况下对该系统进行了推荐命中率测试.I类,对用户进行随机的新闻推荐;II类,对没有兴趣爱好等相关注册信息的用户进行的个性化新闻推荐;III类,对提交了兴趣爱好等注册信息的用户进行的个性化新闻推荐.以各推荐100条新闻进行测试,得到的推荐命中率变化曲线如图5所示:

由图可知:

I类的命中率(虚线)在0.5上下波动;

在初期,III类的命中率(粗实线)明显高于II类的命中率(细实线);

在经过一定数量的新闻推荐过后,II类和III类都经过了多次用户兴趣模型更新,推荐命中率明显提高,并逐渐接近同一个常数.

4 总结

个性化推荐系统在商业领域有着很好的应用前景.好的推荐系统,既能做到“有的放矢”的推荐,还能让用户有良好的体验.在新闻推荐系统中,用户兴趣模型的建立和更新是根本,推荐算法是关键.在实际应用中,考虑到用户兴趣爱好的多元性,多渠道的综合推荐算法更有利于发现用户的新的兴趣点,从而创造新的商机.

[1]Goldberg D,Nichols D,Oki B,et al.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of t he ACM,1992(12):61270

[2]柏林森,苏 萌.百分点个性化推荐引擎[EB/OL].http://baike.baidu.com/view/4362864.htm,2013102119.

[3]Lieberman H,Dyke N V,Vivacqua A.Let's Browse:Acollaborative Web Browsing Agent[J].International Conference on Intelligent User Interfaces,Los Angeles:ACM Press,1999:318.

[4]Bamshad Mobasher,Robert Cooley,Jaideep Srivastava.Automatic Personalization Based on Web Usage Mining[J].Communications of the ACM,2000(8):142-151.

[5]Salton G,McGill M J.Introduction to Modern Information Retrieval[J].NewYork:McGraw Hill,1983:147.

[6]蒲国林,杨清平,王 刚,等.基于语义的个性化用户兴趣模型[J].计算机科学,2008(7):181-184.

猜你喜欢

命中率感兴趣文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
更 正
夜夜“奋战”会提高“命中率”吗
2015男篮亚锦赛四强队三分球进攻特点的比较研究
投篮的力量休斯敦火箭
基于RI码计算的Word复制文档鉴别
这样的智能厨房台面,你会感兴趣吗?
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
试析心理因素对投篮命中率的影响