基于内容的推荐技术研究
2016-05-14刘明昌
摘要:信息过载是目前互联网及电子商务发展的严重障碍。个性化推荐技术,尤其是基于内容的推荐技术可以很好地解决信息过载,受到了各界的关注。本文首先介绍了基于内容的推荐技术的背景,阐述了其基本思想和方法,并分析了基于内容的推荐技术的优缺点,总结了基于内容的推荐系统的性能评价指标,并就其未来的研究方向提出了自己的见解。
关键词:推荐技术;内容;信息过载
21世纪以来,随着互联网的高速发展,互联网正在深刻地影响大众的生活方式。人们通过互联网获取到越来越丰富而全面的信息,为日常生活带来了便利。然而,在海量信息带给人们多样的选择的同时,也增加了获取所需信息的难度,无法准确的选择需要的信息。人们已经从信息匮乏时代迈入信息过载时代。
信息过载现象的出现,为信息的使用者带来了极大的影响。面对目前大量的信息资源,如何精确、高效地帮助用户获取需要的信息资源,已经成为目前网络技术发展的首要任务。推荐系统通过隐式或显式的方式搜集用户的行为信息来向其推荐信息或者商品,已经成为应对信息过载的有效工具。目前主流的推荐技术包括协同过滤推荐技术和基于内容的推荐技术。基于内容的推荐技术,是来源自信息检索领域,主要是对产品的内容等信息进行特征提取,而不是依赖于用户的评分信息。近年来,针对基于内容的推荐系统的改进也越来越多,如Zenebe在基于内容的推荐算法中加入了模糊的有关方法。Mostafa将神经网络引入到了基于内容的推荐算法中,进而改善了推荐的效果。
1.基于内容的推荐算法
基于内容的推荐算法可以应用项目的特性和用户的偏好,从而直观地为用户进行推荐。基于内容的推荐算法的基本思想是计算用户还没购买的项目和当前用户过去选择的项目的相似度。首先根据产品信息构造产品配置文件,其次根据用户之前的评分、收藏、评论等用户交互信息构造用户偏好配置文件。最后通过方法比较用户与产品的相似度,为目标用户提供与其过去的行为偏好相似的项目。
1.1产品描述模型
基于内容的推荐算法的重点是为产品建立描述模型。对产品信息的提取包括结构化的数据,比如现有的项目属性或标签;也包括非结构化的数据,例如对新闻文章的评价或其本身的内容。对于项目的非结构化数据的提取可以利用TF-IDF方法来确定项目的关键词。TF代表词频率,IDF代表逆向文件频率。文本文档可以通过分词和TF-IDF来转换成空间中的向量,空间维度对应文档分词结果。
1.2用户配置文件
利用目标用户过去的评论、收藏、需求等行为信息构造用户的偏好模型。利用朴素贝叶斯分类器、聚类分析、支持向量机等统计方法和机器学习技术分析对数据经过训练得到模型。在基于内容的推荐算法中,如何实时更新用户的偏好描述模型是较为困难的步骤,是目前重点研究的方向。
计算用户偏好模型和产品的内容特征模型的相似度是基于内容的推荐算法中重要的步骤。计算相似度的方法众多,例如向量夹角余弦方法是最为普及的方法之一。
2.基于内容的推荐算法的优缺点
2.1基于内容的推荐算法的优点是:
2.1.1推荐较为准确,思路简单,容易理解。
2.1.2不需要用户评分数据,没有数据稀疏影响推荐结果的问题。
2.1.3目前有较为成熟的机器学习技术提供模型的构建和分析。
2.2基于内容的推荐算法的缺点是:
2.2.1存在新用户冷启动问题。由于新用户进入时,不能获取到用户的偏好信息,无法构建用户偏好模型。
2.2.2虽然目前文本提取技术较为成熟,但是对于多媒体资源如视频、音乐的特征提取目前尚无较为深入的研究。
3.推荐系统的评价指标
如何评估一个推荐系统的性能至关重要。若推荐系统的性能可以满足用户的需求,就会吸引用户的进入,从而进一步优化推荐效果,形成良性的循环。目前评价推荐系统有准确率和召回率、实时性等多种指标。
3.1准确率和召回率。对于推荐结果为TopN列表的推荐系统,衡量指标大多是利用准确率和召回率指标。准确率衡量指标是代表推荐正确的数量占推荐物品总量的比例。召回率衡量指标是指推荐正确的物品数量占推荐列表中物品数量的比例。
3.2实时性。在目前的推荐系统中,系统实时性是最为重要的评价指标之一。推荐系统必须以相对较快的速度更新为用户推荐的物品列表来满足用户的需求。因此系统实时性在很大程度上对用户的使用体验存在影响。
4.基于内容的推荐技术未来的发展方向
基于内容的推荐技术从上世纪八九十年代至今经历了快速的发展,日渐成熟和完善。但在发展过程中,也出现了一些难点正待解决。这些难点都将是未来研究的重点问题。
4.1用户偏好的获取和项目特征提取。目前基于内容的推荐算法使用的用户行为信息和项目相关信息较少。对于多媒体信息、辅助信息、真实语义等信息的提取还需要不断地研究完善。
4.2推荐安全性。基于内容的推荐系统进行推荐时需要调用大量用户及项目信息,而在个人隐私引起大家广泛关注的今日,大量用户并不愿意主动提供过多个人信息。因此如何得到大量用户的行为数据用来提高推荐系统的效果,同时保证不被不法分子利用是未来基于内容的推荐系统的研究方向之一。
4.3冷启动问题。由于新用户并没有历史偏好信息,基于内容的推荐系统无法为用户建立偏好模型。因此用户的冷启动问题严重影响着目前基于内容的推荐系统的性能。虽然目前对于冷启动有很多相关的研究,但是问题依然没有得到解决。冷启动问题依然需要进一步的研究改善。
参考文献:
[1]刘玮.电子商务系统中的信息推荐方法研究[J].情报科学,2006,24(2):300-303.
[2]Balabanovi,Marko.Fab:content-based,collaborative recommendation[J]. Communications of the Acm,1997,40(3):66-72.
[3]蒲国林.基于内容的个性化新闻推荐[J].四川文理学院学报,2013,9:57-60.
作者简介:
刘明昌(1991.12- ),男,汉族,河北保定人,硕士研究生在读,现就读于河北大学管理学院,管理科学与工程专业。