基于用户群组行为分析的视频推荐方法研究
2014-05-31于晓洋孙渤禹
李 鹏 于晓洋 孙渤禹
基于用户群组行为分析的视频推荐方法研究
李 鹏*①②于晓洋①孙渤禹②
①(哈尔滨理工大学测控技术与仪器黑龙江省高校重点实验室 哈尔滨 150080)②(哈尔滨理工大学计算机科学与技术学院 哈尔滨 150080)
该文采用权重增量及相似聚集的用户行为分析算法,为用户推荐个性化视频提供了一个有效的解决方案。方法包含3个主要部分,首先利用RFM(Recentness, Frequency, Monetary amount)模型分析用户的行为,将相同行为的用户归为一组;然后结合用户的最近习惯,使用基于权重增量的Apriori算法挖掘用户之间的关联规则,并用向量空间模型进行相似度计算从而实现用户相似聚集;最后进行协同过滤式推荐,完成整体个性化视频推荐过程。该方法的特点是行为数据自动收集获取,避免了直接对视频大数据的处理;另外,视频推荐随着用户行为的改变而动态变化,更加符合实际情况。实验结果表明,该方法有效并且稳定,相比于单一推荐方法,在准确率、召回率等综合指标上均有明显提升。
视频推荐;行为分析;权重增量;Apriori算法
1 引言
随着互联网的迅速普及,网络传输、数据存储和视频压缩等相关技术的快速发展,来自于不同领域的各种视频数据正在以惊人的速度增长,其规模已十分庞大。例如,世界最大视频分享网站YouTube已经拥有超过1.5×108个视频,并且每天还有近6.5×104个新视频被上传[1]。面对如此数量级的大数据,用户想要找到自己感兴趣的视频将变成一件非常困难的事情。因此,自动的视频推荐系统成为人们迫切需求的产品,而有关推荐方法的研究也成为近年来计算机领域的一个热点研究问题,得到了国内外众多研究人员的广泛关注[2]。
用户行为分析方法最早来源于管理学领域,通过分析客户的行为指导企业运营管理[11]。近年来,有学者将此方法的思想引入到计算机领域的研究,刘奕群等人[12]采用用户行为分析的方法对搜索引擎性能进行自动评价;陈亚睿等人[13]通过对用户行为分析模型的研究,有效遏制不可信云终端用户的侵入行为。我们认为用户对视频的点播观看行为可以反映用户对视频的兴趣态度,由此提出对一系列视频具有相似行为操作的用户应该具有相似的喜好和兴趣点的假设;本文采用的所有技术都旨在验证这个假设是否成立。
2 基于用户行为分析的视频推荐流程
本文视频推荐系统的基本流程,如图1所示,主要是为了用户提供个性化的视频推荐服务。用户通过界面浏览,得知视频的长短、风格、视频名称、国家地区、年代等内容标签,用户可查看视频列表并观看自己喜欢的视频,而用户事务数据库便是记录视频编号、类别风格等信息。本文通过3种模块阶段来呈现视频推荐的过程:
(1)用户分组模块通过RFM模型对用户行为进行分析,将视频数据和观看视频客户数据转化为用户观看视频的行为操作数据,并通过日志数据对用户进行第1次分组;
(2)数据挖掘模块将用户日志数据进行基于改进的权重增量的Apriori算法分析并取得用户频繁项的关联规则,这样可挖掘出用户在最近行为中的规则习惯;
(3)协同推荐模块基于相似向量比对用户的相似度后,聚集相似规则用户,最后进行协同推荐,将相似比对结果做 top-N推荐的阶段。
3 基于权重增量及相似聚集的RFM用户行为分析算法
3.1 基于RFM模型的用户行为分析
视频用户的行为分析指标是通过对用户在观看过程中的行为进行统计和分析后从中得到的一般规律所构成。通过对用户行为进行分析并且掌握用户行为的规律性,就有可能预测用户将要发生的行为来实现期望目标。分析使用视频点播服务的用户行为,是希望了解用户的特征与规律,以实现个性化推荐。用户行为分析指标主要从以下几个方面进行分析。
图1 基于用户行为分析的视频推荐流程图
根据相关研究,RFM用户数据分析的指标是由用户数据库中3个特殊的要素构成:最近一次消费时间(Recentness) ,消费频率(Frequency) 和消费金额(Monetary Amount), 3个要素统一到1个RFM(Recentness, Frequency, Monetary amount)模型[14]。
(1)最近一次消费时间(Recentness)是指用户最后一次消费距离分析时的时间长度。当Recentness值较小时,用户再消费的几率比较大,因而其在最近一次消费时间特征值较高。
(2)消费频率(Frequency)是指用户在一定时间内消费该产品的次数。一般而言,当用户的消费次数越多时,该用户价值和忠诚度较高。反之,该用户价值和忠诚度较低。
(3)消费金额(Monetary Amount)是指在一段时间内,用户在此产品上花费的总金额。一般而言,当用户的消费金额越高时,其用户价值越高。
本文将对于视频的用户行为分析指标以及RFM的三要素做一个相对应的指标映射。如图2所示,我们把用户最后观看时间当作最近一次消费时间;把在一段时间内的观看频率当作消费频率;把总观看个数当作消费金额。不过,本文要将消费金额的计算方式改为计算类别文件(Itemsets)的次数,而类别文件选得越多也代表着用户会在这个类别文件上花费的时间越多,每一个类别文件就是单位金额。
本文通过行为分析可将用户分为8个群组,根据每一个用户的RFM值,我们以全部用户的RFM的总平均值为标准,并且以↑表示其值大于总平均值,而↓小于总平均值。利用这种表示可以分成8个群组(↑↑↑, ↑↑↓,↑↓↑, ↑↓↓, ↓↑↑, ↓↑↓, ↓↓↑,↓↓↓)。每一位用户将其RFM值与平均值做一个比较,由此可以找出每一位用户的群组类型,并将每一位用户分组到符合的群组内,而系统对于每一个群组会指定不同的推荐策略。
图2 用户行为分析与RFM映射图
3.2 基于改进权重增量的Apriori算法
传统数据库由于要计算全部的观看数据,所以要获得用户的高频繁文件,势必要造成系统执行时间以及成本的增加,影响了视频推荐的即时性。并且,用户最近观看的选择也不一定会一直围绕相同的类别风格。因此,本文采用基于权重的增量式数据挖掘(Incremental Mining based on Weight, IMW)思想,从而找出用户在最近时间内的观看兴趣类别,增量式挖掘不但可以缩短数据挖掘的时间还能够动态地挖掘出用户最近习惯。
Apriori算法作为挖掘布尔关联规则频繁项集的重要算法是迄今为止最有影响力的关联规则算法之一,其核心是基于两阶段频繁项集思想的递推算法[15]。在权重增量思想中,我们设定一个支持度阈值,只有权重支持度超过设定的支持度阈值,才能停止增量计算。随着增量计算次数的不同,所得到的结果排列也会不一样。本文通过对权重增量思想中一个参数的迭代次数阈值的设定,省去设定权重增量思想的支持度阈值以及Apriori算法中的最小支持度阈值,从而达到简化计算提高效率的目的。
本文方法是将权重增量的思想加入到Apriori算法里并进行改进,从而求得研究中理想的规则,以下是描述挖掘规则的步骤:
步骤1 假设先取观看数据库内的最后笔交易,并计算每一项集类别的次数值。
步骤6 最后剩下的二项集类别将视为用户的最近习惯规则(Recent behavior rules, Rbr)。
3.3 基于VSM模型的用户相似聚集
本文通过向量空间模型(Vector Space Model, VSM)对用户进行相似度计算,并且依据用户最近习惯和兴趣得出的规则来做用户聚类,对相似用户进行再一次聚集。其目的是为了聚集相似类别项目的用户,找出用户间更加相似的群组,达到真正协同过滤方法下分享信息的作用。定义如下:
接下来进行相似向量的计算,相似向量的定义如下:
求得相似向量后,就可进行每一用户之间的相似度对比。
本文采用空间向量模型进行用户之间的相似度对比。在向量空间模型中,两位用户1和2之间的行为相似度Sim(1,2)常用向量之间夹角的余弦值表示,如式(5):
通过VSM模型,就可以对群组中用户的最近习惯规则向量表示做相似度计算,向量中的每一个元素都作为向量的特征项,对同一分组中的两两用户做相似度计算,并以相似度作为系数,对所要推荐给其他用户的视频做推荐度分析。若两个用户的类别相似向量的相似度高,那么就将一个用户的视频以高比例的数量推荐给其他用户,若两个用户的类别相似向量的相似度低,就将一个用户的视频以低比例的数量推荐给其他用户。
3.4 基于协同过滤的视频推荐
针对同一群组内的用户,我们进行了组内相似用户聚类,聚集了同一群组内与其他用户最相近风格的用户。本方法是利用RFM模型分类后,在相同群的其他用户所点选的视频来进行相互推荐。这种方式的目的是经由第2次的分类聚集,可以得出更接近用户习惯和兴趣分类,其做法就是将其他用户所选择的视频,依据之前用户的喜好类别不重复地推荐给用户,达到协同过滤式信息共享的结果。
假设1的同组其他相似同喜好用户2和3,可以知道3位用户所选择的视频编号(其中代表第个视频)。先把1与2在相同类别中的,不重复地推荐给1,例如:2将{:1,2,:6,:9}推荐给1。而3相同的类别也推荐给1,例如:3将{:2,4,:6,8}推荐给1。这样,就会综合2与3两者的结果不重复地推荐给1,即{:1,2,4,:6,8,:9}。
4 实验验证与分析
针对视频推荐方法的评价是一个比较困难的问题。由于视频推荐的对象是人,因而对视频喜好的选择因人而异,甚至在不同时间、不同环境下同一个人的选择也存在差异。因此,人们无法构建统一的公共数据集来衡量各种方法之间的优劣,绝大多数的研究只能通过组织一定数量的用户对自己的方法与基本方法进行评价,以验证自己提出的策略或所采用的技术是否有效且稳定。我们也采用这种实验策略,通过组织本中心的部分人员作为实验者,对本文所采用的技术进行评价。
4.1 实验平台构建
为验证本文方法的有效性和稳定性,本文搭建了一个实验平台。实验数据分为5种类型共有400个视频,其中250个为训练语料,剩余150个为测试语料,每种分类的前50个作为训练语料,后30个作为测试语料。本实验共有15位实验者在30天内生成了1733条日志数据。为了证明本文方法的有效性与稳定性、本文构造了4种方法,分别用以验证RFM模型,权重增量以及相似聚集3种技术在推荐过程中分别所起的作用,4种方法分别表示如下:
方法1:使用权重增量与RFM模型。
方法2:使用权重增量与RFM模型及相似聚集。
方法3:不使用权重增量但使用RFM模型及相似聚集。
方法4:使用权重增量但是不加入任何分组方法。
本实验采用准确率、召回率和值这3个指标来衡量实验方法的有效性,为了计算实验数据的准确率和召回率,评价指标的计算公式如式(6),式(7),式(8)所示。本文将实验和分类问题的混淆矩阵相结合,从而更好地描述系统的性能,如表1所示。其中TP表示的是方法推荐的并且用户真实喜欢的视频数,FP表示方法推荐的但不是用户喜欢的视频数,FN表示方法没有推荐但是用户实际喜欢的视频数,而TN则是方法既没有推荐而且用户也不喜欢的视频数。
表1 分类混淆矩阵
4.2 实验结果与分析
通过对15名实验者观看视频的行为数据进行采集并分析,采用构建的4种方法分别进行视频推荐,得到了如表2所示的实验结果。
表2用户的权重增量+RFM+相似聚集与其它方法的评价指标对比
方法1方法2方法3方法4 平均准确率0.640.760.520.56 平均召回率0.670.790.650.64 平均F值0.650.780.580.60 时间复杂度O(n)O(n2)O(n2)O(lgn)
方法2与其它方法的比较可以说明,单纯只考虑RFM模型分组在推荐的过程中可能会出现较多其他用户的推荐,因此可能推荐一些非用户喜好或兴趣的视频,所以,本实验设计证明两次分组效果优于单独的一次分组。而方法3不使用增量挖掘技术,推荐时会不管用户的喜好,任意推荐其他用户所点选的视频,造成推荐比较杂乱,所以用户对这种混乱的推荐可能不喜欢,因此推荐后的准确率明显低于使用增量挖掘的方法,证明权重增量挖掘的重要性。另外,方法4不使用分组技术,其平均准确率为56%,明显低于方法2使用分组技术的准确率,因此分组技术更能让用户可以得到想要的,而不是一堆视频,让用户不知道怎么选。以上实验数据证明了方法2的有效性,但还需要验证方法的稳定性。
图3显示了15位用户的准确率的分布。可以看出,用户7在推荐方法2的准确率最高为82%,而最低是用户2使用推荐方法2的准确率也有68%。其中用户在使用方法2时所得到的大多数的准确率数值明显高于其它3种方法所得到的准确率,其中方法1和方法4在准确率的稳定性相对较差。
图4显示了15位用户的召回率的分布。用户4使用方法2所得到的召回率最高为84%,而最低的是用户12的召回率也有72%。其中用户在使用方法2时所得到的大部分的召回率数值明显高于其它3种方法所得到的召回率,其中方法1和方法3在召回率的稳定性相对较差。
本文对文中视频协同推荐框架下所涉及的3种算法分别进行了时间复杂度分析:基于RFM模型的用户行为分析算法(RFM)本质是一种匹配算法,算法对用户3种行为元素进行采样,并与可能形成的8种情况进行匹配,将用户进行群组集聚。这种匹配算法没有循环存在,因此其时间复杂度为常数;基于改进权重增量的Apriori算法(IMW)本质是一种递归算法,算法主要对于用户的近期观看行为规则进行增量式的更新,匹配算法的时间复杂度最小为(),采用折半查找时间复杂度最大为(lg);向量空间模型(VSM)是一种普遍使用的高效相似度计算模型,VSM内积计算的时间复杂度是(),待推荐的用户要与已知用户集分别进行相似度计算,其时间复杂度也为()。因此,基于VSM模型的用户相似聚集算法(similarity)的时间复杂度为(2)。通过以上分别对3种算法的时间复杂度分析,可以对实验中所验证4种方法的时间复杂度进行对比,具体如表2所示。可以看到,方法1的时间复杂度最小为(),方法2和方法3的时间复杂度最大为(2),影响时间复杂度的主要因素是采用VSM模型进行用户相似聚集。但是从其它指标上综合考虑,此算法对于提升视频推荐效果确实起到了重要的作用。从代价上考虑,在实际应用系统中算法的时间复杂度为(2)是可以被接受的,如支持向量机(SVM)算法被广泛地应用于各种实际系统开发之中,其时间复杂度即为(2)。
图3 4种方法的准确率分布图
图4 4种方法的召回率分布图
通过对以上数据的分析可以看到,方法2利用权重增量及相似聚集的RFM模型推荐方法,能够更好地发现用户的喜好,从而相比其它基本方法具有更好的推荐能力,具有较高的准确率,并在一定程度上也表现出了方法的稳定性。因此,可以证明本文研究方法中所涉及的3种技术,即权重增量挖掘、组内用户相似聚集以及基于RFM模型的用户行为分析均对视频推荐具有正向推动,是一种有效的手段。另外,也进一步证明了本文先前的假设是成立的,即对一系列视频具有相似行为操作的用户应该具有相似的喜好和兴趣点。
5 结束语
本文首先通过RFM模型将价值或者行为相同用户归为同一群组,结合用户最近习惯和行为,采用Apriori算法来挖掘关联式规则;然后用相似向量矩阵计算所有用户之间的相似度关系,进行相似聚集;最后利用协同过滤式推荐方法给用户进行视频推荐,从而完成个性化推荐的整个过程。本文通过实验结果验证了此推荐方法的有效性和稳定性。结合RFM模型及相似聚集推荐比单纯只使用RFM模型分组方式效果好,利用权重增量挖掘与分组方式实验结果表明,能够推荐给用户更准确的喜好视频。而整体上,本实验的准确率高达76%,比其它推荐方法高出16.2%~32.5%,召回率高达79%,比其它推荐方法高出15.1%~18.9%。综合上述实验结果,可以证明本文所采用的3种技术相结合的方法是一种行之有效的视频推荐策略,基本达到了预期的效果。
本文的主要贡献在于提出了采用用户行为分析的方法对视频进行推荐,目前还没有查阅到同样采用行为分析进行视频推荐的相关文献。通过自动采集用户观看视频的行为数据,并通过技术手段分析这些数据找到具有相同喜好的用户,进而进行协同推荐。行为数据可以实现动态实时采集,行为数据属于形式化数据,其处理难度小、速度快,从而可以实现及时更新,同时也避免了以巨大代价对视频大数据进行的直接处理。在视频推荐的实际应用中,推荐的及时性往往比推荐方法的准确性更重要,因此对其应用研究不能仅着眼于算法的复杂化,而相反应该寻找简单、稳定的策略。在今后的研究中,我们将继续深入探索基于行为分析的视频推荐方法,积极研究用户深层次行为属性特点,丰富行为模式内涵。
[1] SKrishnapp, D K, Zink M, and Griwodz C. Cache-centric video recommendation: an approach to improve the efficiency if YouTube caches[C]. Preceedings of the 4th ACM Multimedia System Conference, Oslo, 2013: 261-270.
[2] Zhao Xiao-jian, Yuan Jin, and Wang Meng. Video recommendation over multiple information sources[J]., 2011, 19(1): 3-15.
[3] De V J, Degrande N, and Verhoeyen M. Video content recommendation: an overview and discussion on technologies and business models[J]., 2011, 16(2): 235-250.
[4] Park J, Lee S, and Kim K. Online video recommendation through tag-cloud aggregation[J].2011, 18(1): 78-87.
[5] Su Chun-rong, Li Yu-wei and Zhang Rui-zhe. An adaptive video program recommender based on group user profiles[J]., 2013, 21(2): 499-509.
[6] Ozturk G and Kesim C N. A hybrid video recommendation system using a graph-based algorithm[J]., 2011, 6704: 406-415.
[7] Silveira D, Alessandro, and Wives L K. POI enhanced video recommender system using collaboration and social networks[C]. Preceedings of the 8th International Conference on Web Information Systems and Technologies, Valencia, 2012: 717-722.
[8] Ma Xiao-qiang, Wang Hai-yang, and Li Hai-tao. Exploring sharing patterns for video recommendation on YouTube-like social media[J]., 2013, DOI: 1007/s00530-013-0309-1.
[9] Niu Jian-wei, Zhao Xiao-ke, Zhu Li-ke,.. Affivir: an affect-based internet video recommendation system[J]., 2013, 120: 422-433.
[10] Zhao Si-cheng, Yao Hong-xun, and Sun Xiao-shuai. Video classification and recommendation based on affective analysis of viewers[J].,2013,119: 101-110.
[11] Rapach D E and Wohar M E. Forecasting the recent behaviorof US business fixed investment spending: an analysis of competing models[J]., 2007, 26(1): 33-51.
[12] 刘奕群, 岑荣伟, 张敏. 基于用户行为分析的搜索引擎自动性能评价[J]. 软件学报, 2008, 19(11): 3023-3032.
Liu Yi-qun, Cen Rong-wei, and Zhang Min. Automatic search engine performance evaluation based on user behavior analysis[J]., 2008, 19(11): 3023-3032.
[13] 陈亚睿, 田立勤, 杨扬. 云计算环境下基于动态博弈论的用户行为模型与分析[J]. 电子学报, 2011, 39(8): 1818-1823.
Chen Ya-rui, Tian Li-qin, and Yang Yang. Model and analysis of user behavior based on dynamic game theory in cloud computing[J]., 2011, 39(8): 1818-1823.
[14] Chen Toly. The RFM-FCM approach for customer clustering[J]., 2012, 8(4): 358-373.
[15] Awadalla M H and Elfar S G. Aggregate function based enhanced apriori algorithm for mining association rules[J]., 2012, 9(3): 277-287.
李 鹏: 男,1978年生,教授,硕士生导师,研究方向为网络信息处理、机器学习、人工智能.
于晓洋: 男,1962年生,教授,博士生导师,研究方向为图像加密与隐藏、视觉三维检测.
Video Recommendation Method Based on Group User Behavior Analysis
Li Peng①②Yu Xiao-yang①Sun Bo-yu②
①(,,,150080,)②(,,150080,)
This paper presents an effective solution for personalized video recommendation based on the weight increment and similar aggregation user behavior analysis algorithm. The method is implemented in three steps: first, the user behavior is analyzed using the RFM (Recentness, Frequency, Monetary amount) model, users with the same behavior are classified as a group; second, the Apriori algorithm based on weight increment is applied to mining association rules between users in line with the recent habits of users, and by using the VSM model for similarity calculation, the user similarity aggregation is realized; finally, the whole process of personalized video recommendation is completed by means of collaborative filtering. The proposed method can automatically collects user behavioral data and avoids direct video big data processing. In addition, the video recommend dynamically changes with the change of user behavior. The experiment results show that, the presented effective and stable, and the method achieves significantly increasement in precision and recall comparing with the single recommendation method.
Video recommendation; Behavior analysis; Incremental weight; Apriori algorithm
TP393
A
1009-5896(2014)06-1485-07
10.3724/SP.J.1146.2013.01225
李鹏 pli@hrbust.edu.cn
2013-08-13收到,2013-11-08改回
国家自然科学基金(61103149),中国博士后科学基金(2011M500682),黑龙江省高校青年学术骨干项目(1253G023)和哈尔滨市青年科技创新人才专项基金(2012RFQXG093)资助课题