交互式电视中个性化推荐系统的研究
2012-03-15陈洁超
陈 萌,杨 成,王 欢,陈洁超
(中国传媒大学 信息工程学院,北京100024)
交互式电视是一种双向电视,用户能够通过电视屏幕的交互界面进行信息反馈,从而建立用户和电视信息的双向联系[1]。随着三网融合的深入和数字家庭的兴起,交互式电视走进千家万户。与此同时,交互式电视用户也面临着“信息迷雾”的问题:大量的资源同时呈现,导致用户无从选择,资源利用率低,资源与用户间形成一条无形的“信息鸿沟”。在这种情况下,把个性化推荐系统引入交互式电视,为用户提供个性化信息过滤服务,成为一种迫切的需求。
个性化推荐系统最初是针对互联网“信息过载”问题而提出的,不同于一般的信息过滤系统,其特点有:1)将传统的用户发起请求变为系统自动向用户提供服务,引导用户发掘潜在兴趣点;2)以社会网络为基础、个性化需求为中心建立用户喜好模型[2]。
个性化推荐系统可以分为信息采集和预处理、模型分析、推荐以及存储4个功能模块,其中包含用户、项目和推荐算法3个关键要素,而推荐算法是整个系统的核心。后文将对基于内容的推荐、协同过滤推荐、基于关联规则的推荐以及混合推荐几个重要的算法加以分析和比较。根据算法的比较结果,总结得出交互式电视中个性化推荐系统的3个研究重点——精确性、实时性和自动性,以及冷启动、数据稀疏性、推荐“孤峰”等几个研究难点。此外,本文还从节目推荐、电视商务和广告定向投放3个方面阐述了个性化推荐系统在未来交互式电视中的实际应用,并且从应用角度分析预测了未来该研究的几个潜在的研究方向。
1 个性化推荐系统概述
个性化推荐系统要完成整个推荐过程需有3个要素:项目、用户和推荐算法。设C是所有用户的集合,S是所有项目的集合,效用函数u()用于计算项目s对用户c的推荐度。而推荐算法研究的问题就是找到推荐度最大的对象s*[3],即
从功能角度看,个性化推荐系统(如图1所示)可划分为:信息采集和预处理模块、喜好模型建立分析模块、推荐模块和信息存储模块。用户通过系统的交互界面提供信息或由系统自动收集用户行为信息,预处理量化后存入数据库作为后续分析的基础;提取存储模块中用户或项目的量化信息,按推荐算法的需要进行数据分析,得到用户与项目或项目间或用户间的关联模型;把分析后的模型导入推荐模块,运行的推荐结果通过交互界面显示给用户,同时记录用户的反馈信息,用于修正推荐机制。
2 主流的推荐算法及算法对比
推荐系统的核心部分是推荐算法,推荐算法的优劣直接决定了整个个性化推荐系统的性能。下面将对几个主流算法进行分析和对比。
2.1 基于内容的推荐算法
基于内容的推荐算法(Content-based Recommendation)[4]是把特征作为描述项目的基本单位。从用户看过的资料中提取特征,采用神经网络、决策树等机器学习方法学习用户兴趣,建立用户喜好模型ContentBasedProfile(c);根据不同特征在项目中出现的位置和频率的不同,确定待预测项目与用户喜好相匹配的程度。用效用函数表示[3],即
式中:sim()即为相似度计算,可采用欧几里得距离、皮尔逊相似度和向量夹角余弦距离等方法计算。该算法的处理对象多为项目的文字描述,推荐过程不需用户介入,只考虑项目间的关系,实时性好。
2.2 协同过滤推荐算法
协同过滤(Collaborative Filtering)算法是社会化方式移植到网络环境中的产物,其核心是基于社会网络进行统计预测,即通过用户-项目矩阵(如图2所示)寻找用户间或项目间的相似性,再结合用户的历史信息得出项目的推荐度,根据推荐值排序获得推荐项。因无须提取项目特征信息,该类算法更适合处理电影、音乐等特征结构复杂的项目。具体可分为基于用户和基于项目两种。
图2 m×n用户-项目矩阵
基于用户的协同过滤(User-based Collaborative Filtering)[5]的具体思路是:1)以用户对项目的评分为向量,计算用户c与其他用户的相似度sim(c,c′),确定用户c的喜好相似邻c′;2)把相似邻c′对项目s的评分以及与用户c的相似度进行加权平均(ave),得出用户c对项目s的效用值。所以效用函数为
基于项目的协同过滤(Item-based Collaborative Filtering)[6]基于以下假设:能够引起用户兴趣的项目,必与其之前评分高的项目相似。根据假设,计算用户c已评价的项目s'与待预测项目s的相似度sim(s,s');然后将用户c对项目s'的评分和相似度sim(s,s')加权平均,得出用户c对项目s的效用值。故效用函数为
基于项目协同算法与基于内容算法的区别在于:挖掘项目间关系时,基于内容的算法不需要用户信息,仅通过项目的特征决定;而基于项目的协同算法是通过用户的评分来确定项目间关系的。
2.3 基于关联规则的推荐算法
基于关联规则的推荐(Association Rules-based Recommendation)的本质在于挖掘一个数据集中项目之间的关系。该推荐算法有两个关键要素:支持度support(s⇒ s′)=P(s∪ s′)和置信度confidence(s⇒ s′)=P(s′|s)(其中s是待预测项目,是用户c的喜好项目)。支持度是数据剪枝的重要依据,而置信度反映了项目s与用户喜好项s′的关联性,即效用值的衡量标准。关联规则可以采用Apriori,AprioriTid和DHP等方法进行挖掘,其结果具有很大的未知性。
2.4 混合算法
在实际中往往将多个算法混合,以达到更好的推荐效果。关于如何组合各个推荐算法,有研究者提出了以下几种组合方法[7]:
1)加权混合。用线性公式按照一定权重组合几种算法,权重值通过测试数据集反复实验后确定。
2)变换混合。对于不同的情况,选择最为合适的推荐机制计算推荐。
3)分层混合。采用多种推荐算法,将一种算法的结果作为另一种算法的输入。
2.5 主流推荐算法的比较
以上几种推荐算法各有千秋,采用的相似度计算公式不同、建立喜好模型时选择的训练模型不同等都会影响个性化推荐系统的性能。在此,将主流算法的优缺点进行总结比较(如表1所示)。
基于内容的算法和基于规则的算法都可以实现离线处理且无须用户-项目矩阵分析,所以实时性和自动性都不错,但精确性方面却逊于协同过滤算法。这3种算法在可扩展性和冷启动问题上都存在一定程度的问题。此外,协同过滤算法的稀疏性问题较为严重,而基于内容算法的推荐多样性明显不足。
表1 主要推荐算法比较分析表
3 交互电视中个性化推荐系统的研究重点与难点
交互式电视中个性化推荐系统的研究重点有:精确性、实时性和自动性。对于用户方面,能够基于用户的喜好提供相关的精确推荐,而且对用户信息的采集要尽量减少用户的手动操作;根据收看节目的需要,推荐的结果要具有实时性,这样用户才能在开机后立刻根据推荐结果选择收看的节目,并对推荐结果做出及时反馈。对于运营方,高精度的推荐可以为营运方建立起忠实客户群,增加经济收益;实时对用户的反馈做出响应,能更准确地把握用户动向。
在研究过程中,还发现以下几个普遍的研究难点:
1)冷启动
冷启动包括新用户和新项目两个问题。数据库中没有新用户的历史数据,既不能根据训练集训练用户兴趣模型,也无法根据社会网络寻找相似邻用户。虽然可通过用户注册信息或者热点推荐在一定程度上缓解,但收效并不理想。新项目加入数据库的初期因为评价信息不足,无法使用协同等算法进行分析推荐,这很可能导致该项目沉没在大量的项目中无人问津。对于“冷启动”问题,目前一般考虑使用混合推荐方法来应对。
2)数据稀疏问题
对单个用户来说,已经评论过的项目集仅是整个庞大项目集的一小部分;另一方面,因为地域、文化或者喜好的差异,用户间的评价项也存在稀疏问题,严重影响推荐的准确度。SVD算法通过把矩阵分解降维,使系数矩阵降到低维稠密矩阵;或是使用基于人口统计学的方法,提取用户年龄、地域、性别等信息辅助用户兴趣建模[8]。
3)推荐“孤峰”问题
“孤峰”问题是推荐算法精确度研究的悖论面,也就是说,推荐项目与用户主兴趣点过于相似,总是集中在有限的范围内。造成该问题的原因:一是新用户加入时,历史数据不足,不能全面分析用户在多个范围的兴趣度;二是用户给系统的反馈不断地加深了主兴趣点的峰值。故在满足用户个性化需求的同时,要兼顾推荐多样性,不能一味地去迎合用户,还应适当引导用户挖掘新的兴趣点。
4 个性化推荐系统在未来交互电视中的应用
一个优秀的交互电视个性化推荐系统,在满足用户个性化需求的同时,又可以为运营商达到提高业绩或优化管理等目的,从而实现用户与运营方的双赢。以个性化推荐算法为基础搭建的推荐系统可与用户形成长期稳定的关系,建立起以忠实用户为内核的球状发散用户群,减少用户的流失。
4.1 视音频节目推荐
视音频节目推荐是个性化推荐技术在交互式电视中最基本也是目前发展最好的应用。利用用户的观看历史信息和行为信息,以及邻居用户的观看喜好,建立用户喜好模型,为用户自动推荐可能感兴趣的节目,既优化了用户体验又提高了运营商的收视率。此外,工程师在开发时还应注意简化反馈过程的用户参与度,尽量采用用户行为信息收集模式而非打分反馈。
济南有线曾对该应用进行过小范围的试点,一方面根据用户的个性化喜好建立个人频道,与公共综合频道形成互补之势,另一方面利用基于用户的协同过滤算法为用户推荐节目。从对此次试点进行的基于长尾效应KPI的跟踪分析结果来看,节目长尾效应和用户长尾效应的“头”“尾”都获得提升,尤其是节目的指标尤为明显。这次试点从实际应用角度验证了个性化推荐技术对于交互电视发展运营的支持推动作用十分富有成效[9]。
4.2 电视购物推荐
电视购物推荐面向的服务对象是用户,任务是为用户提供对商品的推荐,帮助用户决定购买什么产品。根据用户的年龄、职业、爱好等基本信息,分析用户喜好,定期推荐他们感兴趣的项目。当用户在查找项目时,进行跟踪分析,以便向用户提供合适的可选择推荐。收集用户购物历史,自动分析用户的购买记录,为每个用户提供对其个性化专门定制的推荐列表[10]。根据已有的用户-商品表格,挖掘与当前用户曾经购买过且评分相似的商品,然后推荐最畅销或关联最强的商品给用户。通过推荐算法可以在海量顾客基数和商品目录上进行扩展,及时对用户数据的变化做出反应。
4.3 广告定向投放
广告定向投放的终极目标是希望每个广告都投递给有需要的用户,对这些用户来说,广告更能成为需求信息的来源。广告定向投放一方面可以根据数据库中用户的兴趣信息以及电视购物历史,对用户分类进行广告投放。例如,用户经常观看育儿节目,购买过尿不湿等产品,可以猜想该用户家庭中有幼儿,进而选择对其投放奶粉广告。另一方面,可以把广告和正在播出的节目加以关联,例如在体育类节目中间插播体育用品广告,实现真正的以用户为中心开展业务。
5 交互电视中个性化推荐系统未来需要研究的问题
5.1 安全隐私性
推荐系统是基于用户的历史数据进行分析的,那么这些涉及个人隐私的信息在存入数据库的一刻就面临着泄露的风险[11]。使用匿名进行注册可在一定程度上缓解该问题,但是又会带来用户信誉危机和推荐精确度下降等后续问题。此外,个性化推荐还面临着欺诈推荐的问题,这和搜索引擎上的欺诈排名相似。如某出版商为使自己的影片尽可能成为推荐项,伪造多个用户抬高该项目的评价度。这就需要设计算法检测用户的评分行为和信用度,过滤虚假用户。
5.2 家庭多用户研究
目前个性化推荐算法的研究基本是针对单个用户的,没有考虑到家庭中的多成员问题。不同于计算机的个体化属性,电视机终端是面向整个家庭的娱乐设备。这就存在当前用户是自己看还是和家人一起看,不同家庭的成员年龄性别分布,如何区分同一家庭的不同用户等问题,研究中需要考虑到家庭多用户的实际因素,进一步增强推荐的智能化。目前有人提出时间段统计方法,例如在暑假白天向有孩子的家庭多推送少儿节目等。
5.3 时间聚合和空间聚合
个性化推荐系统往往没有对地域、时间、周围人员等环境信息做过多的考虑,其实这些环境信息大大影响了用户对推荐系统的期望[12]。系统使用数据集进行推荐研究时,往往忽略时间衰减度。需要进一步考虑到短、长期喜好的差别,平滑的记录并模拟用户喜好随时间的变化。再者,用户对节目观看的时长可在一定程度上反应用户的喜好,若把对项目的评价聚合到时间轴上,可以更全面地采集用户信息。在空间方面,不同地域的用户具有不同的文化背景,聚合地域因素可以使地方运营商有的放矢,针对性地引进影视剧,有效地规划广告的定向投放。
5.4 跨学科研究
个性化推荐系统不单单是技术问题,更涉及到社会学、传播学、心理学的多学科交叉课题。其中包括了从众心理和行为、热点传播、舆论引导、文化融合与碰撞等一系列人文社科的研究热点。想要更好地研究和发展个性化推荐系统,就需要多学科的纵深和交流。
6 小结
随着交互媒体的发展和用户个性化需求的增长,个性化推荐在交互式电视中扮演着越来越重要的角色。尽管个性化推荐在交互式电视中的应用刚刚起步,依旧存在安全隐私、多用户推荐、时空聚合等一系列待研究的问题,但是相信随着个性化推荐研究与社会学、传播学、心理学等多学科交叉研究的深入,以及交互式电视应用的推广,个性化推荐系统在交互式电视中的发展将上升到一个新的高度,为更多的交互式电视用户带来更优化的体验。
[1]LEE B,LEE R S.How and why people watch TV:implications for the future of interactive television[J].Journal of Advertising Research,1995,35(6):9-18.
[2]许海玲,吴潇,李晓东.互联网推荐系统比较研究[J].软件学报,2009(2):350-362.
[3]ADOMAVICIUS G,TUZHILIN A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Trans.Knowledge and Data Engineering,2005,17(6):734-749.
[4]KOVACS A I,UENO H.Recommending in context:a spreading activation model that is independent of the type of recommender system and its contents[EB/OL].[2012-02-02].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.100.9239&rep=rep1&type=pdf.
[5]SCHAFER J B,FRANKOWSKI D,HERLOCKER J,et al.Collaborative filtering recommender systems[J].The Adaptive Web:Lecture Notes in Computer Science,2007,4321:291-324.
[6]SARWAR B,KARYPIS G,KONSTAN J,et al.Item-based collaborative filtering recommendation algorithms[C]//Proc.Tenth International Conference on World Wide Web.Hong Kong:ACM Press,2001:285-295.
[7]BURKE R.Hybrid recommender systems:survey and experiments[J].User Modeling and User-Adapted Interaction,2002,12:331-370.
[8]PAZZANI M.A framework for collaborative,content-basedand demographic filtering[J].Artificial Intelligence Review,1999,13(5/6):393-408.
[9]季文.个性化视频推荐——互动电视运营趋势浅析[J].中国数字电视,2011(5):36-37.
[10]LINDEN G,SMITH B,YORK J.Amazon.com recommendations:item-to-item collaborative filtering[J].IEEE Internet Computing,2003(7):76-80.
[11]吴成钢,杨光,张翔,等.推荐系统应用及其安全性研究[J].信息网络安全,2011(8):69-71.
[12]ADOMAVICIUS G,TUZHILIN A.Multidimensional recommender systems:a data warehousing approach[J].Computer Science,2001,2232:180-192.