社交电视推荐系统的建立及展望
2015-04-12李婧夕
李婧夕
摘 要:随着移动互联网的高速发展,传统电视媒体的优势正被逐渐侵蚀。收视率下降、广告收入下滑、受众老化等各类因素都在倒闭传统电视媒体的改革。为了减少与新媒体的隔阂,重塑媒体霸主地位,央视及各省级卫视纷纷推出电视终端应用。社交电视,作为兼具“看+聊+玩”功能的C端产品,受到业界的广泛关注,但互动社交这个核心模块未能被真正激活是一大缺憾。该文以社交电视互动社交模块这个市场缺口为中心,通过研究用户社会属性、兴趣偏好及行为轨迹,运用基于用户的协同过滤算法进行建模,最终建立一个能被有效运用的具有“节目内容+社交圈子+互动活动”功能的推荐系统,这也正是该文的最大创新点。
关键词:社交电视 用户兴趣模型 基于用户的协同过滤算法 推荐系统
中图分类号:TN94 文献标识码:A 文章编号:1674-098X(2015)11(b)-0204-03
2015年是移动互联网元年,如果说过去10年还是一场由“社交+电商+视频”主导的互联网改良运动,那么“移动”元素的加入无疑是在助推互联网的改革。视频行业在传统互联网时代的标志性产物是自制剧、UGC,但广电传媒产出的内容多以官方、权威、社会、大众著称,目标在于达到普遍共识。移动互联时代的全面到来,给广电传媒带来了更大的机遇,为谋求更大的发展空间,就要颠覆以节目内容为导向的思想,将更多的焦点转向用户,通过研究用户的社会属性、兴趣偏好及行为轨迹,打造出兼具“个性化+社会化”电视智能终端产品。
1 社交电视发展现状概述
我国电视智能终端产品的开发始于2008年,历经7年的发展已经初具规模,且涵盖新闻客户端、手机电视、社交电视及节目客户端四大类产品。社交电视作为新兴品类已有20余款成品,如:CCTV微视、BTV大媒体、呼啦、哇啦等。社交电视,是广电传媒企业在看到社交媒体融合的大方向后,借助第三方平台的力量,主导下的一场后互联时代“视频+互动+社交”的改革。毋庸置疑,这场改革至今仍不够彻底,有影子有形态,但基因并未完全注入,下载量不高且月均活跃度较低,尤其是互动社交环节并未被有效推动。该篇文章正是站在这样一个重要的市场缺口之上,进行研究及探索。
2 用户的兴趣偏好研究
根据央视市场研究在线平台的数据,发现在4 010位受访网民中,有33%表示使用过社交电视APP,且综合评分为3.5分。经过深入剖析得出以下结论。
第一,诚然不同的用户喜欢不同类型的节目,但位居TOP5的热门类别受到较多网民喜爱,分别为电视剧44%、电影38%、综艺娱乐36%、时政23%及财经20%。通过挖掘热门节目的主题建立圈子、组织活动不失为一种良策。
第二,用户的社会圈子不同自然偏好的社交圈种类也不同。通过调研发现,在互动圈子的种类偏好上,好友圈46%、兴趣部落圈30%、节目圈28%、话题圈27%、TV主持人圈12%、场景圈6%。目前最流行的是节目和话题圈,对好友和兴趣圈进行开发的产品实属罕见,而这也将成为一大商机。
第三,更多的用户不排斥实时互动,且通过调研发现这一比例高达77%。不定期地实时社交互动活动或将成为社交电视的一大亮点。
3 社交电视推荐系统的关键技术及实现
3.1 数据的获取
社交电视推荐系统的数据来源分为两大类:一类源自平台自身,包括视频搜、点击等行为数据,也包括社交圈文本数据;另一类源自微博、Twitter、Facebook等大型社交平台。前者的可用数据主要是与视频直接相关,社交圈由于尚未被激活所以可用度较低,且总体来说数据量较小。而后者刚好相反,数据海量、可信度较高,充分开发并挖掘这部分数据是建立社交电视推荐系统的基础。
目前数据获取主要有两种方法:第一,通过爬虫程序,从第一层页面出发,沿着该页面中的链接地址依次寻找并循环,直到把关联的所有页面全部爬取到。这种方式获取的数据受网页信息种类的限制,且获取的是网页中的所有数据,所以信息冗余度较高、执行效率较低。第二,通过在线社交网络服务开放平台提供的API接口高效地访问和获取数据。以API的方式获取数据不会受到网页信息种类的限制,且执行效率较高,所以这里采取这种方式获取数据。
3.2 数据的存储
传统的解决方案大多用关系型SQL数据库,这类数据库解决小数据尚可,但遇到大社交数据就便难以高效运转。考虑用NoSQL以key/value或者文档的形式存储,不仅避免了传统SQL把数据分割成众多表格后再用外键进行连接而造成的低效率缺陷,而且在扩展性、处理效率、灵活性上均有明显优势。
3.3 用户兴趣模型的建立
从社交平台及社交电视APP上采集来的数据均可分为两类,即显式行为数据和隐式行为数据。显式行为数据,例如:赞/踩、评分或用户注册时的信息,这类数据可直接获取、质量高、噪声小但获取难度较大。隐式行为数据,例如:浏览行为、点击动作、收藏记录、页面停留时间、页面跳转情况、页面操作次数等,这类数据不可直接获取、噪声大但获取难度较小、数量庞大、含义丰富。
用户兴趣模型建立的过程就是筛选用户曾经有过较高反馈的节目、主题或元素集合的过程,模型的建立是为更好的个性化服务用户做准备。该文通过计算用户兴趣及偏好,采用“用户—节目/主题/元素评分矩阵”模型为用户建模(以下均已用户—节目评分矩阵模型为例)。用户计为,节目计为,模型中的元素计为,其中,的含义为第i个用户对第j个节目的评分。
对于显式行为数据,评分往往已经被量化,而隐式行为数据,为更加合理精准地进行评分,常常需要考虑以下三个因素,即用户行为种类、用户行为次数及用户行为持续时常。因此,用户—节目评分矩阵中的元素可表示为用户行为种类,发生次数,持续时长的函数,式(1)。
将每个用户的兴趣评分按从高到低排序,取得分靠前的节目,便得到了用户曾经有过较高反馈的节目。同样的原理也可建立用户—主题/元素评分矩阵模型。
3.4 基于用户的协同过滤算法的推荐系统的实现
该算法的宗旨在于利用用户行为的相似度计算兴趣的相似度,包括两个主要步骤:第一,找到和目标用户兴趣相似的用户集合;第二,找到这个集合中用户喜欢的但目标用户未关注的节目进行推荐。
事实上,很多用户对同一节目并未产生共识,可先计算的用户对,然后再对这种情况用式6进行计算。首先,建立节目—用户倒查矩阵,其中的元素表示对该节目产生过行为的用户,初始值置为0。然后,扫描每个节目对应的用户,将两两用户有同时对应一个节目的用户列表中的元素加1。最后,将矩阵中每个元素减1,取不为0的元素,得到有相似兴趣的用户。这里有一个重要的参数,即每个用户选出的和他兴趣相似的用户数K。
找到了这样的用户集合,就可以有针对性的给该用户推荐集合中用户偏好的节目,同样的算法适用于主题及元素的推荐。推荐内容一经确定,就可以建立社交圈子、组织互动活动。
节目推荐是第一步,社交圈子是基于节目收看和评论而建立,互动活动是促进社交电视双屏互动形成闭环的关键,三者缺一不可,这样三位一体的社交电视推荐系统是当下的一大创新。
3.5 推荐系统的评估
推荐系统的性能直接影响着社交互动功能能否被有效激活,主流的评估指标主要有以下3类。
第一,准确率和召回率。准确率反映了有多少比例是用户使用过程中尝试过或浏览过的推荐内容,召回率反映了有多少比例是用户最终使用的推荐内容,其中一个重要的影响因素是推荐系统为该用户选出的与他有相同兴趣点的用户数K,一般而言,该参数取值为80左右时系统会有较高的性能。
第二,覆盖率。反映的是推荐系统帮助物品冷启动的挖掘能力。K越大,覆盖率越低,结果就越趋向于全局热门内容。
第三,多样性。反映的是推荐系统帮助用户发现不同兴趣点的能力。K越大,多样性越高,正所谓求同存异。
综上所述,参数K的选择要综合考虑各指标,推荐系统才能拥有良好的性能。此外,用户满意度、惊喜度和推荐内容的新颖性也是重要的软指标。
4 结语
社交电视APP是移动互联时代的产物,体现的是群体及群体之间、个体及个体之间松散联结、动态稳定的关系。作为C端产品,应依托现有技术,注重精细化剖析用户的显性及隐性信息,精准定位建2立模型,以达到推动合理化安排电视节目、互动话题及活动的目的。在提高有效收视率的同时,助力双屏互动形成闭环,使互动社交的种子真正“落地生根发芽”。
参考文献
[1] Francesco Ricci,LiorRokach,BrachaShapira,Paul Kantor,著.推荐系统[M].李艳民,胡聪,吴宾,等,译.机械工业出版社,2015.
[2] 方兴滨.在线社交网络分析[M].电子工业出版社,2014.
[3] 薛伟.国内社交电视发展研究[D].长沙:湖南大学,2013.
[4] 庞胜楠.电视媒体与社交媒体互动研宄[D].山东:山东师范大学,2013.
[5] 张凡杰,曹珊珊.微博时代下电视媒体的应对突破之路[J].东南传播,2012(6):148-150.