基于大数据技术的有线电视节目推荐系统
2019-11-12张军
张军
摘要:在当前互联网技术以及智能AI技术的发展背景下,合肥有线利用大数据技术对电视用户群和节目资源进行细分,整合规范合肥有线的直播和点播节目资源元数据,利用基于内容的推荐算法和协同过滤算法对推荐模型的数据进行大数据分析,实现有线电视用户的个性化推荐服务。
关键词:推荐系统;大数据;互动电视;HFC双向网络
中图分类号:G642 文献标识码:A
文章编号:1009-3044(2019)25-0297-02
在当前互联网技术以及智能AI技术的发展背景下,为了应对新媒体技术的挑战,合肥有线对传统机顶盒进行着技术升级,利用大数据技术对自己的用户群进行细分,并以此信息对用户进行合肥有线的直播和点播节目资源进行系统推荐,以期做到千人千面的个性服务,用以提高合肥有线的品牌竞争力。本系统从合肥有线双向网络中收集用户终端的各类信息(用户信息、用户行为信息以及业务信息等),通过对各类数据信息的建模分析利用大数据平台来实现有线用户的个性化推荐服务。
1 对有线节目资源进行大数据分析的意义
自全网双向改造后,合肥有线不仅保证直播节目稳定无延时地传输也引进了海量视频资源以供有线用户点播收看。虽然节目资源的初步聚合归类改变了用户的被动接收的收视习惯,但与互联网视频网站对节目详尽的分类相比,合肥有线的视频资源入口相对简单、点播路径过长以及影片搜索不便捷等问题无不影响着用户收视。因此,运用大数据分析系统,对节目资源进行深度分析,不仅可以提升有线优质资源的曝光率而且可以增加用户的黏度;对用户进行群体细分以及用户喜好的分析,改变了有线电视节目的运营模式,从传统的粗放式推送转化为精细化的用户运营,提升了用户的品牌忠诚度。
2 推荐系统介绍
推荐技术的发展是随着信息技术和互联网的发展而兴起的,是信息过载时代信息消费者和信息生产者之间的纽带,是一种帮助用户快速发现有用信息的工具。推荐系统并不需要用户提供明确的需求,是分析并挖掘用户的历史行为,利用特定算法找出用户的个性化特点并主动给用户推荐满足他们需求的信息的系统。推荐系统面向的对象称为用户,推荐的产品称为物品,推荐系统所关心的就是用户与物品之间的关系,现有的一些基本类型的推荐系统包括:协同系统、基于内容的系统和基于知识的系统。[1]这些系统都具有一个重要的特点拥有强大的用于跟踪和识别用户长期兴趣的用户识别机制。
3 有线节目资源推荐系统架构图
有线节目资源推荐系统的用户是收看有线电视节目的終端用户,推荐系统的物品是有线节目资源,包括了直播电视节目、在线点播影片以及电视剧。有线节目资源推荐系统的架构如图1所示。
3.1 数据信息
推荐系统能否提供用户满意的结果依赖于数据信息源。数据源需要具有大数据的特性:大量化、多样化以及速度化等特点。涉及的数据信息可以分为以下几类:
(1)终端用户自身数据信息:收看电视节目的终端设备以及智能卡号,用户姓名、用户地址;
(2)终端用户行为数据信息:用户点播的数据信息(片名、开始点播时间、结束收看时间、暂停播放的时长以及对节目的评分)、用户浏览的数据信息(片名、开始浏览时间、结束浏览时间)
(3)节目资源的数据信息:节目资源的元信息(片名、类别、供应商、导演、主演、内容介绍、时长、集数)以及节目资源的综合评分(网络评分以及用户评分)
(4)其他数据:为了弥补节目资源元数据的不足,也需要利用网络爬虫技术,从互联网上获取节目资源相关的元数据作为数据信息的补充。
3.2 数据处理
跟一般的挖掘分析相同,推荐系统需要对已有的数据信息进行数据清洗以及整理,将重复的、不合理的以及错误的数据去除掉,并对符合要求的数据进行格式化处理。
3.3 数据分析
经过处理后的数据依然不能讲用户和物品关联起来,要想给用户推荐个性化的物品,就需要通过建模来对用户和物品进行聚类分析,并依据特定算法用户的个性化需求。推荐算法一般包括:协同过滤、基于内容的推荐、基于知识的推荐以及基于上下文的推荐系统等。本文中使用了基于内容的推荐和协同过滤两种算法作为系统的推荐算法。
3.4 数据展示
数据展示部分就是将推荐算法得出的接口通过特定的方式提供给用户,比如:机顶盒首页个性推荐、其他系统页面以及各类数据接口等。
4 系统实现
依据有线节目资源推荐系统的需求分析,我们结合爬虫数据整理了有线节目资源的元数据,实时记录了有线用户的点播数据(浏览信息以及点播信息),并依据推荐模型采用基于内容的推荐算法和协同过滤算法的混合算法作为整个系统的推荐算法,对有线节目进行分类排行以及个性推荐。
4.1分类排行
包含热门节目排行、热门影星参演排行、经典老片以及综合评分排行等,为有线用户提供最常用的节目资源推荐(如图2所示)。
4.2个性化推荐
个性推荐与单个用户对节目的喜好有关,依据用户的历史行为通过推荐算法来推断用户的喜好,从而为用户提供可能感兴趣的节目资源,相对于分类排行而言,个性推荐更加地智能化(如图3所示)。
5 结语
本系统是针对合肥有线节目资源进行的数据分析,为有线互动点播业务提供长尾分析以及资源推荐,其实现主要包括两部分,其一,合肥有线节目资源与爬虫信息的基础信息整合;其二,基于内容的推荐算法和协同过滤算法对推荐模型的数据进行大数据分析。实践证明,该系统对有线节目资源进行的大数据分析为合肥有线互动点播业务提供了强有力的技术支持。
参考文献:
[1] [美]CharuC.,Aggarwal.推荐系统:原理与实践[M].王宏志,译.机械工业出版社,2018.
[2] 美弗朗西斯科·里奇著推荐系统:技术、评估及高效算法[M].李艳民,译.机械工业出版社,2018.
[3] [美]Bruce Eckel. Java编程思想[M].陈昊鹏,译.2007-06-01.
[4] [美]Craig Walls. Spring实战[M].张卫滨,译.2016.
[5] [美]汤姆,怀特.Hadoop权威指南:大数据的存储与分析[M].王海,华东,刘喻,吕粤海,译清华大学出版社, 2017.
【通联编辑:王力】