荔枝云大数据应用以及新业务展望
2016-02-15滑云飞北京天马网视科技有限公司
滑云飞 北京天马网视科技有限公司
荔枝云大数据应用以及新业务展望
滑云飞 北京天马网视科技有限公司
本文结合江苏广电总台荔枝云项目,介绍了荔枝云大数据应用及新业务的展望。
荔枝云 大数据应用 新业务
一、江苏广电荔枝云项目简介
“荔枝云”平台是江苏广电总台面对媒体融合发展态势,以新技术、新应用为引领,全力打造的“云·组团·多终端”新型传播体系的重要组成部分,力求借助新媒体提升传统媒体收视率和影响力,整合传统媒体资源助力新媒体,双轮驱动,一体化发展。荔枝云新闻媒体大数据分析平台建设项目荣获了设备协会颁发的科技创新奖。
荔枝云是江苏广电总台面对媒体融合建设的混合云的新型业务平台,主要支撑江苏广电总台全媒体新闻的生产,是一个综合型的平台。在这个平台上我们主要做了媒体大数据的分析,媒体大数据分析是整个平台的核心。
二、媒体大数据分析
新闻媒体大数据分析平台作为“荔枝云”平台的核心功能区域之一,承载着全台资源的收集、整理、归纳、聚类、关联等自动化处理分析工作,为全平台提供数据的支撑。新闻媒体大数据分析平台好比“荔枝云”的“大脑”,在动态汇集到海量的新闻线索与素材后,运用其大数据分析能力使得新闻线索更立体,新闻热点更直观,为新闻工作者提供了精准的数据信息呈现。
在这个媒体分析平台上,日前已经完成了日均可以完成五万多的图、文、音视频的处理。整个大数据分两方面,一方面是大数据的顶层技术,技术是一个工具。针对传统的媒体行业,必须有相应的大数据应用模型,才能很好的利用它。
大数据应用主要有三个关键点。第一个关键点是大数据的采集,采集这一块主要包括互联网数据的采集、社交媒体数据的采集、台内资源的采集,以及建成的媒资系统、采编播系统,都要进行采集。大数据采集是整个后续业务的基础,大数据分析必须具备多种格式、多种来源的数据采集工作。
第二个关键点是要对各个来源的数据进行分析,通过热点发现、数据关联最后达到用户想要的结果。
第三个关键点是大数据搜索。这三个关键点组成了大数据应用的技术。
互联网及社交媒体资源在新闻网站、视频网站和微信微博及论坛都可以进行数据采集,包括网页评论、阅读量,这些数据都可以进行采集。
计算机能够理解的是文字信息,对图片或者视频内容,计算机是无法理解的。必须把这种视频或者是图片非结构化的数据转变成结构化的数据,通过大数据自然语言分析能力进行最终应用的呈现。
应用数据分析的基础模型,主要包括了去重、热点发现、情感分析、自动据类和信息关联。
图1 媒体大数据应用技术
三、江苏广电总台荔枝云大数据分析的应用
(1)大数据分析--热点资讯
荔枝云主要是为节目生产提供数据支撑的,会实时从互联网上获取所有相关的新闻资源,这些资源进入到我们的系统之后,首先要对它的数据进行选取,发现热点新闻并为节目生产提供线索的支撑,把每天的热点实时发布出去。
(2)大数据分析--智能专题
图2 基于自然语言的数据分析能力
图3 大数据分析--热点资讯
图4 大数据分析--智能专题
图5 大数据分析—事件脉络
因为一个事件是一个持续性的事件,根据这些热点会形成智能的专题。前两天盐城的灾害,也在第一时间由系统自动把网络上关于盐城灾害所有的有关报道,形成了一个智能的专题提供给节目的编辑,还可为新闻工作者提供相关数据,这就是智能专题。
智能专题里分了几个模块,比如说地区的热点、主流媒体关于专题的报道、专题报道里的焦点人物,还有两微一端的话题热议,都会进行分模块的呈现。可根据整个事件在网络上的发酵时间,形成一个事件的脉络。即这个事件从什么时间开始发生,在中间经历了什么样的过程,到最后什么时间事件结束,会清晰地形成一个事件的整体脉络,让节目的制作人员在做专题报道的时候,能够更加深入地去了解这个事件背后的故事。
(3)大数据分析--情感分析
大数据分析有一个情感分析的功能,可以通过语义的分析,了解到这篇报道的文章是正面的还是负面的,或者是中性的。针对用户的评论数据的话语可以分析出用户评论对这一篇报道是什么样的态度。
图6 大数据分析--情感分析
四、新业务拓展
以上是一些比较基础的数据分析模型,后续要借助大数据分析做更多的事情。
(1)用户行为分析
用户行为分析将是后续在荔枝云平台上面重点去做的事情。首先要对用户行为的数据进行采集,主要是从三方面对数据进行采集。一是要细化平台内用户行为记录,定制记录规范标准,包括:登录、浏览、查阅、关注、收藏、下载,对这些数据进行日后统计。二是对接第三方用户行为记录,包括:APP,网站上的一些注册用户,公众号、微信、微博互动数据接入。三是要对接商业数据用户画像,进行ID匹配。例如,阿里的用户画像,百度的用户画像,这个是针对用户分析日后要做的三方面的工作。
台内的用户分类主要有三类,第一类是平台自有用户。收集自有用户的数据,更好的为台内的工作人员提供数据服务,改善用户的体验,让他能够制作出更好的节目。
图7 台内用户分类
第二类是平台内第三方用户。主要包括微信、微博粉丝等第三方注册用户,我们会分析粉丝的行为及兴趣点,有针对性的推荐一些他兴趣关注的数据。
第三类是平台外用户。需要通过互联网、搜索引擎甚至是其他的电商,导入一些商业的用户数据,对日后电视台的生产经营进行铺垫。
最终要形成全台用户行为数据库,主要是做一些广告投放、增值内容服务的推送,包括品牌的经营及推广。
(2)应用大数据的分析能力
要有针对性的对电视台内的自有栏目建立影响力的模型,要有针对性的对栏目的数据进行特定的采集,包括互联网上传播的一些数据、微信、微博、APP,还有第三方搜索引擎的数据。每一档栏目的受众和播出形式是不一样的,所以在前期会考虑对全国受众影响力比较大的金牌栏目。对此,我们需要采集一些数据,最后就是我们分析出所有数据的呈现及结果的展示,包括每天的报道量,它各个平台的播放量在、传播量,在各个媒体行业、报纸、门户网站、网络视频及电视上的传播趋势。最后通过数据的分析可以了解到这个栏目播出以后,收视的用户最关注的是哪些明星或者是哪些嘉宾,可以展示出与他关联的一些词语。
图8 实时监测植入式广告大数据
图9 提升全媒体互动体验 增强现实
(3)要做植入式广告的大数据
现在广告基本上都是按照一档栏目来进行投放的,实际上广告商在投放这个栏目以后,并不清楚广告在整个栏目当中播放了几次,通过视频的处理技术,我们可以了解到广告投放以后,在整个栏目里面出现了多少次,出现了多长时间,可以保证广告监播的查全率。结合周边的数据,广告的价值和广告的效应会得到相应的提升。
(4)要做增强现实技术
针对特定图象建立识别的云服务,利用云端服务的方式使用终端。我们的APP通过扫描一张图片,可以识别出相应的视频,或是其他有价值的一些商品。这一块涉及到整个业务流程就是图象的样本采集,然后建立映射关系的。以后的在线购买,可以进行一些APP用户的互动,并获取用户的体验,增强终端用户的粘性。它应用的效果就是扫一扫看视频、听音乐,或者是参与互动、在线购买的方式。
五、结束语
通过建设媒体行业大数据的分析系统,后续可以做很多的应用,包括对接智慧城市的一些数据,像智慧旅游、智慧交通、智慧医疗。电视台是政府的宣传窗口,现在视频内容越来越重要,很多本地的一些针对的视频资料,包括传统的地域文化内容,只有在电视台才会播放。通过智慧旅游,可以随时随地到一个旅游景点,可以找到旅游景点历史宣传片和历史资料视频,可以很直观的了解当地的文化。
最后我们要通过媒体大数据的分析平台,来实现电视台经济效益的变现,最终把这些数据转换成经济价值,让它产生一个长期的社会效益和经济效益,对广电的内容实现价值内容的变现。