大数据时代下广电人的思考与对策
2014-07-07国家新闻出版广电总局广播科学研究院副院长
国家新闻出版广电总局广播科学研究院 副院长 周 毅
大数据时代下广电人的思考与对策
国家新闻出版广电总局广播科学研究院 副院长 周 毅
从广电的大数据挖掘系统入手,阐述了基元数据结构的含义,并对该系统的重要部分网络爬虫和雷达应用进行了介绍,在此基础上分析了导页(HomingPage)的生成流程和该系统的两个具体应用。最后就广电应有的大数据处理体系架构,以及大数据在广电系统的应用进行了系统解释。
大数据;广电系统;UCL;业务运营
互联网及移动互联网的发展,使得网络数据迅速膨胀,这些数据中包含了大量的冗长信息,也包括人们的消费习惯、兴趣爱好、企业需要的大量有用数据。毋庸置疑,媒体大数据时代已经来临,从庞大的大数据中挖掘有价值信息的重要性也已日渐凸显。
短信推送、消息推送、网页产品推送,从中人们可以发现很多感兴趣的内容,这就是大数据挖掘的价值。几年来,电信业和互联网业这方面做得很好。然而就大数据而言,媒体人需要看到自己的优势,新闻出版和广播影视系统也是大数据的拥有者。据了解,大数据的拥有者一个是新华社,另一个是广播影视部门,新华社拥有几十万小时已经数字化完毕的、可供利用的大数据库,广播影视系统中仅中央电视台一家就拥有数十万小时以上的数字音视频资源。虽然如此,如何很好地使用这些大数据,如何挖掘这些大数据的价值,确实是个值得研究的现实问题。
一种大数据挖掘系统
大数据可分为业已存在的和每天产生的数据两类。对于后者,大多数上网的人会遇到这样一种状况:每天在特别熟悉的十几个网站里面反复寻找感兴趣的内容,在看内容时,常常发现几十条里有大部分内容是近似或重复的,虽网站不同,但内容相似,这种雷同会耽误上网者的大量时间。通常,人们需要的其实是所关注领域的最新的或者点击率最高的内容,而且对这些内容多数时候并不需要知道全文,只需知道概述。除非极有兴趣或者确有需要,才会进入网络,观看全文。考虑上述特点,中国工程院李幼平院士率先提出了UCL(UniformCon⁃tentLabel)概念,本文在此基础上,介绍一种帮助用户进行自动筛选内容的新闻大数据挖掘系统。
1 基元数据结构(UCL)
李幼平院士对汉字传播进行深入分析后,发明了结构简单的基元数据及HomingPage(导页)。将1kbyte数据包定义为UCL,在UCL包中汉字是可按语义取舍的最小基元。如果UCL在互联网络上传输,其表达的内容也可以按照人们理解的语义,创建一个最小的文化基元,这个文化基元即UCL。
UCL作为泛在播存的基本内容结构,也称为统一内容标签,它最早源新华社的《中文新闻信息置标语言》标准[1],但是该标准中的内容标签是不等长的。工程院的李幼平院士在此基础上,将现在各种新闻内容进行统一归并,制定了一个等长的UCL,1kbyte大约300个汉字,是可以传送概述性内容的基本单位。UCL的基本结构如图1所示。
2 UCL可实现互联网“最后一跳”
图1 UCL结构图
UCL发明的另一个优点是可实现减少互联网挖掘数据所需要的中间环节,即跳数。从统计学和业界公认的情况来看,任何一个用户,要想在互联网找到一条有用信息,需要经过约30个路由器或者交换的过程。而最新的理论推出,最佳跳数能够减少到2~3跳,跳数越少,延迟时间就越短,对信道的阻塞也就越少。那么如何能够用很少的跳数将信息传送给用户呢?李院士提出如下构思:结合用户的上网习惯,人们首先需要知道最新的、最感兴趣的、点击率最高的内容,而不是详细内容,所以可用UCL传送300字以下的文章概述,并能通过无线广播和卫星广播两个方面解决传输的跳数问题。具体实现过程见图2。
图2 借助广播与卫星实现互联网的“最后一跳”
利用B-S-C传输三角,把传统互联网无法利用的传统广播通道和广播卫星通道,升级或者改造成可以传递UCL和全文信息的新型媒介。随着调频与调幅广播的数字化,可直接用无线广播传输UCL数字信息,并可实现各地同频覆盖,只需2跳或3跳,就可将UCL信息直接传到最末端的收音机、未来的数字接收终端或者移动终端上。当有些用户不满足只看UCL还想看全文时,通过每一条UCL下面的链接,将链接指向自动转到卫星(BS),这里S理论上是最接近用户的服务器,广播卫星的模式是对最接近用户的S进行链接覆盖,使它能够在最少跳数的情况下链接到全文。
3 数据挖掘方法:爬虫与网络雷达系统
首先利用了目前业界比较常用的一些基本概念:网络雷达和语义的聚合。网络雷达系统理论上可以达到每天自动寻找上万甚至十万左右的重点网站,目前本系统主要实时重点关注150家网站,每天利用大量的时间实时地对这150家网站进行重点分析,并抽取一些主要内容、最新内容和点击率高的内容,把其中重复和冗长的内容去掉,按照标题聚合,转成一个1kbyte的UCL。这些内容按照时间排序以后,通过一个工作平台进行审核,然后工作流产生内容、时间可管可控,通过分发、适配到相应的播出平台和接收平台,最后实现大数据的关联分析。网络雷达系统框图如图3所示。该大数据挖掘系统的整体技术制作系统如图4所示。
图3 网络雷达系统框图和对外接口
图4 整体技术制作系统
4 导页生成和制作流程
导页(HomingPage)是由众多UCL组成的向用户推送的主页面,具体的制作生成与数据流程图如图5所示。
图5 导页制作生成与数据流程图
在调频或调幅广播数字化之后,未来数字调频收音机的接收模块可以直接嵌入进手机,所以未来可能是数字收音机和手机一体。图6为智能终端APP分类,按体育、文艺、新闻等分成若干个大类,然后选择界面中最感兴趣的内容自动标记到收音机,收音机根据每天推送的UCL概述,筛选出跟这个类别一致的相关内容进行存放,这样用户打开收音机或者打开手机时,只能看到自己感兴趣的内容,图7所示为UDRadio的HomingPage。
5 具体应用
实验系统完成之后,利用该系统做了两个应用:1)某单位拥有150~200左右的海外站点,将此系统作为向各个站点进行播送每天通稿的实验平台,把每天播发的通稿自动筛选,并在整理之后,推送给每个站参考。2)在某重大活动组织机构里,利用该系统进行挖掘,可以对活动相关事宜进行自动调查和挖掘,这些内容每天进行更新,每周做一次归纳审核,反响非常好。
该系统可以自动挖掘整理现有的各种大数据产生的内容,并通过互联网、卫星或者未来的广播电视系统播出。广播的数字化,特别是调频广播的数字化,是可以兼容的,既不影响用户使用模拟调频收音机,又在通道里叠加了数字信号,可以传递声音和互联网大数据挖掘以后形成的概要。因此,这个系统必须具备广播系统所必须的流程和审查。
基于大数据的用户行为及业务运营分析
广播电视的数据一般来说是半结构化的,具有4个特点:数据量大、类型多、价值密度低、处理速度要求快。如何从这些数据中获得有价值的信息,所需要的是大数据处理技术。具体到哪些商业环节可以获益,对新闻广播电视系统来说,最大的环节就是订阅和热点分析,当然也包括其他如内部控制、客户管理、财务计划、预算管理、雇员管理等。
图6 智能终端APP(截图)
图7 UDRadio接收(拟)“自寻导页”与链接(截图)
1 广电的大数据处理体系架构
2011年,广电相关的部门开始推出云系统,在推云系统的过程中真正意识到大数据处理的重要性。过去都在关注大数据,但并没意识到对大数据进行分析和处理。那么广电到底应该有什么样的体系,是需要有自己特点还是完成跟IT系统结合,这都有很大的争议。
经过几年的发展,观点逐步在转变,广电应有的大数据处理体系架构思路如图8所示。
图8 大数据处理体系架构
2 大数据在广电系统的应用
大数据在广电系统中的应用如下:
1)系统的运行维护。例如,过去制、播、存都是分开的,哪个环节坏了,可以很快找到问题,现在全是数字工作站、数字存储、服务器制播,如果出现问题,无法确定是哪个环节出了问题,所以基于大数据运维管理系统的大致工作可以分为:系统状态的趋势分析、系统健康度检查、系统故障诊断定位、系统隐患提示、设备性能趋势分析、系统负载能力分析、信息安全审计。
2)商业运营数据分析。(1)用户注册,通过将近10年,有些有线电视网络公司和相关的服务性公司,这方面的数据统计非常好,包括这个月有多少用户、具体某个台有多少用户,对节目中某些栏目都分析得比较准确。(2)用户订购,包括订购时间敏感度、对价格的敏感度、订购最多节目统计、订购金额等。
3)用户行为数据分析。随着互联网和新媒体的发展,广电面临巨大的挑战,广电对收视收听行为的分析曾经不及电信和很多互联网公司。所以最近几年,广电大力加强了这方面的分析。过去分析都是靠单向的收视率调查,100万用户放置几万个收视调查设备,返回的调查结果中变化趋势是可以接受的,但是无法统计到绝对准确的收视率。例如有些好节目,在晚上八九点钟播出时收视率非常高,但同样的节目放在10点以后播出收视率就会变低,这就说明收视群体采样点多数放在了那些早休息的群体中,导致数据不准确。这几年广电已经开始重视交互式收视行为分析,所以对大数据的应用和挖掘还是有很大需求的。
总结
总之,如何利用现有广播、有线、卫星优势,很好地结合互联网系统,对现有的大数据进行综合分析和挖掘,并产生一定效益,值得深入研究。这几年广电部门在对用户的精确管理、对节目的精确管理方面有了很大的提升,当然也意识到在这方面经验还不够,还需要学习。特别是在大数据时代,不仅在理论上有很多事情需要探索,而且在具体实践方面更需做大量工作。大数据挖掘对广播影视系统未来趋势的影响,尤其是大数据挖掘中有针对性的音视频搜索、有针对性的目标挖掘,都会对未来广播影视起到很好的促进作用,也能对节目、用户、内容进行更加精准的管理。
[1] GB/T20092—2006,中文新闻信息置标语言[S].2006.
TN94
A
【本文献信息】周毅.大数据时代下广电人的思考与对策[J].电视技术,2014,38(2).