浅谈新媒体监管业务综合平台的建设
2018-05-10裴鹏真
裴鹏真
(河南省新闻出版广电局信息网络视听节目传播监管中心,郑州 450003)
近年来,中国的互联网新媒体技术总体呈现出快速发展的态势,除了传统互联网网站,尤其尤其是微信、微博、手机APP,网络直播、OTT技术的迅猛崛起,以及未来几年即将AR、VR技术等新颖技术的大规模应用,在为广大人民带来浏览视频方便的同时,也对传统互联网监管以监控音视频网站为主的监管形式提出了新的挑战。
据CNNIC统计,截至2017年6月底,中国网民规模达7.51亿,我国手机网民规模达7.24亿。人们利用休闲、碎片化时间,更进一步促进了新媒体业务传播发展。此外,随着近几年国产电影、电视剧、微电影等海量节目的诞生给广大百姓带来盛宴的同时,给监管部门也带来了一定的压力,如何对这些海量视频节目进行存储?如何对这些海量视频节目进行分解、信息提取,形成节目索引?如何分析视频节目,形成视频比对关键帧?如何从新媒体上抓取传播的视频并及时和现有本地视频库内容进行较为及时的对比?从数据量和计算速度上来说,都给监管部门提出不少压力。
1 新媒体监管业务需求
当今新媒体传播方式和传播手段,无非是将不同的视听节目放在了不同平台,采用了不同的媒体格式和传播手段,其传播的内容始终没有变化。在采集环节因不同的传播平台稍有不同,或是通过定制模板,或是通过暴力破解,或是通过账号登录隐身接入轮训节目,或是通过行政手段强制接入,都是为了最初的原始数据,而后期分析手段、比对技术也基本上相当。在前端采集、中级分析、后期对比等技术基本成型,后期改进难度较大的情况下,如何将现有已经存在、及将来即将建设的各个业务监管平台的统一起来、将海量数据整合起来,提高资源利用率,降低运营成本,我认为是当前各省局新媒体监管业务要考虑的重要问题。
2 大数据支撑平台
现在,1TB的硬盘已然成为当下存储主流,但其硬盘数据传输速度约100MB/S,读完整个硬盘中的数据至少花费2.5个小时,写入数据的速度就更慢了。一个很简单的减少读取时间的办法就是同时从多个硬盘上读数据。试想,如果我们有100个硬盘,每个硬盘存储1%的数据,并行读取,那么不到2分钟就可以读完所有1TB数据。这就是大数据存储方式的最初考虑的初衷。
现有河南互联网视听节目监管系统,采用单点关系型数据库结构,用来存储网站文本信息的空间为2T;采用FCSAN架构,用于存储视频节目的空间为20T。对于未来新的监管业务来说,比起文字信息,视听内容所要占用的空间更大,因此对于新媒体监管业务平台来说,要考虑容纳更多的视频节目空间,可能多大到100T,甚至更多。为了适应未来高性能数据查询系统,仅仅靠提高传统的关系型数据库服务器的性能,已无法达到高的性价比要求,必须要考虑非关系型数据库、大数据存储结构等新的存储技术。
对于新媒体监管业务中的视频节目来说,分布式存储是个很好的选择。大数据存储必须有其适应的存储和计算方式,相比传统关系型数据库而言,在存取海量数据,柔性扩展,结构化非结构化存储方面,大数据有着不可比拟的优势。
2.1 Hadoop计算架构[1]
根据现有互联网视听节目监管系统的及未来新系统的业务,考虑到Hadoop计算架构具有高性能集群计算和存储能力,且易扩展,选择与Oracle数据混搭方式, 优势互补,充分发挥其优势,既可以提升海量数据采集时效性,又可确保核心数据服务能力的稳定。
Hadoop中心组件是HDFS和MapReduce[2]。Hadoop通过HDFS为用户提供高容错性和高伸缩性的海量数据的分布式存储,通过MapReduce为用户提供逻辑简单、底层透明的并行处理框架。HDFS具有高容错性,适合批处理、大数据处理,可构建在廉价处理机器上等优点,在Hadoop平台上,有很多新的开发、应用、管理工具,可查阅Hadoop生态圈,既同现有系统在数据检索、存储上有兼容之处,又可以采用新的技术开发新的监管业务系统。
2.2 整体架构
2.2.1 数据库与数据仓库
现有互联网视听节目监管系统,该系统采用单点Oracle数据库来存储所有监管网站的信息、索引、管理信息、统计报表、日志管理等,而全部视频节目及抽取的关键帧采用FCSAN架构来存储。
对于当前河南固有的互联网视听节目监管系统及将来的其他新媒体监管业务系统(微信、微博、手机APP,OTT,直播等)可以考虑在Hadoop上进行融合。其中有几个重要的工具可以帮助我们迁移及构建新媒体监管业务综合平台。
2.2.2 Hive[3]
它是一个构建在Hadoop上的数据仓库框架,它把数据组织为表,然后通过一种方式将存储在HDFS中的数据赋予结构,Hive会将SQL查询语句转换为一系列在Hadoop集群上运行的MapReduce作业完成一次集中查询。其设计初衷是让精通SQL技能的分析师能够对放在HDFS上的大规模数据集执行集中查询。对于现有监管中心维护人员来说,在扩展及升级本中心系统的同时,Hive不失为一种好的选择,其多年的SQL语句的维护技能优势还能继续得以发挥。
2.2.3 Hbase
它是一个在HDFS上开发的面向列的典型的分布式数据库,非关系型数据库,提供大规模伸缩式服务[4],实时支持随机访问超大规模数据集。新媒体监管业务系统本身就拥有超大规模数据,以往的关系型数据库在暴增的视听数据面前,面临实时的大规模查询,会显现越来越笨拙,Hbase将为新的数据提供新的、更高级、更快的服务。此外,该数据库本身就有一个典型的应用:webtable,一个以网页为URL为主键的表,其中包含爬取页面和页面的属性,webtable非常大,行数可以达十亿级之级。因此,与新媒体监管业务系统特别是互联网视听节目监管系统是一个很好的契合点,在建设综合平台选择分布式数据库时,Hbase无疑是我们的最佳选择。
2.2.4 Sqoop
它的功能是将将结构化存储数据抽取到hadoop中,用于进一步处理,供Hive应用,或者更甚者供HBase应用。它支持当前很多通用关系型数据库,例如:MySQL、PostgreSql、Oracle、SQLserver和DB2,同时还有一个通用的JDBC连接器。河南互联网视听节目监管系统中,其庞大的数据库目前是用单台Oracle来存储的,如果建设综合监管平台,必定将老数据迁移至新平添,该工具可以圆满完成该任务,可以将数据据迁移至Hadoop平台上或者迁移至分布式数据库Hbase中。
2.2.5 ZooKeeper
ZooKeeper是Hadoop的一个分布式协调服务,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。分布式应用中主要困难在于写应用可能存在“部分失败”,当一条消息在网络中两个节点之间传送时,如果网络出现错误,发送者无法知道接收者是否已经收到消息。接收者可能在出现网络错误之前就已经收到这条消息,也可能没有收到,又或者接收的进程已经死掉。由于“部分失败”是分布式系统的固有的特征,ZooKeeper可以提供一组工具,使你在构建分布式应用时能够对“部分失败”进行处理,为分布式应用服务保驾护航。
3 综合平台架构
新媒体监管业务综合监管平台如图1,包含互联网视听节目监管系统、手机APP监管系统、微信监管系统、微博监管系统、舆情监管系统、网络直播监管系统、OTT监管系统七大监管系统和其他日常管理模块,七大系统数据经过数据清洗、数据排重、一致性判断统一集成在Hadoop和HBase集成的数据服务中,达到数据高效、精洁利用。
图1 新媒体监管业务综合平台图
该平台至少具有以下功能:
(1)可靠性,稳定性;
(2)强健性,高可用性;
(3)实用性强,易操作,易维护性;
(4)可扩展性、伸缩性强;
(5)系统与系统之间松和耦合,系统数据冗余率低;
(6)大数据存储扩展性强;
(7)容灾能力强,故障可隔离性。
4 结束语
新媒体监管业务综合平台,用于当前互联网新媒体业务的监管业务,既融合有当前旧系统已有功能,也也将吸收当前互联网的最新技术,因此,在设计初期,必须考虑到新的系统开发商的集成能力及与旧系统协商沟通能力,对平台的设计、开发、搭建、迁移及维护人员也有更高能力的要求。新媒体监管业务综合平台的建设必将在有效利用硬件资源的同时,整合所有业务系统数据,使得数据利用率更高,业务质量得到进一步提升,新媒体的监管业务模式将更加统一。
参考文献:
[1] Tom White(美)著. 华东师范大学数据科学与工程学院(译) 《Hadoop权威指南(第三版)》 [2015-1] .
[2] 陈忠义.基于Hadoop的分布式文件系统[J].电子技术与软件工程.2017,5[3]:175.
[3] 李春晓,基于Hive的分布式空间数据库的研究与优化[C] 河南:河南大学,2015:15-18.
[4] 涂俊英,李志敏云.计算下非结构化大数据存储系统设计[J].现代电子技术,2018,1[1]:175-176.