新时期互联网视听节目监管系统建设的思索
2016-08-16帅国家新闻出版广电总局哈尔滨监测台黑龙江哈尔滨150089
徐 帅国家新闻出版广电总局哈尔滨监测台,黑龙江哈尔滨 150089
新时期互联网视听节目监管系统建设的思索
徐帅
国家新闻出版广电总局哈尔滨监测台,黑龙江哈尔滨150089
随着互联网视听节目的发展,音视频资源愈来愈丰富,但这其中也隐藏着一些有害信息,而现有的监管系统往往无法快速有效地搜查出它们。针对这种现象,文章提出了一个对现有监控平台进行资源共享的新思路,重新优化监测方式,实现对所有的视听节目进行实时快速的自动化抓取分析,将甄选出的少量可能含有不健康信息的音视频数据交由工作人员进行判断,并提供这些数据的来源地址,以便更好地打击网络犯罪。
互联网技术;视听节目;监管系统
随着现代化社会的发展,无论是人们的生活还是工作都已与互联网技术密不可分。虽然互联网技术带来了极大的便利,但也带来了不小的隐患,越来越多的不健康信息潜藏在互联网中,使得互联网监管成为一个各国政府都不得不面对的问题。早在1977年,美国便颁布了《联邦计算机系统保护法》,开创了将法制引入互联网的先河,并在1996年通过了《通信内容端正法》等法律,加强对互联网通信的限制。然而仅有法律的约束是不够的,由于网络环境的特殊性,一些不法分子还是会借助互联网传播许多不良信息,给公众带来精神上的污染,所以一个能对互联网信息进行实时甄别处理的监管系统在当下变得极为重要。本文拟建立一个统一监管平台对互联网视听节目进行极速有效地分析处理,实时地将筛选出的不健康的信息反馈给相关部门以便及时处理。
1 当前我国互联网视听节目监管体系现状与呈现的问题
目前互联网发展日新月异,网络上每年所更新的内容已经堪比人类历史所产生的数据的总和,面对如此海量的数据,要识别并处理其中的有害信息便成了一个巨大的挑战。我国的互联网监管系统尚处在起步状态,还有很长的路要走,许多问题急需要解决。
1.1数据标准化问题
随着互联网的高速发展,视听节目由Web1.0的单向传播发展到Web2.0的互动分享,由最初的B/S模式发展到现在的P2P模式,由最初的专业制作机构主导发展到用户自己上传内容,特别是在HTML5标准规范的制定完成后,使得其表现形式及文件类型变得千差万别,即使同一个音视频文件在不同的平台中其表现出来的属性也可能相差极大,这就导致监管部门不得不根据不同特征类型的音视频构建单独的专用监控系统,易造成信息的重复处理,导致极大的资源浪费且可能监管不全。所以,建立一个能将互联网视听节目进行统计分析归类并将其标准化的前端收集整合系统极为关键。
作者简介:徐帅,国家新闻出版广电总局哈尔滨监测台。
1.2信息孤岛问题
由于监管部门所使用的监控系统不尽相同且相应标准不集中,导致各个监控系统之间难以实现数据共享,从而使得最后汇总的需要人工处理的音视频数据数量较大。其中,可能不同标准下的多个数据提供的是相同的信息,却由于不同的监控系统的输出形式不同,导致需要大量的工作人员对其进行再甄别和处理。
1.3视听节目内容难以实时全面挖掘问题
1.4部分视听节目无法访问问题
部分视听节目资源隐藏于深层网页中,深层网页难以通过普通静态链接直接访问,只能通过特定的方式进入,例如回复可见、付费观看等,而这类网站往往是有害信息的聚集之处。现阶段的技术无法绕过表层网站设置的访问障碍直接获取深层网站中的内容,所以这也会导致网络监管中出现一些监控死角。
1.5缺乏视听节目传播分析功能问题
现有的监控系统由于分析域单一,缺乏对数据来源的统计分析,所以往往只能记录下几个孤立的来源地址,无法确定不良信息的具体传播路径,导致无法对有害源头进行有效打击。且音视频在传播过程中会由于传播平台的不同导致数据特征发生改变,从而使监控系统不得不提取出每一个音视频数据文件逐一分析,增加系统的工作量及人工成本。
1.6视听节目版权监管缺乏问题
由于互联网分享模式的便捷以及曾经中国人本身对作品版权不甚注重,导致视听节目正版与盗版鱼龙混杂,而现如今的监管系统又难以对版权进行分析。目前随着互联网版权问题得到公众越来越多的关注,对互联网视听节目版权的甄别和管理作为监管系统的功能之一势在必行。
2 新时期互联网视听节目监管系统建设与设计
一个完整的监管系统应包括前端的数据收集整合单元,中端的数据综合分析处理单元以及后端的信息输出单元。
2.1研发适应互联网音视频节目监管工作的搜索引擎
一款适用于互联网音视频节目监管工作的搜索引擎是高速有效提取所需的音视频数据的关键,它应具有以下属性。1)能够极快地对互联网上的信息进行检索,并得到一个准确的结果。2)能够有效识别关键字内容,并将其作为标准进行筛选,去除无用数据。3)能够对所有域名进行检索,确保无漏网之鱼。4)能够在确保不遗漏有害信息的同时尽量去除无用信息,减少系统工作量。5)能够对提取出的有效信息进行整合,将相同信息合并,并分析其传播路径,完成对有害信息来源的确定。6)对所有提取出的有效信息进行整理,将其以标准化的格式输出给下一单元,方便对数据内容的分析。
此搜索引擎可大致分为两个部分:一个能够快速有效地抓取相关网页的音视频资源的聚焦爬虫系统;一个能够快速对比有效信息并进行整合的分析系统。聚焦爬虫是一种能够自动爬取网页的程序,它能根据既定的内容有选择性地访问有有用信息的网页并对网页上的信息进行有选择性地提取,减少了抓取无音视频网页的时间,极大地提高了工作效率。分析系统需要将聚焦爬虫提取出来的信息进行相似度分析,将相似度极高的内容进行整合打包并进行传播途径分析,并将来自不同网页的格式众多的音视频进行重新的标准化编码,再输出给中端的数据综合分析处理单元。2.2建立互联网音视频节目的统一监管平台
图1 信息检索处理层
由于目前监管部门所使用的监控系统不尽相同且不同监控系统间难以实现数据共享,这就使得建立一个标准统一的互联网音视频节目监管平台极为重要。一个统一的监管平台可以在合理的时间内快速有效的分析处理掉来自前端数据收集整合单元的音视频信息,并将其中的不良信息甄别出来发送给后端输出。监管部门的工作人员可以对输出的信息进行人工识别从而判断其有害与否,并对其进行最终处理。
这个统一监管平台可分为三个层面:软件层面、硬件层面以及管理层面。管理层面包括各个不同地区的监管部门的不同监管系统之间的监测数据共享及监测区域的协调,避免出现多个监控系统同时检测相同音视频资源的情况,防止资源浪费。硬件层面是指各自不同的监管部门的硬件实现资源共享,或者说是根据硬件资源的拥有量合理安排监控范围,以确保能够实时的对互联网上的视听节目信息进行快速甄别,第一时间内消除有害信息。软件层面是指不同监控系统的输入输出形式应统一标准,确保数据能够快速共享并及时处理。
图2 监管平台主体框架
此平台中还应包括一个或多个能够实时更新ICP数据库,从而便于追踪有害信息来源的现实地址,为打击网络犯罪提供方便之门。
3 关键技术
3.1搜索技术
3.1.1文本搜索
3.1.2图像搜索
能够利用已知的敏感图像对节目库中的视频资源进行特征帧对比检索,对含有与输入图像相似度较高的特征帧的视频进行提取,并将其发送给分析系统进行再处理,同时对该文件进行定位及传播途径分析。
3.1.3音频搜索
能够对已知的敏感音频信息进行声波特征提取,并与数据库中的音视频资源进行声波相似度分析,并将相似度较高的音视频提取出来,发送给前端的整合系统,以便进一步分析确认,同时对音视频的来源进行定位并记录其传播路径。
3.2信息处理技术
3.2.1信息处理系统
信息处理系统基于Hadoop架构,Hadoop是一个能够对海量数据进行快速分析处理的分布式系统基础架构,得益于其并行分布的工作方式,它能够依托在性能普通的硬件上提供快速高效的数据吞吐及处理,其优点包括且不限于高可靠性、高扩展性、高效性、高容错性及低成本。
3.2.2信息处理任务
信息处理包括以下几个任务。
1)音视频资源的采集汇总工作。其主要包括将搜索引擎得到的可能包含不良信息的网站进行全面信息采集,提取其中的音视频信息及标题、来源等关键数据,并将原始数据进行汇总分流处理。
2)有效信息分类。系统采用模糊分类方法,通过对视听节目所在网页关键信息的分析整理从而对获得的音视频进行模糊分类,同时将相同资源的传播路径分析记录下来,并仅保留源文件,减少重复内容,便于下一步的整合处理。
3)音视频整合。系统将上一步得到的分类信息进行相似度对比,将相似度极高的数据合并或直接舍弃部分,减少需要处理的总数据量。
4)信息重新编码。将上一步得到的音视频资源进行数据整理,将不同形式的源文件转换为便于系统统一分析的单一文件。
3.3视听节目分析技术
3.3.1音频分析
将信息处理系统中得到的音视频文件进行音频提取,并通过FFT(快速傅立叶变换)将模拟信号转换为机器可识别的数字信号,对得到的数据进行对比分析处理,最后得到一个可视化的统计数据。3.3.2图像分析
对视频中的图像进行特征帧提取,利用镜头边缘检测算法对分镜头中的多个图像进行严格计算,得到每个镜头中最具代表的图像,并利用信息处理平台进行分析,最终得到一个可视化的统计数据。
3.4集中监管平台要深入研究的关键技术
网络监管由来已久,一些关键技术已经较为成熟,但还有部分技术尚未成型,所以在建立互联网音视频节目的统一监管平台的过程中应重点建设以下几个关键技术。
1)一个能够快速有效的对资源进行相似度分析的程序。
2)一个能够保留原始信息并能将几乎所有音视频格式进行从新编码的程序。
3)一个能够实时进行数据共享及资源调配的系统。
4 结束语
随着互联网视听节目的快速发展,一个能够迅速准确监测这些数据的监管系统变得极为重要,集中统一的监管平台为监管部门提高了效率,共享的数据库节省了大量资源,而这也为公众互联网生活的安全健康打下了坚实的基础。
[1]钱卫,朱磊.构建互联网视听节目集中监管平台的探索和设想[J].中国有线电视,2011(10):1137-1140.
[2]裴鹏真.互联网视听节目监管系统的应用与实践[J].计算机光盘软件与应用,2014(4):88-89.
[3]李晓东,王仝杰.互联网视听节目监管的关键技术及系统简介[J].广播与电视技术,2008,35(4):52-54.
[4]叶昆.互联网视听节目监管系统简介[J].大众科技,2009 (10):11-13.
[5]甄雪娇,齐忠文,刘博,等.互联网视听节目监管系统建设的思索[J].广播与电视技术,2014,41(z2):60-62.
[6]谢燕燕.互联网视听节目监管系统关键技术研究及方案设计[J].广播与电视技术,2015,42(5):120-124.
2096-0360(2016)14-0039-03
G2
A