APP下载

移动互联网视听节目监测系统的建设研究

2021-05-07华申峰丁晋玉谢婷

现代信息科技 2021年21期
关键词:爬虫对象监测

华申峰 丁晋玉 谢婷

摘  要:文章结合江西省移动互联网视听节目监测系统的实际情况,提出了节目监测系统建设的总体思路。从监测对象管理、数据采集调度、数据统一存储、视听节目内容监测、内容智能分析、互联网媒资、综合统计可视化等多方面出发,建立移动互联网视听节目监测系统,从视听节目内容层面进行监测,从而全面保障移动互联网视听节目的安全播出及意识形态安全。

关键词:移动互联网视听节目监测系统;监测对象管理;数据采集调度;数据统一存储

中图分类号:TP277               文献标识码:A文章编号:2096-4706(2021)21-0001-05

Abstract: Combined with the actual situation of mobile Internet audio-visual program monitoring system in Jiangxi Province, this paper puts forward the overall idea for the construction of program monitoring system. Starting from the management of monitoring objects, data collection and scheduling, unified data storage, audio-visual program content monitoring, content intelligent analysis, Internet media resources, comprehensive statistical visualization and other aspects, establish a mobile Internet audio-visual program monitoring system to monitor from the level of audio-visual program content, so as to fully guarantee the safe broadcasting and ideological safety of mobile Internet audio-visual programs.

Keywords: mobile internet audio-visual program monitoring system; monitoring object management; data collection scheduling; unified data storage

0  引  言

广播电视是党和政府的喉舌,是维护社会稳定与国家安全的重要舆论工具,是党和政府联系人民群众的重要纽带,也是人民群众获取信息服务的主要渠道。随着移动互联网的广泛普及和云计算、大数据等新一代信息技术的应用,移动互联网视听行业迅猛发展,移动互联网等新媒体已经成为新闻舆论的新阵地。

1  系统概述

1.1  总体架构设计

本次平台架构设计分为五个层次,分别为对象定义、数据采集层、数据存储层、数据分析层以及业务展示层,如图1所示。该种设计架构不仅满足各业务的需要,同时通过虚拟化、云计算实现不同业务数据的统一采集、统一存储、统一分析、统一發布,从设计之初就消除了数据孤岛、业务孤岛、资源孤岛。

对象定义:监测对象定义包含固网网站和移动互联网两微一端中数据采集的范围。

数据采集层:经过管理人员审核的基础账号可以进入数据采集层。经过管理人员审核的基础账号可以进入数据采集层。采集层由集群式爬虫资源组成,包括服务器和手机客户端、以及可能提供爬虫服务的公共云。爬虫的主要功能旨在实现监测监管账号的深度爬取,可依据用户指定的预设时间段爬取数据,且能够实现账号目录数据的爬取。

数据存储层:针对视听网站、微博、微信、移动APP等视听节目相关指定信息进行身故的爬取,面对海量数据,在数据存储之前,系统首先对数据之间的关系建立索引,并对索引基础表格持续维护,在特定情况下可以内存数据的方式存储以加快数据的检索速度。

数据分析层:数据分析层主要实现对采集数据的筛选、清洗、分析功能,通过拆解业务功能,将其中共通的数据分析组件融入数据分析层中。

1.2  总体建设思路

为满足国家对移动互联网视听节目监测系统的要求,推进现代传播体系和监测体系建设,不断提高广播电视安全播出和应急保障能力,切实维护广播电视播出安全和网络安全。

1.2.1  监测对象管理系统

监测对象的发现确认和管理维护是整个业务系统最基础的一环,只有大量有效的对象样本才能形成精准可用的监测结果。所以完善高效的监测对象管理将是构建上层监测业务平台的牢固基石。

建设监测对象管理系统,涵盖监测对象管理、监测对象智能发现、主体分析、监测对象分析四个功能模块。能够形成从监测对象发现、分析、入库、跟踪全流程的管理体系,确保监测数据提炼的有效性、时效性。

1.2.2  数据采集调度系统

建设数据采集调度系统,是为了实现数据采集调度管理。该系统面对海量采集资源,能够完成十分繁杂的数据采集任务,能够对海量的采集任务进行控制调度,实现高优先级采集任务优先占用采集资源,低优先级采集任务让步高优先级任务。当采集任务出现异常或中断时,可实时提供预警信息,提示中心人员进行相应处理。

1.2.3  数据统一存储系统

建设数据统一存储系统,是为了完成对采集后的数据的存储与处理,提供视听节目下载存储、视听节目抽帧与特征提取、视音频节目索引管理、结构化信息提取等功能。完成对发布主体发布的内容的存储与处理,处理结构化元数据和非结构化数据。

1.2.4  视听节目内容监测系统

建设视听节目内容监测系统,是为了针对辖区内的手机视听APP、微博、微信、自媒体平台的视听节目内容进行定向抓取,对移动互联网视听节目实时准确搜索、分析、判别、排重和研判,实现对各类海量节目采集和数据快速分析处理,准确掌握辖区范围内各类节目传播的数量、动态、范围、影响等情况,实现全省实时动态监控,如图2至图4所示。

对存在违规内容的视听节目实现主动标记和智能告警,提醒管理人员进行核查操作。可对自动发现的疑似敏感节目进行下载取证,支持手动下载。对违规视听节目支持节目下载,可提供快照截图和录屏取证,实现有据可查。

1.2.5  内容智能分析系统

内容智能分析系统运用人工智能技术,实现对互联网视听节目进行自动化、智能化的多业务识别分析。对节目进行分类、对人物和场景进行标签化处理,实现高效精准的内容深度分析。

1.2.6  互联网媒资系统

互联网媒资系统建立违规视频库和重要视频库,对节目视音频进行统一检索、编目,支持支持文本检索、图像检索、视频检索、音频检索等方式针对媒资库内容进行查询,实现视听媒资统一管理、资源共享。

1.2.7  综合统计可视化系统

建设综合统计可视化系统主要实现统一报表管理和数据可视化分析。统一报表管理接收各子系统自动生成的监测报表、报告,进行整合展示和统一管理。数据可视化分析把大量监测数据转换为图表,进行直观、高效的关联分析。

1.3  系统功能设计

1.3.1  监测对象管理系统功能设计

监测对象管理功能,设计采用对移动APP 客户端的采集管理、对微信公众号的采集管理,对微博账号的采集管理,对自媒体平台的采集管理,具备自动发现监测账号功能,可以通过定期巡检,对全网监测范围内新增的监测对象。

监测对象智能发现功能,设计采用自动发现功能,可通过定期巡检,对全网监测范围内新增的监测对象,包括微博、微信、APP等进行智能发现,核实主体是否隶属辖区,有无视听节目等。可自定义搜索规则,寻找待监测对象。

主体分析功能,设计采用自动发现涉辖区相关的移动APP 客户端、微博、微信公众号,并完成对上述主体的分类统计。对监测对象进行管理和统计,对监测对象的主体进行关联分析,归并隶属相同主体的监测对象。统计分析主体下的客户端、媒体号等,并分析其持证情况。统计结果支持统计图表、表格、饼状、柱状、线状等多种形式呈现。

监测对象分析功能,设计用来完成对纳入日常监测范围内的移动APP客户端、微博、微信公众号、自媒体的视听节目存量、日更新量以及传播情况进行统计分析。

1.3.2  数据采集调度系统功能设计

采集任务调度与管理系统,分配采集任务优先级,合理分配软硬件资源及IP 资源。可以任意调度优先爬取哪些监测对象的数据、管理所有的爬虫对象等。

采集任务整体运行状态监视系统,对所爬取数据的状态进行实时监控,系统可调配每个爬虫服务器的工作内容,展示运行状态及运行数据包括CPU占有率、内存占有率、工作温度等,运维工作人员可根据业务需求调度管理爬虫服务器进行任务分配。监控爬虫运行状态、爬虫采集量、爬虫采集速度,定时邮件发送运行状态和统计信息。针对异常爬虫软件,系统进行爬虫基本信息、爬取数据量及停更等多维度统计整合后,邮件会定时以推送方式推送给运维人员进行相应处理,保证数据采集的持续稳定运行。

采集数据报警功能系统,当数据采集调度子系统出现数据异常时,自动提供报警功能,便于及时发现问题。能够对数据进行监控管理,自动监控数据采集量,通过管理系统页面可及时查看该账号最新数据更新时效性。支持爬虫运行状态监视,能够自动化监测爬虫运行情况,当爬虫出现问题时自动报警,不超过30秒邮件通知相关人员及时处理。

1.3.3  数据统一存储系统功能设计

视听节目存储系统,完成对需要进行视听内容分析的主体发布的视听节目下载存储与图片抽帧、特征提取。

视听节目索引系统,视听节目索引处理,為视听节目搜索定位提供基础索引数据。

结构化信息提取系统,采用结构化处理引擎对媒体内容数据这样的非结构化数据,特别是音视频内容数据,进行结构化信息提取、编目标注,进行关键词比对研判等文本分类处理,深度挖掘媒体内容的数据价值。

1.3.4  视听节目内容监测系统功能设计

视听节目内容监测系统,系统对微信、微博、移动客户端APP、自媒体平台传播的视听节目进行监测,采集视听节目的基本信息(节目的名称、数量、URL地址等),分析各媒体类型视听节目涉黄、涉暴、违规等信息,对违规视听节目进行下载及快照截图取证,利用深度学习、神经网络等人工智能算法和数字指纹等版权保护算法,进行图像识别、文本识别、语音识别,实现自动筛查、分析处理,识别节目违规情况,视听节目内容监测界面如图5所示。

节目管理系统,能够自动发现疑似敏感节目并自动进行下载取证,同时可手动下载节目。建立节目库,实现对入库视听节目的管理。

审核管理系统,实现对微信、微博、移动客户端APP、自媒体平台传播的视听节目的审核管理,实现违规节目统计汇总进入“三审”流程完成人工审核。

站内搜索系统针对定点监测的视听手机APP、微博、微信中采集到的视听节目,利用文本检索技术快速定位到所要的信息,输入关键字在所有字段中进行查询检索(包括节目名称、分类信息等文本信息),匹配系统中已采集的节目。

1.3.5  内容智能分析系统功能设计

合规性分析系统,设计合规性分析功能,根据总局规定,通过内容智能分析引擎对节目内容进行合规性审核。

识别任务管理系统,设计识别任务管理功能,对识别任务进行配置管理,设置需要识别的对象、识别的时间段、识别的范围和具体的识别任务。任务设置后调度识别引擎完成指定的识别任务,进行内容合规审核。

建设识别引擎调度系统,设计识别引擎调度功能,根据识别任务调度人脸识别引擎、场景识别引擎、语音识别引擎、文字识别引擎和语义分析引擎对内容进行分析。

审核业务分析系统,设计审核业务分析功能,对引擎识别结果进行组合分析,形成业务结果,分析节目内容中是否含有敏感人物(涉政、明星)、涉黄、涉暴等敏感、违规内容。

内容智能分析引擎可针对视听节目中的暴恐、色情等违规内容进行自动识别,实现人脸识别、场景识别、语音识别、文字识别、语义分析等功能。及时发现监测的微信、微博、APP、自媒体平台等账号发布的视听节目内容的是否违规,内容智能分析界面如图6所示,人脸识别库如图7所示。

1.3.6  互联网媒资系统功能设计

违规视频库系统能够及时获取并更新总局发布的违规视频库信息,系统支持将总局同步出来的违规视频信息同步到系统库当中。

重要视频库系统能够对重要视频进行集中存储,形成重要视频库。对重要视频进行内容智能识别,对视频形成标签化管理,便于根据标签进行搜索,快速检索需要的视频。

1.3.7  综合统计可视化系统功能设计

报表模块能够负责各系统各类监测报表、报告的模板的制定和管理,各系统生成的各类监测报表、监测报告发送给报表模块,由报表模块进行管理,并向管理部门在线提交报送,监测报表、报告能按照多种检索条件进行快捷查询检索、导出、打印等。

可视化模块能够将数据转换成图表进行可视化展示、分析,易于理解和接受,实现业务数据的高效关联分析。将庞杂的数据报告转化为易于理解、接受的可视化图表进行可视化展示、分析,实现业务数据的高效关联分析呈现。运用可视化技术,从监测、预警、运维等不同角度,将实时状态投射到大屏上,辅助值班人员、领导更加直观的掌握全省互联网新媒体传播态势,从而能够更高层面上去观察和理解数据,指导行业健康有序发展。

2  结  论

本文提出的移动互联网视听节目监测系统的建设思路,满足国家对移动互联网视听节目监测系统的要求,针对省内特定微信、微博、移动APP、自媒体平台进行数据采集、分析、处理及结果展示,并运用人工智能技术。从而全面保障移动互联网视听节目的安全播出及意识形态安全。

参考文献:

[1] 游声红,许扬.移动端网络视听节目监管系统 [J].广播与电视技术,2021,48(2):121-123.

[2] 河北广电局持續加强网络视听节目及视听网站监管 [J].中国有线电视,2018(9):1112.

[3] 山西局深入调研互联网视听节目服务单位运营及监管情况 [J].中国有线电视,2018(6):762.

[4] 唐崇维,王正中.网络视听节目评价体系的建构刍议 [J].当代电视,2019(1):93-95.

[5] 贵州省规范广播电视节目、网络视听节目 [J].中国有线电视,2015(2):213.

作者简介:华申峰(1980.11—),男,汉族,上海,副科长,本科,研究方向:新媒体的监测和传统广告监测;丁晋玉(1998.03—),女,汉族,江西高安人,新媒体助理工程师,本科,研究方向:新媒体的监测和传统广告监测;谢婷(1983.06—),女,汉族,江西南昌人,监测调度科科长,本科,研究方向:传统电视监测,新媒体监测。

猜你喜欢

爬虫对象监测
气囊测压表在腹内压监测中的应用
晒晒全国优秀县委书记拟推荐对象
基于Python的网络爬虫和反爬虫技术研究
基于 WSN 的隧道健康监测研究
Python反爬虫设计
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
基于Scrapy框架的分布式网络爬虫的研究与实现
谁抢走了低价机票
攻略对象的心思好难猜