APP下载

基于现有信息安全监测平台的研究与改进

2022-07-26余思莹宋晓骏丁桥

网络安全技术与应用 2022年5期
关键词:爬虫舆情信息安全

◆余思莹 宋晓骏 丁桥

基于现有信息安全监测平台的研究与改进

◆余思莹 宋晓骏 丁桥

(中国电信上海公司信息网络部 上海 200020)

本文通过分析现有信息安全处置平台对不良信息以及舆情两方面的处理能力、原理、不足、相通点,以期能将现有能力运用最大化本文主要综合考虑了信息安全处置系统、舆情处置系统、以及一些对特定APP、微信公众号的检测工具的能力特点,总结扩展出其中可以综合扩展利用的功能,提出合理假想:形成一综合的信息安全处置平台,将能力运用最大化,最优化,进一步提高信息安全能力。

信息安全处置;舆情处置;系统平台;关键词;爬虫

当前飞速发展的互联网信息技术逐步深入我们的生活,越来越普及化、全球化、智能化。互联网正在影响和改变着当代社会生活的各个方面。信息化为民族国家的建设发展带来了前所未有的契机,现在网络的普及度和参与度也可能会潜在激化社会矛盾,可能成为群众宣泄情绪的途径。中国互联网络信息中心(CNNIC)发布第45次《中国互联网络发展状况统计报告》,报告中显示我国网民规模截至2020年3月已经突破了9亿。而对于运营商而言,对网络不良信息及网络舆情的治理,更是重中之重,对不良信息和网络舆情的治理既是网络空间治理的重要内容,又是信息化浪潮中运营商需要面临的重要课题。认真贯彻党的十九大报告关于“建立网络综合治理体系,营造清朗的网络空间”精神,加强对网络环境综合治理,利用现有能力,充分利用提高应用能力,构建协同联动、综合治理的必然趋势。

1 信息安全监控处置现状

目前,网络上不良信息以及舆情信息的载体多种多样,且数据量大。群众上网的频率和规模,以及网络平台上网络信息的飞速增加,可能会使得舆论传播变得大众化、无序化和分散化。面对网络上大量的舆情信息及不良信息,需要用技术上的网络分析和监控,代替大量繁琐的人工操作,协助相应部门机构及时发现网络上不良信息、敏感链接,了解网络舆情动态等问题,并需要对不良信息链接的封堵整改,对负面的舆情信息进行记录追踪预警,做到能够及时纠正网络上不良信息带来的危害影响,有效保障网络环境的健康可靠。

目前对于网络信息安全的监控和处置主要分为舆情处理以及不良信息处理两个板块,对应的也是两个分开的系统:舆情监测系统、互联网信息安全处置系统平台,这两个系统都是运用了爬虫技术,但面向的处理方向不同,关键词的设置不一致,着重的应用范围也不一样。舆情偏向微博、论坛、报道三个数据板块,而不良信息处理侧重于网页内容的爬取。除此之外,对应公司在网络信息安全方面的要求,还应该对微信认证公众号以及公司指定APP上发送的文字、图片甚至视频内容进行采集检测。目前来看各系统以及工作模块通过内容的划分下,从系统平台的不互通到检测数据平台侧重不同,各个能力的运用并没有发挥到最大化,下面我们将通过分析研究,试着将能力运用最大化。

2 现有信息安全监测系统功能分析

当前现有的系统能力包含:互联网信息安全处置系统、舆情监测系统、鹰眼系统、一些监测指定APP和公众号的小程序。

2.1 互联网信息安全处置系统

互联网信息安全处置系统是集不良信息处置、域名备案处置、域名备案查询等功能于一体,对违规网页或涵盖不良信息网页进行处置的综合运行平台。平台根据预设的关键词库,通过网络爬虫的方法对运营商接入网站进行深层次的网络数据爬取,筛选出不违规网站:包含不良信息、未备案等。再根据人工的进一步复核确认,最后通知用户整改或者进行封堵,实现对于网络活跃网站数据的监控和对不良信息网站的严查严控。平台首页如图1所示。

首页显示菜单栏、信息公告栏、常用资料下载、法律法规资料下载。可以通过爬虫任务管理,实现任务的添加、修改、删除、追溯等来实现对爬虫的更改,包括对关键词的扩充或精确、对新网站的爬取深度等。从而进一步人工审核之后,下发相应工单进行处理,完成对相关不良信息的处置。还可进一步跟踪追溯,用以提高一些工作的效率。

2.2 舆情监测系统

舆情监测系统主要是为了减少和避免特定主体负面新闻报道、群体性投诉事件等给企业造成的不良影响,对此类情况及时发现和上报、有效监控和响应的系统,针对突发舆情信息和应急或专项舆情信息,采用技术手段,对信息进行收集、汇总和上报;对舆情事态发展进行跟踪、上报。主要针对的是互联网上出现的主要针对特定主体的各类业务产品及服务或企业形象的报道、评论和投诉。经过系统程序的筛查后,进行人工复核,最终汇总上报。

舆情监测工作一般按照数据类型可分为:报道类、微博类、论坛类、微信类。目前对于舆情监测日常工作主要使用了两个系统,分别是舆情监测系统和鹰眼系统。舆情监测系统对舆情处理:分为微博、论坛、报道三大块;该栏目也是将系统爬虫根据设定好的关键词所抓取来的数据根据三大板块分类后陈列出来。系统模块如图2所示。

图2 舆情监测系统板块示意图

其中,舆情情况:是将舆情处理栏目内所展示的数据经过处理后,存档保存,进行内检索的栏目;舆情统计:是将系统内已处理过并存档后,进行统计及按要求生成报表的栏目;系统设置:是系统管理员进行账号和密码,以及后端修改操作的栏目。此外还需要通过人工在百度、搜狗、360等较大的搜索引擎上进行搜索,进行有关数据的筛选。

2.3 APP公众号监测平台

作为对接入网站,公众号,APP等的检测系统,有内容采集、内容分析、统一管理系统平台。内容采集主要采集网站、APP、公众号推送的文本、图片、视频等内容信息。内容分析系统通过关键词匹配、自然文本语言处理、智能图像识别、图像内容分析匹配、视频识别分析匹配等技术,高效识别色情、赌博、广告、涉政、暴恐等多类垃圾有害文字,精准过滤推广、涉黄、涉赌、暴恐、涉政等违规图片或视频。监测系统平台还可将监测内容分为文本区、图片区等,对数据进行分区处理,以此能够更高效且清晰的对监测内容进行查看和管理。

目前,医院数据统计工作开展中还存在诸多问题,不利于统计数据发挥真正价值,不利于医疗服务质量提升,对此,需要医院加强信息化数据平台建设,借助互联网科技,不断优化统计工作方法,提升统计工作能力,促进数据统计的高效开展。

系统对APP进行定期的安全检测,若发现有包含违规信息的APP,系统后台预警并对违规违法内容取证存留,通过人工审核之后,发送相关违规信息给APP拥有单位。并通过搭建成熟内容安全检测系统平台,接入APP、公众号、网站至检测系统,实现针对文本、图片和视频等内容的违法违规安全检测,精准过滤涉黄、涉赌、推广、暴恐、涉政和其他个性化定义的违规图片的检测。实现高自动化的检测,将数据整合输出报告,规避内容发布风险,及时遏制内容违法违规风险,提高APP审核效率。

对于网页页面,包括文本、图片采集由网页扫描任务调度、网页内容抓取等功能;对于公众号通过Web自动化工具操作Chrome浏览器自动采集获取微信公众号发布的内容;对于指定APP类,则是通过安卓模拟器运行APP软件自动采集获取APP发布内容。

3 系统能力提升设想

根据以上的分析说明,可以看出不同的系统能力各有侧重的方向,能力优势也各有不同,对于已掌握的系统和能力,通过合理的分析与构想,将每个系统的能力运用范围扩展,融合各个系统优势,能力互补完善,以下是对于各系统能力可以扩展或吸收部分的分析构想。

3.1 互联网信息安全处置系统

对于网络不良信息方面系统网络爬虫的爬取,目主要是对网站数据的爬取,而当前用户非常活跃的各类社交软件、论坛报道等渠道,没有很全面的涉及。互联网信息安全处置系统从目前关键词对不良信息的覆盖以及对网站的爬取范围来看,则具有成熟的能力。

一方面可以将这种成熟的能力,通过扩展关键词库,或监测更多非运营商自主拨测接入的网站,但和运营商有着很大关联的其他网站等方法,来提升其他方面对于网站数据的监测。另一方面通过其他系统拥有的能力扩展,使对于不良信息的处理,不局限于网站数据,能够对活跃在网络的各种应用都能进行检测监控。

3.2 舆情监测系统

通过对比分析各系统,可以看出对于网络舆情方面数据,主要依赖的两个系统,舆情数据目前最有效可靠的是舆情监测系统中对与微博板块数据的监测,对论坛博客讨论数据通过鹰眼系统生成导出。而对于各网站舆情的监控,当前更依赖于人工检索、筛选及分类。通过鹰眼系统所得数据加人工检索所得数据,导入舆情监测系统后,使数据源较为完整。即对于网站内容的检索,缺乏一个完善成熟的爬取能力。

一方面可以将舆情系统对于微博舆情数据的监测情况进行分析,监测各微博、微信、公众号等社交媒体中公司官方账号发出的文章数据,避免存在有害信息的情况。另一方面通过其他系统拥有的能力扩展,完善对于舆情处理的数据源,减轻人工工作负担,更精确全面。

3.3 APP公众号监测平台

此类系统软件对于更侧重于对指定接入APP以及微信公众号内容数据的监测,并没有前文所提及的两个系统的深度和广度,对于大量的数据接入爬取和比对分析,存在运算能力上的不足。但此类涉及APP内容的爬取比对,以及其中对于图片视频的分析能力,可以扩展对不良信息和舆情监控的数据范围,分析扩大分析的数据范围,对于指定账号数据,APP的监控,可以做到文字数据、图片数据、视频数据的覆盖。能够很好将监测对象涉及的数据尽可能全面的覆盖分析。

4 统一监测系统架构

为了对网络中的不良信息和舆情信息进行高效的抓取和识别,建立全面完善的不良信息监控系统,综合考虑现有互联网信息安全处置、舆情监测等系统的架构流程能力,系统内的抓取识别检测的技术指标、系统性能、使用范围等,进行统一信息安全监测系统的总体设计。在统一信息安全监测系统设计中,网络上信息数据的采集与处理是重点核心,统一信息安全监测系统架构的总体设计包括从网站、新浪微博、微信公众号、论坛博客以及指定APP等数据源筛选获取数据,对不良信息和网络舆情两个方面的数据分析。根据已有的系统技术,对上述多个系统能力进行参考整合利用,设计系统架构。统一信息安全监测系统的总体架构包括数据的采集、预处理、分析及结果模块。

4.1 数据采集

数据采集主要是根据互联网信息安全处置系统中对于网页内容的爬取、舆情监测系统对与微博、搜索引擎、论坛等文本数据内容的获取。网页数据爬虫是系统中适应部门要求特定且高效的爬虫工具,也存在很多发展进步的方向可以探讨。现有的系统主要采取关键词库对比对的方式来定位网络上的不良信息。

除了现有的处理外,我们可以进一步扩展目前现有的爬虫能力,不局限运营商现自主拨号接入网站,爬取分析更多的相关网站,设置不同的关键词集,根据不同的数据需求进行不同的采集分析,例爬取相关报道网站对舆情方向的监测。同时利用对指定APP、小程序的爬取和对于图片,视频的数据处理分析能力结合到对网页内容的分析,使得能够尽可能全面且精确得获取数据。

4.2 数据预处理

数据是后续处理分析的重要基石,大量爬取的原始数据无法直接使用,需要对数据进行预处理后才能进一步分析。对于数据的清洗、转换、特征提取等都是预处理步骤。数据清洗是对与网页上大量重复或缺失的数据进行去重处理,数据转换是对爬取出的网页数据进行类型的转换处理。

针对舆情处理有时不仅需要对数据信息进行关键词的匹配定位,还需要对广泛的数据信息进行简单的筛选判断,去除一些重复性数据,并进行数据转换,特征提取。包括对有害信息的处理,也可以进一步对爬取的数据通过分析对比,而不仅限与有害网页的关键词匹配等。

数据预处理还包含对于图片及视频方向的数据分析,会先进行一些视频抽帧以及图片关键信息的提取,以此来降低分析比对的运算量。

4.3 分析和结果模块

对于初始比对匹配的数据,还需要进行分析查验,而这一方面现主要通过人工进行审核判断,最终列出处置清单生成报表。出于严谨性考虑,不能完全将机械运算分析代替人脑判断,但可以通过算法算例,进一步分析筛选,减轻人工工作量。

并将最终结果生成固定格式的表格,方便后续的处置以及溯源等,形成不良信息的处置闭环。

4.4 系统能力扩展

除了将现有能力最大化利用之外,本文还对数据处理模块进行了分析,提出一些可以进一步提升的设想。

对数据的分析抓取可以不仅停留在关键词的匹配比对上,针对舆情语义分析以及话题趋势的预测分析,可以使得在大数据的基础上呈现一个较为准确的分析。通过分词模块对文本数据内容进行分词,通过分类或者聚类分析,对爬取出的舆情文本进行关键词提取,对舆情进行文本的情感分析和话题归类,还可进一步对相关话题进行热度统计分析,并提取出关键词句,更利于人工核验时能者迅速掌握舆情内容,也可针对每一个不同的需求进行定制,将关键词库模块化,就可以实现对舆情监测分析的产品化。

除此之外还有很多技术上能够分析进步的方面,如爬虫爬取模式、匹配精确度、图片深度分析、情感导向分析等方面,这里就不展开设想。建立一个统一的信息安全监测系统,再逐步完善提升能力。

5 结束语

本文结合了相关背景要求,结合需求分析,通过分析现有对网络信息各监测的系统平台能力优势及侧重方面,将这些系统平台的能力相互融合扩展,业务范围扩大,形成一个功能全面,数据完善,且又具有针对性的一个综合处理系统平台。再逐步完善能力,对于现在网络发展带来的重大挑战做到主动适应。

[1]郑燕. 基于增量学习的自适应话题追踪技术研究[D]. 山东师范大学,2013.

[2]胡传志,程显毅,曹小峰. 网络敏感信息自适应多重过滤模型研究[J]. 计算机科学,2015,42(1):272-275.

[3]李可可. 基于 SVM 的微博情感倾向性分析研究[D]. 中原工学院,2014.

[4]中国信息通信研究院安全研究所. 人工智能安全白皮书(2018)[R]. 2018.

[5]宋蕾,马春光,段广晗. 机器学习安全及隐私保护研究进展[J]. 网络与信息安全学报,2018(8).

[6]中国人工智能产业发展联盟. 电信网络人工智能应用白皮书(2018)[R]. 2018.

[7]CNNIC.CNNIC 发布第45次《中国互联网络发展状况统计报告》[OL]. http://www.cnnic.net.cn/gywm/xwzx/ rdxw/20172017_7057/ 202004/t20200427_70973.htm.

[8]丁杰,徐俊刚. IPSMS:一个网络舆情监控系统的设计与实现[J]. 计算机应用与软件,2010(4):188-190.

[9]白鹤,汤迪斌,王劲林. 分布式多主题网络爬虫系统的研究与实现[J]. 计算机工程,2009(19):13-16.

[10]周义棋,田向亮,钟茂华. 基于微博网络爬虫的巴黎圣母院大火舆情分析[J]. 武汉理工大学学报:信息与管理工程版,2019(5):461-466.

猜你喜欢

爬虫舆情信息安全
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
基于三级等级保护的CBTC信号系统信息安全方案设计
计算机网络信息安全及防护策略
大数据背景下校园舆情的爬虫应用研究
高校信息安全防护
数字舆情
数字舆情
大数据环境下基于python的网络爬虫技术
消费舆情