大数据动态不良信息安全过滤系统设计研究

2020-06-15于志伟王利军

数字通信世界 2020年5期

王楠，于志伟，王利军，刘健

（中国电子科技集团公司第二十八研究所，南京 210007）

随着现代互联网信息技术的不断发展，网络安全、信息安全相关的需求也有所爆发。尤其是云安全、物联网安全、工业互联网安全等新兴领域将迎来爆发机遇，这将为网络安全带来市场增量[1]。网络信息多通过Web 实现互通，海量数据信息中部分是有价值的，部分信息则具有破坏性，将其归属为不良信息范畴，其一方面会影响到网络的正常运行；另一方面也带来了网络安全问题。基于Web 网络业务的拓展，网络公司对不良信息过滤系统需求与日俱增[2]。传统对网络不良信息的过滤采用的是识别数据过滤系统，需要将所有信息全部接收后，再进行逐一排查、比对，不仅工作量大、处理速度慢，而且过滤效果不甚理想。此次研究提出了Web 环境下大数据动态不良信息安全过滤系统，以下对其进行具体分析。

1 系统需求分析

大数据下动态不良信息安全过滤设计，首先要具备对实时信息内容的审查功能，能够高效排查出敏感信息、不良信息等内容，并对上述内容进行追查，实现对互联网信息自动化过滤、筛查。其次，大数据动态不良信息安全过滤系统要能够针对复杂的网络事物作出有效的处理，高效执行服务器端的各项工作，结合实际情况选择相应的算法对动态不良信息进行过滤，准确处理互联网不良信息，与此同时要对处理信息作出明确的规范，而这一切的实现都需要依赖算法[3]。由于动态不良信息数目多，处理复杂，应通过缩短处理信息的时间提升信息过滤处理效率。互联网动态信息具有未知性，在设计不良信息安全过滤系统时，必须注重其拓展性，便于以后系统拓展设计操作。在网络带宽参数设计方面，一般按照30K/次数据量进行调试，结合全国各个省份实际数据量，每秒所占用的宽带约为18M，要切实保障对动态不良信息的安全过滤速率。

2 大数据动态不良信息安全过滤系统设计

2.1 系统硬件机构设计

此次研究采用C/S 系统模式设计了基于Web 环境下大数据动态不良信息安全过滤，传统N/S 安全过滤系统已经不能够满足当前大数据时代海量信息的需求，且应用C/S 模式能够支持后期系统维护及系统升级，实用性强、便捷，能够高效过滤、筛查动态不良信息。从其硬件构成来看，其主要包括三个层面：

（1）前端控制层。该层为命令控制中心，其主要负责对Web环境下大数据动态不良信息的过滤。

（2）运行系统。对不良信息的安全过滤都依赖运行系统实现，其构件主要包括计算器、数据库以及数据调控器等，其正常运行状态下能够确保不良信息的高效过滤[4]。

（3）用户端。用户端主要由文件驱动器、感知运行器以及CVDO 三个部件构成，其能够有效识别用户命令，并下达、传递命令。

研究设计系统针对前端主机控制端实施了一系列优化选择，以提升对数据信息过滤的精准性，对前端主机控制端的优化一方面能够促进系统过滤能力的提升，另一方面能够加强系统逻辑计算能力，从整体情况看，其对系统筛选能力有着显著的提升作用[5]。需要注意的是，在过滤海量信息时，不能够影响常规数据的自由运行，这就对安全过滤系统对信息的把控能力提出了更高的要求，必须具备强大的逻辑计算能力才能够满足这一需求。此次研究设计的大数据动态不良信息安全过滤系统运行流：数据预处理—利用条件初次过滤—阈值选取和阈值预处理—阈值过滤—分组整理。

2.2 系统软件设计

采用网闸过滤系统完成信息过滤：

研究设计了基于Web 环境下大数据动态不良信息安全过滤系统，在过滤操作中引入了网闸过滤系统，其能够对不良信息进行高效的过滤。网闸过滤系统一方面能够规避传统方法配差计算失衡问题，另一方面能够对系统整体计算能力起到提升作用，数据信息不同，其所应用的符号型属性也会呈现出明显的差异性[6]，其中数据信息能够覆盖文字、图片以及逻辑等多个方面。其属性选择中，数据信息、数值型属性及符号型属性相应数据为：1/2/X，2/5/Z，3/8/Y，4/5/Z，5/7/X，6/6/Y。

在网闸过滤系统下，可以根据符号型属性的不同对其进行分类处理，这一操作能够便于对不同数据实施精准化过滤。初级过滤完成后，可以进入条件矩阵，下一步完成矩阵过滤。首先需要设计携带符号型信息数据的矩阵，假设为Tij，其数据互换对比设计的条件矩阵为T’ij，完成对比后，能够有效过滤去除与条件矩阵不同的数据，这一操作实际上就是一次初级过滤。然而，仅通过一次初级过滤难以将动态不良信息完全过滤掉，无法满足实际需求。接下来需要过滤阈值，需要注意的是，阈值的过滤需要首先对数据进行预处理，其预处理计算公式为：

式中，数据信息权重系数采用FYLK表示，FY2K表示的是符号属性，且已经经过初级条件矩阵过滤；La表示的是符号型属性，其通过了阈值过滤；Iz与LB分别表示的是甄别系数与属性只读。预处理参数在公式中表示为rk-1，预处理属性参数集合表示方式为Rk。已经进行过预处理的数据需要再经过阈值选定，便能够完成阈值计算，数据信息经过过滤后，其会自动生成以下分组：

式中，数据识别属性采用字母T表示；D表示的是数据集中能够用于数据分组的集合；△t代表数据转化值，其能够为数据分类管理提供可靠的依据；B表示序列号。需要注意的是采用阈值对数据进行过滤时，不可能所有数据信息都能够达到条件，因此，可以采用如下条件公式进行限定：

2.3 随机自适应算法的应用

此次研究采用阈值计算方法对数据信息进行过滤，已经能够对Web 环境下动态不良信息进行有效的过滤，然而该过滤方式对于图片数据信息还存在一定的局限性[7～8]，基于这一问题，研究提出了随机自适应算法，用于对图片信息得到过滤，其预处理计算公式为：

3 试验验证

3.1 参数设置

此次研究设计了基于Web 环境下大数据动态不良信息安全过滤系统，为确保该系统能够对数据信息进行有效的过滤，首先对数据信息权重系数FYLK进行设计[9]，假设其数值为55.94，数据信息专属阈值yi 为5，其读取属性为0.65，那么在[1.0～55]范围内，各项试验参数中，试验次数、数值型属性、过滤数量及数据修正参数对应的数据分别为：1/2/11/10-4，2/4/150/10-4，3/8/200/10-4，4/8/250/10-4，5/6/300/10-4，6/5/350/10-4，7/7/400/10-4。