基于数据挖掘的网络通信数据安全风险识别算法研究

2022-04-29赵相楠

计算机应用文摘 2022年15期

摘要：为了保证互联网可持续发展，提高网络通信数据安全等级，解决网络通信数据安全风险识别识别时间长、识别精度低的问题，文章以数据挖掘技术为支撑，对网络通信数据安全风险识别算法展开了研究。首先，文章介绍了网络通信数据安全风险和数据挖掘方法，然后研究了基于数据挖掘的网络通信数据安全风险识别算法，以降低网络通信数据安全风险的程度，最后通过实验分析找到了提高网络通信数据安全性的方法，并通过实验验证了文章方法在网络通信数据安全风险识别中具有识别时间较短、识别准确性较高的特点。

关键词：数据挖掘;网络通信;数据安全风险;识别算法

中图法分类号：TP311文献标识码：A

Research on network communication data security risk identificationalgorithm based on data mining

ZHAO Xiangnan

（China Academy of Information and Communications Technology，Beijing 100191，China）

Abstract：In order to ensure the sustainable development of the Internet， improve the security level ofnetwork communication data， and solve the problems of long identification time and lowidentification accuracy of network communication data security risk identification，this paper studiesthe network communication data security risk identification algorithm based on data miningtechnology. Firstly， the paper introduces the network communication data security risk and datamining method， and then studies the network communication data security risk identificationalgorithm based on data mining to reduce the degree of network communication data security risk.The method of security is verified by experiments， and the method in this paper has thecharacteristics of short recognition time and high recognition accuracy in the identification of networkcommunication data security risks.

Key words： data mining， network communications， sata security risks， recognition algorithm

随着互联网技术不断发展和日益成熟，网络通信数据安全已成为一个不容忽视的问题。互联网本身的开放性和复杂性使得网络通信数据具有相对较大的安全风险。面对日益紧迫的网络通信数据安全问题，近年来，网络通信数据安全技术得到快速发展[1]。当前，网络通信数据安全技术主要包括数据健米、防火墙、虚拟网络、用户认证以及通信数据安全风险监测系统[2]。上述网络通信数据安全技术由于具有被动性，已经不能满足现在人们对于网络通信数据安全的需求。因此，对通信数据安全进行风险检测是保证网络通信数据安全的一种重要手段。

李小华[3]提出基于 PCA 的 BP 神经网络的异常数据识别方法，采用主成分分析法获取特征数据集，计算对应的特征向量，并输入 BP 神经网络模型进行计算，实现对异常数据的识别。但是，该方法的识别时间较长，影响了异常数据识别的工作效率。刘云朋等[4]提出基于深度学习的光纤网络异常數据检测算法，通过深度学习完成初始数据的分段预处理，再引入遗传算法增强异常数据特征的保留效果，能够提高异常数据检测速度，实现了异常数据的风险检测。虽然该方法能够满足异常数据检测需求，但是识别精度较低。

为了解决上述问题，本文以数据挖掘技术为依托，针对网络通信数据安全风险识别算法展开研究。

1网络通信数据安全风险识别

1.1算法过程描述

风险识别算法主要采用数据挖掘聚类、分类和关联分析的方法来实现数据挖掘、网络通信数据的安全风险识别功能[5]。其实现过程如下：假设网络通信数通信数据的存储精度参数，然后将网络通信数据分为 U 层：U=logrt，每层存储的网络通信数据数量限制为 rs+1，则网络通信数据总量限制为 U×rs+1，第 x 层以可被 rx 整除的 rx 的间隔存储，只保留不可被 rx+1整除的网络通信数据[6]。

1.2安全风险识别属性相似度分析

现有的大多数基于数据挖掘的算法都是针对网络通信数据的安全风险框架[7]。计算网络通信数据中安全风险攻击类别属性的相似度，对 IP 地址安全风险属性相似度进行计算，计算安全风险攻击协议属性相似度，并通过其结果对网络通信数据进行融合，实现对其安全风险的识别[8]。

在安全风险识别过程中，IDS 可能会针对同一网络通信数据攻击行为，在某一时刻生成多个具有相同攻击类型的安全风险识别，识别 Distinguish 1和 Distinguish 2的攻击类型属性相似度定义为：如果识别的类型相同，相似度为1，否则相似度为0。具体如公式3所示：

识别 Discrimination 1和 Discrimination 2的 IP 地址的相似性定义为：从两个 IP 地址转换来测量 IP 地址的二进制字符串的前 n 位的相同数目。相似性如公式4所示：

具有相同安全风险攻击协议的通信数据必须相同，识别 Discrimination 1和 Discrimination 2的安全风险属性的相似性定义为：如果识别的通信数据相同，则相似性为1，否则相似性为0。具体如公式5所示：

2基于数据挖掘分析的风险识别方法设计

2.1风险识别算法描述

聚类算法的重点是针对聚类中心的每个聚类的平均值进行计算。在数据挖掘中经常用于数据集的聚类拆分与异常数据识别。每一个聚类之间的距离越小，相似性越大。具体如公式（6）所示：

识别算法的数据描述是：将n个向量xj（j=1，2，…，n）划分为c类Gi（i=1，2，…，c），并找到每个聚类的聚类中心，从而使相异指数的目标函数最小化。当选择i类Gi中的向量xk和类中心ci之间的度量为欧氏距离时的相应簇时，目标函数可定义为：

其中，是类Gi内目标函数。Ji值依赖于Gi的集合形状和ci的位置。显然，J的值越小，表明聚类效果越好。

2.2基于数据挖掘的网络通信数据安全风险识别算法

给定聚类类别的数量 c，2≤c ≤n 和 n 是数据的数量，设置迭代停止阈值ε，初始化集群原型风险识别值 P（0），并设置迭代计数器 b=0。

步骤1：用公式（3）计算或更新划分矩阵 U（ b ），对于?k，i，如果 d kb ）>0，则有：

如果i，r，使得 d（b）=0 ，则有μ（b）=1，且对应的j ≠r，μ4/6）=0。

步骤2：用公式（4）更新聚类原型风险识别矩阵p（b+1）

步骤3：如果是，则算法停止并输出划分矩阵U和聚类原型P，否则让b=b+1进入步骤1。其中，提一些合适的矩阵范数。

由以上安全风险识别算法可以看出，整个算法的计算过程就是反复修改聚类中心和分类矩阵的过程，可以满足用户提出的对任意时刻和时间间隔内的近似安全风险识别。

3实验验证

3.1选取网络通信数据参数

为了验证本文设计算法的有效性，展开本次对比实验。通信数据的特征抽取对安全风险识别的性能具有较大的影响，因此本次实验选择对第 L ?1隐藏层的特征数目进行抽取。以某互联网公司4月的网络通信数据为实验对象，数据量为100.06GB。

3.2网络通信数据安全风险识别对比

选择文献[3]提出的基于 PCA?BP 神经网络方法与文献[4]提出的基于深度学习的光纤网络异常数据检测算法作为对比方法，与本文提出的基于数据挖掘的网络通信数据安全风险识别算法共同进行实验，以网络通信数据安全风险识别率、识别错误率和识别时间作为实验指标，对比不同算法的风险识别性能。采用相同的网络通信数据集进行实验，即分别抽取10%、30%、50%的网络通信数据集作为本次实验的数据。在不同数据集情况下，三种方法的安全风险识别率与错误率如表1所列。

根据表1数据可知，在通信数据占比为10%～50%条件下，本文方法的风险识别率始终保持在90%以上，最高达到95%;而 PCA?BP 方法与深度学习方法在通信数据占比发生变化时，风险识别率变化波动较小，PCA?BP 方法的风险识别率基本在86%～88%之间，深度学习方法的风险识别率基本在85%～87%之间，均低于本文方法。由此可以证明本文提出的识别算法具有较高的识别率，识别精度较高，具有较好的应用性能。

为了更好的证明本文方法的的优越性，对比不同数据集情况下三总方法的识别时间，具体结果如图1所示。

通过图1可以看出，在通信数据占比为10%～50%的条件下，三种方法的识别时间均随着通信数据占比的增加而增加。PCA?BP 方法的识别时间波动较大，从60ms 上升至100ms;深度学习方法的识别时间波动虽然较小，但是识别时间最长，从90ms 上升至110ms。而本文方法进行识别所花费的时间为30ms ～38ms，最高不超过40ms，远远低于另外两种方法，说明本文方法对网络通信数据安全风险进行识别的速度较快，能够提高数据识别的工作效率。

4结论

由于网络通信数据安全风险识别存在识别时间长、识别精度低的问题，本文提出了基于数据挖掘的网络通信数据安全风险识别算法。通过对时间维度主机层安全风险识别、时空维度网络层安全风险识别分析，确定网络安全威胁指数，并基于数据挖掘分析情况，确定网络通信数据安全风险识别方法。实验结果表明，采用本文方法可有效提高网络通信数据安全风险的识别效率，缩短响应时间，具有一定的实用性。

参考文献：

[1]李小雷.基于数据挖掘的网络异常检测技术研究[ D].长沙：湖南大学，2007.

[2]李洋.基于数据挖掘和机器学习方法的网络异常检测技术研究[D].北京：中国科学院计算技术研究所，2008.

[3]李小华.基于 PCA 的 BP 神经网络异常数据识别在信息安全中的应用[J].微型电脑应用，2021，37（7）：192?194.

[4]刘云朋，霍晓丽，刘智超.基于深度学习的光纤网络异常数据检测算法[J].红外与激光工程，2021，50（6）：288?293.

[5]王刚.基于数据挖掘技术的设备监控网络安全态势识别方法[J].自動化与仪器仪表，2021（8）：31?34+39.

[6]张钰莎，蒋盛益.基于风险数据挖掘追踪技术的网络入侵检测研究[J].重庆理工大学学报（自然科学），2019，33（10）：127?135.

作者简介：

赵相楠（1987—），本科，中级工程师，研究方向：网络安全测试技术、网络安全能力平台建设、网络安全评估检测工具研发。