基于无监督聚类算法的通信网络安全态势预测方法

2020-07-01秦丽娜

太原师范学院学报(自然科学版) 2020年2期

秦丽娜

(山西警察学院网络安全保卫系,山西太原 030401)

0 引言

随着互联网行业的高速发展，虚拟与现实，数字与文化正在相互融合，互联网已走进了寻常的百姓家，可随之带来的通信网络安全问题成了生活中的主要难题，并随着技术与应用的发展而日益凸现，直至今日已成为当今社会的头号难题[1].相信经常用互联网的朋友们都曾被病毒、木马、诈骗邮件和短信攻击过；也有黑客利用非法技术窃取账号密码等信息，给用户造成重大财产损失.还有许多网络蠕虫及僵尸网络等大规模网络安全事件时常发生，由于网民对互联网的不重视，导致其带来的损失不断增大.

现在，长期工作在互联网的学者们已经意识到安全问题就是互联网发展和国家的核心问题.至今此观点已成为业界的普遍共识.大到国家层面上的战略安全问题小到个人财产、隐私安全问题都需要研究互联网的规制问题[2].个人财产保护问题、个人隐私保护问题、国家层面的军事和政治安全问题.当虚拟与现实的融合已经呈现不可阻挡的趋势，网络空间的安全就像机械故障一样简单的工业生产问题，它将被视为国家安全战略中最重要的部分之一.

文献[3]设立新的IP地址，消除通信网络中的冗余信息，并进一步挖掘通信信息之间的关联，基于多元异构模型完成网络安全态势评估；文献[4]综合考虑网络安全、系统安全等多个方面，提出一种多源态势感知方法，建立多源信息采集和处理模型，消除被攻击后的问题数据，基于模糊推理完成网络安全态势分析；文献[5]使用基于无监督学习的方式进行数据采样，并对数据进行平衡化处理，然后建立具有降维作用的深度自编码网络模型，利用该模型处理后的数据作为分类依据，预测软件缺陷，完成对软件安全态势的研究.上述研究方法均取得了一些成果，但预测精准度还有待进一步提高.

为此，本文提出基于无监督聚类算法的通信网络安全态势预测方法，并通过实验验证了本文方法的有效性，表明本文方法具有较高的预测精准度，为通信网络的研究提供了一定的数据支撑.

1 利用无监督聚类算法预测网络安全

1.1 无监督聚类算法的含义

图1 无聚类算法聚合度模型

所谓无监督聚类算法，是一种高等数学中用在无定量数据的定性建模方法.其中无监督特指表示没有唯一的指标的情况下的定性建模情况(如图1所示)，当数据成N维空间分布则需要收集评价指标.

1.2 无监督聚类算法的预测方法

视觉和听觉是人类收集和获取信息的根本渠道，两者相互配合，眼睛所看到的和耳朵听到的信息经过视网膜或听觉中枢传递给最高级神经中枢大脑皮层，由于人的主观认知会自动过滤掉一些自认为不重要的信息，在监测计算机安全时经常会忽略一些数据从而导致病毒的漏网，而电脑却可以记录所有的问题.研究人员可以通过无监督聚类算法来模拟电脑操作，获取到的更满足计算机的检测需要，也就是说通过电脑来检测通信设备，避免了人脑检测中人为有意和无意规定的轻重缓急点，而导致了一些问题考察不到位.

无监督学习方法在网络安全预测行业内，是最有效的方法之一，这类方法能够在仅获取少量有效的网络异常数据或观测数据类标签信息的基础上，更有效且具有目的性地对数据进行检测和分析[6].

通过无监督聚类算法先获得图像工程，在像素及检测方面的图像处理操作，由于需要分析重点，必须通过人为和机器操作的共同配合完成；对图像中的必要信息进行检测，把以像素描述的图像转化为非图像符号，分析图像中的非图像符号进行运算，以便得到目标之间的作用关系，需要电脑的对图工作，将通过人工填充对图像内容进行解释[7-8].

2 基于无监督聚类算法的通信网络安全态势预测方法

应用无监督聚类算法的检测可分为：数据预处理模块、信号提取模块、NCA模块、DSA模块和结果模块.由它们共同配合完成对通信网络安全态势的预测工作.预测的过程分为四个步骤.

第一步是进入网络系统产生流量或者提供到需要保护的服务器内部网络，并且提取出有特征性的服务器[9].

设数据集合D由n个x维数据点di组成，则有：

D={di,d2,…,dn}

(1)

S为簇C1,C2,…,Cm的集合.Q(Ci)为簇Ci的代表点集合，即：

3.1.4 历史文化价值。公元九世纪中叶，西藏吐蕃赞普朗达玛禁佛，史称“三贤哲”来此避难修心，弘扬佛法，成为当地青藏高原佛教复兴的中心之一。佛教界普遍认为，这便是佛教在青海全面传播的开始，至今有千余年的历史，使坎布拉成为名副其实的佛教圣地而闻名国内藏区和海内外，有着很高的知名度。

Q(Ci)={r1,r2,…,rpi}

(2)

pi≤λ，λ为最大簇代表点数.

收缩因子为α，0≤α≤1，合并簇之间的最大距离为w.

根据每一个向量di创建一个簇Ci.即：

S={C1,C2,…Cn}

(3)

Ci={di}

(4)

Q(Ci)={di}

(5)

如果 S < 2，执行终止.则第二步利用步骤1提取出的特征服务器执行选择信号任务，将其分为异常信号和正常信号两大类；找出簇集S中代表点距离最近的 2 个簇Cu、Cv，

即

(6)

如果dist(Cu,Cv)>w，执行终止.

第三步包括两个阶段，运行阶段和检测阶段.在运行阶段中利用步骤2中的信息构建NCA模块的实例来练习运行，然后将需要检测的数据分别交给NCA和DSA模块，其中NCA模块是对比单个检测样本与已存储的检测器样本之间存在的差距[10].DSA是通过随机抽样的方式对单个检测样本进行抽样检测，组成NCA/DSA模块的结果需要加权处理；

确定pk(k=1,…,N)则有，

pk=medianS(i,j)

(7)

第四步结果模块则使用这些权重来区分异常和正常数据并输出.算法流程图如图2所示.

3 实验

3.1 实验环境和数据集

为验证本文方法的有效性，需要进行实验分析，本实验选用的数据是目前入侵检测领域广泛使用的实验数据：KDD CUP99 数据，实验在Matlab环境下进行，CPU为2.3 GHz，处理器为海思 Kirin 960.

3.2 实验预处理

由于网络攻击具有随机性、独立性和连续性，如果对其进行预测的时间跨度过小，易导致网络学习深度较低，若预测的时间跨度过大，会降低网络对安全态势的学习的准确性.为此，在预测网络攻击前对数据进行预处理，尽量减少时间跨度对预测准确性的影响.

实验首先对主要数据进行离散型特征数值型的转化，并对转化后的数据进行归一化的处理，也就是数学上经常遇到的数据划分.将数据集中特设的类别标签用数值代替：其中0表示无异常数据，1，2，3，4则表示异常的严重程度，4为最严重.由于原始数据集中为字符串，以至于不能被SPM处理，所以必须转化0，1，2， 3，4这种数值型才能被处理.其中特征2为协议类型，主要包含三个值：TRP、UCP和IAMP.若原始数据集中特征2的值为TCP则转化后的数据集中TRP特征为1(表示异常信号)，其余两个特征值为0(表示正常信号).对特征2的分解可以等价于对TRP、UCP、IAMP 3个特征的信号分析工作，编码转化特征如表1所示.

图2 无监督聚类算法流程图

表1 编码特征转化

原始数据集中有36个数值型特征，每个特征的取值范围不同，由于SPM是基于无监督聚类算法的方法的数据化特点，所以转化为0和1来表示，在处理过程中数值的最大值和最小值对结果影响均比其它值明显，相对而言其它值的特征影响比较小，因此必须采用归一化的方式对两个极端值统一计算，归一化采用方法如公式如下：

(8)

式中，x表示原始的数值，x′表示处理后的数值，max和min分别为归一化处理下的最大值和最小值.

3.3 实验步骤

在实验过程中，从输入的网络流量中提取相关特征.这些计算相关特征值确定输入的网络流量中是否含有异常信号的可能值.然后对异常信号的可能值进行检测，若其数据检测结果为0则为安全信号，若检测结果为1则为危险信号.从离散时间T= { 1， 2，…，t，…}内的给定归一化特征向量中提取危险信号和安全信号：若检测到危险信号则表示有异常数据且很大可能性为病毒，若检测结果为安全信号则表示没有异常数据，数据均不携带病毒可放心使用.

3.4 实验结果

图3 预测精准度对比

精准度是衡量算法性能的一种有效指标，为充分验证本文方法的性能，以预测精准度为指标，将本文方法与传统方法进行对比，结果如图3所示.

分析图3可以看出，在整个实验过程中，本文方法的预测精准度始终高于传统方法，在时间为10 s时，两种方法的预测精准度达到最高，本文方法约为95%，传统方法约为68%，差距较为明显，由此可以看出，本文的方法对于各种类型的入侵行为有着良好的检测效果，能准确预测通信网络安全态势，具有一定的优越性，验证了本文方法在网络安全方法的有效性，可靠性较强，能应用于通信网络安全研究中.

4 结束语

在信息技术时代，通信网络安全问题是我们面临的一个重要问题，精确的预测网络安全态势，对计算机行业的发展具有重要作用。本文通过对无监督聚类算法的解说，了解并可简化应用图像对比的方法预习通信网络安全态势，极大避免了病毒入侵电脑等网络系统的机会.但目前对待网络安全仅仅停留在预防层面上，而不能精确确定病毒来源从而根治病毒.病毒并不仅仅能让网络运行系统瘫痪，更危害的是财产隐私的安全，也是在国家层面上威胁军事、经济的头等敌人.不夸张地说，为了保证网络安全，必须重视、预防和清除病毒的危害.这不光是高端学者的首要课题也是广大民众的必行义务，所以普及网络完全问题，把高端技术简化应用到民众的手里是现在最有效的战略手段.