基于机器学习的网络安全态势感知系统研究

2022-11-21杨婉琳

无线互联科技 2022年18期

关键词：人工神经网络态势网络安全

杨婉琳

(审计署计算机技术中心，北京 100073)

1 网络安全态势感知概述

1.1 网络安全态势感知定义

态势感知是一种基于环境的、动态的、系统的洞悉安全风险的能力，可以全面地发现、识别安全威胁，并能准确分析、及时处理安全威胁的一种方式。态势感知这一概念最早出现在军事领域，分为覆盖感知、理解和预测3个层次。

网络态势感知分为3个层次。第一层，安全信息的收集。网络安全态势可以从海量的数据信息中提取与态势相关的信息，然后进行统一的处理。比如采用多传感器数据融合技术，对入侵检测系统中的数据进行融合，并统一化处理。即使检测出入侵者的信息，判断安全威胁等级。第二层，评估网络安全态势情况。网络安全态势评估方法主要有4种，即数学模型、知识推理、模式识别和机器学习。基于机器学习的评估方法是谢丽霞等人提出的，利用布谷鸟搜索算法对反向传播网络的阈值进行优化评估，可以优化网络态势感知的评估方法，减少迭代次数，提高评估的准确性与评估效率。第三层预估未来安全态势情况。利用机器学习的网络安全态势预测，可以有效降低网络安全态势预测的复杂度，提高网络安全态势预测结果的准确性[1]。

1.2 国内外研究现状

国内一般采用马尔科夫博弈论、知识发现、对比序列进行SQL注入检测、机器学习技术等分析当前的网络安全态势。国外，分析对象特征和关系之间的依赖，利用本体知识理论来预测网络安全态势；相似性评估，借助以往的经验评估网络安全态势感知；基于隐马尔可夫模型的对数分析；协同过滤和基于密度的聚类检测DGA僵尸网络方法；基于递归神经网络的机器学习方法，对域名进行高精度检测，提取相关特征，检测出恶意混淆的代码。

2 基于机器学习的网络安全态势感知技术分析

网络安全态势评估技术有很多，基于机器学习的方法是网络安全态势预测技术的重点研究方向，可以详细划分为3个方向，即基于人工神经网络、深度学习和集成学习。

2.1 人工神经网络

人工神经网络，也称神经网络，是20世纪80年代人工智能领域兴起的研究热点。主要是抽象人类脑神经元网络，并对其进行建模，然后连接组成不同的网络，从而来达到实现模拟人类神经网络的目的。一般来说，神经网络是由输入层、隐含层和输出层构成。输入层的每一个神经元都是一个特定的输出函数，每两个节点之间的连接就是隐含层，隐含层的层数和神经元的个数可以自由指定。输出层的主要作用是输出神经网络结果。

人工神经网络具有4个基本特征。第一，非线性关系。这是自然界中存在的普遍特征，人工神经元处于激活、抑制状态的时候，在数学上就表现为非线性关系。非线性关系可以提高神经元的容错性与存储容量，优化人工神经网络的网络性能。第二，非局限性。神经网络是由多个神经元连接而成，是多个神经元特征以及神经元单元相互作用的结果，因此可以模拟大脑的非局限性特征。第三，非常定性。人工神经网络拥有高度的自主学习能力，可以适应多个不同的环境，在处理信息的过程中，会根据信息的不同采用不同的处理方式，是一个迭代过程。第四，多样性。神经元的输出函数存在多个极值，人工神经网络系统存在多个稳定的平衡状态，从而实现系统的多样性。因此，人工神经网络应用在网络安全态势预测方面，取得了较好的效果，但是由于结构不完善，会有预测速度慢、模拟度欠缺、局部最优等不足[2]。

2.2 深度学习

深度学习是神经网络的延伸。深度学习结构是含有多个隐藏层的多层感知器，可以融合低层特征将其组成抽象的高层，然后再用高层来表示特征、类别，从而找到数据的分布式特征。一般来说，深度学习是模式分析方法的统称，主要分为3类方法：第一，基于卷积运算的神经网络系统，这种系统是仿造生物视觉和知觉构建起来的，具有表征学习能力，可以实现对像素和音频进行学习，对数据格式没有特殊的要求，从而实现数据的稳定效果。第二，基于多层神经元的自编码神经网络，其功能是将输入信息作为学习目标，对输入的信息进行表征学习。自编码一般具有表征学习算法功能，主要应用在降维和异常值检测。第三类，深度置信网络。深度置信网络是一个概率生成模型，运用这个模型可以训练神经元之间的权重，让整个神经网络按照最大概率来生产训练数据，实用性强，应用范围广，扩展性也强，广泛应用在语音识别、图像处理等领域。深度学习的模型可以有效解决网络安全态势预测问题，但是算法性能不高，自我学习性差，适应性不强。

2.3 集成学习

集成学习不是一个单独的机器学习算法，而是通过构建并结合多个机器学习来完成学习任务，因此，也被称为多分类器系统。集成学习的一般结构，先产生一组“个体学习器”，然后再选取相应的组合策略将其结合起来。个体学习器有两种，一种是同质的，都是由一个学习算法训练数据产生；一种是异质的，是由不同类型的个体学习器集成的。同质的个体学习器被称为“基学习算法”，异质的没有“基学习算法”。这里应用较为广泛的就是同质个体学习器，主要应用的模型是CART决策树和神经网络。集成学习比单一学习器具有更为显著的泛化功能，就是在进行预测的时候，个体学习器出现问题，其他学习器也可以将其纠正过来，从而提高预测结果的准确性。当前被广泛应用在网络安全态势预测的有Boosting系列算法，他们的个体学习器之间存在极强的依赖关系，容易实施，但是得到的结果不一定是最准确的。还有一种就是不存在强依赖关系的随机森林算法，准确率高，对噪声敏感，很容易受到外界因素的影响。集成学习主要应用于分类问题集成、回归问题集成、特征选取集成和异常点检测集成等方面。

3 基于机器学习的网络安全态势评估和预测研究

3.1 网络安全态势评估研究

网络安全态势的评估。要构建网络态势评估指标体系，这是网络安全态势评估的基础，如果指标体系过大，就会增加计算量，从而降低评估的性能与实时性；指标体系过小，就会使得评估不够全面，评估结果也失去了原有的价值。这就需要选取科学、合理的网络安全态势评估指标体系，从而得到全面、准确的评估结果，高效、客观地展示网络安全状况。因此，构建网络安全态势评估指标要遵循系统性、近似性、层次性和易操作性原则。要建立指标体系来源参考，构建网元、流量、报警、漏洞和静态配置信息的指标，并将其划分为稳定性、威胁性、脆弱性3个综合性指标。脆弱性指标包含网络漏洞和静态配置信息两个方面，是网络自身存在的安全隐患，网络的脆弱性指数越高，网络受到攻击的可能性越大。威胁性包含报警和流量两个方面，可以直观反映网络受到攻击的危害程度。威胁性指标与子网内安全事件发生频率、子网宽带使用率、子网流入量占比率有关，指标越大，网络安全状况越不理想。稳定性是网元的体现，稳定性衡量指标与子网内数据包分布比值的变化率有关，变化率越大，网络状况越不稳定。

本文的网络环境将评估等级设置为{G1=优；G2=良；G3=中；G4=危}；评估规则参考用户手册，根据实验数据，并按照下列公式来计算:

(1)

(2)

(3)

3.2 网络安全态势预测研究

网络安全态势的预测主要是借助预测模型，基于机器学习的网络安全态势预测模型有长短期记忆神经网络，利用该模型进行预测之前，要先确定其结构和超参数，但是目前还没有统一的参数确定办法，在使用的过程中需要不断地尝试从而来达到最佳预测效果。众所周知，机器学习算法中超参数，可以定义模型属性或者训练过程，直接影响神经网络模型的性能与收敛速度。这就需要借助贝叶斯优化方法来确定长短期记忆神经网络模型超参数，充分发挥其价值。采用贝叶斯优化算法是基于全局优化理念，通过大量的样本数量来拟合目标函数的概率分布，从而达到优化模型超参数的目的。长短期记忆神经网络模型分为4层，输入层、神经网络结构层、全连接层和输出层。输入层的作用是将之前取得的态势值输入到预测模型中；神经网络结构层将对其进行计算分析，并获取输出；连接层可以处理非线性关系，对结构层的输出数据进行加权处理再传输给输出层；输出层输出模型预测的网络安全态势值[3]。

利用网络安全态势预测模型进行态势预测的时候，需要构造训练集和测试集，将网络安全态势评估方法中得到的态势值表示为{x1,x2,…,xt}，xt就是t时间系统的安全态势值。在预测的时候，要根据前一刻的数据得到后一时间的数据，这就需要对得到的数据进行训练，将这些数据分为输入、输出两个部分，如表1所示。

表1 输入、输出数据

然后，利用贝叶斯优化模型的超参数训练模型，进而进行态势预测。需要注意的是，评价指标有绝对平均误差、均方误差和均方根误差。

(4)

(5)

(6)

4 网络安全态势感知系统的实现

网络安全态势感知系统的实现要明确系统的整体架构，详细划分系统模块。一般来说，网络安全态势感知系统模块分为5个部分，即数据采集块、态势评估模块、态势预测模块、可视化展示模块和管理模块。

网络安全态势感知系统要满足5个方面的需求。第一，数据采集。就是在网络数据中，快速、全面、及时地收集影响网络安全的各项指标，这就需要借助开源安全信息管理系统(OSSIM)作为数据采集工具，OSSIM可以实现安全功能监控，是一种集中式、有组织的监测和显示框架式系统，此外，还可以对原始数据进行处理和分析，减少网络安全态势感知系统在数据处理方面的工作。第二，态势评估模块。将数据采集处理好的指标信息进行分析计算，客观得出当前的网络安全态势值。首先，要对收集的数据信息进行预处理；其次，利用模糊层次分析法计算各个指标的权重，确定组合权重，对威胁性、脆弱性、稳定性的证据进行推理评估；最后，将网络安全态势感知系统所得的数据进行量化处理，并存储起来，将其作为历史指标数据进行保存，方便后期查询。第三，态势预测模块。根据历史态势预测未来的网络安全态势走向，这里需要借助人工神经网络模型，构建模型结构，对其进行训练后再利用模型进行态势预测。第四，可视化展示。可视化展示模块需要为管理人员提供直观、清晰的可视化界面。界面内主要包含历史动态展示、当前态势展示、未来态势展示以及各项数据指标。第五，管理模块。管理模块主要由管理员操作态势感知流程，分为任务管理和数据管理两个方面。任务管理模块主要是对数据请求进行处理，并控制整个态势感知的流程。数据管理是管理员处理数据请求的过程[5]。

5 结语

网络安全态势感知技术是网络时代快速发展的产物，机器学习技术也日趋成熟，将机器学习算法应用到网络安全态势感知评估和预测方面，可以发现网络运行环境中潜在的安全隐患并及时对其清除，保障网络运行安全。在网络态势评估方面，可以采用基于证据推理方法来完成对网络安全态势的评估，采用长短期记忆神经网络模型来完成网络安全态势预测，提高了网络安全态势预测的准确性。