网络安全态势感知综述
2023-01-14杨宇谷宇恒
杨宇, 谷宇恒
(武警工程大学信息学院, 西安 710086)
当今世界,信息技术日新月异,网络空间迅速发展,极大改善了人们生产生活环境,同时也带来了各类安全风险挑战。特别是近年来,各种网络安全事件频发,中外敌对势力加紧了对中国军事、政治、经济等重要领域数据信息的窃取和破坏,国内以盈利为目的非法组织利用网络从事攻击破坏活动日益猖獗,致使中国网络安全环境面临着严峻威胁。网络攻击自动化正在缩小攻防双方之间的信息与技术差距,网络安全态势感知可以实现对系统漏洞和威胁的理解,并据此对系统的安全状况进行更加全面的评估和预测[1]。基于互联网设计之初的开放性和互通性,许多网络协议并不安全,软件系统设计也常常存在漏洞。入侵检测系统(intrusion detection system,IDS)[2]、防火墙、漏洞扫描等传统防御技术无法提供智能高效的网络安全分析和预测服务。因此,研究和发展能够保障网络可靠运行的安全防御手段刻不容缓,网络安全态势感知技术的重要性不断显现。
1 网络安全态势感知概况
1.1 态势感知
态势指事物发展的趋势与状态,是一个整体和全局的概念,任何单一的情况和状态都不能称之为态势[3]。态势感知对于操作人员在复杂系统中实施决策是不可或缺的,这一概念最早在军事领域被提出,主要应用于军事作战、航空航天、核反应堆控制等领域,这些领域的一个共同特点是具有复杂的操作控制系统,决策者通常需要观察、理解和分析海量的数据以精确完成任务,耗费了决策者的大量精力,并对决策者的认知水平提出了较高要求。
Endsley[4]于1988年给出了态势感知的明确定义,即“在一定的时间和空间范围内感知环境中的元素,理解它们的意义,以及对它们在不久将来的发展趋势与状态进行预测”,与此定义对应的三级态势感知概念模型如图1所示,该模型奠定了传统态势感知领域的基础。注意力和工作记忆[5]被认为是限制决策者从环境中获取、理解要素并形成态势感知的关键因素。但当面对开放的复杂巨系统时,决策者往往很难实时客观地做出分析和判断,将注意力机制与深度学习模型相结合正被广泛地应用于建模和预测复杂的系统中,并且在解决基于感知和记忆的任务中取得了良好的效果[6-7]。除此之外,Endsley等[8]指出目标是态势感知发展的核心,态势感知过程在数据驱动(自下而上)和目标驱动(自上而下)之间交替进行。在数据驱动下,感知到的信息要素经过融合处理与关联分析,可能得到新的有价值的目标;在目标驱动下,目标作为一个过滤器可以解释所感知的信息,同时决策者将根据目标有针对性地收集、理解信息要素,并将其与目标进行比较,以期获得有价值的态势感知结果。
1.2 网络安全态势感知
Bass等[9]于1999年首次将态势感知与网络空间相结合,提出了网络态势感知这个概念,并指出多源异构式网络传感器的数据挖掘与融合是实现网络态势感知的关键[10]。由于Bass等[9]并未给出网络态势感知的明确定义,导致目前该领域的概念尚未统一。针对现状,中外学者做了大量的研究与工作。Franke等[11]将网络态势感知看作态势感知中涉及网络环境的部分,认为网络态势感知是态势感知的一个子集。龚俭等[12]认为网络安全态势感知与态势感知是类型与实例的关系,并从态势觉察、态势理解、态势投射三个层面提出一个网络安全态势感知功能模型。石乐义等[13]分析了网络安全态势感知的各类关键技术,并对相关应用领域进行了归纳梳理。李艳等[14]从数据价值链角度出发,提出一种便于数据处理和工程实现的网络安全态势感知逻辑分析框架,为网络安全态势感知的工程实现提供了参考。Liu等[15]从自动控制角度出发,提出一种认知意识控制模型(cognitive awareness-control model,CACM),该模型采用粒子群(particle swarm optimization,PSO)优化的D-S证据理论融合多源异构数据,并提出一个基于历史态势的Q值强化学习(HS-QRL)机制,实现了自动感知威胁情况并反馈调节系统状态的功能。
本文研究详细阐述了基于数据融合的网络安全态势感知系统框架,即在一定时间范围内对网络安全态势要素进行采集、预处理,通过逐层分析、融合安全态势要素并结合数学模型、规则推理、模式识别等态势评估方法,综合掌控网络系统的安全态势,并对未来网络安全趋势做出精准预测,其基本研究框架如图2所示。
图1 态势感知概念模型[4]Fig.1 Conceptual model of situation awareness[4]
图2 网络安全态势感知框架[14]Fig.2 Network security situation awareness framework[14]
2 网络安全态势提取
2.1 数据采集
网络安全态势提取是网络安全态势感知的基础,在复杂网络系统中高效、精准的采集网络安全数据是网络安全态势提取的前提。数据采集从采集方式可分为单一要素采集和多源数据采集,由于当前网络攻击的复杂性,学者们越来越倾向于多源数据采集。文献[16]强调了靶向数据采集的重要性,并将网络安全态势感知数据分为资产、漏洞和威胁三个维度,针对不同维度数据,需要采用不同的技术进行采集,如表1所示。Wireshark是一款功能强大的网络封包分析软件,可以截取各种网络封包,获取网络流量数据并显示网络封包内的详细信息(源IP地址、目的IP地址、协议、部分数据、捕获时间等)。Syslog、Flume等通过将网络上各种设备的日志数据收集到日志服务器,可以实现对多种事件类型的日志消息的采集。由于网络系统的复杂性,为了获取全面的网络数据,还可以采用Snmp、NetFlow等协议获取系统的网络拓扑结构等信息。除此之外,针对传统的基于签名的网络安全工具所面临的实际困难,使用蜜罐技术[17]或张量分析[18]等技术查找涉及内部和外部攻击者的恶意网络流量取得了较好的效果。
表1 多源数据采集方法[16]Table 1 Multi-source data acquisition method[16]
2.2 数据预处理
通过不同的采集工具得到的海量网络安全数据往往是多源异构的,且存在大量冗余数据。此时需要对多源异构数据进行数据清洗、集成、规约、变换等预处理工作,初步得到网络安全事件,以便计算网络安全态势指数。一个网络安全数据集可能包含许多冗余或不相关的特征,这阻碍了机器学习算法的训练效率。通常,机器学习算法可根据统计特征对网络安全事件进行分类/评估,然而处理海量流量数据的多维度特征将导致漫长的训练过程,特别是当训练数据的特征高度相关时模型的预测准确性不会按比例提高[19]。从训练数据集中选取重要性靠前的特征是提高机器学习模型分类精度和训练时间的有效方法。针对该问题,文献[20]通过改进基于条件熵的属性简化算法,采用并行简化的思想构造属性重要性矩阵,并与邻域粗糙集相结合,在NSL-KDD数据集的41个流量特征中筛选出13个重要性靠前的特征输入到Classifier-tree-J48分类器中进行训练。实验结果表明,与未经特征选择的数据集相比训练时间由0.45 s降低到0.37 s,提升了训练速度。文献[21]使用一种集成方法,通过设定阈值,采用Information gain、Gain ratio及Relief 3种特征选择方法选择最重要的特征,并将所选择的特征组合到一个特征集中,最后将筛选出的15个顶部特征输入到Random Forest等机器学习分类模型中进行训练,有效提高了感知模型的准确率。
然而在真实的网络攻防环境中,常常有少量攻击流量混杂在海量正常数据中,以此躲避IDS的检测,导致检测结果出现偏差,单靠特征选择方法无法解决网络安全数据不平衡的问题。针对该问题,文献[22]将大规模数据浓缩成事件概况,并与不同的人工神经网络(全卷积神经网络、长短期记忆网络等)相结合,迅速处理大量安全警报的同时专注于区分真阳性和假阳性警报,从而帮助安全分析师快速应对网络威胁,减少了虚警概率造成的影响。文献[23]采用主成分分析(principal component analysis,PCA)算法进行数据降维,利用Xgboost算法对约简后的特征进行分类,提高了态势要素提取的实时性和准确性。但这两种方法均使用有监督的学习训练方式处理约简后的数据,在未知网络威胁事件的检测方面还有待提高。针对该问题,文献[24]提出了一种基于生成和进化网络的未知威胁检测方法(IDM-GE),其中生成对抗网络用来平衡数据集,使分类器更好地学习区分正常流量和攻击流量的特征;进化算法将未知威胁的特征从已知威胁中推测出来,提高了对未知威胁数据的检测精度;实验结果表明该算法与传统的残差神经网络(ResNet)算法相比具有更高的检测准确率和召回率。文献[25]采用Borderline-SMOTE算法对数据进行过采样,然后将采样后的数据输入自动编码器进行特征降维,以提取主要特征,最后将降维后的数据输入LightGBM分类模型中来识别入侵,解决了智能配电网络中存在的大量冗余网络流量特征和数据不平衡的问题,满足了智能配电网络安全防护的实时性需求。文献[26]将深度卷积生成对抗网络与深度神经网络相结合,通过深度卷积生成对抗网络学习已知攻击样本数据的内在特征分布并生成新的攻击样本,提升了训练稳定性。使用CIC-IDS-2017数据集作为实验样本对模型进行评估,与传统的过采样算法(random over sampling、SMOTE)相比具有较高的检测率。针对车载自组织网络(VANET)容易遭受恶意流量攻击的问题,文献[27]提出一种基于多目标优化算法(FS-MOEA)的特征选择算法,将偏差加权法用于为稀有类分配更高的优先级,从而解决数据不平衡的问题,采用information gain (IG)-analytic hierarchy process (AHP)自动搜索多解决方案中的最优特征子集,最后在用来表示VANET的无线入侵检测数据集(AWID)上进行了测试,实验结果表明,该方法不仅可以提高车载自组织网络中的入侵检测性能,还可以缓解因数据不平衡问题带来的负面影响。
3 网络安全态势评估
网络安全态势评估向下结合安全要素和评估模型,关联和融合各类安全事件;向上为态势预测提供态势信息和决策支持,是网络安全态势感知的中心环节。目前的态势评估方法按理论基础主要可分为基于数学模型、基于知识推理、基于模式匹配3类,如表2所示。下面对几种常用的态势评估方法进行了归纳与分析。
表2 网络安全态势评估主要模型
3.1 基于AHP的态势评估方法
层次分析法(analytic hierarchy process,AHP)由美国运筹学家Saaty于20世纪70年代中期提出[28],其核心思想是将复杂的决策过程划分层次结构,并构造判断矩阵,得到各目标要素的权重系数,达到定性与定量评估相结合的目的。
文献[29]基于大量入侵检测系统的告警信息和服务信息,采取自下而上、先局部后整体的评估方针,结合攻击漏洞层、服务层、主机层、系统层4个层次,逐层计算指标权重,直观了解各层安全态势。但是该方法没有综合考虑多种安全信息来源,在获取宏观网络安全态势方面还有待提高。针对该问题,文献[30]通过AHP和熵权法从主观维度和客观维度对属性权重进行改进,形成权重决策矩阵的组合,同时计算业务节点重要性系数,对物联网网络安全事件进行有针对性的监控,在通过物联网影响业务系统的智能手机发生信息安全事件后,分析关键业务节点对业务连续性的影响,计算业务连续性风险值,有效评估了业务风险。文献[31]提出一种基于微分流形的网络评估方法,将AHP和通用漏洞评分系统(common vulnerability scoring system,CVSS)相结合以评估资产维度和漏洞维度的网络安全态势,采用数据挖掘的方法评估威胁维度的网络安全态势,综合感知了网络安全态势并具有较好的实时性。针对网络安全评价指标片面、难以严格量化的问题,文献[32]提出一种基于AHP和灰色关联分析相结合的网络安全评估方法,通过虚拟机模拟网络攻防环境并捕获相关网络流量,构建了包含主机环境安全、网络安全和漏洞安全的多维系统安全性评价模型。实验表明,该方法克服了利用传统AHP方法来量化系统安全性的不足,能够准确、有效地量化网络的综合安全性。
3.2 基于博弈论的态势评估方法
在网络对抗环境中,攻击和防御行动往往瞬息万变。然而传统态势评估技术大多只关注攻击或防御一方,忽略了攻击和防御双方相互作用、相互影响的博弈过程。博弈论指对局者在特定条件制约下的对局中利用相关方的策略,调整优化自己的策略进而达到取胜的目的。目前,博弈论已广泛应用于网络安全态势感知领域中。
由于攻守双方的对立性,决策者常常很难选择具有最大回报的防御策略。针对该问题,文献[33]以马尔可夫博弈模型为核心,通过四级数据融合并结合纳什均衡点,较好地展示了网络攻防安全态势。文献[34]结合攻防策略图,采用攻防策略选取算法以及混合策略纳什均衡求解方法,获得了最佳防御策略。然而以上方法均没有考虑系统运行环境的变化,无法准确描述实际网络攻防的过程。针对该问题,以下3种方法通过引入随机扰动强度因子来模拟系统运行环境对博弈过程的影响。文献[35]利用随机微分方程的知识,找到模型的演化均衡解,并应用显式欧拉数值法分析不同问题情况下对局者策略选择的演变,取得了良好的防御效果。文献[36]通过改进基于网络拓扑的学习机制,建立了基于对局者学习范围的学习对象集,使用费米函数计算向学习对象策略过渡的概率,有效反映了网络攻防态势。文献[37]提出一种鞍点均衡解方法,通过建立攻防随机微分博弈模型,在具有随机扰动的网络攻防场景中实现了实时防御决策。
然而,随着网络攻防博弈的不断深入,对局者相互获取的信息也越来越多,这可能导致传统博弈模型的安全防御策略失效。针对该问题,文献[38]提出一种奖励价值学习机制(reward value learning mechanism,RLM),通过分析已经发生的对抗信息,RLM自动激励或惩罚下一阶段的攻击和防御奖励值,有效提高了防御成功的概率。文献[39]采用随机演化博弈模型模拟网络攻防过程,通过将参数$lambda $ 添加到 Logit 定量响应动力学方程中,以量化现实对局者的认知差异,通过计算进化稳定均衡,给出最佳决策方法。实验表明,该方法可以帮助防守方成功预测勒索软件的攻击行动,同时随着时间推移实时提供最佳防御策略。
3.3 基于机器学习的态势评估方法
网络系统所面临的威胁来自各个方面,决策者常常面临大量的安全数据,且攻击者的攻击时间往往是随机不确定的。这给网络安全态势评估的准确性和实用性带了很大挑战。机器学习可以通过训练建立分类模型,在处理复杂的非线性问题方面具有很大优势。按照数据分析和模式构建的不同可将机器学习分为监督学习、无监督学习、半监督学习[40]和强化学习[41]4类,如表3所示。
传统机器学习算法如支持向量机(support vector machines,SVM)、随机森林(random forest,RF)、决策树(decision tree,DT)、LIGHTGBM等计算量小,且具有较好的鲁棒性和泛化能力,与参数寻优算法相结合可以提高评估模型的效率和准确性。文献[42]将改进的遗传算法(genetic algorithm,GA)与支持向量机算法相结合,在CIC-IDS—2018数据集上获得了95%的评估准确率。文献[43]提出一种基于欧氏距离的类间自学习算法(euclidean distance-based between-class,EBC),通过计算不同类的k个最近邻之间的欧氏距离来改善类间学习,并将改善后的数据输入随机森林、决策树等分类器中进行分类评估,在真实工业流量数据集上的实验结果表明,所提出的EBC学习具有较强的空间约束能力,提高了识别性能,有效推动了信息物理系统的研究和部署。文献[44]基于监控和数据采集(SCADA)的电网入侵系统提出了一个集成框架,采用基于递归特征消除-极限梯度提升的特征选择算法选择顶部流量特征,将特征选择后的流量数据输入包含9个异构分类器的多数投票融合方法进行分类,在电网系统安全数据集上的实验结果表明,该模型可以快速准确的捕获网络流量中的恶意事件,满足了电网入侵检测系统高实时性和准确性的需求。然而SVM等传统机器学习算法在大规模训练样本上难以实施,且在多分类问题上存在一定困难。
表3 机器学习的主要算法及分类
深度学习是机器学习的一个热门领域且更适用于解决大数据集训练问题。文献[45]分析了深度学习和传统机器学习方法之间的区别与联系,详细介绍了自动编码器(auto-encoders,AE)、卷积神经网络(convolutional neural network,CNN)、受限玻尔兹曼机(restricted Boltzmann machines,RBM)、深度监督网络(deeply-supervised nets,DSN)以及长短期记忆网络(long short-term memory,LSTM)等深度学习算法的结构和特点。针对传统的网络态势评估方法无法有效评估分布式拒绝服务攻击(distributed denial of service,DDoS)的问题,文献[46]将CNN、LSTM和Back Propagation算法相结合来学习各类安全态势指标,提高了网络安全态势评估的准确性。但该模型训练效率较低,无法达到实时评估的需求。针对该问题,文献[47]采用无监督多聚类特征选择算法(multicluster feature selection,MCFS)筛选重要性靠前的特征,将变分自编码器(variational autoencoder,VAE)和生成对抗网络的鉴别器相结合,学习了各层网络的重构误差,计算出训练的异常阈值,根据异常阈值检测恶意攻击流量,在HTTP CSIC 2010、ADFA-LD、ISOT、UNSW-NB15 4个数据集上的实验结果表明,该模型克服了传统的基于监督的网络威胁情境评估方法的局限性,高效感知了物联网的网络安全态势。文献[48]提出一种基于对抗性深度学习的网络安全态势评估模型,利用深度自动编码器执行特征学习,采用深度神经网络(deep neural networks,DNN)实施分类,并通过欠采样加权算法(under-over sampling weighted,UOSW)提高模型对少数网络威胁的识别能力,取得了较好的泛化性和鲁棒性。文献[49]通过PCA算法对流量特征进行数据降维,运用深度可分离卷积神经网络和双向长短期记忆网络提取网络流量数据的空间特征和时间特征。在KDDCUP99数据集上的实验结果表明该模型具有较好的准确率和较低的漏报率。文献[50]以真实汽车采集的车载控制器局域网络数据为基础构造出具有11维特征向量的车联网安全数据集,并在门控循环单元(gate recurrent unit,GRU)上进行了分类训练和测试,达到与长短期记忆网络检测模型相当的分类准确率。
深度学习可以帮助抵御网络攻击,但也可以促进危险的攻击,即产生可以绕过检测方法的攻击,从而达到攻击者目的。针对该问题,文献[51]提出一种能够混合批处理对抗生成过程的卷积神经网络(MBAGP-CNN),以此打破可转移性攻击,实验结果表明,该方法在3种对抗性攻击数据集上获得了超过80%的平均准确率,在一定程度上缓解了对抗性攻击防御背景下的灾难性遗忘问题。文献[52]提出一种对抗性风险模型,并将网络安全中的对抗性攻击分为问题空间与特征空间两个维度,在静态攻击数据上取得了较好的评估效果。文献[53]详细介绍了网络安全领域对抗性学习模型的最新研究和进展,并讨论了在网络安全领域实施端到端对抗攻击的问题,突出了反态势感知研究的重要性。
4 网络安全态势预测
网络安全态势预测是网络安全态势感知的关键环节,通常采取时间序列分析、灰色关联分析、攻击图、贝叶斯网络、马尔可夫博弈论、深度学习等方法对当前和历史态势进行分析,预测网络系统可能面临的威胁,从而帮助决策人员或操作系统实现主动防御的目的。
灰色系统理论于1982年由邓聚龙[54]教授首先提出,主要研究信息不完全、不确定等方面的问题,在预测领域得到了广泛应用。文献[55]构建了一个基于GRA-SVM的网络安全态势预测模型,采取灰色关联分析法计算态势指数的权重并生成训练集和预测集,然后通过SVM对数据集进行建模与预测,与基于SVM的预测模型相比具有更好的预测效率。文献[56]提出一种基于灰色神经网络的态势预测方法,采用BP误差反馈算法优化神经网络参数,成功预测了云环境下的网络安全态势。
长短期记忆网络(long short-term memory,LSTM)是循环神经网络(recurrent neural network,RNN)的一种特殊形式,通过在网络中引入输入门、遗忘门和输出门,较好地解决了RNN网络中梯度衰减的问题,在安全态势预测领域取得了较好的效果。文献[57]构建了一个基于LSTM-XGBoost的网络安全态势预测模型,采用改进的双向LSTM模型(bi-directional long short-term memory)预测网络数据并利用XGBoost算法进行分类和训练,提高了网络安全态势预测的准确性。但该模型在预测数据前没有进行特征分析和筛选,容易产生数据过拟合的问题。针对该问题,文献[58]提出一种基于强化的LSTM网络安全态势预测模型,通过引入Sigmoid加权线性单元处理反向传播中的梯度问题,并将输入值乘以Sigmoid函数,加强了LSTM网络的结构,同时使用布谷鸟搜索算法(cuckoo search,CS)对参数进行优化,较好地解决了过拟合的问题。文献[59]将长短期记忆网络与决策树相融合构建检测模型,通过层次分析法计算网络安全态势要素的权重,利用堆叠式稀疏自动编码器提取网络安全态势指标以获得新的抽象特征,然后采用检测模型对特征数据进行拟合和分类,有效的预测了攻击概率并识别了攻击类型。针对当前LSTM预测模型不能充分考虑数据的时间序列属性的问题,文献[60]提出一种基于持续时间序列的新型自适应LSTM网络安全态势预测模型,通过增添一个新的掩码门,将时间序列属性加入单元的记忆更新中,使模型更适合处理具有连续数据的序列,有效提高了预测的精确性。
然而以上预测模型的泛化能力较弱,在实际网络攻防环境中的检测准确率仍有待检验。针对该问题,文献[61]构建了电力信息网络安全实验环境,模拟恶意流量对各服务器的联合攻击过程,通过基于混沌序列改进的人工蜂群算法优化神经网络的参数,在电力信息网络环境下取得了较好的网络安全态势评估精度。文献[62]从电网的静态安全性和动态安全性出发,构建了一套电网安全态势评价体系,并以IEEE39节点系统为例,验证了深度神经网络应用于电网安全预测的准确性。文献[63]采用粒子群优化算法对径向基函数神经网络进行改进,提高了径向基函数神经网络的收敛速度,在CNCERT/CC数据集上获得了良好的预测效果。文献[64]提出一种基于时间作用因子改进的兰彻斯特方程态势预测模型,从网络攻防的角度对网络态势进行评估和预测,充分考虑了网络防御和时间因素等指标的效用,提高了网络安全态势预测的准确性。但该方法没有考虑全面的网络安全威胁信息,在复杂网络环境中的准确性仍待改进。文献[65]将注意力机制与循环网络相结合,提出一种基于时空深度学习的网络安全态势预测模型,有效运用了历史时间序列的隐藏特征。实验表明该模型在预测准确性上优于自回归移动平均模型、深度神经网络等网络安全态势预测模型。
5 结论与展望
介绍了网络安全态势感知的发展历程,从态势提取、态势评估、态势预测等方面阐述了当前网络安全态势感知的体系结构、主要技术方法及优缺点。当前的网络安全数据正逐年成指数级别增长,网络安全态势提取所面临的数据源具有海量异构的特点。首先将态势提取分为数据采集和数据预处理两个阶段,归纳梳理了不同维度数据的采集工具与方法,分析了基于分布式并行简化思想处理海量异构网络安全数据的研究现状,指出其在网络安全大数据背景下的重要意义。接着从AHP、博弈论、机器学习、深度学习等方面阐述了网络安全态势评估的研究现状。通过对比发现,深度学习技术不需要手动提取特征数据且在处理非线性分类问题上具有较好效果,但需要庞大的训练数据进行调参且对计算能力要求较高,在实际网络环境的运用中还存在一定难度。当前基于深度学习的网络安全态势评估模型通常是多种神经网络的结合或是对已知算法的改进,尚未取得突破性进展。Transformer、Bert及其衍生模型在自然语言处理领域取得了突破性进展,已有相关研究人员通过迁移学习技术将其应用于恶意网络流量检测当中,并在训练效率和准确率上取得了较大进展。未来结合AE等特征提取手段,将自然语言表示模型运用到网络安全态势感知领域将会是不错的研究方向。最后结合灰色关联分析、深度学习、动态贝叶斯网络等方法介绍了网络安全态势预测的相关研究现状,将循环神经网络与SVM、DT等经典分类模型相结合可以有效提高网络安全态势预测模型的准确性。
网络安全态势感知系统是由多个组合部分相互贯穿而成的结合体,不同层次之间的信息交互将有效提高态势感知的准确性,系统内的跨层融合是十分重要的,针对不同层面需要采取合适的技术以达到综合感知网络安全态势的目的。总结了网络安全态势感知领域面临的关键问题并对未来研究方向进行了展望。
(1)复杂网络巨系统的态势感知问题。面对复杂网络巨系统,如何高效提取海量异构的网络安全数据并对其进行融合分析是当前网络安全态势感知研究的一个重点问题。对网络安全数据进行预处理和聚类是十分必要的,将其输入至分布式大数据处理平台可以大大提高网络安全态势感知系统的感知效率。采用特征选择、降/过采样、自动编码器、D-S证据理论与层次分析法相结合等方法在处理海量网络安全数据错综复杂的关系上取得了较好效果,但其在具体应用方面仍有待进一步的研究。
(2)人机交互问题。随着人工智能技术的不断发展,越来越多的应用领域与智能化、无人化结合得更加紧密。目前的网络安全态势感知系统大多仍需分析人员进行决策,耗费了大量的人力资源。针对复杂多变的网络安全环境,实现智能高效的自动响应与认知意识控制将成为网络安全态势感知领域的重要研究方向。
(3)算法协同问题。机器学习在网络安全态势感知领域取得了显著成效,集成模型和投票机制可以将异构的机器学习分类器相互组合运用、取长补短,进而获得更高的检测性能。现有的参数寻优算法各有其优缺点,找到合适的参数寻优算法对提高网络安全态势评估性能有着重要意义。
(4)对抗性攻击问题。采取经过欺骗性处理的攻击数据可以轻易突破大多数基于神经网络的网络安全态势感知模型。针对该问题,基于博弈论或对抗性风险模型的网络安全态势感知系统在静态攻击数据集上已经取得了一定效果,但其在应对动态的对抗性攻击方面仍有待进一步的研究,基于深度强化学习算法的网络安全态势感知模型将成为未来研究的重点方向。