APP下载

基于多元异构网络安全数据可视化融合分析方法

2022-11-11张玉龙

电子技术与软件工程 2022年15期
关键词:信息熵异构标志

张玉龙

(日照市妇幼保健院 山东省日照市 276800)

现阶段,计算机计算的应用及发展规模越来越大,尤其是大数据信息时代的到来,使得网络更加得到普及,网络技术也有更高的提升,但同时也会出现一定的网络安全问题。在大数据时代下,数据量增加,导致数据安全隐患也随之增加,例如,分布式拒绝服务功能通常会从若干个设备上对单一的目标主机进行攻击,并且攻击形式往往呈现一定的多样化,出现了一系列新式攻击方法,使人们防不胜防,攻击过程中出现的变化也越来越快,对于有预谋、有组织的一次网络攻击,会涵盖若干步骤及多种应变方案[1]。为了确保网络安全能够满足需求,相关技术人员已经针对网络安全问题开发了各种各样的设备和软件,例如,防火墙系统、流量监控系统、计算机状态监控系统以及入侵防御系统等,这些设备和软件在运行中均能够形成较多日志,由于来源于各类传感器,因此,各指标以及格式均存在差异,各应用领域出现的安全事件都是独立予以记录。这些安全事件往往存在一定的联系,若将这种联系割离,人们只能面对零散、片面的安全问题,在大数据时代下,怎样实现对网络的有效监管,并从海量日志之中快速的将问题及时发现,对网络态势进行感知,这些方面均是当前对网络安全方面展开研究的重点话题。

1 多元异构网络安全数据可视化融合概述

网络安全数据可视化技术属于当前各学科之间相互融合的一个新兴研究领域,主要是通过人类视觉对结构模型进行获取的一种技术方法和能力,可将海量多维数据以及抽象化的网络通过图像的形式予以展现,从而将网络安全相关数据之中所隐含的模式、变化趋势以及规律全面、快速的发现,从而有助于网络安全分析人员对自身认知提升,并能够将网络安全相关问题予以有效的预测、掌控和解决。对于这种可视化技术的发展主要是从2004年网络安全可视化会议开始的,自该会议提议后,可视化工具研发和出现的频率越来越高,常用的工具包括Flow-Inspector、TVi,这两种工具主要是对网络流进行研究的,而Portall则主要是对主机状态进行监控,IDS View以及Avisa则重视对入侵检测数据进行研究,但这些可视化工具在对整体网络安全的状态以及相应数据的全面性掌控存在一定的局限,导致此领域可视化技术仍有待于发展,并且网络信息瞬息万变,需要通过有效的网络态势评估实现此项工作的实时性[2]。

数据融合是1973年由美国国防部提出的,当时主要应用于声纳信号的处理,该技术应用的目标是通过若干传感器获取完整的环境信息,但关键的问题是要对融合算法进行恰当选择,常用的融合算法主要划分为人工智能算法以及随机算法,其中,随机算法主要包括卡尔曼滤波法、证据推理法则、加权平均法、产生式规则以及多贝叶斯估算法等[3];人工智能算法则包括神经网络、模糊逻辑、专家系统以及粗集理论等方法,伴随信息技术的持续推广发展,网络安全相关设备和系统软件也在持续发展更新,怎样通过多元异构网络安全数据对网络安全开展可视化协同分析,是当前研究的一个重要趋势方向。

随着IDS Radar等多元异构网络安全数据可视化技术的持续发展,人们能够使用这些技术从大量误报信息中鉴别出异常模式,也可以通过安全数据开展适当的特征分析工作及关联发现,还可以对数据进行整合,从而对网络安全的态势进行有效感知[4]。但多元异构网络安全数据可视化融合技术仍处于发展中,在数据源选择、可视化设计以及融合数据特征等方面仍处于探索之中。

2 基于多元异构网络安全数据的可视化框架

为了对基于多元异构网络安全数据的可视化融合分析方法进行研究,首先要掌握可视化框架,本文从多元异构数据集选择、微观细节层面以及宏观趋势才能进行展示,从而通过掌握可视化框架对融合分析方法进行有效、全面的研究。

2.1 多元异构数据集的有效选择

若要对网络安全进行可靠分析,必须要掌握安全数据源,对数据源进行合理有效的选择能够提升判断的全面性与准确性,使判断难度降低。但因当前网络系统具有一定的复杂性,且网络安全相关产品的种类也非常丰富,导致系统运行时会出现较多的多元异构网络安全数据,这些数据之中有些是有效的、有利用价值的,也有些数据是无效的、无实际价值的,所以在数据集选择时要保证数据的广泛性、丰富性、代表性、实时性以及可靠性,降低数据冗余性[5]。本研究选用的数据源于VAST Challenge提供的某大型内网1000多台主机及服务器之中出现的日志,可将多元异构数据集划分为网络流、主机状态以及IPS三类,此三类数据集的传感器分布在交换机、主机以及出口设备上,对网络之中的数据变化进行监控,其中,网络流记录了子网流量出现的变化细节;主机状态则反映子网对象性能出现的变化细节;IPS则发挥着对有害连接检查的作用,将三者有机结合,不仅能够选出有代表性的多元异构数据集,而且还能够对各层次网络数据机器安全情况出现的变化进行实施掌控。

2.2 微观细节的有效展现

2.2.1 标志符号与树图之间的相互补充

本研究所采用的多元异构网络安全数据可视化技术是将标识符号与树图之间相互结合的一种技术,能够将某一时间窗口之中体现的网络安全情况进行全面展示,在层次结构数据表达方法之中,树图是一种常用方法,主要适用于多层次、海量数据集的观察,而标志符号则能够陈述性及象征性的对多元异构数据集中的若干变量进行表达,具有便于放置、灵活小巧的优点[6],能够嵌入到树图之中,使树图结构出现的维度不足问题得意有效改善,将标志符号与树图之间有机结合能够使图像信息表达的完整程度和丰富程度得到有效拓展。

如果管理目标存在多个IP,则屏显空间则会受到更多的限制,为了有效规避拥挤问题,本研究依照具体的子网规划,并将其与树图之间结合开展管理工作,本研究选取的网络内部主要通过B类来对地址进行保留,大体划分为三个子网,即172.10/20/30.0.0/16,各子网形成了一块区域,并在各区域内绘制需要管辖的主机,从而实现“全网——各子网——对应主机”的分层式管理。

在树图之中,矩形颜色以及尺寸可选择对网络流流量、流速、IP数等特征进行标识,矩形空间之中可防止IPS信息以及主机状态,矩形框代表主机,其尺寸代表柳树,并且矩形框尺寸与流数之间成正比,而颜色则代表流量,如果颜色越深则流量越大,与此同时,可以对某一子网进行放缩处理,从而实现深度钻取。针对某一主机的特征而言,树图之中不仅能够对当前子网进行对比,而且还能够对全网进行对比,在树图之中的矩形空间之中,图标代表着硬盘、内存、网络连接、CPU、数量信息以及IPS警报等内容[7]。主机的状态图标中,颜色及标志显示的是主机状态,例如,黄色带有叹号标志的代表主机出现警示,绿色带有加号标志代表主机正常运行,红色带有叉号标志代表主机出现故障问题,蓝色带有问号标志代表主机并未收到任何状态信息。当IPS警报带有盾牌标志表示出现警告,并且其颜色代表不同的严重度,其中绿色代表没有危害或是出现轻微危害,黄色代表出现中等程度的危害,红色代表出现严重危害,该标志右侧设置了五档指示条,代表警报数量。由此可见,将标志符号与树图之间进行结合,能够将树图之中包含的各类信息表达出来,还能够弥补两者各自存在的缺陷,实现互补。

2.2.2 选择合理的树图算法

对于树图的算法的种类比较多,常见的算法包括Squarified、Spiral、Pivot等,各种算法适用场合存在差异,例如,Squarified对于数据量庞大的分析任务比较适用;Spiral对于高稳定性、高连续性的分析任务比较适用;Pivot对于一些受时间动态变化所影响的数据集分析比较适用,由于树图之中包含的数据量信息比较庞大,所以本研究所选择的树图算法为Squarified算法,该算法的优势主要表现在以下几个方面:

(1)该算法简单化、直接画,更加利于树图的快速生成,尤其是针对一些海量的攻击性数据而言,该算法能够确保可视化能够满足实时性的要求,例如,当可视化系统受DDoS攻击的情况下,便可通过此算法生成树图;

(2)该算法的排序方式为降序,通过这种排序方式对矩形进行排列,这对于整个网络或者是子网之中负载重、被攻击等代表性对象的表现更为有利[8];

(3)所生成的矩形更加接近于正方形,更加利于一些标志符号置入其中,从而提升图形的美观性和可读性;

(4)在对图形特征分析时,可通过指数函数进行快速的分析。

2.2.3 分析树图的特征

网络流是否正常主要受树图分布的实际情况所制,如果树图的图像处于比较分散或者是集中的情况下,网络非常容易发生异常事件,当网络流正常的情况下,矩形分布中规中矩,且标志符号显示正常,当树图出现拒绝服务时,矩形分布规格较大,且标志符号会消失,界面不会出现任何信息,当出现端口扫描时,也表示网络异常,此时的矩形分布比较错乱,且界面不会出现标志符号,以下通过指数分布函数来做描述。所谓指数分布指的是一种概率分布,该概率分布具有连续性,主要是用于对独立随机事件出现的时间频率进行描述,例如,网页连接的出入度、旅客进入到车站的时间间隔等,均可采用指数分布来进行描述。通过数据流的统计以及分析不难发现,网络流与指数分布的总体规律大致相符,具体见图1。

图1:实际流数与指数分布概率密度分布图

为了能够更加便捷的对数据进行分析,本研究采用指数分布的方式对柳树分布进行分析,即:

若λ≥0.3,则图像表示仅存在较少的矩形块,主要是因少数主机受较多的网络流攻击,这与拒绝服务的特征相符;当λ介于0.1~0.3之间(含0.1但不含0.3),则图像表示矩形大块周围环绕较多的矩形小块,主要是因为在目标网络之中,用户机以及服务器是存在的,当服务器存在较大负载量的情况下,会导致数据流急剧增加,所以树图之中显示鸽子王左侧空间被占据较大部分,其他用户流量则相对较小,表示其紧贴于大块边缘处;当λ<0.1的情况下,图像会出现均匀分布,主要是因为目标网络主机受到的网络流比较均匀,于端口扫描表现出的特征相符。

2.3 宏观趋势的有效展现

2.3.1 时间序列图的展现

时间序列图在展现时主要是适用曲线或者是线段来将各数据点进行连接的,从而能够将数据在各维度出现的变化趋势直观的反映出来,所以时间序列图在未来趋势预测、数据解释以及主因检查等方面发挥着重要作用。针对多元异构网络安全数据而言,需要对其进行仔细考虑,必须选出能够对数据变化趋势反映的八个维度,本研究选择了的八个维度主要包括源地址、源端口、源流每包字节数、目标地址、目标端口、目标流每包字节数、被拒连接数以及主机状态值,具体来源和处理方法见表1。

从表1中可以了解到,维度1~维度6均来源于Net flow,维度7来源于IPS,维度8则来源于Host Status,由此可见,表1中的八个维度均来源于不同的异构数据源,并不能直接对其使用,为了使网络安全的态势得以有效、准确的体现,本研究对来源不同的维度采取不同处理方法进行处理,对维度1~维度6采取信息熵处理方法进行处理,将其作为度量指标,其主要目的是将数据流出现的不定向变化予以降低,维度7的处理最为简单,通过统计值的方法直接对被拒统计量进行使用,维度8通过综合加权法处理,将胳臂关键性指标突显出来。

表1:反映数据变化趋势的八个维度及其来源和处理方法

续表2:时间序列的主要特征

2.3.2 具体处理方法分析

从表1中的维度1~维度6中,若X属于其中的离散随机变量,则可以将信息熵作出定义,其表达式如下:

式中,p(xi)代表观察时间段类Xi产生的频率。信息熵主要作用是将人对事物不确定的一面消除,若数据汇集在某一点,则表示数据的值相同,此时信息熵即为0;若数据具有分布广、数量多,则这种情况下信息熵也会较大。为了能够将时间窗口t之中的网络状态正常与否进行确定,本文将交叉熵引入到研究之中,将其定义为:

式中,P和Q属于离散分布;pi和qi代表P和Q的分布函数。单个信息熵仅可对某一观测点静态分布的情况进行体现,交叉熵既能够考虑流量在空间上的分布,又能够考虑到具备差异性的两个观测点在流量方面出现的动态变化。当交叉熵越小时,则越需要更多的信息来对P和Q加以区分,为了使计算简化,α一般取值为0.5。

为了能够将当前时间段对应的数据流正常与否进行确定,需要对当前的正常观测点和观测点及其与上一观察点之间的变化进行对比,从而确定当前状态正常与否。对于一些简单、短期的攻击能够通过状态偏离常态来发现其异常,而目前攻击的特点主要呈多样化、系统化、长期化,所以通过这种方法必须通过与上一状态进行对比更容易对连续性变化进行观察。

2.3.3 分析时间序列的特征

当网络出现异常状态的情况下,时间序列之中的个别维度会出现急剧变化,将这些变化掌握便可从宏观角度将问题有效发现,时间序列的主要特征见表2。

表2:时间序列的主要特征

从表2中可以得出,若主机上出现恶意软件并对网络中某一端口扫描,则这一时间窗口的内源IP便会聚集在一台扫描主机上,并且目标端口会产生较多的相同被扫描端口,目标IP变宽。其具体表现如下:

(1)源地址信息熵会出现显著降低,目标端口的信息熵会非常小,而目标地址信息熵会显著变大,主机状态受端口扫描的影响不明显,主机状态值会相对比较平稳,但被拒连接数因扫描被阻止而出现增大的现象。

(2)若发生单元拒绝服务,则源IP主机中很多端口会出现海量攻击连接包发往目的IP,这种情况下必然会导致源端口信息熵变大,并且目标地址信息熵以及目标端口信息熵出现降低的情况,主机状态值会因为主机受到攻击而出现状态的急剧恶化,而被拒绝连接数也会因主动阻止攻击而出现升高的情况。

(3)若网络流处于正常状态,则全部信息熵出现的变化将会比较平缓。

2.4 优势分析

对于既往对单方面来源的网络安全日益进行分析的做法,本文通过可视化分析的方法将多元异构网络安全数据的可视化进行融合分析,主要是为了提升异常识别、网络状态识别以及模式识别的准确性和整体性。本研究从多元异构王戮安全数据之中提取了八个维度的主要数据来对网络态势进行展示和分析,对于八个维度采取了不同的算法进行特征提取,其中,前六个维度采用了信息熵法,被拒连接数采取了统计值法,主机状态值采取了综合加权法,通过八个维度及对应采取的算法,使得本研究的时间序列图得以有效绘制,通过对图像特征进行简单的分析和皮皮额,使相关分析人员能够对网络出现的问题进行直观的了解,并发现攻击采用的模式。同事,与点阵方式对内部主机进行表示对比而言,本研究采用了标志符号与树图结合来进行表示,能够对大型网络或者是超大型复杂网络进行分析,并不会出现空间不足的情况,也不会出现图像拥挤、图像无法辨识的不良情况,从而使图像闭塞性问题出现的概率降低。并且通过标志符号来对树图表现的维度进行扩充,可实现系统的融合能力和可视化效果。

3 结语

综上所述,多元异构网络安全数据的可视化融合分析是当前研究的热点话题,本文通过筛选多元异构网络安全数据,对关键性的特征予以提取,通过标志符号、树图以及时间序列相结合的方式,可以帮助相关工作人员对网络态势进行全面分析,及时将出现的异常状态予以识别,了解攻击模式,基于此,这种可视化融合模式可以在实际网络安全分析中投入应用并推广。

猜你喜欢

信息熵异构标志
基于信息熵可信度的测试点选择方法研究
多功能标志杆的使用
试论同课异构之“同”与“异”
认标志
基于信息熵的实验教学量化研究
异构醇醚在超浓缩洗衣液中的应用探索
一种基于信息熵的雷达动态自适应选择跟踪方法
overlay SDN实现异构兼容的关键技术
LTE异构网技术与组网研究
基于信息熵的IITFN多属性决策方法