面向大规模网络的攻击预测可视分析系统设计与研究
2015-03-03蒋宏宇吴亚东周丰凯杨文超赵思蕊
蒋宏宇 吴亚东 周丰凯 杨文超 赵思蕊
(西南科技大学计算机科学与技术学院 四川绵阳 621010)
面向大规模网络的攻击预测可视分析系统设计与研究
蒋宏宇 吴亚东 周丰凯 杨文超 赵思蕊
(西南科技大学计算机科学与技术学院 四川绵阳 621010)
由于网络安全数据量庞大和愈加复杂的网络入侵方式,传统的网络安全产品的攻击预测方法已变得不再适用。通过对网络流量日志的研究,提出了采用多模态可视化展示结构和快速异构树查询算法的实时网络流量日志可视化方法,开发并设计了大规模网络攻击预测可视分析系统Monic。结果表明,利用该系统通过交互分析能有效识别攻击者行为,预测网络攻击。
可视分析 攻击预测 网络安全 多模态 大规模网络
随着互联网逐渐成为人们生活的一部分,网络入侵给公司、组织、个人带来的损失也越来越大,网络入侵行为在数量、方式、性质和数量方面也发生不断的拓展,人们对网络入侵行为的分析也变得越来越困难。
目前,网络安全产品虽然在一定程度上都可以提供实时的防护,但是网络分析人员需要通过监视和分析相应的网络日志信息来进行可疑事件判断和分析,然后对攻击作出回应。网络日志数据大致分为防火墙数据、网络流量数据和入侵检测系统数据等,这些日志数据都具有规模庞大和高维、无结构、非数值性等特点,并且在数据关系分析层面上具有关系隐式化、时间依赖强、攻击类型复杂多变等特点,分析人员在分析日志信息时,面临认知负担过重、交互性不强、难以对攻击进行预测等困难[1]。
网络安全可视化利用人类视觉对模型和结构的高速感知能力,将抽象的网络和系统数据以图形图像的方式,通过用户与系统之间的交互展示出来,以帮助分析人员发现网络异常,识别非法入侵,从而预测网络安全事件发展趋势和分析网络安全态势[2-3],该方法不仅能够解决传统分析方法遇到的种种问题,而且能将数据具象化以发现隐含的模式,为揭示规律和发现潜在的安全威胁提供有力的支持。
网络日志数据属于非拓扑结构数据,目前多数系统针对IDS报警日志进行研究[4],但IDS存在误报率高、日志数量庞大、覆盖率低等特点,常常会发生误报、漏报的情况。对于网络流量日志[5](Netflow),因其属于未处理数据,虽然必然包含网络入侵者的痕迹,但其存在信息量少,潜在模式难以挖掘等困难,使得排除冗余信息变得至关重要。该工作基于Netflow数据,旨在减少IDS分析的误差,对于提高分析结果的准确性具有重要意义。
针对网络安全数据进行异常检测、入侵发现、模式分析以及监控、报警的显示绘制方法有很多,例如常见的Parallele Coordinate[6],Color Map[7],Scactterplot[8]等,其中Parallel Coordinate 在识别用户模式和发现异常方面具有优越性,但是当面对庞大数据时,图形之间重叠遮挡会给分析数据带来困难,需要其他的方法来进行辅助。Color Map 一般用于显示IP地址和端口信息,易检测出异常信息和入侵模式,但同样不适用于大规模数据。适用于大规模日志数据的有Scatterplot,但是会因其没有数据过滤功能而造成信息重叠、丢失等情况。近年来随着可视化的发展,逐渐出现了新颖的可视化方法,例如AlertWheel[9]利用改进的雷达图从What,Where,When 3个维度去寻找事件关联。赵颖等人[10]利用流式堆叠图对于数据中的主题进行可视化,能够直观展示不同主题词随时间发展的过程。SpringRain[11]提出一种新颖的大屏幕设计思路,将不同的网络区域看做瀑布的水流簇,通过颜色和形状编码展示网络安全信息。但是目前的网络安全可视化还面临着一些问题:(1)随着网络规模的增大,网络安全数据也急剧增长,数据分析的难度越来越大。(2)网络安全数据种类繁多,它们之间由于相关性会存在大量的冗余,是亟待解决的问题。(3)当绘制的数据过于庞大的时候,二维平面会产生大量的图形,它们之间会发生遮挡,从而影响用户观察。(4)在使用单模型进行可视分析时,会发生在同一视图中出现大量数据,而用户却难以同步进行接受的情况,影响用户分析。
针对以上问题,本文提出了利用多模态可视分析结构和异构树数据组织结构等技术的针对大规模网络节点进行攻击预测的网络流量数据可视分析方法,研究了采用可视分析方法下针对网络攻击行为的攻击预测方法,确定了各种攻击行为的模式特征,设计了多模型的展示算法,以解决目前对大规模网络进行实时分析和使用单模态可视化结构出现的问题,在上述工作的基础上,设计并开发了针对大规模网络节点的攻击预测可视分析系统。
1 多模态网络安全可视分析方法
1.1 多模态网络安全可视分析流程
针对流量数据进行实时的展示和分析,需要实时的获取目标服务器的网络流量日志数据,网络流量日志的数据格式有多种,例如Argus的网络流量格式、NCSA 的统一流量格式[1]。为了不遗漏任何攻击者的行为细节和避免任何工具对用户判断的主观介入,本文使用最原始的网络流量日志进行可视化,网络流量日志最早来源于路由器为了高效查询而缓存的数据流信息。一个网络流量数据流定义为在一个源 IP 地址和目的 IP 地址间传输的数据包流,且所有数据包具有共同的传输层源、目的端口号。本文获取的网络流量日志数据如表1。
表1 网络流量日志数据Table 1 Netflow sample data
为实现快速地从大规模的服务器日志信息中查找需要的信息,该可视分析方法使用异构树数据组织结构来存储网络流量数据。网络流量数据在获取时即进行异构树结构的构建,异构树在构建完成后将通过多模态可视化结构进行展示。用户可以通过界面控制可视化数据,可视分析模型允许用户通过交互改变其属性和形态,可视化流程如图1。
图1 网络流量数据可视化流程 Fig.1 Netflow Data Visualization flow
1.2 异构树数据组织结构
针对大规模网络节点的快速查询问题,本文提出了综合字典树与多叉树技术的异构树形结构来组织网络流量数据的方法。字典树是哈希树的变种。常被用于统计、排序和保存大量的字符串,被搜索引擎系统用于文本词频统计。它利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。该异构树使用字典树存储IP地址、多叉树存储网络流量数据,多叉树将被存储在字典树相应的叶子节点上,进行构造时,将字典树的叶子节点的孩子数进行统计存储在字典树的计数节点中。因为IP地址具有公共前缀,并且在同一网段下的IP地址具有3个相同的公共前缀,当源地址数量很多的情况下,这种异构树形结构将提供很高的查询效率,用户获得某个源地址的日志信息和日志数量,只需经过遍历和读取计数节点即可。
构造异构树时,用户先定义起始时间TS、终止时间TE和目标服务器IP域TP,以获取需要的日志数据,该模块将所有属于目标域的记录中小于起始时间、大于终止时间的部分进行收集和整理,并将其存储为树根节点为源地址的多叉树形式(图2(a)),原日志每一条记录都有相应的源地址,该模块将同源地址的原日志记录放在多叉树的同一个节点下。TP将被构造为字典树(图2(b)),作为异构树的一部分。异构树的每个叶子节点都有两个子结点,一是用来存储孩子数量的计数器,另一个是存有日志信息的源地址与之对应的多叉树(图2(c))。
图2 异构树构建流程Fig.2 Heterogeneous tree building process
1.3 多模态可视分析结构设计
为了解决单模态可视分析结构在分析大规模数据时出现的缺陷,并且更好地表现大规模节点的特征和局部信息,本系统将采用多模态的可视分析结构,将针对网络流量的平行轴模型和球棍网络模型的优势进行互补。平行轴模型将被用来呈现详细的网络流量数据信息,以使用户从中发现攻击者的行为模式。球棍网络模型被用来表现大规模节点的访问情况和节点之间的联系,通过用户对其的观察与分析,选择感兴趣的节点高亮源地址相同的平行轴连线,达到辅助平行轴模型进行分析的目的。
1.3.1 针对网络流量数据的平行轴模型
在多模态可视分析结构中,针对网络流量数据的平行轴模型将被用来展示节点信息,以使用户发现其中的行为模式,确定可疑节点,原始模型如图3。平行轴可视化技术最早由Inselberg[12]提出,最早被用来识别网络中的攻击模式和行为,发现数据之间潜在联系,从而帮助人们发现攻击和犯罪的模式,例如S.Krasser[13]等人利用平行轴对网络流数据进行可视化,以进行数据实时分析和网络取证。F.B.Viegas[14]等人提出利用平行轴的方法分析电子邮箱的数据。
图3 平行轴模型 Fig.3 Parallel coordinates model
为了更好地表现日志数据的多属性特征和表现攻击者的行为模式,本文将已有的平行轴展示方式进行改进,将能表征攻击行为和预测攻击行为的信息进行展示。在经过大量的网络攻防实验的探究下发现目标和源IP 地址、端口信息、收发载荷信息对于发现攻击行为模式是相当有效的。本文将这些数据转为具体数值映射到平行轴中,定义映射算法如下:
ai1=α·(DateNumber(Time)-
floor((DateNumber(Time)))
(1)
(2)
(3)
(4)
(5)
(6)
1.4.2 针对网络流量数据的球棍网络模型
图4 球棍网络模型 Fig.4 Stick network model
本文提出球棍网络模型(图4)对节点的访问情况和节点间的关系进行展示,以弥补平行轴模型在展示大规模数据出现的缺陷。用户可以对球棍网络进行交互,利用不同颜色突出用户的选择。在球棍网络模型中,节点的日志数量映射球棍体积,以表现节点的访问量,并且使用IP地址对球棍进行聚类,用以表现各节点之间的关系。球棍坐标计算参数定义如下:
(7)
球棍网络模型每个小球的三维坐标值定义如下:
(8)
坐标经过这样定义之后,IP地址越相似的节点之间距离就越小,从而达到根据网段进行聚类的效果。为了更好地体现球棍位置的三维特征,该模型将在字典树中处在同父节点的球棍用直线进行连接,让原本散乱无章的点变得联系紧密起来,以便用户发现节点间联系。
2 多模态网络安全可视分析实现
2.1 Monic系统界面设计
在Monic的界面上,用户可以选择时间来对两个可视化模块进行全局控制,用户可以查看某个节点的详细信息,如IP地址、域名、访问量。为了方便用户进行查询,面板设有检索框以便用户根据IP进行节点的检索。控制面板上使用阈值滑动条控制访问阈值以过滤访问值大于该阈值的节点,从而使球状模块更加清晰。用户还可以根据实际数据调整球棍的半径,平行轴线条的粗细,透明度等。利用以上界面交互方式,对信息进行二次筛选,调整模型形态属性,以发现更多信息。
2.2 异构树数据组织结构的实现
构建异构树组织结构需要首先根据用户选取的目标地址域TP建立字典树,并将TP里的地址压入预读栈。在网络流量日志的读取过程中,当读取一个新的服务器,就会新建一个多叉树,并且将之后所有值都非空且时间范围在TS-TE之间的记录都存储在多叉树中。当该服务器日志读取完后,建立的多叉树将被挂载在相应的字典树节点上。
2.3 针对网络流量数据的球棍网络模型的实现
在球棍网络模型中,节点将用黑色小球进行表示。由于节点数量非常庞大,小球将以半透明的形态进行显示,使之间互不遮挡。相同父节点的小球使用直线进行连接,用以展示节点之间的聚类关系,从而便于用户推断攻击者的攻击域。用户还可以对其使用缩放和旋转来发现更多的信息。用户可以选择感兴趣的区域或者选择感兴趣的某个节点,前者需要在感兴趣的地方绘制圆形,后者只需要点击该节点。源地址与之相等的平行轴连线就会被高亮显示。这样,球棍模型就达到了过滤数据的目的,结点标注的功能被提供以方便用户之后的对比和分析。
2.4 针对网络流量数据的平行轴模块的实现
用户可以对平行轴进行点击、滑动等动作以高亮所有属性值与点击值或滑过值相等的线条。通过这种交互方式,用户通过点击平行轴就可以很容易发现用户行为特征(图5)。例如,用户点击地址轴和目标端口轴就可以发现目标地址和目标端口的访问情况,交互方式简单有效。
图5 平行轴模型数据筛选Fig.5 Screen data use parallel coordinate model
3 网络攻击预测方法
3.1 平行轴下攻击行为模式
用户可以利用网络流量数据在平行轴的图像模式来识别攻击者的行为,本文选择4种最常见的攻击行为进行分析。图6中展示了4种攻击行为在平行轴的展示情况,为了找到攻击者行为间关系以预测攻击,该预测方法将攻击行为分为探测行为和进攻行为。
3.1.1 探测行为
(1)主机扫描:主机扫描是网络攻击的前期特征之一,在黑客实施网络攻击或者入侵之前通常先要进行信息收集,通过对目标主机或网络进行扫描确定目标主机系统是否在活动,确定哪些服务器在运行,检测目标操作系统类型,试图发现目标系统的漏洞。观察平行轴中攻击时段的直线时,将会发现同一源地址、不同目标地址和同一端口号之间有大量连线。(2)端口扫描:攻击者试图发送数据到同一源地址的不同端口,从而发现该地址中的有效端口。观察平行轴中攻击时段的直线时,将会发现同一源地址、同一目标地址和大量无重复端口号之间有直线连接。
图6 平行轴下的攻击行为模式Fig.6 Mode of different behaviors in parallel coordinates
3.1.2 进攻行为
(1)拒绝服务攻击:攻击者在发现有效地址和有效端口后,在短时间内对目标机器发起大量的访问或者利用大量木马机器向该目标发起访问,当目标机器服务线程数超过服务器的承载的时候,就会崩溃。观察平行轴中攻击时段的直线时,将会发现同一源地址或者大量不同、同一目标地址和同一端口号之间有直线连接。(2)Land攻击:此攻击同样是发生在攻击者发现有效地址和有效端口后,攻击者将自己的IP地址伪装为目标地址,然后发送目标地址和源地址相同的数据包到目标地址中,当目标机器接收到这类数据包时,将不知道该如何处理,或者循环发送和接收该数据包,攻击者以此来消耗目标机器大量系统资源,从而使目标宕机。观察平行轴中攻击时段的直线时,将会发现源地址和目标地址之间有大量平行线。
3.2 Monic系统网络攻击预测方法
主机扫描和端口扫描本身可能并不会对某台主机造成致命的攻击和大强度破坏,但对检测并有效预防攻击者抓取控制主机,是非常有效的方法,因为它们常常发生在攻击事件之前。本文的网络预测方法即利用该攻击者探测行为和攻击行为的关系进行预测分析,预测的根据主要基于攻击者在攻击前的探测行为在平行轴中的模式。用户通过选择时间,与利用该时间段的数据建立的可视分析模型进行交互,对比平行轴下已知的攻击行为的图像模式,来发现攻击者的探测行为。根据探测行为调整服务器的防御策略或者增加防御方式来抵抗攻击者的攻击,从而达到预测网络攻击的效果。用户在与系统的交互过程中,可以学习到新的攻击行为模式,能够发现更多的探测行为,不断提高系统的分析能力。
4 实验结果与分析
根据前述思想,本文使用Qt作为框架工具,C++为开发语言,使用OpenGL作为绘图工具,设计与开发出Monic系统。主界面如图7。图7中A区域为球状模块,用以展示大规模网络访问情况,B为平行轴模块,用以展示局部信息,C,D,E区域为控制模块,用以控制可视化系统中的数据。
图7 Monic系统概览Fig.7 Monic system overview
实验使用该系统收集到的1 200个服务器为时14天的数据进行测试,该数据集有3×106条纪录,经过对数据预处理后,通过时间选择面板选择时间在2014年6月27日,在球状模型处选择地址为170.10.23.121的节点,并对平行轴中的信息进行分析,发现平行轴线中存在可疑行为特征,在同一源地址、同目标地址和不同端口之间有很多连线,符合前文分析的端口扫描行为模式。
图8A为170.10.23.121机器在6月27日被扫描端口,图8B为170.10.23.121机器在7月1日被Ddos攻击。使用系统查看2014年6月27日以后170.10.23.121节点的详细信息(图8A),从数据中发现在7月1日有被攻击的可疑迹象(图8B),在平行轴中不同源地址和同一目标地址的同一目标端口有大量连线,符合前文分析的Ddos图像模式。在查看IDS日志之后,发现7月1日该机器遭到了来自不同地区的机器的攻击,在这些攻击者中,发现170.10.23.121也在其中。接着查看该170.10.23.121的系统日志,发现该服务器在被攻击后系统宕机了56 min。根据以上的验证工作,证实实验中系统分析结果和日志信息吻合。联系6月27日的攻击者行为,根据以上信息可以推断出,6月27日的异常行为可能正是此次攻击前的探测活动。如果在6月27日网络安全人员使用Monic系统进行检测,就能够发现这次探测行为。安全人员根据行为特点调整防火墙的防御策略、增大防御强度,就能够抵抗7月1日的攻击,避免服务器的宕机。凭借这次的实验结果,证实了本系统在用户的交互和分析下能够预测网络攻击。
图8 攻击行为发现Fig.8 Attack behavior founding
前面介绍的4种攻击方式使用平行轴进行表示可以总结成几种图形模式(图9),从主机扫描行为来看,攻击者在一段时间内向一个目标地址的子网发送少量数据以探测主机是否存在,所以该行为在平行轴中的图像是先发散再聚拢再发散又聚拢最后成为一条线段的形态,同理可以推理出其他3种行为的图像模式。对比PCAV模型,在模型的识别度方面,PCAV[15]方法中主机扫描只有大范围的目标地址和同一目标端口两个特征,而在本文模型中,主机扫描有时间连续和大范围目标地址和同一端口3个特征点。在模型的正确率方面,PCAV模型中没有时间特征,无法区分出Ddos攻击和普通访问行为,所以很难识别攻击行为。相比之下,本文提出的模型更容易识别攻击行为并且能够识别更多的攻击者行为模式。
图9 Monic和PCAV中攻击者行为图像特征Fig.9 The image pattern of attacker behaviors in Monic and PCAV respectively
5 结论
本文在分析网络流量数据的基础上,提出了利用多模态互补和异构树数据组织结构的可视分析方法,通过该方法实现了针对大规模网络的攻击预测可视分析,并开发出了Monic系统进行验证。实验结果表明了该方法能够有效预测网络攻击,并且该系统在发现攻击者行为模式上有很大的优势,用户可以利用该系统并行的进行学习与分析。接下来我们的工作将会基于更多类型的日志数据进行分析,并且优化现有的模型展示方式,提高系统的交互性。在攻击者模式的发现上,我们会提供一些引导,让用户达到所见即所得的效果。
[1] 吕良福. DDoS攻击的检测及网络安全可视化研究[D]. 天津: 天津大学, 2008.
[2] BECKER R A, EICK S G, WILKS A R. Visualizing network data[J]. Visualization and Computer Graphics, IEEE Transactions on, 1995, 1(1): 16-28.
[3] FORTIER S C, SHOMBERT L A. Network profiling and data visualization[C]. Proceedings of the 2000 IEEE Workshop on Information Assurance and Security. 2000.
[4] 赵颖, 樊晓平, 周芳芳,等. 网络安全数据可视化综述[J]. 计算机辅助设计与图形学学报, 2014, 26(5):687-697.
[5] PAPADOPOULOS C, KYRIAKAKIS C, SAWCHUK A, et al. CyberSeer: 3D Audio-visual Immersion for Net Work Security and Management[C]. Proceedings of the 2004 ACM workshop on Visualization and data mining for computer security. ACM, 2004: 90-98.
[6] AXELSSON S, SANDS D. Visualization for intrusion detection-hooking the worm[J]. Understanding Intrusion Detection Through Visualization, 2006: 111-127.
[7] COLOMBE J B, STEPHENS G. Statistical profiling and visualization for detection of malicious insider attacks on computer networks[C]. Proceedings of the 2004 ACM workshop on Visualization and data mining for computer security. ACM, 2004: 138-142.
[8] GIRARDIN L, BRODBECK D. A Visual Approach for Monitoring Logs[C]. LISA. 1998, (98): 299-308.
[9] DUMAS M, ROBERT J, MCGUFFIN M J, et al. Alertwheel: radial bipartite graph visualization applied to intrusion detection system alerts[J]. Network, IEEE, 2012, 26(6):12 - 18.
[10] 赵颖, 樊晓平, 周芳芳,等. 多源网络安全数据时序可视分析方法研究[J]. 网络安全技术与应用, 2014, (9):122-122.
[11] PROMANN M, MA Y A, WEI S, et al. Spring Rain: an ambient information display[J]. Proceedings of Visual Analyties Science and Technology. Los Alamitos: IEEE Computer Society Press, 2013: 5-6.
[12] INSELBERG A.Multidimensional Detective[C]//Information Visualization, 1997. Proceedings., IEEE Symposium on. IEEE, 1997: 100-107.
[13] KRASSER S, CONTI G, GRIZZARD J, et al. Real-time and Forensic Network Data Analysis Using Animated and Coordinated Visualization[C]. Information Assurance Workshop, 2005. IAW'05. Proceedings from the Sixth Annual IEEE SMC. IEEE, 2005: 42-49.
[14] VIÉGAS F B, BOYD D, NGUYEN D H, et al. Digital Artifacts for Remembering and Storytelling: Posthistory and Social Network Fragments[C]. System Sciences, 2004. Proceedings of the 37th Annual Hawaii International Conference on. IEEE, 2004: 10.
[15] CHOI H, LEE H, KIM H. Fast detection and visualization of network attacks on parallel coordinates[J]. computers & security, 2009, 28(5): 276-288.
Design and Research on Visual Analysis System of Prediction Attack for Large Scale Network
JIANG Hong-yu, WU Ya-dong, ZHOU Feng-kai, YANG Wen-chao, ZHAO Si-rui
(SchoolofComputerScienceandTechnology,SouthwestUniversityofScienceandTechnology,Mianyang621010,Sichuan,China)
Traditional methods depends security products to prediction attack are no longer applied due to the large scale of network security data because the network intrusion mode become more and more Huge and complex. Through the studied of netflow data,a new method to real-time visual analysis netflow log with multi-modal display structure and heterogeneous tree netflow data organization structure was proposed and a visual analysis system of prediction attack for large-scale network named Monic is designed and researched. The ability of system to recognize attacker behavior and prediction network attack use this system through interaction analysis were indicated by results.
Visual analysis; Attack prediction; Network security; Multi-modal; Large-scale network
2014-03-10
国家自然科学基金(61303127);核废物与环境安全国防重点学科实验室(13zxnk12);四川省教育厅重点项目(13ZA0169);四川省科技创新苗子工程资助项目基金(2014-044)。
蒋宏宇(1994—),男,本科,主要研究方向为信息安全、可视分析。通讯作者:吴亚东(1979—),男,教授,博士,主要研究方向为图像图形处理、可视化。E-mail:wuyadong@swust.edu.cn
TP393.08
A
1671-8755(2015)02-0074-07