基于大数据的网络恶意行为及特征关联分析

2018-03-23王传栋刘尚东季一木王汝传

太原理工大学学报 2018年2期

王传栋，叶青，姚橹，刘尚东，季一木,b，王汝传,b

(南京邮电大学 a.计算机学院，b.江苏省无线传感网高技术研究重点实验室，南京 210023)

随着互联网、云计算、物联网等计算机技术的迅速发展，网络中的数据大规模地增长，标志着信息社会已经进入了大数据时代[1]。网络大数据不仅给人们的生活带来了便利和机遇，同时也给网络安全带来了挑战。大数据背景下的网络数据具有数量庞大、增长速度迅猛、数据来源多样化以及价值密度低等特点[2]。一些非法人员利用这些大数据作为长时间持续网络攻击的载体发动恶意攻击。这种攻击不仅能同时控制大量的对象，还能起到传统攻击所不具备的效果[3]。例如，近几年来频频发生的APT攻击，作为大数据攻击中一种先进的技术代表[3]，以其攻击范围广、持续时间长、隐蔽性高、针对性强而受到网络“黑客”青睐，传统的检测技术面对APT攻击已经变得束手无策[4]。大数据背景下的网络安全问题日益突出和尖锐，它已然成为了计算机科学中一个不容忽视的课题，引起了该领域中众多专家学者的重视。

网络入侵检测技术是进行网络恶意行为防御的重要手段之一。入侵检测系统(intrusion detection system,IDS)通过对网络数据流或访问记录的分析，识别和发现带有恶意性的网络行为[5]。目前，国内外学者在研究网络入侵检测方法中做了大量工作。文献[6]根据异常网络行为偏离正常网络流量语法规则的特点，在原有的隐马尔可夫模型基础上做了改进，用于网络恶意行为检测。文献[7]通过对历史数据分析建立正常的参考基线范围，超出这个范围的网络流量数据则被判断为异常网络流量。文献[8]根据流量在数据包头上的不同分布情况，不断计算熵值，若当前分布和基准分布存在的差异较大，则认为是出现异常。

为了更加有效得防止网络恶意行为造成的危害，本文将关联分析技术和网络安全态势感知运用到网络恶意行为分析中。将关联规则应用到网络恶意行为分析中去，可以通过挖掘安全事件之间的联系，进一步识别出攻击发生的时间、地点、强度等信息[9]，提高检测效率和性能；将网络安全态势感知应用到网络恶意行为分析中去能帮助网络安全人员获取当前网络的整体运行状况及预测未来网络的发展，并及时地采取相应措施[10]。近些年来国内外学者对网络安全态势感知工作也做了大量的研究。刘孙俊等[11]提出了基于人工免疫的网络安全态势评估模型。胡东星等[12]将人工智能技术引入到网络安全态势感知中来，给网络安全态势研究提供了新思路。任伟[13]将神经记忆网络的方法应用到网络安全态势感知中来。韦勇[14]提出了一种基于日志技术的网络安全态势评估方法。

但是，基于大数据背景下，当前的网络安全检测中也存在着几个急需解决的问题，一是被检测的网络安全数据量极其庞大，传统的网络信息安全监测工具和平台已经到了很难应付的地步；二是存储和处理大量的网络数据会耗费大量的资源、时间以及资金。随着云计算和大数据技术平台的出现与发展，对大规模数据的处理成为了可能，同时也为大规模数量的网络安全事件的分析检测提供了可能。随着大数据技术的不断发展，目前已经诞生了许多大数据分布式处理技术和分布式处理平台，从最开始的Hadoop分布式系统到后来的内存处理系统Spark，再到数据实时处理平台Storm，S4[15]，FLINK[16]等，这些分布式技术的发展已经形成一套完整的大数据解决方案和应用架构。基于大数据平台的采集、存储、检索等技术，可以从根本上提升安全数据分析的效率，可以采集多种类型的数据，如业务数据、流量数据、安全设备日志数据及舆情数据等。针对日志信息可采用Chukwa，Flume，Scribe等工具；针对流量数据可采用流量景象方法，并使用Storm和Spark技术对数据进行存储和分析，通过Map Reduce和Hive等分析方法，可以实时对数据进行检索，大大提升数据处理效率。

基于当前大数据背景下的网络安全检测方法的挑战和不足，为了保障网络信息安全，提高网络安全数据处理的高效性和实时性，缓解网络恶意行为所造成的危害，本文提出将大数据平台应用到网络恶意行为分析中，在安全分析技术的基础之上，通过采集、存储等大数据处理技术将分散的网络日志和网络流量整合起来进行处理分析。同时通过综合运用入侵检测、关联分析、态势感知等技术对网络环境做出预警和防御，设计和构建了基于大数据平台的恶意行为验证系统。

1 基于大数据平台的恶意行为验证系统整体框架图

为了保障网络信息安全，缓解网络恶意行为所造成的危害，实现对大数据背景下的网络恶意行为分析与检测，利用基于大数据的特征提取、特征关联分析以及网络安全态势感知技术，设计和搭建了基于大数据平台的恶意行为验证系统，如图1所示。

整个系统可分为3个模块，如图1所示，分别是采集模块、检测模块以及可视化展示模块。采集模块中，通过采用Suricata、基于Storm平台的规则匹配技术以及Web用户行为模型的行为异常检测技术，对网络全流量以及网络日志进行分析，产生网络恶意行为告警。在检测模块中，通过警报格式清除，警报融合、基于Storm大数据分析平台下FP-Stream流关联规则挖掘步骤对原始告警数据进一步进行处理，得到诸如风险数据、攻击强度、范围、类型等安全信息。最后在可视化展示模块，将关联分析阶段产生的数据通过态势评估、态势可视化等手段以图像的方式将分析结果展示在屏幕上，使网络安全人员能够直观掌握网络安全现状。

图1 验证系统框架Fig.1 Verification system framework

2 基于大数据的恶意行为检测和特征提取

通过监控目标网络的全流量数据和Web日志来实现对目标网络恶意行为检测，产生流量报警和Web日志报警信息。整个特征提取过程如图2所示。

图2 基于大数据的攻击行为特征提取方法Fig.2 Method of feature extraction about attack behavior based on big data

2.1 基于Suricata的网络全流量检测技术

网络全流量数据规模大，大数据流量监控不同于小型局域网流量监控，在高速复杂的网络环境下，CPU处于频繁中断状态，造成接受数据包效率降低，目前主流的Snort入侵检测系统已经不能满足大数据流量检测的需求。通过对比Suricata和SNORT[17](如表1所列)，Suricata具有多线程运行、支持IVP6等优点，且Suricata采用分布式处理技术，将数据流分布到各个节点上进行处理，从而实现了对大规模数据流量的检测。因此选择开源入侵检测系统Suricata进行网络入侵检测。

表1 Suricata和Snort对比表Table 1 Comparison of Suricata and Snort

为了实现Suricata监控大数据流量，在每一个机房节点的出口处做端口镜像将流量导入到负责检测的主机上，捕获原始数据包，解码数据包并在其转发到检测引擎之前进行预处理。预处理包括早期包丢弃、分类、三层碎片重组和四层会话还原等[18]。预处理过后通过比对存储在数据库中的数千条规则和预定义的攻击特征码检测引擎检查数据包头部以及载荷，对恶意行为进行识别与阻断反馈。Suricata通过其所具备的多线程以及采用分布式大数据处理技术实现对网络全流量更快速、更高效的检测和监控。

2.2 WEB日志分析技术

Web日志分析与大数据流量监控同步进行。Web日志分析同时采用基于流计算平台的规则匹配和基于Web用户行为模型的异常检测技术进行恶意行为的特征提取。

2.2.1 基于Strom预处理的日志模式匹配技术

我们从服务器中获取日志信息，然后根据数据库中的规则对日志文件进行模式匹配，从而识别和提取日志中存在的恶意行为。但用户浏览网站是随意的，所以日志中存在大量无用的信息，从而会导致模式匹配消耗资源很多，所以在进行入侵检测之前先预处理日志文件。由于这些日志文件数量规模较大，依据大数据技术能够高效处理大规模数据量的优势，因而将大数据平台应用到预处理的过程中。目前主流的大数据处理框架有Hadoop，Spark和Storm等。相比与其他大数据平台来说，Storm[19]主要应用于实时分析、在线机器学习、持续计算、分布式 RPC、ETL等，它具有高容错性，可以确保每个消息都被处理到，而且具有高效的处理速度，集群的每个节点每秒钟可以处理数百万的消息。因此，我们先将日志中的记录送到Strom分布式计算平台进行预处理，包括数据净化和路径补全处理。然后将处理好的日志送入匹配模块进行模式匹配，模式匹配使用字符串匹配算法与规则库中的规则进行比对，检测到恶意行为后进行告警。

2.2.2 基于WEB用户行为模型的异常检测技术

用户通过浏览网站获得信息，网站中含有大量的网页，各个页面之间通过超链接(hyperlink)链接在一起以实现用户在各个界面之间的跳转，超链接可视作网页中元素的跳转路径，用户可以通过点击在不同网页间跳转来获得相应信息。

逻辑模型[20]就是获得这些跳转路径，用以表示用户访问网站的正常行为。逻辑模型图可以通过扫描网站结构建立，逻辑模型可被描述[20]如下：

ML= .

(1)

式中：P为网络页面的集合，P={Pi|i=1,2,3,……n}；T为超链接的集合，表示页面和页面之间的跳转，T={Tt=|t=1,2,3,…,n,Pi,Pj∈P}.

用户访问模型[20]是用于描述用户在实际访问网页时的路径和行为，可以通过分析Web服务器日志建立。用户访问模型可被描述[20]如下：

MU= .

(2)

式中：V表示用户访问节点的集合，由日志中用户访问网站生成信息中的URL构成，V={Vi|i=1,2,3,……n}；S为日志中用户访问路径的集合，表示用户在页面之间的跳转，S={St=|t=1,2,3,……n,Pi,Pj∈P}.

通过网页分析器将网站中的页面分析生成网站逻辑图，对收集到的网络日志信息首先进行预处理，即进行数据清理，剔除无用信息，分析生成用户访问模型。然后将两个模型进行对比，正常用户在访问网站的过程中生成的用户访问模型图必定是沿着网站逻辑图进行的，即可以说用户访问模型是网站逻辑模型图的一个子图。若用户访问模型图不属于网站逻辑图，则说明用户访问行为异常，可能采取了异常行为到达相应的节点或访问非法资源，从而产生告警信息。

3 基于FP-Stream算法的恶意行为特征关联分析

通过特征提取阶段对网络流量和Web日志的分析检测，产生警报信息。但此时的警报具有冗余、无效、虚假信息的问题。针对这个问题，利用入侵检测消息交换格式(intrusion detection message exchange format,IDMEF)模型、基于特征相似度的冗余警报融合方法实现警报格式的统一和融合，再基于Storm平台的FP-Stream算法来实现网络恶意行为特征的关联规则挖掘。整个流程如图3所示。

图3 基于FP-Stream算法的攻击特征关联分析流程图Fig.3 Analysis of Attack characteristic correlation analysis based on FP-stream algorithm

3.1 警报格式规范化

由入侵检测系统检测出的警报的格式是不同的。不同的警报虽然代表的网络入侵特征存在着很大的不同，但是只要是警报，就存在共同的网络攻击特征子集。采用基于IDMEF的警报规范方法来实现警报格式的统一。该方法提取出警报通用字段，组成警报规范化父类，并将各个警报中的其它信息作为子类存储起来。通过这种方法将不同的警报规范化，既不丢失警报所独有的字段信息，又为下一步警报协同提供支持。

警报父类由一个八元组(Id，S_ip,D_ip,S_port,D_port,Name,Time_stamp,Base_alert)组成，警报子类由三元组(Type,Data,Priority)组成，其中各个字段的含义[21]如表2和表3所示。

表2 父类警报八元组含义表Table 2 Definition of eight tuple about father class alarm

表3 子类警报三元组含义表Table 3 Definition of three tuple about father subclass alarm

3.2 基于特征相似度的冗余去除方法

因为使用入侵检测系统检测网络安全时可能会出现对同一个恶意行为被多个检测工具检测或者被多次检测的情况，这样就会导致产生的警报信息会有大量的冗余，所以在警报协同之前需要对冗余警报进行融合。在这里，我们采用的是基于特征相似度的警报融合方法。将相似程度高的警报合并成一个基警报。通过这种方式就组成了网络入侵的原始特征。基警报设计成十元组(Id,S_ip,D_ip,S_port,D_port,Time_stamp,Name, StartTime_stamp,EndTime_stamp,Nalert_set)，基警报格式如表4所列。将首个融入基警报的警报叫做基警报[21]的基，记作base.

表4 NIDS的基警报格式Table 4 Base alert format of NIDS

由于警报属性包含数字、字符串和时间等各种不同形式，所以需要先对不同属性的相似度进行分别计算，再根据各个属性相似度的加权来与给定的门限值比较，最终判断是否属于同一个基警报。以下是警报各个属性相似度的计算方法[21]：

1) 警报名称相似度的计算方法

警报Alert1和 Alert2的名称属性相似度定义为：如果警报的名称相同，记为1，否则记为0.

(3)

2) IP地址相似度的计算方法

网络数据包中的IP能够代表不同数据包之间的相关性。IP地址所代表的网络地址信息越相近，警报信息就具有更高的相似度。警报Alert1和 Alert2的IP地址相似度定义为:以两个IP地址中的前n位的相似度来衡量IP地址的相似度。

(4)

3) 端口号相似度的计算方法

Alert1和Alert2的端口号属性相似度定义为：如果警报的端口号相同，记为1，否则记为0.

(5)

4) 时间相似度计算方法

同一网络入侵行为很可能会在很短的时间段内产生大量的冗余警报，因此警报的时间越接近，越有可能来自于同一网络入侵行为。警报Alert1和Alert2的时间属性相似度定义为：以两个警报发生时间差的绝对值是否超过上限值1来衡量时间相似度，警报时间间隔值设置为1 200 s.

(6)

5) 警报相似度的计算方法

假设警报Alert1和Alert2，分别包含n个属性，Si表示警报Alert1和Alert2属性i的相似度，Wi表示属性i的权重，则警报Alert1和Alert2的相似度定义为n个属性与权重乘积的总和。

(7)

基于上面提供的警报相似度计算方法可以实现警报融合。首先，读取一条未经融合的新警报；其次，查找所有基警报并将与其在时间间隔l内的所有基警报选择出来；然后计算该警报与选择出来的基警报集合中所有警报的相似度,并且选择相似度最大的基警报Smax;比较Smax与给定上限值M的大小，只有当Smax大于上限值时，才将该警报添加到基警报中，否则新建一个基警报，将该警报添加进去，其中上限值M的值为7.重复以上步骤，直到没有未经融合的新警报为止。

基于特征相似度的警报融合方法流程如图4所示。

图4 警报融合方法流程图Fig.4 Flow chart of alert fusion

3.3 基于Storm平台的FP-Stream关联规则挖掘算法

Storm是Twitter支持开发的一款分布式的、开源的、实时的、主从式大数据流式计算系统，是一种典型的流式数据计算架构[22]。FP-Stream算法[23-24]是一种流数据关联规则挖掘算法(Frequent Pattern-growth)，相较于传统的关联分析算法，它不仅实现了对流数据频繁模式的挖掘，同时使用了倾斜时间窗口表格存储结构，从而使得算法可以实现多种时间粒度的频繁项集挖掘。但由于采用批处理方式，FP-Stream算法不能实时地处理和响应用户对当前数据的查询。因此，本文将FP-Stream算法与Storm平台结合起来，可以对海量网络流量进行实时地关联规则分析，使得网络安全人员能够及时发现网络恶意流量，进行网络预警。

3.3.1 FP-Stream算法描述

在FP-Stream算法中，Di代表第i批次的事务，|Di|代表事物的数目，∈代表允许的最大误差。它的整个算法流程如图5所示。

图5 FP-Stream算法流程图Fig.5 Flow chart FP-Stream algorithm

1) 缓存达到的流数据，判断是否到达一个单位时间的事物数据，若已经到达，直接转第2步，否则继续缓存数据，直到到达单位时间。

2) 对到来的第一批事物D1进行扫描，获得D1中所包含的全部频繁项集合F，及它们各自的支持度。对F中的频繁项按其支持度降序排序得到f-list.

3) 再次扫描内存中的批事务D1，并创建一个删除所有支持数小于∈|D1|的模式的FP-Tree；对于第二批及其之后到达的事物Di，根据f-list，插入到FP-tree中，不对任何项进行剪枝操作。

4) 采用FP-Growth算法从FP-Tree中进行模式挖掘，挖掘出FP-Tree中的候选频繁项集。

若该事务为第一批事务，则使用构建树算法构建Pattern-Tree；否则使用Pattern-Tree更新算法对构建好的Pattern-Tree进行更新。

5) 因为FP-Stream算法将倾斜时间框架技术嵌入到FP-Tree结构中，形成新的数据结构频繁模式树(Pattern-Tree).每个节点的时间窗口存储的是从根节点到该节点上的项集在不同时间粒度上的绝对支持度。用户可以查询在相应时间段的频繁项集。

3.3.2 基于Strom平台FP-Stream算法的基本思想

设置两类节点，分别为distributed和global节点。distributed节点为分布式局部计算节点，global节点为局部计算结果合并节点[25]。我们将接受到的经过处理的无冗余的、格式统一的网络警报数据流平均分配到相应的distributed节点中，构造FP-Tree树并使用FP-Growth算法产生该单位时间内的候选频繁项集及其支持度计数。然后各分布式节点将这些结果发送到global节点，global节点合并distributed节点的中间结果，更新Pattern-Tree，并通过设置参数“当前时间”来保证被合并的数据在时间上的对应性。

3.3.3 FP-Stream算法在Storm平台上的设计

FP-Stream算法在Storm平台上的拓扑如图6所示。

图6 基于STORM的FP-Stream算法拓扑设计Fig.6 Topology Design of FP-Stream algorithm based on STORM

Spout1接收到待挖掘的警报数据流，将到达的数据打上时间戳标记并平均发送到各个Distributed节点上，对单位时间内到达的数据构建FP-Tree，并用FP-Growth算法产生该节点在单位时间内的频繁项集和支持度值，然后将各个局部节点产生的结果按照三元组格式(候选频繁项集/支持度计数/时间戳)合并发送到GlobalBolt中，Global节点以FP-Tree为基础，引入倾斜时间窗口生成最新的Pattern-Tree，用来记录不同时间粒度中的关联分析结果，并将其传入SelectBolt.用户输入的查询参数(时间)通过消息中间件kafka接收，通过Spout2将查询时间传递给Select Result模块，Select Result模块读取该参数，查询Pattern-Tree中相应的时间窗口，将符合要求的结果返回给用户。

4 基于大数据的网络安全态势感知分析

网络安全态势感知最早由Endsley提出，他将态势感知[26]定义为：“在一定的时空范围内，对周围的环境因素进行提取、认识、理解，并对整体环境未来发展趋势进行预测”。在大数据背景下，网络安全态势感知[27]是指针对大规模网络环境及海量数据，运用大数据技术特有的海量存储、并行处理、高效查询等特点，对引起网络安全问题的要素进行获取、理解、评估、预测、防御以及可视化展示。本文的态势感知分析的整体框架如图7所示。

图7 态势感知分析框架图Fig.7 Overall framework of situation-aware analysis

态势感知分析的安全数据来源于网络流量和Web日志。首先，态势感知分析以上述安全数据作为数据处理来源，进行网络安全态势提取。网络安全态势提取即对网络安全数据进行采集。本文采用入侵检测工具Suricata、基于Storm预处理的日志规则匹配技术以及用户异常行为检测技术分别对网络流量和Web日志进行监控，提取恶意数据。其次，对提取的恶意数据进行态势理解。态势理解即对提取的数据进行数据清洗、数据融合、数据管理等处理，将不同来源的警报信息去伪存真，挖掘出真实的、有意义的网络恶意信息。本文通过数据清除、冗余警报去除、敏感特征提取以及使用基于Storm平台的FP-Stream算法进行关联规则挖掘。最终将分析结果存入分析数据库，供态势评估阶段使用。态势评估即根据态势理解阶段提供的信息，对安全事件数据库通过使用危险性统计分析、脆弱性分析、可用性分析等手段进行统计分析。本文采用层次分析与模糊结合的算法对态势进行评估。最后通过R语言和D3.js[28]等可视化呈现技术实现态势的可视化展示，将安全态势感知过程中数据处理结果转换成图形或图像在屏幕上显示出来，并结合ElasticSearch技术实现数据和网络态势的交互式可视分析，为用户提供良好的查询功能。

5 基于大数据平台的恶意行为验证系统实现

面向大数据安全分析的需求，设计出具有高性能、可移植性、兼容性以及防御性强的大数据平台恶意行为验证系统。这个系统主要包括：网络恶意数据收集、关联规则挖掘、安全态势呈现等功能模块，各模块之间相互合作实现对大数据环境下的网络安全态势分析及预警。通过开源安全信息管理系统OSSIM将Suricata，openVas，Nagoius等多个安全工具进行集成，结合大数据处理框架Storm，采用具有针对性的自编算法，比如FP-Stream算法等，在信息共享的前提下，设计了集中的安全验证平台，从而形成有效的网络防御体系。而且为了让用户能够获得更好的体验，我们采用多种可视化技术来呈现攻击来源、攻击数量、攻击类型等重要信息，让网络安全人员直观地掌握当前网络安全态势，使其能够快速作出应对。以下是基于大数据的恶意行为验证系统的功能展示。

验证系统能以图表的方式展示当前一些网络安全信息(如图8所示)，例如当前安全警报TOP5，被登录次数主机TOP10，及一天的安全趋势曲线图等。验证系统还能对安全事件进行详细的分析，展示对安全事件分析的结果，比如警报来源，风险程度等，产生安全日志。验证系统也能展示当前受保护的网络资产的安全情况，比如资产价值、弱点、HDIS状态及漏洞分析等。

图8 安全信息图表展示界面Fig.8 Security information display interface

网络安全数据正在以指数级形式高速增长，传统的检测平台已经无法满足海量数据的分析要求[29]。例如，当网络出现故障或者是故障过程的时候，各种设备和服务器会发送大量日志到服务器上，在这种高并发情形下，会对数据库服务器造成巨大的压力，因而在进行查询操作时会增加延迟程度，容易超过系统的最大负载。除此之外，在集成各种开源工具的过程中一旦系统没有进行持久化，一些服务器重启后会导致消息丢失。为了解决这些问题，本验证系统基于OSSIM集成各种开源工具。OSSIM采用了RabbitMQ+Redis的消息队列机制，它的工作原理[29]如图9所示。RabbitMQ是实现AMQP(高级消息队列协议)消息中间件的一种，它在OSSIM中采用异步操作的方式，通过消息队列将高并发的用户请求进行操作，也避免了并发控制的难题，使系统的响应得到提高。Redis是一个Key/Value的NoSQL数据库，它不仅支持数据持久化，而且它的数据存储在内存中，速度远高于MySQL，在OSSIM的Web界面的排行榜功能中应用广泛，如TOP10操作等。

图9 OSSIM消息队列原理图Fig.9 Schematic diagram of OSSIM massage queue

为了验证Rabbit MQ的性能，在消息持久化场景下，分别测试了在使用RabbitMQ的异步机制和不使用RabbitMQ的同步机制情况下投递了100万和500万条消息的发送速率、接收速率和丢失率。实验结果如表5和表6所示。

表5 使用RabbiMQ收发速度Table 5 Send and receive speed by using RabbitMQ

表6 不使用RabbitMQ收发速度表Table 6 Send and receive speed without using RabbitMQ

根据本次的测试结果，发现在同样的网络情况下，使用异步模式发送、接受数据的速度比同步模式速度快了将近18倍。因此基于OSSIM搭建的大数据平台恶意行为验证系统的具有较快的运行速度及检测效率。

6 结束语

针对大数据环境下的网络安全数据具有海量、数据来源多源化、增长速度快、复杂度高的特点而导致的传统网络安全检测方法无法适用当前网络恶意行为分析的问题，本文提出了基于大数据的网络恶意行为及关联分析方案。本文从恶意特征提取、特征关联分析、安全态势感知分析3个层面，采用Suricata，Storm，ElasticSearch等一系列开源大数据工具，结合一些自编性算法及相关技术，提出并设计了一种基于大数据平台的恶意行为验证系统，该系统将大数据处理技术与安全需求相结合，通过对安全数据的分析，实现对网络恶意行为的分析和检测，并将结果以可视化技术展现。本文实现了验证系统的主要功能，在今后的研究中，可以考虑在验证系统中增添攻击扩散路径展示、智能检索等功能，进一步完善验证系统的功能及提高检索效率。

[1] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.

WANG Y Z,JIN X L,CHENG X Q.Network big data:present and future[J].Chinese Journal of Computers,2013,36(6):1125-1138.

[2] 张鑫.大数据背景下的网络安全隐患及防范措施[J].科技资讯,2016,14(18):4.

ZHANG X.Under the background of big data network security and protection measures[J].Science & Technology Information,2016,14(18):4.

[3] 张欢.解析大数据环境下的安全现状和未来展望[J].中国新通信,2015(12):20.

ZHANG H.Parsing large data environment safety status and future prospects[J].China New Telecommunications,2015(12):20.

[4] GIURA P,WANG W.Using large scale distributed computing to unveil advanced persistent threats[J].Science,2013,1(3):93-105.

[5] 谢立春,张春琴.基于云模型的网络攻击检测方法及其性能分析[J].计算机科学,2015,42(S2):378-380，389.

XIE L C,ZHANG C Q.Detection method and performance analysis of network attacks based on cloud model[J].Computer Science,2015,42(11A):378-380.

[6] 席荣荣,云晓春,张永铮,等.一种改进的网络安全态势量化评估方法[J].计算机学报,2015,38(4):749-758.

XI R R,YUN X Q,ZHANG Y Z,et al.An improved quantitative evaluation method for network security[J].Chinese Journal of Computers,2015,38(4):749-758.

[7] 储泽楠,李世扬.基于节点生长马氏距离K均值和HMM的网络入侵检测方法设计[J].计算机测量与控制,2014,22(10):3406-3409.

CHU Z N,LI S Y.Design of network intrusion detection method based on node grow mahahanobis distancek-means and HMM[J].Computer Measurement & Control,2014,22(10):3406-3409.

[8] 张冰涛,王小鹏.面向WSN安全路由协议的自适应威胁模型[J].计算机应用研究,2014,31(4):1208-1211.

ZHANG B T,WANG X P.Adaptive threat modeling for secure WSN routing protocols[J].Application Research of Computers,2014,31(4):1208-1211.

[9] 付钰,李洪成,吴晓平,等.基于大数据分析的APT攻击检测研究综述[J].通信学报,2015,36(11):1-14.

FU Y,LI H C,WU X P,et al.Detecting APT attacks:a survey from the perspective of big data analysis[J].Journal on Communications,2015,36(11):1-14.

[10] 李林.网络安全态势感知系统设计与关键模块实现[D].北京：北京邮电大学,2015.

[11] 刘孙俊,李涛,赵奎,等.基于人工免疫的网络安全态势评估模型[J].微计算机信息,2008,24(18):22-24.

LIU S J,LI T,ZHAO K,et al.The network security situation assessment model based on artificial immune[J].Control & Automation,2008,24(18):22-24.

[12] 胡东星.基于人工智能的信息网络安全态势感知技术[J].信息通信,2012(6):80-81.

HU D X.Information network security situational awareness technology based on artificial intelligence[J].Information & Communications,2012(6):80-81.

[13] 任伟,蒋兴浩,孙锬锋.基于RBF神经网络的网络安全态势预测方法[J].计算机工程与应用,2006,42(31):136-138.

REN W,JIANG X H,SUN Y F.RBFNN-based prediction of networks security situation[J].Computer Engineering and Applications,2006,42(31):136-138.

[14] 韦勇,连一峰.基于日志审计与性能修正算法的网络安全态势评估模型[J].计算机学报,2009,32(4):763-772.

WEI Y,LIAN Y F.A Network security situational awareness model based on log audit and performance correction[J].Chinese Journal of Computers,2009,32(4):763-772.

[15] NEUMEYER L,ROBBINS B,NAIR A,et al.S4:Distributed stream computing platform[C]∥IEEE Data Mining Workshops(ICDMW).2010:170-177.

[16] CARBONE P,EWEN S,HARIDI S,et al.Apache flink:Stream and batch processing in a single engine[J].Data Engineering,2015:28.

[17] ANVAL W.Snort,suricata and syslog intrusion detection,situational awareness and risk management [EB/OL].[2016-06-27].http://wiki.aanval.com/wiki/Snort_vs_Suricata.

[18] 刘建军.基于Hadoop的WEB入侵检测分析[C]∥中国通信学会.第十九届全国青年通信学术年会论文集.北京：国防工业出版社，2014:5.

[19] Spark和Storm的选择：哪个平台更适合机器学习[EB/OL].[2015-07-05].http://www.360doc.com/content/15/0705/11/3300331_482745419.shtml.

[20] 袁堂朋.基于用户行为模式的Web日志挖掘模型的研究与实现[D].南京：南京邮电大学,2013.

[21] 丁航.基于黑板结构的警报协同系统[D].长春：吉林大学,2014.

[22] YANG W,LIU X,ZHANG L,et al.Big data real-time processing based on storm[C]∥IEEE.Trust,Security and Privacy in Computing and Communications.2013:1784-1787.

[23] GIANNELLA C,HAN J,PEI J,et al.Mining frequent patterns in data streams at multiple timegranularities[C]∥Data Mining:Next Generation Challenges and Future Directions.2004:191-212.

[24] 唐耀红.数据流环境中关联规则挖掘技术的研究[D].北京：北京交通大学,2012.

[25] 马可,李玲娟,孙杜靖.分布式并行化数据流频繁模式挖掘算法[J].计算机技术与发展,2016(7):75-79.

MA K,LI L J,SUN D J.Distributed parallel algorithm of mining frequent pattern on data stream[J].Computer Technology and Development,2016(7):75-79.

[26] ENDSLEYMR.Toward a theory of situation awareness in dynamic system[J].Human Factors,1995,37(1):32-64.

[27] 赵梦.基于大数据环境的网络安全态势感知[J].信息网络安全,2016(9):90-93.

ZHAO M.Network security situation awareness based on big bata[J].Netinfo Security,2016(9):90-93.

[28] 琚安康,郭渊博,朱泰铭.基于开源工具集的大数据网络安全态势感知及预警架构[J].计算机科学,2017(5):125-131.

JU A K,GUO Y B,ZHU T M.Framework for big data network security situational awareness and threat warning based on open source toolset[J].Computer Science,2017(5):125-131.

[29] 李晨光.开源安全运维平台OSSIM最佳实践[M].北京：清华大学出版社,2016.