APP下载

基于海量异构数据的网络安全态势感知研究

2020-08-06张小林罗汉云董甲东

关键词:关联规则

张小林 罗汉云 董甲东

摘 要:阐述网络安全态势感知研究.通过数据挖掘技术中关联规则apriori对数据进行关联分析,通过源IP地址和目的IP地址关联来自不同设备的攻击类型、时间、端口,通过底层的网络设备采集的数据流提供的流量异常信息,发现网络安全威胁,给管理者提供更全面的参考.

关键词:关联规则;安全威胁评估;态势感知

[中图分类号]TP393.09   [文献标志码]A

Abstract:Expounds the research of network security situation awareness.The association rules Apriori in data mining technology is used to analyze the association of data;the source IP address and destination IP address are used to associate attack types,time and ports from different devices;the traffic anomaly information collected by the underlying network devices is used to discover the network security threats and provide a more comprehensive reference for managers.

Key words:association rules;security threat assessment;Situational awareness

互联网的快速发展,带动了智能终端的普及推广,促进了信息系统和APP的大规模兴起.伴随着这些应用的爆炸式增长,带来了很大的安全漏洞隐患.2017年国家出台了《中华人民共和国网络安全法》,将信息系统落实网络安全等级保护写进法律.2019年12月1日,新一版的网络安全等级保护2.0标准正式实施.信息系统安全风险[1]由资产、威胁、脆弱性三要素共同决定,在风险评估中需要先对三个要素分别进行准确评价,进而在此基础上进行安全风险综合评估.对网络安全风险[2]进行识别、分析和评估的目的是帮助管理者更好地选择合适的安全策略,做好网络安全的防御决策.

态势感知( Situation Awareness,SA) 是指“在一定的时空范围内,认知、理解环境因素,并且对未来的发展趋势进行预测”.最初这个概念并没有引入到网络安全的领域中,1999年,Bass认为“下一代网络入侵检测系统应该融合从大量的异构分布式网络传感器采集的数据,实现网络空间的态势感知(cyberspace situational awareness).” 他基于數据融合的JDL(Joint Directors of Labo ratories)模型,提出了基于多传感器数据融合的网络态势感知功能模型.Endsley和Bass为网络安全态势感知的研究奠定了基础,很多专家学者也基于Endsley态势感知的概念模型和Bass的功能模型提出了十几种网络安全态势感知的模型.虽然各个模型组成的名称不一样,但是实现的功能基本相同.在这些模型当中,主要数据都是来自网络传感器、网络流量、网络安全设备的相关日志、嗅探器所采集的数据等.根据提取数据的角度不同,观测点不一样,在网络安全态势感知概念里也有不同的类型,如Jajodia和Wang采集网络的脆弱性信息来评估网络的脆弱性态势.Ning采集网络的警报信息来评估网络的威胁性态势. Barford和Dacier利用honeynet采集的数据信息来评估网络的攻击态势.

通过收集网络中产生的实时数据格式不一,需要对其进行数据处理,最终通过可视化展现出来历史信息的安全态势感知,具有一定的对未来一段时间内网络安全趋势的预测.在一个网络中,能够产生数据的设备、软件很多,它们的型号可能不同,实现的技术也不一样,主要体现在网络设备、各个应用管理系统、安全管理设备、网络运行管理平台等,这些系统所产生的运行监测数据和系统的各种日志数据格式不一,且源源不断生产的数据,可以通过流式数据处理方式来对它们进行融合处理.笔者采用以安全威胁为中心的模式进行评估,聚焦于收集、检测以及分析,形成一个循环的闭环.在数据收集阶段,按照应用收集框架(ACF)思路进行,以提高收集数据源的效率,确定重要的数据源,对海量日志进行预处理,通过关联规则进行深层关联分析,实现对网络安全态势的感知预警.

1 关联规则及算法

关联规则[3]就是找出频繁项集,通过在大量数据中找出符合阈值的某类算法——寻找K-项集.关联规则算法中有代表性的经典算法是ARGen算法和Apriori算法,大部分算法都是基于这两种经典算法进行改进的.[4]本文采用Apriori算法改进的基于矩阵的关联算法,通过在压缩事务数据库采取策略时,尽量删除那些不可能得到频繁项集的项目[5],尽量减少事务数据库记录数量,尽量减少对数据库的读写操作.

ARGen算法 ARGen算法由Agrawal和Ramakrishman提出的,过程如下:

R=Φ;//R为关联规则集合

For each P∈Ldo

For each XP such that XΦ

Ifsupport(p)support(x)≥а then

R=R∪{X(P-X)};

Apriori算法 Apriori算法在关联规则算法分析中具有相当重要的地位,其中含有priori是因为算法使用了频繁项集性质的先验(priori)知识.[5]

2 数据收集、范化、聚合

海量异构数据处理过程中,数据融合是一个多级、多层面的数据处理过程,涉及到数据的提取、理解、分析等.基于逻辑关系的数据融合根据信息内在的逻辑关系进行的融合,采取的融合方法是警报关联[6],能快速直观的在海量数据信息之中分析出网络的安全态势.

2.1 环境搭建

网络中产生的海量异构数据的数据量增长很快,可利用Hadoop框架下的分布式文件系统HDFS和分布式计算MapReduce对海量数据进行运算.HDFS文件系统是一个主/从(master/slave)体系结构,HDFS集群拥有一个NameNode和一些DataNodes节点,通过NameNode管理文件系统的元数据,DataNode存储实际的数据,在配置集群服务器时,各个服务器间要配置集群之间ssh的免密登录.MapReduce是一种计算模型,可将大批量工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE).通过各个节点分布式计算,在任务被分解后,通过大量机器进行并行计算,减少整个操作的时间.

Hive是Hadoop大数据生态圈中的数据仓库,以表格的形式组织和管理,以类SQL的方式处理数据仓库中表格里的数据,不需要开发专门的MapReduce应用,用类SQL语句方式存放在HDFS上的大规模数据集.Hive实际上相当于一个MapReduce和HDFS的翻译终端,当用户向Hive提交其编写的HiveQL后,Hive运行时环境会将这些脚本翻译成MapReduce和HDFS操作并向集群提交这些操作,Hadoop集群逐步执行这些MapReduce和HDFS操作.

2.2 日志源收集

在核心网络配置中,根据等级保护建设的要求,一般需要部署一些网络安全设备,如安全入侵检测(IDS)、网络安全入侵防护(IPS)、防火墙、堡垒机、数据库审计、漏洞扫描、web应用防火墙(WAF)等设备,需要采集这些设备的运行日志、攻击防护日志、访问日志、入侵日志以及主机的审计日志.网络设备数据流的采集采用NetFlow v5格式,利用SILK收集和分析数据流,对需要的的日志、數据进行收集、预处理和模式分析.

入侵防御设备(IPS)的主要工作在Layer 2至Layer 7层,对进来的数据包进行检测,确定这种数据包的真正用途.如果检测到攻击,IPS会根据设置好的防护策略进行阻断或重置连接,在这种攻击扩散到网络的其他地方之前阻止这个恶意连接.IPS一般都是嵌入部署,部署在出口火墙之后.IPS的日志主要有:威胁日志、设备系统日志、会话日志、NAT转换日志.IPS主要通过过滤器来防御威胁,对过滤器设置过滤规则,仅仅依靠自身的威胁日志很难做到精准防护,更多的时候需要和其他日志进行同步分析,尽量减少误报率.系统设备日志主要记录系统内部的日志以及管理员登录维护日志.威胁日志格式如表1所示.

2.3 日志预处理及分析

Web应用防火墙主要部署在网站平台前端,一般是串联部署.web防火墙结合IPS、防火墙、漏洞扫描等安全系统提供的日志,为web防火墙的设置提供安全策略,对IPS的安全设置提供防护策略.Web防火墙主要日志有:web安全日志、web防篡改日志、网络层访问控制日志、DDOS防护日志(和IPS具有同样的功能)等.web防火墙和IPS、IDS等更多是进行安全策略方面的设置,借助系统提供的不同等级的模板策略快速实施.想真正融合到网络里,还需要针对每个特例进行设置,减少误报.

在数据预处理阶段,分析设备的功能及日志主要采集的内容,便于后期的事务识别,如表2所示.

对海量异构数据进行数据预处理,是为后面进行入侵检测分析和态势感知提供数据源,它的质量高低对整个过程影响很大,数据源处理效率的高低也是一个重要的环节.根据关联规则分析需要的特定的数据格式定义好需要的范式,在数据预处理阶段进行转换.[7]

在事务识别和聚合以及在后面的分析过程中,都是以目的IP地址为主要特征进行数据挖掘.IPS日志主要记录所有的入侵信息,关键的字段为源和目的IP地址、协议、时间、攻击类型等.WAF日志主要记录对网站的攻击记录,关键字段为源和目的IP地址、端口、协议、时间、攻击类型等.这两个日志有很多重叠的部分,但是各自的侧重点不一样,IPS更多的是IP和端口的安全,有来自外部的攻击记录,也有从内部攻击外部的记录.WAF则是对网站攻击的具体事件类型的记录,再结合漏洞扫描的日志信息、防火墙的日志,可以更精确的判断那些是威胁的IP及威胁的事件类型是什么,哪些方面需要增加安全策略,哪个时间段易受攻击等.

3 结束语

海量异构数据预处理,采用Hadoop框架下的HDFS系统和MapReduce对收集的数据进行分布式存储和分布式计算可提高效率.采用Hadoop生态圈中的Hive数据仓库进行存储管理查询,将以前一个一个孤立的安全设备、安全策略、安全事件,形成一张庞大的有关联的数据网.通过数据挖掘技术中关联规则Apriori对数据进行关联分析,通过源IP地址和目的IP地址,关联来自不同设备的攻击类型、时间、端口,通过底层网络设备采集的数据流,提供流量异常信息,发现网络的安全威胁,给管理者提供更全面的设置安全策略,完善网络安全保障工作.

参考文献

[1]王晋东,张恒巍,王娜,等.信息系统安全风险评估与防御决策[M].北京:国防工业出版社,2017.1.

[2]Chris Sanders,Jason Smith.网络安全监控[M].北京:机械工业出版社,2016.11.

[3]陈凤娟.不确定数据中的频繁闭项集挖掘[J].牡丹江师范学院学报:自然科学版,2016(3):22-25.

[4]Jiawei Han,Micheline Kamber.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.3.

[5]张小林.基于矩阵的Apriori改进算法与实现[J].长春师范学院学报:自然科学版,2013,3(6):17-21.

[6]单宇锋.网络安全态势感知系统的关键技术研究与实现[D].北京:北京邮电大学,2012.

[7]贾小贝,方欢.基于时延Petri网的网络日志行为相似性分析[J].牡丹江师范学院学报:自然科学版,2017(4):6-10.

编辑:琳莉

猜你喜欢

关联规则
数据挖掘技术在电站设备故障分析中的应用
基于关联规则的数据挖掘技术的研究与应用
面向用户需求的自适应学习系统个性化学习路径推荐研究
工业大数据挖掘分析及应用前景研究
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于关联规则和时间阈值算法的5G基站部署研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于关联规则的中医肺癌数据挖掘应用研究
数据挖掘在超市大数据中的应用