APP下载

基于误用检测的NIDS系统设计

2016-05-14张恩昊

中文信息 2016年7期
关键词:入侵检测聚类分析数据挖掘

张恩昊

摘 要: 入侵检测技术是一种重要的动态安全防护技术,能够对计算机和网络资源上的恶意使用行为进行识别和响应。本文设计了基于误用检测的入侵检测系统,并将数据挖掘技术应用于入侵检测中,通过对入侵行为进行分析,提取特征,实现入侵规则库的更新。基于误用检测的入侵检测系统的一大缺点是误警率高,采用基于面向属性归纳的概念聚类方法来处理警报,将相似的警报聚类,从中识别出警报根源并消除,减少系统的负载。

关键词:入侵检测 误用检测 数据挖掘 聚类分析

中图分类号:TP3-0 文献标识码:A 文章编号:1003-9082(2016)07-0007-01

一、系统结构

本系统采用模块化的设计思想,包含入侵检测、数据挖掘和警报处理三大组件,各组件中包含各自的功能模块实现该组件的功能,系统结构如图1.1所示。

入侵检测组件包括网络数据采集、数据包解析、数据预处理、规则解析和入侵检测五大模块,主要利用误用检测技术完成网络数据的检测工作。数据挖掘组件主要包括存储模块和数据挖掘模块,主要实现原始网络数据包存储和从原始连接数据库中发现未知的入侵行为,并提取规则的功能。警报处理组件包括输出与日志模块和警报处理模块,主要处理系统误警,消除警报根源或设置过滤规则,降低系统的误报率和系统开销。

二、模块功能简介

网络数据采集模块实时获取网络中传输的数据包。该模块是整个系统的基础,将满足条件的数据包交由数据包解析模块。

数据包解析模块将从网络上抓取的数据包,沿TCP/IP协议树从下向上沿各个协议栈进行解码并填充相应的数据结构,以便后续模块的处理和存储。

数据预处理模块的作用是在模式匹配之前对网络数据进行分片重组、流重组等预先处理,从而方便随后的检测分析。

规则解析模块在初始化阶段完成规则库中的规则解析工作,在内存中生成可供检测程序高效检索的二维链表数据结构。

入侵检测模块将预处理过的数据同生成的检测规则进行规则匹配,若匹配则写入日志,否则记录到数据库中,以便未来分析处理。

入侵检测模块发现入侵后需要记录相应的入侵数据包信息,输出与日志模块将检测到的入侵数据信息记录在文件中,用于将来的误警检测和分析。

在完成入侵检测后,将未检测出入侵行为的网络数据包信息输出到存储模块,对存储在数据库中的网络数据包进行处理,查找可疑事件或者进行网络流量分析等。

历来检测新的未知入侵行为都是入侵检测系统的一大难题,主要原因就是检测规则库更新困难。数据挖掘模块对于存储在数据库中的网络数据首先进行数据消脏、选择和预处理后,提取数据包中的头信息,为每个连接建立连接记录,再采用基于信息熵[2]的聚类分析方法提取未知的入侵数据,再利用分类分析方法进行入侵特征分析,提取规则,更新检测规则库,提高检测未知的入侵行为的能力。这主要基于以下的假设,即我们假定网络上发生的入侵是小概率事件,并且攻击行为与正常的网络连接不同,显示多样性。这样通过聚类分析形成的不同聚类中,正常的访问数据占多数,那么剩余的少数聚类为入侵数据。

信息熵是对一个随机变量的信息和不确定性的测量[1]。信息熵可以被用来测量一个系统的"无序"程度。熵值越大,说明系统中的数据越无序;熵值越小,则说明系统中的数据越有序,越"纯净"。如果将信息熵应用到聚类中,根据聚类的判断准则,同一聚类中的数据越相似越好,而数据越有序,越"纯净",说明数据的相似性越好。因此,"熵值越小,聚类越好"是应用信息熵评估聚类好坏的理论标准。

在基于信息熵的入侵检测的聚类分析之后,包含记录比较少的聚类中的数据将作为入侵记录进行分析,从中提取入侵特征更新规则库,系统中采用决策树C4.5算法[3]。

基于误用检测的入侵检测系统通常需要处理数量巨大的警报日志,研究发其中有99%的警报是误警[4,5],而且有些警报的产生原因相对稳定,这些少数的警报根源导致的警报占所有警报的90%以上。本系统采用概念聚类[6]方法来发现警报中误警的特征,警报处理模块采用面向属性归纳算法[2],进行警报根源分析,减少未来警报系统的负载。

三、系统部署

本系统采用部署在防火墙或其他安全产品(如IPS等)内部的方案。这种做法的主要理由是部署内部的检测系统会比外面的系统脆弱性少一些,也少一些干扰,从而有可能减少误报警。如果检测系统在内部检测到本应该被封锁的攻击渗透进来,就能发现防火墙或其他安全产品(如IPS等)的设置失误。更重要的是入侵检测系统并不是孤立的系统,相关安全产品之间应形成互动,入侵检测系统产生的过滤规则应及时通知相关安全产品进行规则更新。

参考文献

[1]Lee Wenke, XiangDong.Information-Theoretic Measuresfor Anomaly Detection.In: Proceedings of the IEEE Symposium on Security and Privacy.USA: IEEE Press, 2001:130-143.

[2]熊家军.基于数据挖掘地入侵关键技术研究:(博士学位论文).武汉:华中科技大学,2004.

[3]http://sicp.csail.mit.edu/6.034/spring06/projects/learn/code/C4.5/DOC

[4]Bloedorn E, Mani I, MacMillan T.Representational Issues in Machine Learning of User Profiles.In: Proceedings of the Thirteenth National Conference on Artificial Intelligence. USA: AAAI Press, 1996:433-438.

[5]Mani I, Bloedom E.Multi-Document Summarization by Graph Search and Matching.In: Proceedings of the 14th National Conference on Artificial Intelligence.USA: AAAI Press, 1997:622-628.

[6]Pitt L, Reinke E.Criteria for Polynomial-time (conceptual) Clustering. MachineLearning, 1998, 2(4):371-396.

猜你喜欢

入侵检测聚类分析数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于入侵检测的数据流挖掘和识别技术应用
艺术类院校高效存储系统的设计
基于关联规则的计算机入侵检测方法
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究