网络入侵检测数据采样策略研究
2015-02-28穆俊
穆 俊
(临沧师范高等专科学校 信息科学与技术系,云南 临沧 677000)
网络入侵检测数据采样策略研究
穆 俊
(临沧师范高等专科学校 信息科学与技术系,云南 临沧 677000)
研究网络入侵检测数据采样策略,对入侵检测的定义、分类以及基本结构进行了分析,并从数据挖掘、数据采集等方面讨论了网络入侵检测数据采样的技术基础,构建了入侵检测数据采样模型,进行风险识别判断定价,并对扩展策略进行了讨论。
网络入侵;入侵检测;采样策略
随着互联网用户规模的不断增加,互联网和经济活动的联系日益紧密,电子政务、电子商务逐渐繁荣,计算机网络安全形势也随之严峻起来,因此网络安全技术成为互联网技术中一项重要的研究课题。入侵检测是通过收集网络上的信息,如网络行为、安全日志、审计数据和计算机自身关键点信息等,进行网络数据行为分析,判断网络或者系统中是否存在违反安全策略的行为以及是否遭受攻击[1]。入侵检测系统能够动态识别可疑数据包,比防火墙技术具有更高的安全性能。研究入侵检测系统,实现计算机和网络的实时探测和智能监控,是保证网络和系统安全的有效途径。
1 概述
1.1 入侵检测
入侵检测最早在1980年被提出,目前已经逐渐趋于成熟。入侵检测能够监视并分析用户系统的行为,进行系统配置、漏洞审计以及敏感系统和数据的完整性评估,并进行攻击行为和异常行为的识别统计、审计跟踪,检测违反《中华人民共和国计算机信息系统安全保护条例》等法律法规的行为,方便系统管理员进行互联网系统的监视、审计和评估[2]。
1.2 分类
基于主机和基于网络的入侵检测系统有着不同的数据源。主机入侵检测系统采集主机的安全日志和系统数据,而网络入侵检测系统则采集网络数据包和网络动态数据,即主机入侵检测只针对一台主机,而网络入侵检测则能够检测多个主机形成的网络[3]。
网络入侵检测系统一般都被安装在网络和服务器上,能够实现通信链上全部层面的访问,具有入侵检测和入侵防御两种功能。入侵检测主要分为数据包采集和数据包检测两部分,系统根据数据包是否为恶意数据包进行分类[4],一旦在节点中发现恶意数据包,就通知网络防御部分,采取必要的防御措施避免恶意攻击。随着互联网规模不断扩大,网络传输数据量不断增加,实现有效的、有代表性的数据采集难度越来越大。
1.3 基本结构
入侵检测系统发展至今已逐渐演变为信息采集、信息分析和响应三大层面。
1.3.1 信息采集
系统、网络和用户活动状态以及行为信息的采集通过网络中各个关键节点来实现。信息采集质量的高低极大地影响着入侵检测系统的检测效果和稳定性,这是因为只有数据具有时效性和稳定性,才能保证采集系统保持较高的工作效率和实时性,避免目标系统在接到告警信息之前已经遭到攻击[5]。
1.3.2 信息分析
信息分析常见策略有模式匹配、统计分析和完整性分析三种。
模式匹配是将采集到的数据和网络系统误用模式数据库进行比较,甄别违背安全策略的行为。这种方法的优势在于分析系统能够在数据分析过程中不断丰富自己的数据库,是一种比较成熟的、工作量较小的技术。
统计分析在异常入侵检测中应用最为广泛。它在给定系统对象的情况下创建一个统计描述,对在正常运行情况下的测量属性进行统计,将结果与网络和系统行为进行比较,超出正常范围的观察值均被视作入侵。常见的统计分析工具有专家系统、模型推理和神经网络等几种[6]。
完整性分析重点分析文件或者对象的完整性,检测内容是否被更改。它能够迅速发现被更改的、木马化的应用程序。完整性分析借助完善的加密机制,对文件的变化有非常高的灵敏度,在事后分析中应用效果较好。
1.3.3 响应
响应是确认系统存在问题后,通过报告的形式将被监测对象的安全情况通知系统管理员,分为被动和主动两种。被动响应是对事件的报告分析和记录,主动响应则有入侵追踪、入侵警告和修正系统环境等技术手段。
2 网络入侵检测数据采样策略
2.1 技术基础
2.1.1 数据挖掘
数据挖掘技术是指在数据库的海量数据中获得有潜在价值信息数据的过程,常见的有聚类分析、回归分析、特征分析和偏差分析等几种方法。
1)聚类分析是按照数据属性进行数据库数据分类。因同一类数据的相似性远大于不同数据类型之间的相似性[7],故有相似性或者差异性之分。2)回归分析关注数据随变量和自变量的变化,采用数学统计方法建立回归方程,将数据库值对应到实值预测变量函数中,分析数据相互关系,连接数据之间的变化趋势。3)特征分析是对某组数据的内在特征进行分析,并将结果作为数据集总体特征。4)偏差分析重点统计实际数据处理结果和期望值之间的差值。
典型数据挖掘模型有用户界面、模式评估、数据挖掘引擎和数据库四层结构,主要用于网络入侵检测数据分析。数据挖掘能够从采集的数据中挖掘知识规律,及时发现异常并告警。
2.1.2 数据采样
数据采样是按照一定的采样规则,在海量数据中选择具有代表性的数据用于分析。应用于数据挖掘的数据采样策略主要有关联规则采样、分类采样、聚类采样和扩充采样等[8]。
2.2 基本框架
入侵检测系统网络节点可分成入侵节点和目标节点两种,系统可通过设置检查点检测入侵节点发送的恶意数据包。按照博弈论框架,入侵检测模型可分成入侵和检测两部分。在博弈中,入侵方发送恶意数据包,检测方检测、发现并拦截数据包。检测方知道入侵者最有可能入侵的路径,而入侵方则能够检测到最有可能被检测的检测方案[9]。
网络节点根据风险等级分为风险入侵节点、潜在风险节点、完全信任节点和目标节点四类。风险入侵的概率可根据网络经验值估算。为了降低风险损失,可通过风险管理策略安排检测策略。
2.3 风险判断
风险具有不确定性,且一些风险存在连续效应,即风险发生概率和风险造成的影响在时间域上不断变化。
恶意数据包入侵会直接影响网络运行情况,造成如网络软件损失、硬件损失和维修成本增加等许多不良后果。这些损失量化后可被用于风险值量化判断。
入侵方和检验方在无先验信息时,会优先考虑自身利益最大化。入侵方对节点风险值和节点入侵概率的控制有完全的自主选择权;而对检测方来说,某网络节点发出恶意数据包后,网络管理员将进行网络数据库概率统计,通过分析获得该类型节点触发恶意数据包的概率[10]。检测方要最大可能地监测并拦截数据包,但由于受到检验上限流量限制,为了提高恶意数据包检出和拦截效率,就需要进行最大可能入侵路径的探查,按照实际流量比例分配检测流量。
2.4 风险定价
风险造成的影响有直接经济损失和间接经济损失两类。直接经济损失是网络节点遭受入侵直接造成的损失,包括软件和硬件两部分;间接经济损失是由节点入侵造成网路瘫痪、目标主机受损等情况而导致的不可计量损失。节点的风险影响值可由直接经济损失和间接经济损失形成的线性函数表示。当网络中的节点数量不多时,通过统计方法就能计算出经济损失,但是随着网络节点数量的增加, 统计法的工作量增大,模型的计算效率就随之下降,这是统计方法的不足。
2.5 策略扩展
网络中的节点有入侵节点、不能完全信任节点和完全信赖节点三类。完全信赖节点和检测节点相邻或者接近,形成网络拓扑。
2.5.1 非信任节点均设为假想入侵者
网络中非完全信任节点数目不多时可采用这种算法。它对采样路径和速率进行逐一计算,对其他节点采样速率总量进行归一化计算以获得最终权重,并按照该权重进行预算重新分配。这种方法适用于节点数较少的情况,也存在如采样分散化等缺点,且需要对网络中每条线路进行采样,导致检测需要较多的硬件、软件以及网络资源消耗,因此这种策略的适用性并不强[11]。
2.5.2 按照实际流量分配采样速率
当网络内节点较多时,使用如2.5.1所述的采样策略会产生较大的资源消耗,且效率不高,这时可以选择与目标节点相连的节点作为采样点,按实际流量分配采样速率。在决策中使用先验信息,即在检测中发现恶意代码数据包时,可使用博弈模型获得最优采样策略,最大可能地进行拦截;但是按照博弈模型获得的采样策略没有充分考虑在多阶段的动态博弈过程中,入侵者会在持续的信息采集中察觉,并通过中转路径避开检测系统的情况,为此,在检测已知入侵点的同时,仍然需要检测其他节点,并合理地分配预算。即,检测系统需要决策在预算一定的情况下检测节点的分布策略[12]。
对于单入侵点数据采样,检测方在主机和通往主机的网路上建立信息监测点,当入侵者在某个节点上释放恶意数据包时,检测系统就可以捕捉任意一个数据包,并识别数据包中的恶意代码。假设攻防双方在网络拓扑和带宽流量方面的信息都是完备的,那么入侵方可自由选择进攻路线,而检测方则通过访问路由设备,并不断更新状态数据库来获得网络系统内的信息,进而选择最有可能发现入侵数据包的采样方案。这样,检测方就能够获得入侵者的决策函数和恶意信息包检出率,根据博弈论Minimax定理,获得决策函数的最优解。
3 结束语
随着网民规模的大幅度增长,网络和经济利益之间有了紧密的联系,这刺激了网络犯罪,使网络安全成为网络技术中一项重要的研究课题。网络入侵检测技术能够有效保证网络安全;但因网络资源有限,故其发展目标是在占用有限资源的前提下提高入侵检测的精确性和有效性。
本文对数据挖掘技术在数据采样分析中的应用进行了讨论,在博弈模型的基础上建立了入侵检测数据采样模型。在实际中,网络结构往往非常复杂,且不同的网络结构特性也不同,网络安全维护工作需要根据实际情况,灵活地制定数据采样策略,以保证网络运行安全。
[1] 谭小彬,王卫平,奚宏生,等.计算机系统入侵检测的隐马尔科夫模型[J].计算机研究与发展,2012(2):245-250.
[2] 谭小彬,王卫平,奚宏生.基于隐马尔科夫模型的异常检测[J].小型微型计算机系统,2012(8):1546-1550.
[3] 唐小我,曾勇,曹长修.非负权重最优组合预测的迭代算法研究[J].系统工程理论方法应用,2013(4):48-52.
[4] 宋世杰,胡华平,胡笑蕾,等.基于数据挖掘的网络型误用入侵检测系统研究[J].重庆邮电学院学报(自然科学版),2012(1):21-26.
[5] 蒲天银,秦拯.基于Netflow的流量异常检测技术研究[J].计算机与数字工程,2012(7):115-117.
[6] 李洋,方滨兴,郭莉,等.基于主动学习和 TCM-KNN 方法的有指导入侵检测技术[J].计算机学报,2011(8):1464-1473.
[7] 李洋,郭莉,陆天波,等.TCM-KNN网络异常检测算法优化研究[J].通信学报,2011(7):13-19.
[8] 林智勇,郝志峰,杨晓伟.不平衡数据分类的研究现状[J].计算机应用研究,2012(2):332-336.
[9] 杨彬,李雪莹,陈宇,等.利用LINUX集群实现高速网络入侵检测[J].计算机工程与应用,2013(23):151-153.
[10] 杨武,方滨兴,云晓春,等.基于骨干网的并行集群入侵检测系统[J].哈尔滨工业大学学报,2012(3):274-275.
[11] 彭曼曼,喻飞,李仁发.一种基于网络处理器的入侵检测系统[J].计算机应用研究,2013(4):115-117.
[12] 徐陈佳,蔡圣闻,谢俊元,等.千兆线速入侵检测系统的设计与实现[J].计算机科学,2012(2):45-48.
【责任编辑 梅欣丽】
Research on Data Sampling Strategy Based on Network Intrusion Detection System
MU Jun
(Faculty of Information Science and Technology, Lincang Teachers’ College, Lincang 677000, China)
This paper mainly studied data sampling strategy on network intrusion detection. It analyzed the definition, classification and basic structure of the intrusion detection, discussed technical basis of data sampling from data mining and data acquisition. It built an intrusion detection model of data sampling, recognized the risk identification pricing and involved the extension strategy.
network intrusion; intrusion detection; sampling strategy
TP393.08
A
2095-7726(2015)03-0024-04
2014-11-12
云南省教育厅科学研究基金重点项目(2014Z137)
穆俊(1979-),男,云南临沧人,讲师,硕士,研究方向:计算机应用技术、软件理论及数据挖掘。