WSN中基于博弈理论的入侵检测研究
2016-07-04桂明倩刘宴兵周瞭永
桂明倩,刘宴兵,周瞭永
(重庆邮电大学 网络与信息安全重庆市工程实验室,重庆400065)
WSN中基于博弈理论的入侵检测研究
桂明倩,刘宴兵,周瞭永
(重庆邮电大学 网络与信息安全重庆市工程实验室,重庆400065)
摘要:传统的无线传感器网络(wireless sensor networks, WSN)入侵检测研究主要关注检测系统自身算法的设计与优化,而入侵检测系统在采取行动时,本身会受到攻击者的影响。针对这一问题,运用博弈理论建立了一个带惩罚机制的博弈模型,分析了检测系统与入侵者之间的攻防博弈过程。同时对入侵者施加合适的惩罚力度来遏制入侵行为。仿真结果表明,该方案可以有效检测到无线传感器网络中存在的异常节点,并有效降低入侵者的攻击频率。
关键词:无线传感网;重复博弈;入侵检测;异常节点
0引言
无线传感网络(wireless sensor networks, WSN)中的传感器节点一般部署在条件恶劣的环境中,且节点具有组群化、数量庞大、移动性低等特点。因此,为更好地扩大无线传感网应用,人们对通信网络质量提出了更高的要求。同时无线传感网具有一些自身特点,和传统通信网络有所区别。无线传感网不仅面临现有通信网络中所具有的安全威胁,而且面临与其自身网络特点相关的特殊网络威胁。在无线传感网中,感知节点的计算能力、通信范围、能力资源、存储空间均十分有限,对其进行保护的安全机制较少,安全性也较脆弱,同时由于目前物联网的标准化并未完全实现,所以数据传输协议和消息的标准也没有统一,这就导致人们无法制定一个统一的安全保护体系。针对感知节点的这些特点,入侵检测技术提供了一种有效解决无线传感网络安全问题的方法[1]。
1相关研究
无线传感网环境下入侵检测研究是当前物联网安全研究的一个重要方向,目前已经形成了一系列的研究方法,并取得了一定的研究成果。
文献[2]提出了一种基于高斯分布的无线传感网络入侵检测节点部署方案。该方案可以在不同地点提供不同的检测能力,并分析了单传感器检测和多传感器检测情景下的参数和应用要求。此外,将高斯分布的无线传感器网络的性能与均匀分布的无线传感器网络进行了对比,得出在随机的无线传感网络中能够制订合适的检测率和选择适当的部署策略,并确定关键的网络参数。文献[3]针对WSN中危害很大的误导攻击提出了一种基于簇的入侵检测与防护技术。虽然使用该技术会导致网络的短暂延迟,但可以极大地改善网络的吞吐量。文献[4]针对异构环境中的传感器节点提出了一种基于蚁群优化技术的入侵检测方案。该方案在特定的区域针对不同的传感器节点密度可以成倍地检测到入侵行为。在异构环境中使用这种蚁群优化技术可以有效提高入侵检测率。文献[5]提出了一种基于粒子滤波的入侵检测算法。该方案将LEACH算法运用于无线传感网络簇中的节点上,并使用粒子滤波算法来检测节点的流量异常来发现异常节点。该算法可以将异常节点的检测率维持在0.48—0.7。同时,检测系统也可以维持在一个较稳定的状态。文献[6]根据同构和异构2种无线传感网模型来考虑入侵检测问题。该方案通过单传感器检测和多传感器检测2种模式来得到检测结果。同时,能够强化网络的连接和广播覆盖能力。文献[7]为了设计和分析WSN中的入侵检测问题,运用不完全信息下的非零和随机博弈理论设计了一种健壮的优化模型。模型中的博弈参与人和博弈参数均考虑到了WSN的安全需求。均衡分析揭示了入侵者和入侵检测系统之间相互冲突的目标是如何迫使他们采取不同的立场。该方法可以有效降低系统对数据扰动的敏感性,提高设计的稳定性。
以上研究主要集中在对检测系统自身算法的设计与优化上。本文对网络中检测系统和入侵者之间的相互影响进行深入分析和探讨,并将博弈理论与入侵检测技术相结合,提出了一种重复博弈模型,利用此模型对异常节点作出有效判定,根据入侵者行为的不同给予不同惩罚,有效降低了入侵者的攻击频率,最后通过仿真验证了本模型的有效性。
2博弈模型
博弈论是研究入侵检测的重要工具[8],本文将博弈论引入到无线传感网络的入侵检测当中,建立了一种重复博弈[9]模型,利用检测系统与入侵者之间的重复博弈,实现了对入侵者的有效识别。同时使用惩罚机制对入侵行为进行适当惩罚,以有效遏制入侵者的入侵行为。
2.1博弈模型定义
入侵检测博弈模型定义为
(1)
参与人:是指在一个博弈中能够将对手的行为纳入到自身行为选择过程中的主体。(1)式中{Di,Ai}为参与人,即博弈双方,检测系统Di和入侵者Ai。
战略空间:本文中参与人Di有监测与不监测2种策略,即SDi={监测,不监测}。同样地SAi={攻击,正常},它表明了参与人做出决策时可选择的方案。
支付函数:是指参与人行动结束后,每个参与人可以获得的收益。(1)式中Ui即为参与人的支付函数。
2.2博弈模型分析
在博弈模型中,针对入侵者的攻击行为,入侵检测系统何时开启监测行为,以提高检测效率,减少不必要的系统资源消耗,这是本模型研究的重点问题。入侵检测系统防御成功获得的收益为Wd,入侵者攻击成功获得的收益为Wa,开启入侵检测系统的代价为Cd,入侵者进行入侵行为的代价为Ca,节点遭受攻击时的平均损失为Ci,节点参与正常通信活动的收益为Wc。博弈过程中,双方的收益函数如表1所示。
表1 收益函数表
从表1可以看出:假定系统总是监测,入侵者的最优策略是进行正常通信活动;假定入侵者进行正常通信活动,系统的最优策略是不监测;假定系统选择不监测,入侵者的最优策略是发动攻击;假定入侵者采取攻击策略,系统的最优策略是开启监测。因此,以上所有策略均不构成纳什均衡,即在该模型中纯策略的纳什均衡不存在。
那么根据纳什均衡存在性定理[10],此博弈模型一定存在混合策略的纳什均衡。不妨假设入侵者以Pa的概率发动入侵行为,以(1-Pa)的概率进行正常的通信活动;检测系统以Pd的概率进行监测,(1-Pd)的概率选择不监测。即入侵者的混合策略为(Pa,1-Pa),检测系统的混合策略为(Pd,1-Pd)。则检测系统和入侵者的期望效用函数分别为
(2)
(3)
对(2)式,(3)式进行化简可得
Ed=CiPdPa-PaCi-CdPd+Wd
(4)
Ea=WaPa-CaPa-WaPaPd+Wc-WcPa
(5)
对(4)式,(5)式分别求微分,可得
(6)
(7)
对 (6) 式,(7) 式求解可得
入侵者的混合策略为
检测系统的混合策略为
这表明,当入侵者发动攻击的概率低于Cd/Ci,检测系统的最优策略是不监测;入侵者选择攻击的概率高于Cd/Ci,检测系统的最优策略是监测;入侵者发动攻击的概率等于Cd/Ci,检测系统应该选择混合策略。同样,当检测系统选择监测的概率低于(Wa-Ca-Wc)/Wa,入侵者的最优策略是攻击;若检测系统选择监测的概率高于(Wa-Ca-Wc)/Wa,入侵者的最优策略是进行正常的通信活动;当检测系统选择监测的概率等于(Wa-Ca-Wc)/Wa,则入侵者应该选择混合策略。
3异常节点检测方案
本方案由4个模块组成,如图1所示。
图1 异常节点检测方案Fig.1 Abnormal node detection scheme
1)建立分层检测体系[11]。本方案采用目前入侵检测体系中最常见的分层检测体系,先将入侵检测系统中的节点按功能进行层次划分,以便建立稳定的数据传输路由。底层节点负责数据感应任务,高层节点负责数据融合、数据分析等工作。
2)基于博弈理论的异常节点监测。将检测系统和入侵者作为博弈双方。博弈过程中,双方都从自身利益出发来选择行动策略。检测系统需要从自身能量、所获收益、检测成本等方面来理性选择监测与不监测2种策略。入侵者根据入侵收益、入侵成本、入侵成功率等要素来选择进行入侵或正常通信活动。
3)将监测信息传送到簇头。在检测系统与入侵者双方的博弈过程中,若检测系统检测到入侵行为,则将检测信息发送给簇头节点,以便簇头节点采取进一步的行动来遏制入侵行为的发生。
4)判定结果处理。簇头根据检测系统发送过来的信息,综合分析后做出判定,并将判定结果在簇内进行广播。若判定检测系统检测到入侵者,则启动惩罚机制,对入侵者进行及时惩罚,以减少网络损失。
4惩罚机制设计与分析
在博弈模型分析中我们围绕博弈双方的收益函数进行了阶段博弈分析。从上述分析中我们知道,若博弈双方只考虑眼前利益,即一次性博弈,则上述混合策略是唯一的纳什均衡。但当博弈双方从长远利益出发时,也就是进行多次重复博弈时,理性的博弈参与人有可能会选择(正常,不监测)这一对双方更加有利的策略。特别是加上适当的惩罚机制对不合作的参与人加以惩罚后,这一趋势更加明显。冷酷战略就是一个明显的例子。但是冷酷战略未必是对整个无线传感网络最好的惩罚机制。当入侵者偏离(正常,不监测)这一策略时,冷酷战略采取的做法是让簇内其他节点集体孤立这个异常节点来惩罚入侵者,并禁止这个节点再回归网络。这样做虽然使入侵者的收益明显少于不偏离时的收益,但是惩罚过重可能使异常节点直接退出网络。如果退出网络的节点过多,这对整个网络的运行也是有一定损害的。为此,我们设计了一个基于重复博弈的惩罚机制,并在该机制中针对异常节点的入侵行为,设计了一个可不断调整的惩罚时间,然后在惩罚时间结束后允许节点回归到网络中来。
本节给出适用于本文的惩罚机制算法,算法的具体过程如下。
1)在初始化阶段,设置t=0,n=0,T=0,R=Rm。其中,t为计时器,用来衡量博弈时间;T表示当前惩罚时间;n表示检测到的攻击次数;R表示惩罚的时间阀值。
2)当检测系统在某一时隙P检测到了入侵行为,则从下一个时隙P+1开始启动惩罚机制来惩罚该异常节点。在惩罚期内,簇内所有节点都会集体孤立该节点,不让该节点参与正常的通信活动,则该节点在这段时间内得不到任何收益。如果惩罚时间足够长,从长远来看,该节点由于入侵行为得到的额外收益终究会被抵消,甚至得不偿失。当惩罚时间结束后允许该节点回到网络中来,这样整个网络的性能不会受到太大影响。
3)在该博弈过程中,预先设定了一个常数N,如果系统博弈时间t大于阶段博弈时间N,则我们进入下一阶段来改善目前的博弈过程。在这一阶段,调整惩罚时间阀值R的大小,以此来更好地约束异常节点入侵行为。因为,如果惩罚过轻,节点可能忽视惩罚,继续发动入侵行为。若惩罚过重,节点从自身利益出发可能直接退出网络,若退出网络的节点过多,这对整个网络的运行也会产生很大的影响。所以,设置合适的惩罚时间对整个惩罚机制的好坏起到了至关重要的作用。
4)若经过对惩罚时间的调整后,网络性能没有得到改善,那么将继续调整惩罚时间。若网络性能得到改善,则保存此次的R值,然后再调整R值参与到下一阶段的博弈当中去,以找到最佳的惩罚时间。其中,网络性能是否改善,可以通过入侵次数n是否减少,节点是否退出网络等因素来判断。
算法流程图如图2所示。
图2 算法流程图Fig.2 Algorithm flowchart
在实际过程中,博弈不太可能只进行一次。有时甚至无法知道博弈何时结束,在此种情况下,可以认为博弈进行了无穷次。由于存在上述惩罚机制,如果入侵者进行了入侵活动,则在惩罚期内,入侵者每次博弈的收益均为0。不妨设在第i0次出现首次偏离,则偏离一方的收益不会超过
(8)
而不偏离的收益是
(9)
(8)式、(9)式中δ为贴现因子,且0<δ<1。
(8)式减(9)式可得
(10)
令(10)式小于0可得
(10)式说明,当惩罚时间R和贴现因子δ足够大时,选择入侵没有好处。例如当R趋于无穷时,即实行冷酷战略时,只需满足
此时,选择入侵所获得的收益将会低于正常通信所获得的收益。因此,在重复博弈中,如果设计一种合理的惩罚机制,那么就可能有效降低入侵者的入侵行为。为此我们设计,一旦节点被检测出入侵行为,节点将进入惩罚期,期间其他任何节点均不对其提供服务。惩罚期结束后,此节点重新回归网络。
总收益是带贴现因子的各次收益之和。贴现因子反映了参与人在博弈过程中的耐心程度。这种耐心意味着时间价值较低,也就是δ足够大,那么各方面都能比纳什均衡有更多收益的策略组合能够成为子博弈精炼纳什均衡的路径。即一个策略组合,它不一定是G的纳什均衡。如果其收益比一个纳什均衡的收益有帕累托改进,则这一策略组合会出现在一个子博弈精炼纳什均衡的路径上。
5实验分析
本研究采用OMNET++(objectivemodularnetworktestbedinC++)4.4搭建网络环境。场景布置在250m×250m的区域内,随机放置60个节点,异常节点10个。参数设定如下:贴现因子δ=0.9,阶段博弈时间N=500,攻击收益Wa=90,攻击成本Ca=5,防御收益Wd=60,防御成本Cd=10,正常通信收益Wc=10,节点遭受攻击时的平均损失Ci=30。为了验证本文提出机制的有效性,此仿真主要对惩罚时间、节点攻击次数、退出网络的节点数量等要素进行了考察,并且将结果数据用MATLAB绘制成曲线。
图3、图4分别显示了在不同的惩罚时间R下,异常节点在阶段博弈时间N内发动攻击的次数的变化以及节点退出网络的数量变化。
从图3可知,随着惩罚时间R的逐渐延长,异常节点选择攻击的次数逐渐变少。这一现象是合理的。因为随着惩罚越来越严厉,异常节点从自身利益出发,为尽量避免受到惩罚,更好的策略是减少攻击的频率,避免被检测系统发现。因此,惩罚机制的设计目标就是激励异常节点采取正常通信的策略,遏制节点的攻击欲望。值得注意的是,惩罚时间R由0逐渐调整到8的过程中,节点发动攻击的次数并没有太大变化。这说明惩罚太轻,并没有对节点形成足够的威慑力,所以节点选择忽视惩罚,继续发动攻击以获取更大的利益;R由8到36的过程中,节点发动攻击的次数开始明显下降,这说明随着惩罚时间的继续延长,节点的攻击欲望开始得到有效遏制;从36开始,节点的攻击次数急剧下降,至41时降为0,这看似很好地减低了节点的攻击次数,但从图4可以发现,从36开始,异常节点退出网络的数量急剧增长,到41时全部退出网络。这说明,当R> 36时,对于异常节点来说,惩罚过于严厉。综上分析,我们选择最佳惩罚时间为36。
图3 惩罚时间对节点攻击次数的影响Fig.3 Effect of penalty time to the node number of attacks
图4 惩罚时间对节点退出网络的影响Fig.4 Effect of penalty time to exit the network node
图5为异常节点进行入侵和正常通信时的累积效益与博弈时间的关系。
从图5可以看出,当异常节点在时隙8时选择发动攻击,接下来的16个时隙,节点都会受到惩罚而没有收益。随着博弈的继续进行,节点选择发动攻击所得的收益在时隙24时开始被正常通信所得收益超越。因此,从长远利益来考虑,由于惩罚机制的存在,异常节点不会选择发动攻击,因为会降低其自身收益。
图6、图7分别反映了冷酷战略、本文机制以及非惩罚机制3种方案中发动攻击的节点数量、退出网络的节点数量与博弈时间的关系。
图5 异常节点累积效益Fig.5 Accumulation benefit of abnormal node
图6 攻击节点数量与博弈时间的关系Fig.6 Number of attacks nodes relationship with Game Time
图7 退出节点数量与博弈时间的关系Fig.7 Number of exit nodes relationship with Game Time
从图6、图7可以看出,冷酷战略可以很好地降低发动攻击的节点数量,但是这种惩罚过于严厉,随着博弈的进行,节点全部选择退出网络,这对于整个网络的运行也会产生很大的影响。非惩罚机制由于对发动攻击的节点没有惩罚措施,节点均不会退出网络,且节点的攻击欲望一直很强烈,频繁的对网络发动攻击。本文的方案既有效的遏制了异常节点的攻击欲望,同时也让节点更多地留在网络当中,参与网络的运行。
6总结
本文针对无线传感网中的入侵检测问题,提出了一种带惩罚机制的重复博弈模型。首先分析了该模型在完全信息静态博弈下的博弈过程,并求得了该模型的纳什均衡解。然后分析了在重复博弈过程中,惩罚机制的引入对博弈者的影响,并将本文机制与博弈论中比较典型的冷酷战略和非惩罚机制做了对比。仿真表明,本文的方案在有效检测到异常节点的同时,很好地遏制了节点的攻击欲望,又使这些节点留在网络当中,继续参与网络的运行。本文的下一步工作是将完全信息下的重复博弈模型扩展到不完全信息动态博弈当中,进一步提高系统适应范围。
参考文献:
[1]杨庚,许建,陈伟,等.物联网安全特征与关键技术[J].南京邮电大学学报:自然科学版,2010,30(4): 20-29.
YANG Geng,XU Jian,CHEN Wei,et al. Security characteristic and technology in the internet of things[J].Journal of Nanjing University of Posts and Telecommunications: Natural Science Edition,2010,30(4):20-29.
[2]WANG Y, FU W, AGRAWAL D P. Gaussian versus uniform distribution for intrusion detection in wireless sensor networks[J]. Parallel and Distributed Systems, IEEE Transactions on, 2013, 24(2): 342-355.
[3]SACHAN R S, WAZID M, SINGH D P, et al. A cluster based intrusion detection and prevention technique for misdirection attack inside WSN[C]//Communications and Signal Processing (ICCSP), 2013 International Conference on. IEEE. Melmaruvathur:IEEE Press,2013: 795-801.
[4]KAUR H, BAJWA E D S. Intrusion Detection System in WSN Using ACO[J]. International Journal of Innovative Research and Development, 2014, 3(7):464-469.
[5]FENG L, LUO G, YANG C, et al. The Realization of Intrusion Detection Algorithm Based on Particle Filtering in WSN[J]. Chinese Journal of Sensors and Actuators, 2013, 11(3): 19-23.
[6]DANTULURI P P. Intrusion Detection in Homogeneous and Heterogeneous Wireless Sensor Networks (WSN)[J]. Global Journal of Computer Science and TTechnology , 2013, 6(7):698-711.
[7]MOOSAVI H, BUI F. A Game-Theoretic Framework for Robust Optimal Intrusion Detection in Wireless Sensor Networks[J]. 2014,9(9): 1367-1379.
[8]AKKARAJITSAKUL K, HOSSAIN E, NIYATO D. Game Theoretic Approaches for Multiple Access in Wireless Networks: A Survey[J]. Communications Surveys & Tutorials, IEEE, 2011, 13(3):372-395.
[9]MANSHAEI M H, ZHU Q, ALPCAN T, et al. Game theory meets network security and privacy[J]. Acm computing surveys, 2011, 45(3):533-545.
[10] 魏淑芝, 朱琦. 基于网络选择的视频通信带宽博弈算法[J]. 通信学报, 2015,36(2): 24-33.
WEI Shuzhi,ZHU Qi. Bandwidth allocation games based on network selection for video communication[J]. Journal on Communications, 2015,36(2): 24-33.
[11] BUTUN I, MORGERA S D, SANKAR R. A survey of intrusion detection systems in wireless sensor networks[J]. Communications Surveys & Tutorials, IEEE, 2014, 16(1): 266-282.
Intrusion detection based on game theory in wireless sensor network
GUI Mingqian,LIU Yanbing,ZHOU Liaoyong
(Engineering Laboratory of Network and Information Security,Chongqing University of Posts and Telecommunications,Chongqing 400065,P.R.China)
Abstract:Traditional intrusion detection research focuses on the detection system design and optimization of their algorithms, and when intrusion detection system at the time takes action, it will be affected by the attacker. To solve this problem, the use of game theory, a game model with a punishment mechanism, is used to analyze the offensive and defensive game process between the detection system and the intruder, while applying the appropriate punishment for the intruder to curb intrusions. Simulation results show that this scheme can effectively detect the presence of abnormal nodes in the network, and effectively reduce the frequency of intruders.
Keywords:wireless sensor networks(WSN); repeated game; intrusion detection; abnormal nodes
DOI:10.3979/j.issn.1673-825X.2016.03.022
收稿日期:2015-05-02
修订日期:2016-03-02通讯作者:桂明倩245291118@qq.com
基金项目:国家自然科学基金(61272400)
Foundation Item:The National Natural Science Foundation of China (61272400)
中图分类号:TP393;TN915.08
文献标志码:A
文章编号:1673-825X(2016)03-0414-07
作者简介:
桂明倩(1988-),男,湖北荆门人,硕士研究生,主要研究方向为物联网入侵检测。E-mail:245291118@qq.com。
刘宴兵(1971-),男,四川遂宁人,教授,博士,博士生导师,主要研究方向为无线网络管控和网络信息安全。E-mail:liuyanbing@cqupt.edu.cn。
周瞭永(1990-),男,陕西榆林人,硕士研究生,主要研究方向为物联网隐私安全。E-mail:zhouliaoyong@163.com。
(编辑:田海江)