传感网中对抗恶意节点的博弈论分析

2016-08-22袁智荣吴一坤王军强蒋卫东

传感器与微系统 2016年7期

关键词：博弈论传感参与者

袁智荣，吴一坤，王军强，蒋卫东

(1.西北工业大学无人机研究所，陕西西安 710065；2.西北工业大学电子信息学院，陕西西安 710072)

研究与探讨

传感网中对抗恶意节点的博弈论分析

袁智荣1，吴一坤2，王军强1，蒋卫东2

(1.西北工业大学无人机研究所，陕西西安 710065；2.西北工业大学电子信息学院，陕西西安 710072)

无线传感网作为应用广泛的多跳自组织网络，由成百上千资源有限的传感器节点组成。当网络数据传输时，若节点的通信负载超过其可用带宽，则会发生拥塞，使得传输不可靠，尤其在无线传感网特殊的工作环境中，当有恶意节点存在时会更严重。为此，引入博弈论，对有恶意节点存在的传感网进行研究，分析节点行为，建立博弈模型，给出实现步骤和验证方案，综合理论分析和仿真结果，获得节点最佳策略，达到网络拥塞避免的既定目标。

无线传感网；博弈论；恶意节点；拥塞避免

0 引言

无线传感网(WSNs)集合了传感器技术、分布式信息处理、无线通信等方面研究的最新成果,成为目前国内外学术领域中的热点研究对象。为了增强人们对客观世界的测控能力，它的功能被不断加强，使之在空间探索、环境监测、军事侦察、远程控制等领域都具有巨大实用价值和广阔应用前景[1,2]。如何有效管理这些应用所带来的数据传输问题，以保证网络服务质量优良,成为当前需要面对的重要问题。

目前,针对无线传感网拥塞避免的研究工作已经取得了一定成果[3]。其中，博弈论作为一种理论工具，显示了其独特的优势和作用。从博弈角度考虑，认为参与者通常情况下是理性的，它们的策略都试图将自身收益最大化，然而，这种理性并非绝对，自然环境的干扰会使参与者变成非正常状态，严重影响网络性能。本文以拥塞避免为目的，以对抗恶意节点为侧重，推导出参与博弈的传感网节点应该采取的最佳决策。

1 无线传感网节点行为

1.1 节点自私行为

无线传感网节点间通过互相协作来提供正常的网络服务，但部分节点会优先考虑自身有限资源而自私地选择不合作行为，这样必定会严重影响网络性能。为了促进网络自私节点进行协作，已提出基于信誉以及博弈论等方法的激励机制，前者通过引入信誉值来迫使节点协作，后者则是通过分析节点收益来驱动合作[4]。

1.2 节点恶意行为

无线传感网通常是被部署在一个相对开放的环境中，节点容易被外界攻击者俘获而成为恶意节点，进而对网络发动攻击。这些恶意攻击不仅会造成网络拥塞甚至瘫痪，而且具有很强的随机性，难以防范，传统的密钥机制也会失效[5,6]。如何有效防范恶意节点的行为，对于保证传感网正常数据传输具有十分重要的意义。

2 博弈论

2.1 构成要素

博弈论主要研究了博弈参与者间的相互作用，是运用在竞争现象的数学理论和方法，其基本构成要素如下：

1)参与者：博弈的决策主体，可以是人，也可以是参与竞争的其他主体。

2)策略：博弈中所有参与者采取行动时的组合，不止一组。

3)收益：参与者通过执行策略所得的利润。

4)均衡：所有参与者选择的最优策略集合。

2.2 纳什均衡

博弈过程中，存在一策略组合，所有参与者都稳定在该组合上采取行动，且没有任何一个参与者愿意打破这种稳定，而去采取其他行动。因为一旦稳定被打破，参与者自身的收益将会降低。此策略组合被称为纳什均衡点。它的意义在于：为博弈提供了一种重要的分析手段，使研究可以在通俗的博弈结构中寻找想要的结果。

3 模型设计

3.1 建模构想

相对于以往将博弈论应用在无线传感网中的研究，本文建立的博弈模型改进并突出了以下三点：

1)以往采取链路层定价带宽，单个节点进行博弈。本文着眼网络整体，将节点分类博弈，突出恶意节点行为，制定分类节点的相应策略。

2)以往忽略网络外部干扰，将所有节点默认为理性状态。本文考虑传感网节点易受攻击，将在传统转发或不转发的策略范畴上加入攻击行为，将它对网络性能的影响考虑在内。

3)以往采取静态博弈类型。本文将利用动态演化博弈理论，根据收益矩阵，列出演化方程，仿真节点实时状态，快速确定博弈策略优劣。

3.2 模型建立

1)参与者:传感网正常节点，传感网恶意节点。

2) 策略:对于正常节点，具有转发和不转发两种策略，记为S1=(T，NT)；对于恶意节点，具有转发、攻击和不转发三种策略，记为S2=(T，A，NT)。其中，恶意节点的攻击策略定义为：虫洞攻击、Sybil攻击和删除攻击[7,8]相结合的行为，其目的是为了占用更多链路带宽，使正常节点的数据无法有效传输，造成网络拥塞。当采取攻击策略时，恶意节点发送“伪数据包”，此包的真假用户无法辨认。

3)收益：设定CR为节点转发一个数据包消耗的资源，R为节点成功转发一个数据包获得的收益，CA为恶意节点发动攻击消耗的资源，M为恶意节点发动攻击获得的收益，C为无线通信链路初始带宽，C>R>M>CA>CR。当正常节点转发时，恶意节点发动攻击，它不仅获得攻击收益带宽M，还会窃取正常节点应得转发收益带宽R；当正常节点不转发时，恶意节点发动攻击，只获得攻击收益带宽M。

3.3 模型分析

1)收益矩阵分析

收益矩阵如表1所示，存在唯一的纳什均衡，即(不转发，攻击)策略组合。意味着经有限次博弈，正常节点会选择不转发行为，而恶意节点则不断对网络进行攻击。

表1 节点博弈收益矩阵Tab 1 Node game profit matrix

随着攻击次数不断增加，链路剩余可用带宽单调递减。存在时刻T，T时刻后恶意节点发送的“伪包”也不断被丢弃。用户看来，网络发生了拥塞，无法正确传输数据。

2)行为策略改进

由于恶意节点的攻击导致了网络拥塞的发生。为了解决问题，受攻击策略的启发，给正常节点加入防御策略，正常节点的策略空间将变化为S1=(T，NT,D)。设定正常节点防御性转发一个数据包消耗资源CD。其中，M>CD>CA。改进策略后的收益矩阵如表2所示。

表2 节点博弈收益矩阵Tab 2 Node game profit matrix

此矩阵不存在明显的纳什均衡。为了找到保证网络性能的最优策略，利用软件工具进行更精确的仿真分析。

4 模型仿真

4.1 仿真对象

设定无线传感网正常节点分别采取转发、不转发和防御策略的比例为X1,X2,X3；恶意节点分别采取转发、攻击和不转发策略的比例为Y1,Y2,Y3，则有X1+X2+X3=1,Y1+Y2+Y3=1。

根据动态博弈中的演化博弈理论，可以得到不同类型节点采取不同策略时的复制动态方程。此方程的意义为：利用具体某类型节点全部采取某一具体策略时的均收益与具体某类型节点按比例采取具体策略时的均收益作比较，再结合微分方程的函数变化率，便可判断出下一时刻节点的走势取向。总共六种策略，所对应的六个复制动态方程如下：

(1)

d(X2)/dt=-[X1·Y1·X2+X2·X3·(Y1+Y2)]·R+X1·X2·CR-X2·X3·CD

(2)

(3)

(4)

(5)

d(Y3)/dt=-[(X1+X3)·Y1·Y3+Y2·X1·Y3]·R+Y1·Y3·CR+Y3·Y2·CA-Y2·Y3·M

(6)

式中资源的消耗和收益是常量，在满足基本条件C>R>M>CD>CA>CR的情况下，给出固定仿真值带入：R=1，M=0.7，CD=0.5，CA=0.4，CR=0.2。

4.2 仿真工具与代码

利用MATLAB对上述六个常微分方程进行仿真，核心代码如下：

t_span=[0:0.5:50];%自变量t

y=[0.5,0.5,0,1/3,1/3,1/3];%×1

到y3在t等于0时候的初始值，可变

[t,Y]=ode15s(@dif_Eq,t_span,y);

%调用龙格—库塔函数求解微分方程，dif_Eq函数在另一个M文件中以子函数形式存在

figure1=figure(1); %创建图

dif_Eq子函数代码：

function dydt = dif_Eq(t,y)

4.3 仿真数据分析

现对X1,X2,X3,Y1,Y2,Y3赋予多组初值，进行仿真分析。

1)令(X,Y)=(0.5，0.5，0，1/3，1/3，1/3),正常节点均分两类，采取转发或不转发策略，无防御性策略节点；恶意节点随机均分为三类，分别采取转发、攻击和不转发策略。仿真结果如图1所示。

分析：经过博弈，正常节点全部采取不转发策略，恶意节点全部采取攻击策略，这和最初分析的未加入防御性策略时的节点收益矩阵结果吻合，网络会走向拥塞甚至瘫痪的糟糕状况。

2)令(X,Y)=(1/3，1/3，1/3，1/3，1/3，1/3),正常节点加入防御性策略，随机均分为三类，分别采取转发、不转发和防御策略；恶意节点随机均分为三类，分别采取转发、攻击和不转发策略。仿真结果如图2所示。

图1 节点走势图Fig 1 Node trend image

图2 节点走势图Fig 2 Node trend image

分析：经过博弈，网络节点无法达到稳定状态。当有部分正常节点采取防御性策略时，恶意节点将放弃攻击策略变为转发策略(R-CR>M-CA)；当恶意节点变为转发策略后，正常节点将放弃防御策略变为转发策(R-CR>R-CD)；当正常节点变为转发策略后，恶意节点将放弃转发策略变为攻击策略(M+R-CA>R-CR)；当恶意节点变为攻击策略后，正常节点将放弃转发策略变为防御策略(R-CD>-CR)。因此，节点将陷入反复循环博弈的过程，网络无法稳定，该策略也不是能够避免拥塞的选择。

3)令(X,Y)=(0.2，0.1，0.7，0.4，0.2，0.4),更随机地对节点比例变量赋予初值，验证前两组结论分析的可靠性。仿真结果如图3所示。

图3 节点走势图Fig 3 Node trend image

分析：经过博弈，两类节点依旧无法达到稳定状态。节点走势与图2类似，其原因与上组数据结论一致，说明只要加入防御策略后，仍有部分正常节点初始处于转发及不转发策略，网络最终都会达到不稳定的状态，此结果与初始赋值的大小无关。

4)令(X,Y)=(0，0，1，1/3，1/3，1/3)，正常节点全部采取防御性策略转发数据；恶意节点随机均分三类，分别采取转发、攻击和不转发的策略。仿真结果如图4所示。

图4 节点走势图Fig 4 Node trend image

图4分析：经过博弈，正常节点全部采取防御性策略；恶意节点为了最大化自身收益而全部采取转发策略(R-CR>M-CA>0)。网络会进入良好的协作状态，避免拥塞发生，并一直稳定地持续下去。但这样的策略组合是否最优有待进一步分析。

5)令(X,Y)=(0，0，1，0.1，0.6，0.3)，初值设定与第4组相比，更改了恶意节点的初始策略比例，使数据更随机，增加结论可靠性。仿真结果如图5所示。

图5 节点走势图Fig 5 Node trend image

分析：经过博弈，仿真结果与图4类似，网络达到了拥塞避免的状态，而唯一区别在于图5需要达到稳定的时间更多，该组的策略劣于上组。但本质来说，这种比较是无意义的，因为正是恶意节点比例的变化造成了耗时的增加，而实际中无法预测或管理恶意节点的变化。因此，若不仅只满足拥塞避免，更期待寻找到最优的实现策略(即达到拥塞避免的耗时最少)，就需要设定在恶意节点初始比例不变的情况下尝试。

6)令(X,Y)=(0，0.7，0.3，1/3，1/3，1/3)，初值保持了与第4组相同的恶意节点初始策略比例，正常节点随机分配，采取不转发和防御两种策略。仿真结果如图6所示。

分析：经过博弈，仿真结果与图3和图4类似，网络中正常节点全部采取了防御策略；恶意节点全部采取了转发策略。网络达到拥塞避免的目的，但从最优角度讲，该组策略的耗时比第4组更多，处于劣势。

图6 节点走势图Fig 6 Node trend image

4.4 仿真数据总结

六组仿真结果更直观确切地反映了此博弈模型，分析比较可得，对于无线传感网，加入防御性转发策略是至关重要的。为了对抗恶意节点，保证网络性能，在初始部署节点时，将其全部设定为防御性转发策略。

5 结论

本文针对无线传感网进行了研究，突出恶意节点对网络性能的危害，提出问题，建模分析,最终得到解决方案。利用博弈理论建立网络模型，以节点具体收益为基础，分析节点行为选择，尝试性加入新策略，不断改变网络节点的决策部署，利用软件实时拟合仿真，多组结果横向对比，从中选出最佳策略组合，达到既定目的，进而得到具有实际意义的适用性结论。本文可为无线传感网对抗恶意节点，实现拥塞避免工作提供实质性指导。

[1] 周新莲.基于分簇技术的移动无线传感器网络数据收集协议研究[D].长沙：中南大学,2010.

[2] 刘拥民,蒋新华,年晓红.无线传感网拥塞控制研究[J].计算机应用研究,2008,25(2):565-571.

[3] 邱丽娟,姜宇,胡成全.无线传感器网络可靠性研究进展[J].传感器与微系统,2011,30(10):1-3.

[4] 黄莉.基于博弈论的无线网络节点行为研究[D].北京：北京交通大学,2011.

[5] 戚玉娥.基于网络流的流量异常检测研究[D].济南：山东师范大学,2009.

[6] Yim S,Choi Y.Neighbor-based malicious node detection in wireless sensor networks[J].Wireless Sensor Networks,2012,4(9):219-225.

[7] 陈英,舒坚,陈宇斌,等.无线传感器网络技术研究[J].传感器与微系统,2007,26(10):1-4，8.

[8] 盛燕.无线传感网恶意节点识别技术研究[D].哈尔滨:哈尔滨工程大学,2008.

Game theory analysis of against malicious nodes in sensor networks

YUAN Zhi-rong1, WU Yi-kun2, WANG Jun-qiang1, JIANG Wei-dong2

(1.Institute of UAV,Northwestern Polytechnical University,Xi’an 710065,China；2.College of Electronics and Information,Northwestern Polytechnical University,Xi’an 710072,China)

Wireless sensor networks(WSNs)is a widely applied multi-hop Ad Hoc networks,it is composed of hundreds of resources limited sensor nodes.When data is transmitting,if traffic load of node exceeds its available bandwidth,congestion will occur,so that transmission is unreliable.This is especially true in special work environment in WSNs,when there are malicious nodes,will be more serious.Introduce game theory,research on WSNs with presence of malicious node research,analyze behavior of nodes,establish game model,implementation steps and verification scheme are given,synthesize theoretical analysis and simulation results,get the optimal strategy of node,achieve goal of network congestion avoidance.

wireless sensor networks(WSNs); game theory; malicious node; congestion avoidance

10.13873/J.1000—9787(2016)07—0009—04

2016—04—26

TN 919

1000—9787(2016)07—0009—04

袁智荣(1965-)，男，陕西宝鸡人，研究员级高级工程师，主要从事传感器应用与控制的研究。