基于博弈论计算机网络对抗问题研究*

2015-06-15王长春陈志杰

火力与指挥控制 2015年3期

关键词：博弈论复杂性攻击者

王长春，陈志杰

（空军装备研究院雷达所，北京 100085）

基于博弈论计算机网络对抗问题研究*

王长春，陈志杰

（空军装备研究院雷达所，北京 100085）

针对日益普遍和多样的网络攻击行为，如何对网络各种攻防过程进行分析已逐渐成为热点研究方向。在对计算机网络对抗问题复杂性表现和产生根源进行探讨基础上，从完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈4个视角，对计算机网络对抗问题进行分类论述，对各解决方法进行了综合比较，并对今后的研究进行了展望。

计算机网络对抗，复杂性，博弈论，人为因素

0 引言

随着计算机技术的迅猛发展，社会活动和人类生活在各种计算机设备、网络的支撑下步入了信息化时代。随着各国军队大量信息化武器装备的研制、使用，作为信息产生、传输、控制、处理主体的网络也已经成为军事信息系统的神经中枢，网络的性能、状态直接关系到军队的战斗力，影响到整个战争机器。作为信息对抗的一个重要组成部分，计算机网络对抗已经成为了继陆、海、空、天、电之外的第六维敌我交战的主战场［1］。

目前关于计算机网络对抗主要存在3种观点。①“争夺说”，认为计算机网络对抗是在信息网络环境中，以网络为目标，围绕信息侦察、信息欺骗、信息攻击，为争夺网络信息优势而进行活动的总称；②“程序说”，认为计算机网络对抗是利用网络病毒武器为主的程序攻击活动的总称；③“攻防说”，认为计算机网络对抗是研究如何防御敌方攻击破坏己方网络系统和如何攻击破坏敌方网络系统的理论与技术的一门科学。概括起来，计算机网络对抗可以描述为：在网络空间中，利用敌方网络系统的安全缺陷，侵入敌方网络，窃听、伪造或破坏敌方信息，降低、破坏敌方网络的使用效能，同时保护己方网络的安全，使其可以正常发挥效能而采取的各种措施的总和。计算机网络对抗的焦点是网络信息资源的机密性、完整性、可用性和可控性，对抗的目标是夺取制网络信息权。

网络攻击是一种人为行为，它形成的根本原因与人的利益驱动具有很大的关系，博弈论可以较好地描述网络攻防中“人”的因素对事态发展的影响。因此，基于博弈论网络攻防分析技术将是一个充满前景的研究方向。然而，目前这方面研究还没有完整的综述见诸报道。

1 计算机网络对抗复杂性分析

1.1 计算机网络对抗复杂性表现

系统的复杂性来源于我们对系统的不认识，计算机网络对抗显示出不为我们认识的诸多方面，本文将从不确定性、适应性和非线性来讨论其复杂性。

1.1.1 不确定性

一方面，随着网络技术的广泛使用，众多作战单元通过无线电台、光纤光缆、卫星通信等媒体，进行着有线连接和无线连接，计算机网络对抗是真正意义上的全天候、全时辰连续作战，它几乎不受任何外界自然条件的制约。另一方面，对任何一个主权国家来说，领土、领空、领海都可以通过一定的边界进行确定，但网络空间与有形的物理空间不同，它是一个开放系统，几乎不受地域的任何限制，只要是网络所能覆盖的地方都是计算机网络对抗可及空间。

1.1.2 适应性

网络攻击者可以运用网络侦查手段探测攻击目标的突破口，然后利用信息收集手段分析、挖掘攻击目标的脆弱点，并利用渗透入侵手段，实施多种攻击，直到实现对对方网络的破坏与控制。同时，网络防御者会利用各种网络安全预警技术，动态监测分析各种攻击事件，并对已受到的攻击能快速作出响应，在最短的时间内修复系统，最大限度地减少对己方网络的影响。

1.1.3 非线性

涌现是有层次的，不同层次将产生不同的涌现效果，上一层次的涌现必由下面层次的涌现产生。在计算机网络对抗过程中，网络内局部的一个微小扰动，例如有人释放一个病毒，要是没有相应的预防机制，就会出现大面积的病毒感染现象，甚至人在网上的一次误操作都会涌现为雪崩式的灾难。

1.2 计算机网络对抗复杂性产生根源

复杂性产生的根源多种多样，任何单一因素都不能产生真正的复杂性，多种因素交织在一起才有可能形成真正的复杂性。本文将从技术和人两个视角来挖掘计算机网络对抗复杂性产生的根源。

1.2.1 技术因素

一方面，从网络通信平台、网络协议到网络应用服务，从操作系统、系统软件、程序设计语言到应用软件，从系统安全配置、用户操作到安全管理等，“先天”都存在这样或那样的安全漏洞，只不过发现时间的早晚不同，对系统造成的危害程度不同而已。例如，操作系统、数据库或应用程序往往由几万行、几十万行程序代码编写而成，IBM的研究人员根据统计调查指出，这些程序平均每一千行代码中就可能存在一个Bug。

1.2.2 人为因素

在计算机网络对抗领域里，人、网、环境相结合，形成了一个系统。在这个系统中，人以资源使用者的身份出现，是系统的主体，处于主导地位，系统的资源（包括软硬件、通讯网、数据、信息内容等）则是客体，而计算机网络作为“神经系统”通过反馈环路中把机器和人结合了起来。在计算机网络对抗过程中，攻击者会采取多种攻击技术和手段，探测发现系统脆弱性和漏洞，不断加以利用，以达到增大网络系统安全风险的目的。同时，防御者也会采取多种防御技术和手段，扫描发现网络系统中漏洞，并及时修补漏洞，降低己方网络系统的脆弱性。攻防双方的相互依赖关系如同两股相互纠缠的绳索，看起来有迹可循，实则难以准确把握。计算网络对抗过程中攻防双方的决策相互依赖关系如图1所示。

图1 计算机网络对抗行动的相互依赖关系

计算机网络对抗的本质是网络背后人与人之间的对抗。而经过几十万年的进化与演变，人的心理、行为、思维都表现出极为复杂的运动形态，已远非一般的机械、物理、化学甚至生物的相互作用所能表达，同其他无“人”系统相比，“人”在环路的系统是一个典型的复杂适应系统。

从上文分析可知，由于技术因素和人的因素使得计算机网络对抗行动的演化充满了不确定性、适应性和非线性等复杂系统特征。从整体上看，笔者认为，技术因素是计算机网络对抗复杂性的基础，而人的因素才是计算机网络对抗复杂性的核心。

2 计算机网络对抗博弈模型研究

计算机网络对抗是一个复杂而具有挑战性的问题，然而相互依赖的网络攻击者与防御者与进行博弈的双方之间存在异曲同工之处，这一属性激发了许多研究人员致力于将博弈论引入到计算机网络对抗领域。基于博弈计算机网络对抗建模思想是将网络攻防双方作为局中人，双方所采取的攻防手段作为策略集合，网络所处状态为博弈状态，各个状态采取行动所获得的利益为局中人的收益值。下面，首先从博弈论视角来对相关研究进行总结，接着进一步对4类计算机网络对抗博弈模型进行综合分析。

2.1 基于完全信息静态博弈的计算机网络对抗

Jormokka等人运用博弈论对信息战进行建模［2］，并针对恐怖分子博弈、为恶者博弈、故意破坏者博弈、背叛博弈4种计算机网络对抗情景进行研究，分析得到大胆对抗策略如何获得优势？混合博弈策略如何减少优势？过度占优策略可能导致对抗结果反弹等结论。Basar采用一个方差扭曲变量R（γ，δ，μ）来描述网络干扰过程的效用函数［3］，其中，γ，δ，μ分别表示转发策略、接受者策略和干扰者策略。由于接受者、转发者和干扰者目标函数之间的冲突关系，最后得到一个鞍点（γ*，δ*，μ*）作为最优策略。具体来说，干扰者最优策略是选择一个泄露信号线性函数的干扰信号，或者根据区域参数选择一个独立高斯噪声信号。转发者最优策略是通过线性转换将输入信号进行放大，接受者最优策略是利用Bayes进行估计。Kashyap运用零和交互信息博弈对MIMO高斯信号衰退进行研究［4］，发现译码器鞍点策略是循环转发一些对称的复杂高斯信号，干扰者最优策略是注入一个对称循环高斯信号，且不管干扰者是否有权使用信道输入都能对通信网络造成很大损失。Carin等人针对关键私人信息基础设施和公共基础设施防御问题［5］，运用博弈框架提出一种计算机安全最优投资策略定量风险评估方法。Bistareli等人提出了一种定性与定量相结合的信息安全投资评估方法［6］，分别计算攻击者和防护者的投资回报率，进而为管理员进行安全投资提供依据。

2.2 基于不完全信息静态博弈的计算机网络对抗

Saad等人运用联合博弈模型对无线网络物理层安全性问题进行建模，考虑在限定安全费用基础上，使其安全容量最大化［7］。研究发现如果物理层安全的联合博弈问题存在最优策略，那么其最优稳定分割策略为Dc，否则，其最优稳定分割策略为Dhp。王浩云提出一种不完全信息条件下P2P网络节点行为策略模型［8］，分析网络中各类型节点自身策略调整算法以及采取背叛策略的条件，并模拟节点行为的演化过程。Liu等人［9］为推断攻击者意图、目标和策略，采取经济学激励概念建立分布式拒绝服务攻击与网络管理者之间的博弈模型，并运用网络宽带参数来对攻击和防御策略效果进行测度。接着，针对64台主机组成的网络，运用NS-2仿真平台对计算机网络对抗Bayesian博弈模型进行验证，得到攻防策略与所采用入侵检测系统精确性有关，也与攻击者行动的关联性有关。Huseyiin等学者提出了一种基于博弈论的经济优化模型［10］，将组织和攻击者看作博弈双方，且博弈双方所获支付是关于IDS和防火墙系统的性能参数、组织特征参数以及攻击者特征参数的函数。Liu等人针对移动自组织网络的入侵检测问题，运用Bayesian博弈模型对攻防双方进行建模［11］，分析静态情境下的纳什均衡策略，得到一些有管理意义的结论。

2.3 基于完全信息动态博弈的计算机网络对抗

2.4 基于不完全信息动态博弈的计算机网络对抗

Alpcan等人从优化和控制两个视角研究网络堵塞、无线传感器能量控制策略设计问题，发现在博弈问题求解过程中得到庸俗策略和混乱策略是不可避免的，认为通过设计一个价格反馈控制系统可以使控制策略更加具有鲁棒性，进而使系统演化过程更加具有可控性［20］。Alpcan和Basar运用一个零和马尔可夫安全博弈模型对网络恶意攻击和入侵检测系统进行建模［21］。文中假设对攻击者策略只有部分信息或者间接信息，并且运用马尔可夫决策过程的价值迭代、minmax-Q、朴实Q-学习算法对问题进行了数值实验。Bloem等人假设响应函数是关于费用的严格单调凸函数，运用连续博弈对入侵检测问题进行建模［22］，通过将攻防策略离散化后原问题就变成了一个具有约束条件的整数规划问题。针对网络病毒传播问题，Chen建立了一个最小-最大零和博弈模型，分析得到防御者最优策略是在整个IP空间内和整个计算网络空间内均匀地分配防御力量，攻击者最优策略是均匀地进行扫描［23］。Patcha等人将移动自组织网络中攻击节点和入侵检测系统之间的相互关系视为一种对抗博弈关系［24］，建立一个多阶段动态非合作博弈模型。在Bohme和Moore研究中［25］，作者从经济学视角建立了一个网络安全投资问题的动态交互模型，这个模型可以反映防御者和攻击者之间交互关系，并且攻击者总是试图对最薄弱的地方进行攻击。北京理工大学胡光俊将入侵者与诱骗系统视为博弈模型中的局中人，结合不完全信息动态博弈理论［26］，探讨计算机网络对抗环境下诱骗系统各阶段信息获取策略的特点。中国科学技术大学贾春福针对网络攻防中的不确定性和动态性，提出一种基于不完全信息的动态博弈网络攻防模型，证明其均衡策略的存在性［27］。哈尔滨工业大学姜伟博士在对网络攻防策略分类及其成本量化基础上［28］，提出网络主动对抗的静态和随机博弈模型，并给出各种模型的求解算法。

2.5 计算机网络对抗模型综合比较

笔者认为在对计算机网络对抗问题进行建模时，所选择模型与以下两个因素有关：①信息量。防御者对攻击行为特征所掌握信息量越多，那么模型中的不确定性就越少，所建立的模型就可以越简单；②响应速度。当防御者发现网络中存在攻击行为时，如果防御者采取响应策略的反应时间很长，那么网络状态可能已经发生变化，甚至已经造成了无可挽回的后果。根据这两个因素，将基于博弈论的计算机网络对抗行动模型划分9个区域，如图2所示。

图2 计算机网络对抗博弈模型选择依据

在第9个区域，防御者对攻击者行为具有完全信息，并且可以及时地对攻击行动做出响应，这个时候防御者应该采取主动防御策略对系统进行加固，并且可以选择完全信息动态博弈模型对问题进行建模。在第1区域，防御者对攻击行为特征所掌握的信息很少，并且防御者的响应速度很慢，对于这种情景可以选择不完全信息静态博弈模型对问题进行建模。因为该模型不需要掌握网络攻击行动准确信息，并且可以帮助我们寻找得到最优的被动防御策略。在区域7，防御者对攻击者行为具有完全信息，但是由于防御策略的延时性，使得选择完全信息静态博弈模型对问题进行建模，这样既可以克服防御延时问题，又可以充分利用对防御行动所掌握的信息，从而制定出比区域1更优的被动防御策略。在区域3，由于防御者响应时间很短，因此，可以运用不完全信息动态博弈模型对问题进行建模。最后在灰色区域2，4～6和8，如果在这些区域需要运用博弈论对计算机网络对抗问题进行建模，那么需要根据实际问题综合考虑各个模型的优劣。例如，在区域4，需要综合比较区域7中完全信息静态博弈模型和区域1中不完全信息静态博弈模型，这种综合比较的过程与许多因素有关，如不确定性、精确性、敏感性等。

3 总结与展望

在计算机网络对抗中，人以资源使用者的身份出现，是系统的主体，处于主导地位，网络资源则是客体，计算机网络对抗系统是一个开放的复杂系统。本文在对计算机网络对抗问题复杂性表现和产生根源进行探讨基础上，按照博弈模型的4种类型对计算计算机网络对抗问题进行了分类梳理，并对模型特点进行综合比较。基于博弈论计算机网络对抗问题研究是一个年轻而又迅速发展的领域，目前的研究工作还限于局部范围，没有形成一套系统的理论和方法。总体来说，下一步发展应包括以下几个方面：

（1）攻击者模型的建立。攻击和破坏行为是有意图的行为，因此，人为因素的随机分析是一个关键问题，特别是攻击者学习能力和决策模型将很有意义。攻击模型的建立主要存在两个困难：一方面网络攻击是攻击者发起的有意图的破坏行为，人们很难精确刻画这些攻击行为的人为意图；另一方面网络的巨大规模和复杂结构使得建立网络攻击模型异常的困难。

（2）攻防博弈策略模型。目前大多数基于博弈论计算机网络对抗问题研究模型存在以下局限性［29-31］：①只考虑完美信息情况，并且假设防御者总是能够发现攻击者，这与现实不符；②假设状态转移的概率是固定的，并且这些转移概率是由专家过去经验判断得到；③目前博弈论模型都是假设局中人是同时做决策的；④大多数模型不能随着研究问题规模和复杂性的增大而进行升级。

（3）定义计算机网络对抗评价指标。计算机网络对抗行动策略的收益量化标准始终是一个公认难题，不同网络应用背景有着不同的量化方法和标准，如何给出一个科学合理的量化评估标准将是今后研究的一个重点。

［1］Major G，William T.Cyberspace Operations:Air Force Space Command Takes the Lead［J］.High Frontier，2009，5（3）：3-5.

［2］Jormakka J，Molsa J V E.Modeling Information Warfare as a Game［J］.Journal of Information Warfare，2005，4（2）: 112-25.

［3］Basar T.The Gaussian Test Channel with an Intelligent Jammer［J］.IEEE Transactions on Information Theory，1983，29（1）:152-157.

［4］Kashyap A，Basar T，Srikant R.Correlated Jamming on MIMO Gaussian Fading Channels［J］.IEEE Transactions on Information Theory，2004，50（9）:2119-2123.

［5］Carin L，Cybenko G，Hughes J.Quantitaitve Evaluation of Risk for Invenstment Efficient Strategies in Cybersecurity: the Queries Methodology［J］.IEEE Computer，2008，41（8），21-26.

［6］Bistareli S，Fioravanti F，Peretti P.Defense Tree for Economic Evaluation of Security Investments［C］//Proceedings of the First International Conference OU Availabifity，Reliability and Security，2006.

［7］Saad W，Han Z，Basar T.Physical Layer Security:Coalitional Game for Distributed Cooperation［C］//International Symposium on Modeling and Optimization in Mobile，Ad Hoc，and Wireless Network，Seoul，USA，2009.

［8］王浩云，张顺颐，赵振东.基于不完全信息博弈的P2P网络节点行为策略模型［J］.应用科学学报，2008，26（5）: 448-454.

［9］Liu P，Wang Z.Incentive Based Modeling and Inferecne of Attacker Intent，Objectives and Strategies［C］//Proceedings of the 10th ACM Coputer and Communcations Security Conference.Washington，DC，2003.

［10］Cavusoglu H，Mishra B，Raghunathan S.The Value of IDS in IT Security Architecture［J］.Information Systems Research，2005，19（1）:28-46.

［11］Liu Y，Comaniciu C，Man H.A Bayesian Game Approach for Intrusion Detection in Wireless and Hoc Networks［C］// ACM Internatinal Conference Proceeding Series，Pisa Italy，2006.

［12］Zhu Q，Tembine H，Basar T.Network Security Conguration: A Nonzero Sum Stochastic Game Approach［C］//IEEE Proceedings of American Control Conference，Baltimore，MD，2010.

［13］Lye K W，Jeannette W.Game Strategies in Network Security［J］.International Journal of Information Security，2005，4（1）:71-86.

［14］Chen X L，Tan X B，Zhang Y.A Markov Game Theory Based Risk Assessment Model for Network Information Systems［C］//International Conference on Computer Science and Software Engineering，HuBei，China，2008.

［15］Nguyue K C，Alpcan T，Basar T.Stochastic Games for Security in Networks with Interdependent Nodes［C］//Proceedings of International Conference on Game Theory for Network，Istanbul，USA，2009.

［16］Arora A，Telang T，Xu H.Timing Disclosure of Software Vulnerability for Optimial Social Welfare［R］.Carnegie Mellon University，2004，67-98.

［17］王元卓，林闯，程学旗.基于随机博弈模型的网络攻防量化分析方法［J］.计算机学报，2010，33（9）:1-15.

［18］蔡红柳，田磊，高朦.多Agent的网络对抗系统仿真建模［J］.四川兵工学报，2012，33（12）：90-93.

［19］林闯，王元卓，杨扬.基于Petri网的网络可信赖性分析方法研究［J］.电子学报，2006，34（2），322-332.

［20］Alpcan T，Pavel L.Nash Equilibrium Design and Optimization［C］//International Conference on Game Theory for Networks，Game Nets，USA，2009.

［21］Alpcan T，Baser T.An Intrusion Detection Game with Limited Observations［C］//Proceedings of the 12th InternationalSymposium on Dynamic Games and Applications，Sophia Antipolis，France，2006.

［22］Bloem M，Alpcan T，Basar T.Intrusion Response as a Resource Allocation Problem［C］//IEEE Conference on Descision and Control，USA，2006.

［23］Chen Z.Modeling and Defending Against Internet Worm Attacks［D］.Georgia Institute of Technology，2007.

［24］Patcha A，Park J.A Game Theoretic Approach to Modeling Intrusion Detection in Mobile Ad Hoc Network［C］//Proceeding of the IEEE Workshop on Information Assurance and Security，USA，2004.

［25］Bohme R，Moore T.The Iterated Weakest Link:A Model of Adaptive Security Investment［C］//In Workshop on the E-conomics of Information Security，2009.

［26］胡光俊，闫怀志.基于动态博弈的网络诱骗信息获取策略研究［J］.科技导报，2005，23（1）:32-34.

［27］贾春福，钟安鸣，张炜.网络安全不完全信息动态博弈模型［J］.计算机研究与发展，2006，43（2）:530-533.

［28］姜伟，方滨兴，田志宏.基于攻防随机博弈模型的网络安全测评和最优主动防御［J］.计算机学报，2009，32（4）: 817-827.

［29］Borkovsky R N，Doraszelski U，Kryukov Y.A User’s Guide to Solving Dynamic Stochastic Games Using the Homotopy Method［J］.Operation Research，2010，58（4）:1116-1132.

［30］Horner J，Rosenberg D，Solan E.On a Markov Game with One Sided Information［J］.Operation Research，2010，58（4）:1107-1115.

［31］Delage E，Mannor S.Percentile Optimization for Markov Decision Processes with Parameter Uncertainty［J］.Operation Research，2010，58（1）:203-213.

Survey on Computer Network Operation Based on Game Theory

WANG Chang-chun，CHEN Zhi-jie
（Radar Institute，Air Force Equipment Academy，Beijing 100085，China）

In order to deal with prevalent and various network attack，it has attracted much attention how to analyze the network operation.According to describe the complex phenomena and explore the cause，this article surveys the state of the art in computer network operation from four dimensions.We also present the challenges which are still worth to further research in the area.

network operation，complexity，game theory，human factor

TP393

1002-0640（2015）03-0001-05

2014-01-08

2014-03-17

国家自然科学基金（71031007）；国家“八六三”基金资助项目（2011AA7114019；2012AA7114059）

王长春（1983- ），男，江西吉安人，博士。研究方向：网络安全、体系对抗。