APP下载

基于Markov微分博弈的移动目标防御决策优化

2023-10-18胡春娇陈瑛王高才

计算机应用研究 2023年9期
关键词:博弈模型

胡春娇 陈瑛 王高才

摘 要:随着网络攻防向实时连续和动态高频变化的方向发展,传统的离散多阶段网络攻防博弈模型已难以满足实际需求,而且传统网络攻防模型中的节点状态单一,难以准确描述实际网络对抗中节点类型的演化过程。将节点传染病动力学模型加以改进并应用到网络攻防对抗中,用来描述攻防过程中不同状态节点的演化过程及节点状态间的迁移关系。在构建移动目标Markov微分博弈防御模型时,各阶段内运用微分博弈模型分析,阶段间运用Markov决策过程描述状态转移,通过均衡分析和求解,设计防御决策优化算法。最后,通过仿真实验验证该模型和优化策略的可行性和有效性。

关键词:移动目标;防御决策优化;Markov微分;博弈模型

中图分类号:TP301   文献标志码:A

文章编号:1001-3695(2023)09-043-2832-06

doi:10.19734/j.issn.1001-3695.2023.01.0011

Research on defense decision optimization of mobile targets based on Markov differential game

Hu Chunjiao1,Chen Ying2,Wang Gaocai2

(1.Educational Technology Center,Yulin Normal University,Yulin Guangxi 537000,China;2.School of Computer & Electronic Information,Guangxi University,Nanning 530004,China)

Abstract:With the development of network attack and defense towards real-time continuous,dynamic and high-frequency changes,the traditional discrete multi-stage network attack and defense game model has been difficult to meet the actual needs,and the node state in the traditional network is single,which is difficult to accurately describe the evolution process of the node type in the actual network confrontation.This paper improved the dynamics model of node infectious disease,and applied it to network attack and defense.The model described the evolution process of nodes in different states and the migration relationship between nodes in the process of attack and defense.When constructing the Markov differential game defense model for moving targets,the paper used the differential game model to analysis in each stage,and used the Markov decision process to describe the state transition between stages.Through equilibrium analysis and solution,the paper designed the defense decision optimization algorithm to analyze the node state evolution.Simulation results show that the feasibility and effectiveness of the proposed model and optimization strategy are efficient.

Key words:mobile target;defense decision optimization;Markov differential;game model

0 引言

移動目标防御(moving target defense,MTD)是以挫败攻击者为目的,从而改变网络安全中攻防双方信息地位不对称的攻防环境而产生的[1]。它通过构建动态、异构和不确定的网络空间目标环境来增加攻击者的攻击难度,以系统的随机性和不可预测性来对抗网络攻击,减少漏洞的暴露和被利用的可能性,从而增强目标系统的防御能力[2]。当前,MTD已成为网络安全领域的一个研究热点。一方面,博弈论已广泛应用于解决具有竞争性质现象的决策问题,其研究内容的基本特征与网络攻防对抗过程中攻防双方的特点相吻合[3],因此博弈论已成为研究MTD决策问题的有效方法。通常,传统离散多阶段攻防博弈模型只关注网络攻防过程多阶段的特点,而没有考虑到攻防对抗实时连续性。另一方面,多阶段攻防博弈更加适用于网络动态变化的攻防过程,而事实上,由于受到攻防策略的持续作用,系统一直处于一个持续动态变化且时间连续的过程,即系统难以长时间保持在一个稳定状态,常常会因为受到外界因素的影响而从一个状态随机跳变到另一个状态,并由此开始新一阶段的攻防对抗,而不同阶段的系统状态和攻防策略也不尽相同。此外,在实际的网络攻防对抗中,攻击者与防御者并不是单一数量的。特别是对于由大量节点组成的网络系统,因受到攻击者不同程度的攻击,节点会呈现出不同的状态类型,而不同状态类型的节点在攻防过程中的演化过程也不同,这就需要对网络攻防对抗过程中不同类型的节点分别进行分析。

网络攻击过程通常不是单一阶段的,攻击者只有在执行完一个完整的攻击链之后才能实现一次有效的攻击。为了方便研究,在文献[4,5]的基础上,本文将网络攻击链模型进行简化,分为目标侦察、漏洞利用、执行攻击和攻击持续四个阶段。其中,在目标侦察阶段,攻击者通过收集系统信息确定攻击目标及目标的映射关系,探寻系统安全漏洞;在漏洞利用阶段,攻击者根据获得的信息,对漏洞进行研究和分析,从而达到获取用户资料、添加用户、甚至非法入侵系统获得管理权限进而控制系统等目的;在执行攻击阶段,攻击者进行直接的入侵攻击行为,如窃取数据、破坏系统运行等;攻击持续就是持续攻击行为。针对这四个攻击阶段,防御者需要采取相应的防御策略来对抗攻击,如修复漏洞、入侵检测等,同时结合移动目标防御中的探测面扩展、攻击面转移和攻击面变换等主动防御手段实施防御。

本文主要研究MTD决策优化策略。针对传统网络中的节点状态单一,难以准确描述实际网络对抗中节点类型的演化过程,本文将节点传染病动力学模型SIR(susceptible,infective,recovered)加以改进并应用到网络攻防对抗中,用SIR来描述攻防过程中不同状态节点的演化过程及节点状态间的迁移关系。在分析网络攻防对抗时考虑时间变量,采用多阶段Markov微分博弈来描述实际网络攻防对抗过程中的实时连续性、高频动态性的特点,将一段连续时间内的网络攻防对抗过程分解为持续较短时间的连续多阶段攻防博弈过程。其中,在每个连续时间的阶段内,采用微分博弈分析具体的攻防过程;在多阶段间采用Markov状态转移概率模拟不同状态间的跳转。

1 相关概念和模型定义

近年来,微分博弈是一种用于描述时间连续变化情况下冲突对抗过程的理论方法[6],具体是多个博弈局中人在一段连续的时间内持续相互作用和对抗,以最优化彼此独立又互相冲突的目标作为准则,最终获得所有局中人随时间演变的策略,并获得整个博弈过程的纳什均衡[7]。本文利用微分博弈描述时间连续、动态变化的网络攻防对抗过程,在文献[6,8,9]的基础上扩展节点传染病动力学SIR模型为NLIRD模型,用于描述网络中节点的安全状态及状态间的迁移过程。在NLIRD模型中,定义网络节点的五种状态,即易感状态N(normal)、潜伏状态L(latent)、感染状态I(infected)、修复状态R(restored)和受損状态D(damaged)。其中,处于易感状态N的网络节点可以正常工作,但易被攻击者作为目标进行侦查;潜伏状态L表示已经被攻击者探测到脆弱性的网络节点,该状态的节点具有潜伏性,若持续受到攻击,则可变为感染节点;处于感染状态I的网络节点表示已经被攻击策略渗透,但仍能提供正常服务,同时攻击者也可利用该状态的节点攻击临近节点;修复状态R表示由于防御策略的成功实施,网络节点会从I状态切换并且对攻击策略免疫;受损状态D表示防御策略失败,被感染的网络节点丧失正常服务功能。不同状态间的节点有六种迁移路径,如图1所示。

根据2.2节对算法均衡的分析可知,若攻防策略集合为|A|=m,|D|=n,则该算法的时间复杂度为O(2k(m+n)2)。将本文模型及算法与其他文献进行对比,分析结果如表1所示。博弈过程是指网络攻防对抗过程的阶段性和时间连续性特点。博弈类型是指网络攻防对抗过程中攻防双方采取的博弈方式,考虑到实际网络攻防是时间连续和多状态变化的,所以采用Markov动态微分博弈更符合实际情况。节点分类是指攻防过程中是否根据攻防效果将节点状态进行分类以及分类效果,因为在攻防对抗过程中防御者的状态并不是一成不变的,将防御者的状态按攻防效果进行分类可以更贴合实际情况。决策时效性是指攻防双方选取最优策略的有效时间,由于网络攻防一直处于连续时间的动态变化中,所以决策也需要具有较好的时效性。均衡求解是指算法的均衡求解过程是否详细,详细与否的均衡求解直接关系到这个算法实用性的优劣。

通过对比分析可知,文献[8,10]采用单阶段连续时间的微分博弈过程,忽视了实际网络攻防对抗需要进行多个阶段才会结束的特点,且均衡求解均不够详细,实用性较差。文献[6]虽然采取了多阶段连续时间的Markov微分博弈过程,但在模型构建过程中节点分类较为简单,没有考虑到防御者因受到攻击者不同程度的攻击会出现不同类型的节点状态,在此基础上选取的防御策略与实际情况相比可能会有偏差。

与其他相关文献对比来看,本文提出的移动目标Markov微分博弈模型将一段连续时间的网络攻防过程分解为有限个持续时间较短的阶段,每个阶段内使用微分博弈进行分析求解,阶段间使用Markov决策进行状态跳变,同时将网络攻防过程中的防御者按攻防效果进行状态分类,更贴合网络攻防实际,具有算法步骤详细、实用性好的优点。

3 仿真结果及分析

3.1 实验环境描述

为验证MTMDG模型及防御决策优化算法的可行性和有效性,本文采用文献[12]的方法搭建相应的实验环境,构建由网络防御设备、Web服务器、客户端C1和C2、FTP服务器F1和F2与数据库服务器DB1和DB2服务器组成的仿真系统,将多阶段MTD攻防对抗过程分为8个阶段,每个阶段都包括初始状态和相对稳定状态,共有16个状态,各阶段的状态描述如表2所示。其中Sk0为第G(k)的初始状态,Sk为该阶段的结束状态。

本文假定不同状态间的状态转移概率固定不变,由历史数据和专家经验给出[13],如表3所示。

3.2 实验结果分析

攻击者的最终目的在于获取目标系统DB1和DB2服务器的特权,实施SQL注入和窃取备份等攻击。攻击者无法直接访问数据库服务器,但是可以通过一系列连续的攻击策略逐步获取Web服务器、客户端和FTP服务器的相应权限,最终获得数据库服务器的root权限,达到攻击目的。

根据表2可知,该仿真实验中主要存在两条攻击链,分别为S10→S1→S20→S2→S30→S3→S60→S6→S70→S7和S10→S1→S20→S2→S40→S4→S50→S5→S80→S8。在此基础上,本节结合网络攻防对抗实际过程,设定攻防连续时间为100 s,每条攻击链的每个阶段持续20 s。根据历史数据和专家经验设定回报系数为r1=10,r2=6.7,r3=5,r4=9.5,cA=2,cD=4,设定折扣因子ξ=0.6,采用PyCharm2020.2.3工具计算各阶段的目标准则函数,从而得到两条攻击链上各阶段博弈的攻防收益,如表4所示。

从表4可以看出,攻击链1的总攻击收益要高于攻击链2的总攻击收益,而攻击链2的总防御收益要高于攻击链1的总防御收益,说明针对移动目标防御的决策问题,攻防双方在进行对抗时,攻击链2更符合防御者的期望,所制定的防御策略能有效抵御攻击,进而保护目标系统。

进一步观察攻防过程各阶段,两条攻击链的第一阶段和第二阶段都为S10→S1和S20→S2,因为攻击者要想获取数据库服务器的root权限,就必须先获取网络防御设备的root权限,所以两条攻击链都会经历状态S1和S2。从第三阶段开始,攻击链1中攻击者通过获取到Web服务器F2的user权限和DB1的access权限,进而获取F2的root权限和C2的root权限,最后获取到DB1服务器的root权限并注入SQL,从而完成攻击。而攻击链2中攻击者在第三阶段通过获取Web服务器F1的user权限和C2的user权限,进而获取C1的root权限和DB2服务器的user权限,最后获取到DB2服务器的root权限并窃取备份信息,从而完成攻击。所以对比两条攻击链,研究者要想有效抵御攻击,就要尽可能让攻击链2发生,即提高S2→S40的状态转移的可能性,或降低S2→S30的状态转移的可能性,从而提高攻击链2发生的可能性或降低攻击链1发生的可能性,具体措施可通过固定频率调整IP地址、端口号、协议等探测面完成。

针对攻击链1,本文通过仿真实验得出了整个网络攻防对抗过程中各节点状态随时间变化的演化过程,如图2所示。通过观察图2,在t∈[0,40]时,由于攻击者在执行攻击动作之前就已在探测目标阶段对目标系统和防御者有了充分的了解,而防御者此时对攻击者不太了解,所以在双方攻防初期,攻击者发动攻击就占有优势,此时大量节点从易感状态迁移到潜伏状态,并且在t=40时刻处于潜伏状态的节点数量达到峰值。随着攻防博弈的持续进行,防御者逐渐对攻击者有了一定的了解,因此开始采取中高强度的防御策略抵御攻击,此时,处于潜伏状态的节点数量开始减少,并且处于受损状态的节点数量基本不再变化。同时,处于易感状态的节点数量急剧下降并趋于零,处于修复状态的节点数量大幅上升。总之,如果防御者继续实施现有的防御策略,处于修复状态的节点数量会逐渐接近节点总数。

下面具体对攻击链1中各阶段的攻防策略轨迹进行分析。针对第一阶段S10→S1,攻击者各等级策略轨迹如图3所示,而防御者各等级策略轨迹如图4所示。

通过图3和4可知,该阶段攻防开始时,攻击者以(0.55,0.36,0.09)的概率进行决策,防御者以(0.25,0.4,0.35)的概率进行决策。因为初始时刻攻击者已经通过探测对目标系统有所了解,所以决策时以高等级攻击策略和中等级攻击策略为主,而此时防御者对攻击者的认知还不够全面,因此以中等级防御策略和低等级防御策略为主。随着攻防对抗过程的进行,攻击者在对目标系统有了更多的了解后开始逐渐加大高强度策略的实施概率,并伴随着中等级攻击策略和低等级攻击策略的交替配合使用。而此时随着对攻击者了解的逐渐深入,防御者决策开始以高等级防御策略为主,中等级防御策略和低等级防御策略的实施概率开始有所降低。在该阶段攻防对抗的后期,随着高强度防御策略的持续使用,攻击者的攻击行动逐渐被挫败,因此高等级攻击策略的实施概率逐渐降低,后期主要以中等级攻击策略和低等级攻击策略为主。而此时防御者为了保护目标系统,持续实施高等级防御策略,中等级防御策略和低等级防御策略的实施概率有所降低。本阶段结束时攻击者的最优决策为(0.31,0.55,0.14),防御者的最优决策为(0.81,0.1,0.09)。其他阶段的攻防策略演化过程与该阶段同理。

通过对实验结果的分析可以得出以下规律:

a)从节点状态演化图可以看出,对于多阶段的网络攻防对抗,每个阶段的攻防过程并不是一成不变的,攻防双方会根据当前的攻防对抗形势及时调整自己的决策,体现了网络攻防对抗实际过程的动态变化性;其次,各状态节点达到平衡的快慢与攻防双方采取策略的强度有很大的关系,体现了网络攻防对抗过程的策略依赖性。再者,处于修复状态的节点数变化和处于易感、潜伏、感染状态的节点数变化对比,体现了网络攻防过程中攻防双方的目标对立性和关系非合作性。

b)在实际网络攻防对抗过程中,对于以移動目标防御为代表的主动防御,防御者应该快速获取关于攻击者的信息,并注意隐藏自己的信息,同时在攻防过程中根据攻防局势尽快调整自己的策略,争取尽早抵御攻击,保护目标系统。

4 结束语

实际的网络攻防对抗过程是一个时间连续、动态变化的过程,为了解决这种过程中移动目标防御的决策优化问题,本文主要研究了移动目标Markov微分博弈的防御决策模型。在现有的关于网络攻防微分博弈的基础上,根据网络攻防实际情况,通过改进节点传染病模型,构建NLIRD模型描述攻防过程中节点状态的变化。同时采用Markov决策过程描述多阶段网络攻防的状态转移,并设计攻防双方收益的目标准则函数,通过均衡分析和求解,设计防御决策优化算法,对攻防过程中节点状态演化和攻防决策轨迹进行分析,并通过仿真实验验证了模型和算法的可行性和有效性,对现实网络攻防环境下的防御决策具有一定的理论价值。

进一步对攻防博弈模型的参数进行精确量化一直是网络攻防博弈决策的研究重点,只有收益量化更加精确,构建的攻防博弈模型才会更加贴合网络攻防实际,根据模型所选取的策略才会更加有效可行,进而才能更好地指导网络防御。

参考文献:

[1]Yoon S H,Cho J H,Kim D S,et al.Attack graph-based moving target defense in software-defined networks[J].IEEE Trans on Network and Service Management,2020,17(3):1653-1668.

[2]Zhang Hengwei,Tan Jinglei,Liu Xiaohu,et al.Moving target defense decision-making method:a dynamic Markov differential game model[C]//Proc of the 7th ACM Workshop on Moving Target Defense.New York:ACM Press,2020:21-29.

[3]Huang Wanwei,Yuan Bo,Wang Sunan,et al.Research on simulation of network attack and defense situation based on evolutionary game[C]//Proc of the 9th International Conference on Networks,Communication and Computing.New York:ACM Press,2020:96-103.

[4]蒋侣,张恒巍,王晋东.基于多阶段Markov信号博弈的移动目标防御最优决策方法[J].电子学报,2021,49(3):527-535.(Jiang Lyu,Zhang Hengwei,Wang Jindong.A Markov signaling game-theoretic approach to moving target defense strategy selection[J].Acta Electronica Sinica,2021,49(3):527-535.)

[5]刘文彦,霍树民,陈扬,等.网络攻击链模型分析及研究[J].通信学报,2018,39(Z2):88-94.(Liu Wenyan,Huo Shumin,Chen Yang,et al.Analysis and study of cyber attack chain model[J].Journal on Communications,2018,39(Z2):88-94.)

[6]张恒巍,黄世锐.Markov微分博弈模型及其在网络安全中的应用[J].电子学报,2019,47(3):606-612.(Zhang Hengwei,Huang Shirui.Markov differential game model and its application in network security[J].Acta Electronica Sinica,2019,47(3):606-612.)

[7]Meyers R A.Computational complexity:theory,techniques and applications[M].New York:Springer,2012:854-861.

[8]Mi Yan,Zhang Hengwei,Hu Hao,et al.Optimal network defense strategy selection method:a stochastic differential game model[J].Security Communication Networks,2021,2021:article ID 5594697.

[9]黄世锐.基于微分博弈的网络安全威胁预警与防御决策方法研究[D].郑州:战略支援部队信息工程大学,2018.(Huang Shirui.Research on network security threat early warning and defense decision-making method based on differential game model[D].Zhengzhou:PLA Strategic Support Force Information Engineering University,2018.)

[10]Nilim A,Chaoui L E.Robust control of Markov decision processes with uncertain transition matrices[J].Operations Research,2016,53(5):780-798.

[11]Nilim A,Chaoui L E.Active defense strategy selection based on diffe-rential game[J].Operations Research,2016,43(12):163-169.

[12]劉江,张红旗,刘艺.基于不完全信息动态博弈的动态目标防御最优策略选取研究[J].电子学报,2018,46(1):82-89.(Liu Jiang,Zhang Hongqi,Liu Yi.Research on optimal selection of moving target defense policy based on dynamic game with incomplete information[J].Acta Electronica Sinica,2018,46(1):82-89.)

[13]Zangeneh V,Shajari M.A cost-sensitive move selection strategy for moving target defense[J].Computers & Security,2018,75:72-91.

收稿日期:2023-01-14;修回日期:2023-03-09  基金项目:国家自然科学基金资助项目(62062007);广西高校中青年教师科研基础能力提升项目(2020KY14020);玉林师范学院高等教育本科教学改革工程项目(2022XJJGYB20);玉林师范学院科研项目(2019YJKY15)

作者简介:胡春娇(1980-),女,广西玉林人,工程师,学士,主要研究方向为网络能耗优化和网络空间安全;陈瑛(1997-),女,山西临汾人,硕士研究生,主要研究方向为网络安全技术;王高才(1976-),男(通信作者),广西灌阳人,教授,博导,博士,CCF高级会员,主要研究方向为计算机网络、性能评估和网络安全(wanggcgx@163.com).

猜你喜欢

博弈模型
基于信息不对称时段的企业成本粘性成因及对策
基于博弈论对企业并购行为的研究
基于博弈模型的导游自由执业道德风险分析
PPP模式下养老地产融资风险分担博弈分析
研发投入增长真的促进全要素生产率增加吗?
基于博弈模型的PPP项目共担风险损失分配的研究
国外博弈论在PPP模式研究中的应用
研发投入增长真的促进全要素生产率增加吗?
电子商务与快递行业共生研究
博弈论在建设工程报价策略中的应用