多阶段信号博弈的装备保障信息网络主动防御*
2021-01-22王增光
王增光,卢 昱,李 玺
(1.陆军工程大学石家庄校区装备指挥与管理系,石家庄 050003;2.陆军工程大学石家庄校区装备模拟训练中心,石家庄 050003)
0 引言
装备保障信息网络是信息化条件下实施装备保障业务的必要保证,是打赢现代化战争的重要支撑[1]。装备保障信息网络安全性的高低直接影响其为军事行动提供保障业务的质量。现有针对装备保障信息网络的防御技术诸如身份认证、防火墙等都属于被动、静态的防御手段,只能基于先验知识解决网络中单方面的安全问题,难以有效确保装备保障信息网络的安全[2]。因此,如何能够实现装备保障信息网络的主动防御,成为我军装备保障信息化建设过程中亟需解决的问题。
在装备保障信息网络的攻防对抗中,如果防守方能够为防御措施选取合适的伪装信号,并通过主动释放伪装信号来影响攻击方的行动,则能够获得更好的防御效果,是一种真正的网络主动安全防御模式[3]。但是,如何对装备保障信息网络的攻防过程进行建模,并为防御策略选取合适的伪装信号是一个非常复杂的问题,目前在这方面的研究成果极其有限。
博弈论是研究具有斗争关系的个体在相互制约的条件下如何采取最优行动的数学理论和方法,与网络攻防对抗的本质不谋而合[4]。基于博弈理论的网络安全建模与分析方法逐渐成为研究的热点。文献[5]基于非零和攻防博弈对网络攻防过程进行建模,设计了一种最优防御策略选取方法。文献[6]将Markov 决策过程和博弈论思想相结合设计了Markov game 模型,来解决装备保障信息网络的安全态势感知问题。文献[7]基于静态贝叶斯博弈对网络攻防过程进行建模,设计了一种网络安全风险分析方法。但上述文献在模型的设计过程中均假设攻防双方同时采取行动,限制了模型的实用性。为了使攻防博弈模型更加符合网络实际,文献[8]基于信号博弈对网络攻防过程进行建模,解决了传统博弈要求攻防双方同时行动的问题,但仅能应用到单阶段网络攻防场景中,无法对动态多阶段的网络攻防场景进行分析。
本文基于多阶段信号博弈对装备保障信息网络的攻防过程进行建模,从信号伪装的角度对装备保障信息网络的主动防御进行研究,设计了一种最优伪装信号选取方法。在网络安全威胁发生前,防守方通过伪装信号来诱导和欺骗攻击方,实现对装备保障信息网络的主动防御,对提高装备保障信息网络的安全防护能力具有重要意义。
1 网络攻防博弈模型
1.1 网络攻防博弈过程分析
在实际的装备保障信息网络攻防对抗中,攻防双方采取各种攻防措施的最终目的是获得最大的利益[9]。防守方在选取措施对装备保障信息网络进行安全防御时,通过针对性地释放伪装信号对所有的防御措施进行伪装,能够起到诱导或震慑攻击方的作用,从而获得更好的防御效果。由于装备保障信息网络的保密性,攻击方无法得知防守方采取何种措施来保障装备保障信息网络的安全,但在实施攻击行动前能够通过侦查等手段,分析探测装备保障信息网络的安全防御情况,形成对防守方采取防御措施的初始判断。由于军事对抗环境的特殊性,装备保障信息网络的攻防过程一般持续多个阶段。随着攻防过程的进行,攻击方对防守方选取措施的认知越来越清晰,防守方释放伪装信号的效果逐渐减弱直至消失。
根据装备保障信息网络的攻防实际,结合信号博弈的基本原理[9],将防守方定义为攻防对抗的先行者,攻击方定义为攻防对抗的跟随者。在伪装信号的作用下,攻防双方进行多阶段对抗博弈,通过对各个阶段的博弈过程进行分析选取最优伪装信号。
1.2 多阶段信号博弈模型的定义
区别与传统的互联网,装备保障信息网络的攻防对抗更加激烈,网络攻防的参与者多为纪律性强、配合度高、组织性好的作战人员,使得网络攻防具有较强的目的性。攻防双方为了追求利益的最大化,不会作出无利可图的决策,这符合博弈理论要求博弈参与者必须是理性的前提,为基于博弈论对装备保障信息网络的攻防进行分析提供了诸多便利。
2 攻防策略收益量化
装备保障信息网络中攻防策略的收益量化情况是攻防双方行动选择的基础,直接影响最优伪装信号的选取。因此,合理地对攻防策略的收益进行量化是十分有必要的。结合装备保障信息网络攻防实际,在考虑实施伪装信号成本的基础上,通过分析攻防行动对网络安全设备价值的影响来量化攻防策略的收益。
定义1 信号伪装成本。其反映了防守方为实现欺骗或震慑攻击方的目的,对实施的防御策略进行伪装所付出的代价,用SC 表示。通过防御策略的真实防御强度等级与伪装后的防御强度等级之间的差距,对SC 进行相对量化,采用区间[0,10]内的整数值表达。防御策略的实际防御效果和伪装防御效果的分级与赋值,可以参考文献[10]进行。
定义2 攻防收益。其反映了攻防双方进行一次对抗所能获得的收益。攻击方只有在攻击成功后才能获得收益,攻击收益可以通过网络设备价值、攻击损害度和攻击成功概率进行量化,上述概念的详细定义见文献[11]。攻击收益的量化公式为:
无论防御成功与否,防守方均能获得收益。防御成功时,防守方成功保护网络系统价值,获得直接收益;防御失败时,防守方能够获得攻击方的相关攻击信息,提高了下次防御成功的概率,从而能够获得间接收益。防御收益可以通过网络设备价值,攻击损害度,攻击成功率,折扣因子和信号伪装成本进行量化。防御收益的量化公式为:
3 最优伪装信号选取
3.1 精炼贝叶斯均衡求解
3.2 多阶段最优伪装信号选取算法
基于信号博弈的多阶段最优伪装信号选取算法如算法1 所示。
基于博弈理论的网络安全防御研究的关键是博弈模型的设计符合网络运行实际情况。将本文提出的方法与文献[5-8]提出的方法进行对比,以此来说明本文提出方法的优越性,对比结果如下页表1 所示。博弈类型是指博弈模型应用的场景对攻防双方信息需求和博弈顺序的要求。与完全信息博弈相比,本方法考虑了攻防双方不清楚对方信息的情况;与静态博弈相比,本方法不要求攻防双方同时行动,能够动态地分析网络攻防过程。博弈过程是指攻防过程持续的阶段数。与单阶段博弈模型相比,本方法能够分析多阶段网络攻防过程,更加符合网络攻防实际情况。收益量化是指是否给出详细、可靠的收益量化方法。本方法从攻防行动对网络设备安全价值影响的角度出发进行攻防收益的量化,确保后续博弈分析结果的准确、可信;而文献[6]没有给出攻防收益的具体量化方法,文献[7]没有给出通用的量化方法,文献[5,8]给出的量化方法主观性较强。模型的通用性是指博弈模型能否应用到其他场景下的网络安全防御。本方法中博弈模型的攻防策略集合和伪装信号集合均可以扩展至n中,不仅能够解决装备保障信息网络的信号伪装问题,还适用于其他场景下的安全防御,模型的通用性较好;而文献[5]博弈模型应用的条件较为苛刻,难以应用到实际的网络安全防御中,文献[6]存在状态爆炸问题,只适用于小规模网络,文献[7]仅适用于具有特定类型的攻防场景,文献[8]没有给出均衡的求解方法,限制了模型的实用性。
算法1 最优伪装信号选取算法
表1 相关工作比较
4 仿真实验与分析
4.1 仿真实验环境
为了验证本文提出的多阶段最优伪装信号选取方法的有效性和可行性,设计了实验网络来模拟装备保障信息网络的骨干网,实验环境的拓扑结构如下页图1 所示。网络安全威胁来自于外部网络,安全防御规则仅允许外部节点访问邮件服务器、网络服务器和内部保障单元,内部网络的邮件服务器、网络服务器和文件服务器允许访问数据库服务器。攻击方的最终目的是通过一系列的原子攻击实现对数据库服务器的root 访问权限,获得装备保障信息网络的数据资源。
通过漏洞扫描器采集实验环境中的漏洞数据,在对漏洞数据、路由配置文件等信息进行分析后,基于文献[13]所提出的攻击策略建模方法,能够得到攻击方可能的攻击策略集合,如表2 所示,其中,“√”表示可选攻击策略所包含的攻击行动,攻击成本根据实施攻击的难易程度进行设定。
图1 实验环境的网络拓扑图
表2 攻击方的攻击策略集合
防御策略是由不同的防御行动组成,不同的防御行动所带来的防御效果和所需成本不同[14]。为了简化分析,选取高强度和低强度的防御策略各一个组成防御策略集合,如表3 所示,其中,“√”表示防御策略由以下防御行动组成,防御成本根据实施防御的难易程度进行设定。假设伪装信号空间为,其中,θ1表示高等级伪装信号,θ2表示低等级伪装信号。
通过对防火墙和入侵检测系统的日志得到攻防历史数据,在对攻防历史数据进行分析的基础上,结合安全专家的意见,攻击方的先验信念为,攻击行动的相关参数如表4 所示。
网络设备的安全属性价值由其重要程度和所提供的服务决定。设定保障单元的安全属性价值为(20,25,25),邮 件 服 务 器 的 安 全 属 性 价 值 为(28,25,28), 网 络 服 务 的 安 全 属 性 价 值 为(30,30,32),文 件 服 务 器 的 安 全 属 性 价 值 为(28,30,32),数据库服务器的安全属性价值为(35,38,40),伪装信号的成本为(2,5;6,1)。
表3 防守方的防御策略集合
表4 攻击行动的相关参数
4.2 多阶段最优伪装信号选取
在攻防博弈的初始阶段,伪装信号没有衰减,信号衰减度η1=1。在攻防收益量化的基础上,第1阶段的网络攻防博弈树如图2 所示。
图2 第1 阶段网络攻防博弈树
在博弈的第2 阶段,攻击方将第1 阶段得到的对防守方实施防御策略的后验概率推断(0.4,0.6)作为本阶段对防御策略的先验概率推断。攻击方在分析第1 阶段博弈过程和结果的基础上,增强了对伪装信号的甄别能力。因此,本阶段伪装信号的伪装效果减弱,假设信号衰减度η2=0.4。第2 阶段的网络攻防博弈树如图3 所示。
图3 第2 阶段网络攻防博弈树
随着攻防阶段的进行,伪装信号的伪装效果进一步减弱。博弈过程的分析与前两阶段相似,这里不作具体分析。
4.3 实验结果分析
通过对多阶段信号博弈模型的均衡和攻防收益分析可知,装备保障信息网络的防御具有以下一般性规律:
1)在网络资源有限的情况下,防守方通过主动为防御策略选取并释放合适的伪装信号,能够起到更好的防御效果。在前两个阶段的博弈过程中,最优伪装信号均为防御策略选取高等级伪装信号,能够获得最优的防御收益。这是由于防守方能够通过释放伪装信号达到欺骗和震慑攻击方的目的,诱导攻击方对当前的防御策略作出错误的判断,从而达到更好的防御效果。
2)信号伪装机制与其他防御手段配合使用能够达到更好的防御效果。由博弈过程的分析可知,伪装信号的效果在多阶段的攻防博弈过程中不断衰减。这是由于攻击方在分析前序阶段博弈过程和结果的基础上,能够增强对伪装信号的鉴别能力。因此,为了达到更好的防御效果,需要将信号伪装机制与其他防御手段配合使用。
3)在资源允许的情况下,应尽量选择高水平的防御策略对网络进行安全防护。通过对攻防收益的量化结果可知,面对网络攻击时,高强度的防御策略收益总是大于低强度的防御策略收益。由此可见,加强对网络安全防护的投入,提高防御能力,是解决装备保障信息网络安全问题的根本。
5 结论
本文在分析装备保障信息网络攻防过程的基础上,基于多阶段信号博弈理论设计了最优伪装信号选取方法,能够实现网络的主动防御,为装备保障信息网络的安全防御提供一种新的思路。但在研究的过程中,缺少对防御效果改善的评估,下一步将在此基础上,进行网络安全风险评估的研究,通过评估防御策略实施前后网络安全风险的变化来量化防御效果。