基于信号博弈的端信息跳变同步策略*

2020-11-10王志屹陈彤睿马润年

火力与指挥控制 2020年9期

王志屹，王刚，陈彤睿，马润年

（空军工程大学信息与导航学院，西安 710003）

0 引言

网络攻击的生命周期跨越很多步骤，包括侦察、网络指纹识别、网络映像、利用漏洞、协同、报告和传播，各阶段的攻击通常针对目标网络的静态属性和防御模式［1］。针对此特点，近年来网络安全领域专家和企业着手发展动态目标防御（MTD，Moving Target Defense）［2］和拟态防御［3］等新型防御技术和方法，通过主动变化，改变攻防博弈中被动防御的困窘。端信息跳变就是一种典型的网络层MTD 技术，通信双方或一方按照约定规律策略同步改变网络参数，如端口、IP 地址、协议等，通过参数动态调整增大攻击方的攻击难度和成本，提升网络安全性能［4］。端信息跳变有地址跳变防护技术［5］、协议跳变防护技术［6］、端口跳变防护技术等［7］，同步是这些跳变技术的基础和关键，在通信和防御过程中，通信双方只有按照统一同步策略实现步调一致的跳变，才能实现真正意义上的动态目标防御。

端信息跳变同步方式主要包括严格时间同步、改进型严格时间同步［8］、基于时隙重迭的时钟同步［9］、基于时间分组的ACK 应答同步［10］、改进的分布式时间戳同步［11］和基于网络时间协议（NTP）协议的同步［12］等，每种同步都有其优势和劣势。如严格时间同步虽然实现简单，但是在网络拥塞时会出现同步失败［13］；时间戳同步［4］虽然可以解决网络拥塞和截获攻击，但是当请求超负荷时也会存在由于系统资源耗尽而导致的同步失败问题。因此，端信息跳变同步应引入新的理论和方法，综合考虑攻防收益、成本及其时变因素，设计针对性和实用型同步策略。文献［14］提出了一种基于静态贝叶斯博弈理论的主动防御策略选择；文献［15］在分层跳变的架构上设计了一种网络自适应跳变算法；文献［16］采用随机地址生成算法和通信认证算法，根据通信双方的架构和业务可靠性要求来提供不同的跳变模式；文献［17］设计了面向隔离区异构平台的3 类动态防御主动迁移策略。

在端信息跳变同步中，还需要考虑以下问题：1）现有同步策略大多针对特定攻防环境和应用场景，防御方拥有足够的先验信息，而在实际应用中这一条件很难被满足，防御方需要通过攻击方行动特点和目标动态分析推理，灵活采用合适的同步策略。2）攻防博弈模式和策略的选择源于双方的收益，需要综合考虑多种因素，建立起可量化分析的目标函数，如攻防双方占有的系统资源，时间因素等。3）同步策略需要考虑攻击者的倾向性，如倾向破坏、倾向窃密，还是两者兼而有之，根据倾向性分析设计同步策略。

1 端信息跳变同步信号博弈模型

针对网络攻防中目标的对立性和策略依存关系，引入信号博弈理论和方法，构建端信息跳变同步的信号博弈模型。

1.1 模型定义

参考动态目标防御中单阶段的信号博弈模型［18］，给出如下五元组信号博弈模型定义：

1.2 攻防收益量化

为直观地分析同步策略的收益，给出了相关参数的定义和计算方法。

定义2 攻防双方系统资源比r，攻防双方所拥有的系统资源的比值

其中，SA代表攻击者所拥有的系统资源，SD代表防御者所拥有的系统资源。

定义7 判断时延t'，防御方需要先观察攻击者的行为，然后判断其类型并采取相应的策略，因此，防御方存在一个判断时延t'。

定义8 攻防成本C（Cost）表示攻击和防御的代价。Ca表示攻击成本，Cs表示同步成本，Cd表示防御成本，AL 表示攻击致命度。

综上，双方的收益函数可表示为：

1.3 博弈过程

2 不同类型攻击下的同步策略选择方法

2.1 3 类攻击模式

按照网络攻击一般流程，攻击行动大体上可分为准备、实施和善后等3 个阶段［19］。这里主要针对准备阶段和实施阶段。结合如图1 所示的网络拓扑结构［20］，双方的攻防过程给出如下。

在准备阶段，攻击者首先锁定节点A、B 或C，确定目标的端信息；然后根据目标选择攻击策略。在实施阶段，根据攻击策略实施不同的攻击。对于防御方的端信息跳变，攻击方主要采用3 种攻击策略［10］：分布式拒绝服务攻击（DDoS，Distributed Denial of Service）、盲攻击和窃听攻击。根据攻击者的目的，可将攻击分为3 类：一是倾向破坏和窃密等概率；二是倾向于破坏；三是倾向于窃密。防御方通过蜜罐网络侦测到攻击行为后反馈给同步服务器，同步服务器根据攻击者的行为模式判断类型，然后选择同步策略，将同步策略发送给控制器1 和2，通信双方进行同步的跳变对，从而对数据进行保护。

图1 网络拓扑结构

2.2 记忆T 细胞方法下的策略选择

当前的同步策略主要有3 种：一是基于时间片的严格时间同步。此策略实现简单，安全性较好，但在网络拥塞的情况下难以完成同步；二是基于数据分组的ACK 应答同步。不会受网络拥塞的影响，但是攻击者更容易发动窃听攻击；三是时间戳同步。安全性和防拥塞效果都比较好，但发生高速率服务请求时，会耗尽系统资源。防御者通过蜜罐网络对攻击者的行为和类型进行分析，判断是否和已知的攻击类型匹配，若匹配，则直接从攻击类型库中找与之匹配的同步策略，反之则重新决策同步策略并将其入库。其过程如图2 所示。

图2 记忆T 细胞方法示意图

其具体步骤说明如下：

步骤1：将攻击者诱导入蜜罐网络中，利用蜜罐技术对攻击者的行为进行分析，判断攻击者的类型并与攻击类型库进行匹配。

步骤2：将检测结果回馈给同步服务器，同步服务器根据信号博弈理论选择同步策略。

步骤3：同步服务器将同步信息送至控制器，控制器综合时间、资源等因素，控制通信节点进行跳变，完成对攻击的防御。

由于此方法和生物上的记忆T 细胞的行动模式相似，可将此防御方法称为“记忆T 细胞方法”（Method of Memory T Cells）。

2.3 记忆T 细胞方法下的收益分析

防御方先观察攻击者的行为，然后判断其类型并采取相应的策略，判断时延为t'。而攻击方在发现自己的收益下降之后也会切换自己的攻击策略。

图3 攻防双方收益趋势

如图3 所示，给出了双方的收益趋势。判断时延t'的长短也会对防御效果产生影响，判断时延过长，系统损失则增多，防御的收益就越少；判断时延过短，系统的负担会增加，防御成本提高。

从图中可以看出整个过程实质上是双方进行信号博弈的过程，双方的收益此消彼长。防御者在每一次对抗中可以对相关防御参数进行分析，以取得收益的最大化。

3 模拟分析与结论

3.1 模拟环境描述

表1 攻击者策略参数

表2 同步策略参数

设攻击者类型的先验信念有以下3 种情况：

由式（2）、式（3）计算可得出防御者的收益如下：

3.2 模拟分析

在方案初步选取时，不考虑时间因素的影响和时间衰减系数，此时防御方已经观察到攻击者释放的信号，判断出攻击者的类型。现给出防御者收益如图4 所示。

可以看出随着系统资源比的增加，防御者的收益是先上升后下降的，因为当系统资源比增加时，防御方拥有相比于攻击者更多的系统资源进行防御，防御的强度会相应增加。但系统资源比过高时，防御成本会大大增加，此时已经“过度防御”造成了资源的浪费，防御者的收益反而会下降。

在攻击者倾向于破坏和窃密的概率相等时选择方案2 效果最好，即以0.1 的概率选择时间戳同步，以0.5 的概率选择ACK 应答同步，以0.4 的概率选择严格时间同步。

图4 倾向于窃密和破坏等概时防御者收益

现将时间因素考虑进去，进一步对策略进行优化。如图5 所示，给出了在攻击者倾向于破坏和窃密的概率相等，取判断时延时，方案2 在策略使用时间为1，3 和5 三种情况下的对比。

图5 Δt=1，Δt=3 和Δt=5 时方案2 收益情况

由图5 可知，在Δt=5 时的防御收益比Δt=3 的收益小，这是由于策略使用时间过长，导致攻击者由足够多的时间分析防御者同步策略，发动针对性的攻击。而Δt=3 的防御收益比Δt=1 的收益大，这是由于策略使用时间过短导致系统负荷增加，防御成本提高。因此，只有选择合适的策略使用时间，才能保证防御者的收益最大化。

当攻击者动态调整攻击策略时，防御方的动态收益图如图6 所示，可以看出，在双方策略动态跳变时，防御方的收益是随着时间在变化的，双方策略的不断切换，其收益也此消彼长。观察发现，防御者使用同一策略时，防御收益的趋势是先上升后下降的，这是由于同步策略的切换必然会影响到通信的效果，而恢复需要一定的时间，同时，随着时间推移，攻击者有足够多的时间分析同步策略并发动针对性攻击。这也印证了上文的分析，过快或者过慢切换同步策略，都会导致收益下降。

图6 防御者动态收益

综上，采取记忆T 细胞方法指导的同步策略的选择，相比于传统方案有以下几点优势：第1，以信号博弈为理论基础，基于攻防收益建立评价准则，模型的通用性较好；第2，动态变换的同步策略使得攻击者更加难以发动有效的攻击，还未来得及对侦察到的信息加以分析，防御者便改变了同步策略；第3，考虑了系统资源比和策略使用时间等参数，防御者可以在对抗博弈中对相关参数及进行调整，取得收益的最大化。