基于ADE-ABiGRU的物联网安全态势预测*

2024-01-10彭兴维袁凌云

网络安全与数据管理 2023年12期

彭兴维，袁凌云，2

(1.云南师范大学信息学院，云南昆明 650500；2.云南师范大学民族教育信息化教育部重点实验室，云南昆明 650500)

0 引言

物联网是由众多智能设备与网络连接组成的综合网络体系，旨在实现设备间的智能互联和数据共享。随着物联网设备的普及，安全威胁亦在增加[1]。相对于传统的安全措施，网络安全态势感知作为一种新方法，为网络行为的宏观理解和意图辨识提供了创新视角，进而为网络安全决策提供了有力支撑[2]。

近年来，深度学习算法在多个领域均展现出了卓越的应用潜力[3]。许多研究者对深度学习算法进行优化，提升其预测精准度。Wang等人[4]提出了一种基于长短期记忆网络(Long Short-Term Memory network，LSTM)和门控循环单元(Gated Recurrent Unit，GRU)的双层模型预测算法。为了利用长期数据提升预测准确度，Zeng等人[5]在此基础上提出了一种结合扩展平稳小波变换和嵌套LSTM的预测模型。为增强物联网安全性，Tan等人[6]提出了一种基于HoneyNet的方法，通过该方法成功监控对手攻击行为。Chen[7]通过结合模拟退火算法和混合层次遗传算法优化径向基函数(Radial Basis Function，RBF)神经网络，为网络安全态势预测提供了一种新的解决思路。曹波等人[8]引入了一种融合时域卷积神经网络(Temporal Convolutional Network，TCN)和GRU的预测策略进一步提高预测精确度。

面对复杂数据处理中传统深度学习方法的局限性，特别是在参数优化和避免局部最优解方面的挑战，研究者们逐渐转向采用元启发式优化算法。这类算法以其卓越的全局搜索能力和高度的适应性，为解决深度学习模型的优化问题提供了新的视角。赵冬梅等人[9]提出了一种面向复杂网络安全态势的预测模型，该模型结合了改进的粒子群优化技术与双向长短期记忆网络(Bidirectional Long Short-Term Memory，BiLSTM)，取得了较好的预测效果。张一凡等人[10]应用了自适应进化算法来优化预测模型，通过结合不同的基学习器和元学习器，显著提升了预测准确性。罗翠云等人[11]采用了一种结合随机黑洞模型的差分进化算法，有效地解决了调度中的复杂优化问题。这些研究进一步证明了元启发式算法在处理高维度和复杂数据集时的有效性。

然而，现有研究在捕捉时间序列数据中的复杂依赖性方面仍有不足，无法适应物联网的高动态、复杂性和大规模数据环境。因此，本文引入了双向门控循环单元(Bidirectional Gated Recurrent Unit，BiGRU)和多头注意力机制，与自适应差分进化算法(Adaptive Differential Evolution，ADE)相结合，以更准确地捕获物联网安全态势中的复杂数据模式和关系，提出了ADE-ABiGRU物联网安全态势预测模型。本文主要贡献如下：

(1)优化BiGRU以更有效地处理物联网环境下的时间序列数据。通过引入残差结构，解决循环神经网络(Recurrent Neural Network，RNN)中常见的梯度消失和梯度爆炸问题。

(2)采用多头注意力机制，有效增强模型在处理物联网环境中复杂数据的分析能力，使模型能从多角度捕捉时间序列数据间的依赖关系，提高预测的精度和深度。

(3)对传统差分进化(Differential Evolution，DE)算法进行了自适应改进，通过自适应地调整关键参数，使模型在物联网安全态势预测中达到更高的性能。

1 基于ADE-ABiGRU的物联网安全态势预测方法

本文结合ADE和BiGRU，提出了一种基于ADE-ABiGRU的物联网安全态势预测模型。模型结构包括BiGRU用于捕获时间序列数据的依赖关系，多头注意力机制用于分析复杂的数据依赖，残差结构用于解决深度网络中的梯度消失问题。改进的ADE算法引入非线性惯性权重，通过自适应调整模型关键参数，进一步提高模型在物联网安全态势预测中的性能。

1.1 模型构建

网络模型主要包括BiGRU、多头注意力机制和残差结构。具体模型结构如图1所示。

图1 基于ADE-ABiGRU的网络模型

1.1.1 BiGRU结构

预测物联网安全态势值是一个时序任务，选择使用BiGRU结构[12]可以有效地捕获时间序列中的依赖关系。BiGRU由两个独立的GRU组成，一个处理从左到右的序列，另一个处理从右到左的序列。这两个GRU的输出会在每个时间步被合并，以形成最终的输出，在处理序列数据时可以同时考虑过去的信息和未来的信息。GRU其主要优势是可以更有效地捕捉长期依赖，而避免了RNN中的梯度消失和梯度爆炸问题。通过引入“重置门”和“更新门”两种机制来实现这一点。

重置门rt用于确定在计算当前的候选隐藏状态时应该丢弃多少以前的信息，计算方法如式(1)所示：

rt=σ(Wr·[ht-1，xt])

(1)

其中，rt是重置门的激活值，σ是sigmoid激活函数，Wr是重置门的权重矩阵，ht-1是上一个时间步的隐藏状态，而xt是当前时间步的输入。

更新门zt用于确定应该保留多少以前的隐藏状态和新的候选隐藏状态，如式(2)所示：

zt=σ(Wz·[ht-1，xt])

(2)

其中，zt是更新门的激活值，Wz是更新门的权重矩阵。

(3)

其中，tanh是双曲正切激活函数，⊙表示逐元素乘法，W是权重矩阵。

当前时间步的隐藏状态ht基于更新门的加权平均值来更新，如式(4)所示：

(4)

其中，ht是当前时间步的隐藏状态。

在此基础上，BiGRU在每个时间步将从左到右的GRU和从右到左的GRU的隐藏状态进行合并，从而形成最终的输出。当输入序列中的模式可能受到过去和未来数据点的影响时，BiGRU的这种双向结构使其能够在时间序列预测任务中捕获更丰富的上下文信息。

1.1.2 多头注意力机制

多头注意力机制(Multi-Head Attention Mechanism)[13]是自注意力机制的扩展，被广泛应用于Transformer结构中以捕获输入序列中多种不同的依赖关系。在物联网安全态势预测中，这种机制可以帮助模型从多个角度对输入数据进行分析，捕获更复杂的依赖模式。自注意力机制的基本思想是对输入序列中的每一个元素计算其与其他所有元素的相关性。而多头注意力则是并行运行多次这样的自注意力操作，每次都使用不同的权重集，这样可以捕获输入数据中多种不同的信息和模式。多头注意力的计算可以描述如下：

对于输入的每一个元素，都会计算其对应的键(Key)、值(Value)和查询(Query)表示，如式(5)～(7)所示：

Keys=X·WK

(5)

Values=X·WV

(6)

Queries=X·WQ

(7)

其中，X是输入数据，而WK、WV、WQ分别是键、值和查询的权重矩阵。

接下来，计算查询与所有键之间的点积，然后应用softmax函数，得到注意力权重：

(8)

其中，A代表注意力权重，dk是键的维度。

对于第i个头，用上述方法计算出的注意力权重对值进行加权求和，得到输出：

Oi=Ai·Vi

(9)

其中Oi表示第i个头的输出，Ai是第i个头的注意力权重，而Vi是第i个头的值。

多头注意力则是重复上述过程多次，每次使用不同的权重集，然后将所有头的输出拼接起来：

Omulti=Concat(Head1，Head2，…，HeadH)·WO

(10)

其中，H是头的数量，WO是一个输出权重矩阵，用于将各个头的输出合并为一个统一的输出。

1.1.3 残差结构

残差结构(Residual Networks，ResNets)[14]主要用于解决深度学习模型中的梯度消失问题。其核心是通过直接连接来“跳过”一些层，从而更有效地传播梯度。

对于网络中某个层的输入为x，该层的操作为F(x，W)，其中W是权重。残差连接的形式为：

y=F(x，W)+x

(11)

其中，y是该层的输出。这种形式保证了即使F只输出小的值，输出y也会包含大部分的输入信息。

考虑梯度的反向传播，直接连接保证了梯度的直接流动：

(12)

与普通层相比，残差连接有一个额外的单位梯度，这确保了深度模型中的梯度不会轻易消失。残差连接优化了网络的学习过程，增强了梯度的流动性，确保深度网络在训练过程中保持有效性和稳定性。

1.2 改进DE算法

为了更好地与BiGRU模型的特性和需求相适应，ADE算法对标准DE算法[15]的参数进行了优化调整。通过自适应调整关键参数，如变异因子和交叉概率，并考虑种群大小，提高寻找物联网安全态势预测问题中全局最优解的效率。ADE算法引入了自适应机制，基于BiGRU模型的性能反馈，以动态调整算法参数，从而优化模型的预测能力。

1.2.1 自适应交叉因子和变异因子

在DE算法中，交叉因子CR和变异因子F是关键因子。通过引入基于sigmoid函数的自适应机制，在迭代过程中更新变异因子和交叉概率，使得算法在搜索初期能够广泛地探索解空间，寻找多个可能的优良解区域。随着迭代的进行，算法逐渐从广泛探索转向精细化搜索，在找到的潜在优良区域内进行更加集中和深入的搜索，以期找到更精确的最优解。这种从广泛探索到精细化搜索的转变，有助于算法在迭代的不同阶段保持有效的平衡，避免早熟收敛，同时增加找到全局最优解的可能性。在改进策略中，这些因子会随着迭代次数动态地调整。交叉因子CR的更新策略与F相似，替换了相应的参数上下限值，以变异因子F为例，其自适应策略如下：

(13)

其中，t是当前迭代次数，M是最大迭代次数，Fmax和Fmin分别是F的最大值和最小值，k是控制sigmoid函数斜率的参数。

1.2.2 非线性惯性权重

为了提高DE算法在搜索空间中的探索和利用能力，引入了一个非线性的惯性权重因子ω，使DE算法增添了一个额外的调整维度，使得算法在不同的迭代阶段可以有不同的搜索强度。非线性惯性权重的主要作用是在试验向量的计算中调整随机选择的种群成员的贡献。通过引入该权重，可以在算法的早期阶段加强全局搜索，而在后期阶段更加关注局部搜索，从而实现更好的平衡。试验向量的计算公式如式(14)所示：

(14)

(15)

在此策略中，ω的值会根据当前的迭代次数t和最大迭代次数M动态调整，从而实现算法在不同迭代阶段的自适应性。

2 实验与分析

2.1 数据来源与预处理

ToN_IoT数据集[16]汇集了物联网(IoT)和工业物联网(IIoT)的传感器数据、Windows 7和10、Ubuntu 14和18的TLS操作系统日志，以及网络流量记录等多样化的异构数据源。选择该数据集的原因在于其丰富的数据类型和广泛的攻击场景覆盖，这些特点使其成为模拟现实世界复杂网络环境的理想选择。数据集中包括9种主要攻击类型(如扫描、DoS、DDoS等)和正常流量，能够全面模拟物联网环境下各类安全威胁，为深入分析网络安全态势提供了实验基础。

在数据预处理方面，首先对分类特征实施标签编码，将非数值数据转化为数值形式，以适应深度学习模型的输入需求。分类特征根据其唯一值的数量被分为两类：唯一值较少的特征采用独热编码(One-Hot Encoding)，而唯一值较多的特征则采用计数编码(Count Encoding)。完成编码后，原始分类列被替换为相应的编码列。本研究重点分析了数据集中“Train_Test_Network.csv”文件中的45个特征，包括时间戳、源/目的IP地址、源/目的端口号、协议类型等，及其数据标签(正常或攻击)和攻击类型。这些特征被划分为8个服务配置文件，如连接活动、统计活动、DNS活动、SSL活动、HTTP活动和违规活动等，为后续的模型训练与验证提供了详细的数据基础。

2.2 态势值生成

ToN_IoT数据集并没有提供直接可用的态势值字段。为了生成态势值，本文参考文献[9]的方法，并进行了适当的调整和优化，主要优化在于结合了攻击类型所带来的威胁因子和攻击的频次两个核心因素以构建态势值；并定义了各种攻击类型与其相应的威胁因子值，具体的攻击类别与威胁因子的关系如表1所示。

表1 威胁因子

考虑到网络环境的动态性和变化性，选定708个样本的时间段作为分析的基础单位，约对应1 h的网络活动。在这个时间框架内，如果遭遇频繁的网络攻击，其安全态势评分将相应提高，反映出更高的威胁级别；相反，如果攻击较少，则态势评分降低，从而更准确地描绘出网络的安全状况。每一个时间段中的具体态势值SA(t)计算方式如式(16)所示：

(16)

其中，Ti和Fi分别代表第i个样本的威胁因子值和该样本在一个时间段内的攻击威胁，N是该时间段内的样本总数。

根据式(16)为每一个时间段生成真实态势值，如图2所示。

图2 真实态势值

2.3 实验环境

本文的实验环境如表2所示，实验环境的配置提供了基础设施和软件工具，以支持本文的实验设计和数据处理。

2.4 评价指标

为了准确评估物联网安全态势预测算法的性能，本文选用了三个主要的评价指标：平均绝对百分比误差(Mean Absolute Percentage Error，MAPE)、决定系数(Coefficient of Determination，R2)和均方误差 (Mean Squared Error，MSE)。

MAPE常用于衡量预测算法准确性。它计算实际值与预测值之间的平均百分比误差。计算公式如下：

(17)

其中，Ai和Fi分别是第i个观测点的实际值和预测值。MAPE 的值越小，预测准确性越高。

R2是用于衡量模型预测能力的一个统计指标。它描述了模型预测的方差占数据总方差的比例，用于评价模型对数据的解释能力。计算公式如下：

(18)

MSE是用于衡量预测值与实际观测值之间差异的一种度量，表示预测误差的平方的平均值，其值越小表示预测模型的精度越高。计算公式如下：

(19)

2.5 实验结果与分析

2.5.1 网络安全态势预测对比

本节对不同物联网安全态势预测算法进行预测值比较，主要对比了ADE-ABiGRU、BiGRU、CNN和RandomForest等算法的性能。从图3的实验结果可以看出，ADE-ABiGRU算法的预测趋势与实际值高度一致，对比原始BiGRU也有所提升，BiGRU在剧烈波动的时间段与真实值有不符。这表明ADE-ABiGRU在物联网安全态势预测上具有非常高的准确性和稳定性，其成功地捕捉了网络安全态势的主要变化趋势，与真实值的拟合度明显优于其他算法。

图3 对比结果

2.5.2 性能评估指标分析

为了评估物联网安全态势预测算法的性能，本节测试了MAPE、R2和MSE三个指标。MAPE用于量化预测值与实际值之间的平均百分比误差，其值越小，预测准确性越高。R2描述的是模型预测的方差与数据总方差之间的关系，R2值越接近1，模型拟合度越好。MSE表示预测误差的平方的平均值，其值越小表示预测模型的精度越高。从表3的数据可以看出，ADE-ABiGRU在所有三个指标上均优于其他算法，表明ADE-ABiGRU模型在预测物联网安全态势时，不仅准确性高，而且预测误差小，拟合度好。这主要得益于其结合了差分进化算法的全局搜索能力和BiGRU捕捉时间依赖性的优势，从而提升了预测的精确度和稳定性。

表3 不同算法的MAPE、R2和MSE比较

3 结论

本文针对现有预测模型在动态捕捉物联网安全态势方面存在的局限性，提出融合ADE与ABiGRU的预测模型。该模型通过多头注意力机制精细地捕获时序数据中的关键特征，利用残差结构减少梯度消失问题，提高模型训练的稳定性。自适应差分进化算法在此模型中负责参数优化，在动态环境下能更有效地捕捉安全态势的变化，进一步提升了模型的预测准确性。实验结果表明该模型在准确性和稳定性上均显示出优越性。未来研究将优化模型效率并探索先进机器学习技术以提升预测性能。