APP下载

基于融合机器学习算法的网络入侵检测与定位技术

2023-06-16赵长明

现代电子技术 2023年12期
关键词:卷积准确率分类

刘 欢,肖 蔚,赵长明

(1.西安交通大学,陕西 西安 710049;2.陕西警官职业学院,陕西 西安 710021;3.陕西省公安厅,陕西 西安 710018)

0 引 言

随着我国互联网规模的扩大,网络安全问题与日俱增。同时,各种类型的恶意计算机程序数量也在不断增多,各类用户均面临着网络入侵与攻击的威胁。虽然目前防病毒软件通过云防护平台采集了多种类型的计算机病毒,但智能防范已出现的病毒以及对未知病毒的防御能力仍然较低。因此,进行动态的网络入侵检测技术研究非常有必要。

网络入侵检测(Intrusion Detection System, IDS)是一种主动的安全防御技术,主要是对服务器中的用户进行检测[1]。当用户发生异常行为,且其特征与异常行为数据库中的特征相匹配时,系统将判定为攻击,异常行为包括操作、流量及权限的异常等。但现阶段,海量数据和复杂的构成形式使得入侵系统的实时性分析愈发困难,传统入侵系统的漏报、误报率也在持续升高[2-3]。随着人工智能的发展以及服务器算力性能的不断提升,机器学习(Machine Learning, ML)技术被应用到了图像处理、目标检测等多个领域,且均具有良好的表现。因此,本文基于融合机器学习算法,提出一种网络入侵检测技术,进一步提高检测能力。

1 基于融合机器学习的网络入侵检测

1.1 基于DCNN 的数据特征提取算法

卷积神经网络(Convolutional Neural Networks,CNN)[4]是一种被广泛应用于图像处理领域的特征提取深度学习(Deep Learning, DL)算法,其模型可以对特征进行更高效的学习。该网络通常由输入层、卷积层、池化层、全连接层和输出层组成,完整的CNN 结构如图1所示。

图1 CNN 结构示意图

在CNN 结构中,输入层和输出层为模型数据的输入与输出模块,卷积层、池化层及全连接层则是模型的主要计算部分[5-6]。卷积层的计算公式如下:

式中:f(·)表示tanh 函数;xl-1i表示第i个窗口第l-1 个卷积层的特征;pj为局部的感受野;klij为第l个卷积层(i,j)位置的权重;blj为偏置。

卷积层的后面是池化层,该层的作用是降低特征维度,同时减少网络的计算量。池化层可分为最大池化和均值池化,其计算公式为:

式中pool表示池化层的采样函数。

全连接层中的神经元与前一层的每个神经元均会互相连接,连接过程如下所示:

式中:Wl为第l层的权重值;bl为第l层的偏置值。

由于基础CNN 卷积模型的结构较为简单,无法准确获取入侵数据的特征,因此本文使用多个卷积层对数据特征进行抓取。由多个卷积层构成的CNN 网络也称为深度卷积神经网络(Deep Convolutional Neural Networks, DCNN)[7],通常该网络由多个尺度大小不同的卷积核组合而成,其能够对数据特征进行更全面的抓取。

Inception 模型[8]是一种由多层卷积结构所组成的神经网络模型,目前已更新至V4 版本。该模型具有多个不同尺度的卷积核,但模型并非将这些卷积核进行直接的堆叠,而是在同一层神经网络中进行布置。本文将以Inception V4 为模型基础,进而对网络的全局野进行检测。

Inception V4 网络[9]结构除了基础卷积模型外,还增加了深度残差网络(Deep Residual Network, DResNet)。深度残差网络如图2 所示,该网络通过连接浅层与深层网络可以增加网络深度,进而提升网络的训练速度与性能。

图2 深度残差网络

单个Inception V4 网络的单元结构如图3 所示。Inception V4 的整个网络单元由20 个基础网络单元组成,因此其训练效果显著。

图3 Inception V4 网络的单元结构

1.2 数据特征分类模型设计

CNN 结构可以获取多个局部特征,但其自身并无特征分类功能,因此还需要增加特征分类算法。本文选择LightGBM 算法来对特征进行分类,从而实现入侵的检测及定位。

LightGBM 算法[10]是微软公司基于Boosting 框架提出的数据分类模型,该算法可应用于分类与回归任务,其特点是预测速度快,同时内存占用也较少。算法围绕梯度提升树模型(Gradient Boosted Decision Tree,GBDT)[11]进行构建,在该模型的算法迭代过程中,损失函数可以表征为:

式中:Ft-1(x)为t-1 时刻的学习器;L(·)为损失函数;ht(x)为t时刻的弱学习器。由式(5)可计算出损失函数的负梯度,拟合得到的近似值为:

因此,t时刻的学习器为:

此外,LightGBM 算法还加入了以梯度为基础的单边采样模型。该模型基于信息增益,在对实际测试用例进行采样时,保留其中具有较大梯度的用例,并选择若干小梯度样本,从而加快算法的学习速度。同时还对数据特征进行了互补压缩,主要是对输入数据的维度进行削减,即使用直方图算法(Histogram Algorithm)对数据中互相排斥的特征进行加和,由此便可减少计算量,进而增强模型的性能。此外,LightGBM 算法还使用了深度增长策略,在特征割裂前会对所有生长树的叶子节点进行遍历,同时增加生长树的深度限制,进而抑制模型过度拟合现象的发生。

本文所设计的网络入侵检测的途径之一就是对异常网络流量进行检测与定位,而在网络流量异常的边界处会存在分布异常的数据,此时LightGBM 分类器无法对这些数据进行准确的定位与区分。因此,本文使用以下方法对LightGBM 分类器进行改进。

在传统的LightGBM 模型中,损失函数L使用的是交叉函数,该函数可表示为:

本文对损失函数加以改进,并使用概率调节因数γ对模型进行迭代:

式中:i为数据种类;pi为数据分到第i类的概率。当数据较难分类时,pi较低,而1-pi的值较大,对损失函数的影响也较小;当数据容易分类时,1-pi的值几乎为0,会降低损失函数的值。通过该方法即可对训练误差进行调节。

1.3 基于PCA 的数据降维算法

PCA 也称为主成分分析法[12],其主要作用是对输入数据进行降维。由于网络入侵异常流量的实时性较强,数据特征不固定,因此数据自身具备的维度也是未知的[13]。当数据维度过高时,后续网络训练所花费的时间就会成倍增长,因此本文设计的方法首先对输入数据进行了降维操作。

假设输入数据为高维数据,可以将其看作是一个矩阵Xm×n,矩阵X中的元素为xij。对矩阵X进行最小最大标准化,则有:

根据式(10)还可构建矩阵Yp×q。同时,计算矩阵的相关性稀疏以及特征值λi,然后再计算主成分贡献率:

对贡献率进行排名,选择贡献率在80%以上的数据特征加以训练。

1.4 本文算法模型的总体设计

本文所提算法的总体模型如图4 所示。首先使用PCA 进行数据降维,之后再利用Inception V4 模型对流量数据特征进行准确提取,最后使用改进的LightGBM算法对数据特征进行分类操作并输出分类结果。

图4 本文算法模型

2 实验与分析

2.1 实验环境搭建

为了对所提算法进行测试,本次实验在公开数据集上进行训练。目前常用的异常流量数据集为KDD99,但由于该数据集冗余度较高且无效数据多,因此本文选择了KDD99 数据集的改进版本NSL-KDD,其数据特征种类为41 种。该数据集可以将数据根据标签分为5 类:正 常 数 据、DDoS 攻 击 数 据、U2R 异 常、R2L 异 常 以 及Probe 探针。实验的软硬件环境配置如表1 所示。

表1 实验环境参数

2.2 实验测试

为了验证各类算法对网络入侵的检测成功率,本文使用准确率、漏报率以及误报率这3 项指标来对模型的性能进行综合评估。首先进行二分类测试,验证改进算法与原算法的性能差距。本文使用PCA-DCNN-改进LightGBM 模型对数据进行训练,还选择不同数据特征种类进行测试,实验结果如表2 所示。

由表2 中的数据可以看出,基础算法为LightGBM,当加入了CNN 算法后,模型的准确率显著上升;而使用DCNN 深度算法则可获取数据中更为丰富的深层次信息,故算法性能指标同样也有了较为明显的提升。当加入PCA 分析法后,对于小数量的特征种类数据训练的准确率并无显著提升;在数据特征种类为40 种时,算法的性能指标提升才较为明显。而本文算法由于对LightGBM 进行了改进,在所有对比算法中3 项指标均为最佳,充分说明了其具有良好的性能。

本次实验所使用的数据集共有5 种数据类型,故进行五分类实验可以观察算法对攻击类型的敏感程度。横向对比算法选择GAN、LSTM、SVM、RF 以及CNN 算法,实验结果如表3 所示。

表3 5 种数据情况下各算法的分类准确率 %

由表3 可知:相较于对比算法,本文算法在五分类验证测试中的准确率均为最高;然而,算法对R2L 以及Probe 数据的检验准确率较低,其原因是数据集中这两项数据的数量较少,从而导致训练精度较差。总体而言,本文算法可对网络入侵进行有效检测。

3 结 语

本文基于融合机器学习算法设计一种网络入侵检测机制。该方案的检测算法由PCA、DCNN 构成的Inception V4 模型以及改进后的LightGBM 模型组成。其中,PCA 算法可对数据特征进行降维,对降维后的数据再使用Inception V4 模型完成特征提取,最终由改进的LightGBM 算法实现特征分类。在实验测试中,本文算法的准确率、漏报率和误报率这3 项指标均较为理想,表明该算法具备良好的性能,可以实现有效的网络入侵检测。

猜你喜欢

卷积准确率分类
基于3D-Winograd的快速卷积算法设计及FPGA实现
分类算一算
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
从滤波器理解卷积
分类讨论求坐标
高速公路车牌识别标识站准确率验证法
数据分析中的分类讨论
基于傅里叶域卷积表示的目标跟踪算法