APP下载

基于大数据技术的计算机网络异常数据检测方法

2022-02-06周莹莹

通信电源技术 2022年21期
关键词:计算机网络系数误差

王 静,周莹莹

(漯河职业技术学院,河南 漯河 462000)

0 引 言

在不同的网络环境下,运行数据本身也具有动态属性,这就导致在对网络异常数据进行检测时,往往会出现将正常波动数据检测为异常数据,或者将异常数据误判为正常数据的情况[1-3]。就现阶段异常数据检测方法的研究成果而言,已经在一定程度上实现了准确检测。其中,文献[4]将自回归滑动平均模型(Auto-Regressive Moving Average Model,ARMA)与卷积长短期记忆神经网络(Convolutional Neural Networks-Long Short Term Memory,CNN-LSTM)进行融合,应用到数据异常检测中,大大提高了检测结果的准确性,但是当数据规模较大时,该方法的检测效率难以满足实际应用需求。文献[5]以软件定义网络(Software Defined Network,SDN)技术为核心,设计了一种网络异常流量数据检测方法,检测结果具有较高的可靠性,但是该方法主要针对数据中心,对于广域计算机网络而言,应用方面存在一定的局限性。

基于此,本文提出基于大数据技术的计算机网络异常数据检测方法研究,并采用对比测试的方式对设计检测方法的应用效果进行了直观分析。

1 计算机网络异常数据检测方法设计

1.1 网络数据预处理

网络数据由网络行为衍生而来,具有可被切割的属性特征,通过解析网络行为,可以实现对网络数据的全面了解[6,7]。需要注意的是,在大数据技术的背景下,为了保障信息的隐私性,网络数据中存在大量非核心数据信息,该部分数据在一定程度上影响着异常检测的效果[8]。

假设原始网络数据为X,数据的均值参数可以表示为

网络数据的平均绝对偏差参数为

在此基础上,利用式(1)和式(2)的计算结果,对原始的网络数据进行标准化处理,对应的计算公式可以表示为

式中:X'表示标准化处理的网络数据信息。

1.2 基于大数据技术的异常数据检测

对于经过上述预处理的网络数据信息,利用大数据技术提取数据的学习表征,将其作为后续异常数据检测的判定基准[9,10]。具体的学习表征提取过程中,将网络数据的误差模糊程度作为指标参数,可以表示为

式中:λ表示网络数据的误差模糊系数;k表示分类系数;xmax表示原始网络数据中的最大值;xmin表示原始网络数据中的最小值;xmax-X'和xmin-X'分别表示网络数据信息波动的阈值上限和阈值下限。分类系数的取值结果以计算机网络的实际运行状态为基准,其取值越大,对应的分类精度越低,对于异常数据的检测精度也相对降低;其取值越小,对应的分类精度越高,对于异常数据的检测精度也越高。

检测计算机网络异常数据时,首先对原始网络数据进行预处理,其次选取分类系数后对数据进行分类,如果此时标准化的数据误差超出式(4)所示的误差模糊系数范围,则需要重新对分类系数进行更新。初始阶段,本文设置分类系数的更新步长为1.0,当标准化的数据误差与误差模糊系数范围之间的差异在1.0以内时,设置分类系数的更新步长为0.1,直至数据误差在误差模糊系数范围内。此时将待检测的数据按照同样的分类系数进行分类处理,并输出检测结果。如果待检测数据的波动程度在误差模糊系数范围,则认为该数据为正常数据,输出的检测结果为正常,否则输出的检测结果为异常。

2 测试与分析

2.1 测试环境设置

在测试阶段,本文构建了包含50万条网络运行信息的测试数据集。其中,异常数据的来源为不同类型的网络攻击,为了能够更加全面地测试设计检测方法的应用价值,本文在测试数据集中构建了3种较为常见的攻击数据,分别为拒绝服务(Denial of Service,DoS)、用户到根(User to Root,U2R)和远程到本地(Remote to Local,R2L)。考虑到不同攻击的实际作用类型存在多样化的特征,形成的网络异常数据也存在相应的差异,因此本文对具体的异常数据来源进行了细化设置,具体如表1所示。

表1 异常数据设置

在测试阶段,本文设置的对照组分别为文献[4]提出的基于ARMA与CNN-LSTM融合的检测方法以及文献[5]提出的基于SDN技术的检测方法。

2.2 测试结果与分析

在对测试结果进行分析统计阶段,本文分别将准确异常数据的情况和错误检测异常数据的情况作为评价指标,其中错误检测异常数据包括将正常数据检测为异常以及将异常数据检测为正常。3种方法对不同类型异常数据的准确检出情况如表2所示。

表2 不同方法准确检测异常数据情况统计表

从表1中可以看出,对比3种方法的测试结果,ARMA与CNN-LSTM融合检测方法有效检出异常数据的效果存在较为明显的波动性,而本文设计的检测方法对于异常数据的有效检出率始终稳定在90.0%以上,具有明显优势。对3种方法错误检测异常数据的情况进行统计,得到的数据信息如图1所示。

图1 不同方法错误检测异常数据情况统计

通过对图1中的数据进行对比可以发现,在3种检测方法中,ARMA与CNN-LSTM融合检测方法的误检率最高,其中对于multihop作用下异常数据的误检率达到了41.39%,异常数据的误检率是主要构成。SDN检测方法误检率稳定在35.0%以内,异常数据的误检率和正常数据的误检率基本持平。本文设计方法的误检率基本稳定在15.0%以内,最小值仅为12.28%,正常数据的误检率低于6.0%。

3 结 论

本文提出基于大数据技术的计算机网络异常数据检测方法研究,借助大数据技术对网络数据的发展特征进行细化分析,并实现了对异常数据的准确检测。通过本文的研究,希望能够为相关网络安全的管理工作提供参考价值,为网络的稳定运行提供帮助。

猜你喜欢

计算机网络系数误差
角接触球轴承接触角误差控制
Beidou, le système de navigation par satellite compatible et interopérable
基于模式匹配的计算机网络入侵防御系统
压力容器制造误差探究
这些待定系数你能确定吗?
打雪仗
关于计算机网络存储技术分析
计算机网络环境下混合式教学模式实践与探索
计算机网络信息安全及防护策略
过年啦