APP下载

基于高阶统计特征的大数据异常负载检测仿真

2021-11-17兰瑞乐刘晓红

计算机仿真 2021年9期
关键词:检测器高阶编码

兰瑞乐,唐 忠,刘晓红

(1.南宁师范大学网络信息中心,广西南宁 530001;2.广西医科大学人文社会科学学院,广西南宁 530021;3.广西医科大学信息中心,广西南宁 530021)

1 引言

在网络信道内,受无线信道带宽内码间干扰影响,易出现通信信道配置不均衡的问题[1],由此造成异常负载。为避免这一问题,需检测网络内大数据异常负载,降低网络干扰,提升网络通信输出的准确性[2]。由此相关的大数据异常负载检测方法成为网络通信领域研究热点[3]。

文献[4]提出基于多窗口机制的高维大数据流连续异常点检测方法。使用时间序列和滑动窗口过滤高维在线监视连续数据流,向过滤后的候选异常数据中添加时间和类型标签,并使用K-means聚类方法收集具有时间标签的候选异常数据集,获取一组潜在的异常点。近似机制用于搜索正常点聚类的属性以消除异常错误判断,局部密度机制用于对从第一次聚类检测中获得的异常点进行分类,并再次准确地排除可能的正常数据点。使用时间权重来计算多个滑动窗口的检测结果,以获得最终的异常数据点集;文献[5]提出CPU-GPU异构数据分析系统上的负载均衡处理策略。使用流水线模型分解工作量,并基于流水线设计了一种负载均衡模型,以将工作量合理地分配给异构处理器,从而减少了系统的总执行时间。

作为一种有效的统计方法,高阶统计特征可有效反映信号的非高斯性与非线性特征,因此在数据信息统计领域中被普遍使用。为提升大数据异常负载检测的性能,提出基于高阶统计特征的大数据异常负载检测方法,并利用相关软件进行仿真测试,以此验证该方法的应用性能。

2 大数据异常负载检测

2.1 大数据异常负载检测分析

大数据异常负载检测的主要目的是判断大数据负载状态是否出现异常,大数据负载的状态可通过特征集合表示。

利用一个特征矢量集合描述大数据负载的特征函数,将其定义为正常子空间。利用Se⊆S表示大数据负载处于正常状态,利用Non_Se表示Se⊆S的补集,其计算公式如下

Non_Se=S-Se

(1)

通常情况下,可用特征函数定义Se或Non_Se集合

(2)

(3)

2.2 高阶统计特征提取

在大数据负载异常检测实际应用过程中,大数据负载分析过程通常会产生非高斯与非线性特征。利用高阶统计特征描述大数据负载分析过程[6],能够获取偏离高斯特性的大数据负载信息特征,反映大数据负载信息的相位特性,为便于大数据负载信息产生过程的分析与理论,可以频域信息取代时域信息,用于阐述大数据负载信息的其它特征[7]。三阶累加矩的频域类似于能量谱通过二阶矩频域表示,可通过双谱表示,利用式(4)可描述双谱定义:

W(f1,f2)=DD[c3(τ1,τ2)]

=E[X(f1)X(f2)X*(f1+f2)]

(4)

式(4)内,DD和X(f)分别表示双傅里叶变换和时间序列x(t)的傅里叶变换,c3(τ1,τ2)表示双能量谱。在点(W(f1,f2),f1,f2)的双谱值检测频率f1和f2间的相关性,或检测的频率相关性受大数据负载产生系统内非线性特征影响[8],基于此,利用双谱值检测可检测大数据负载信息的非线性特征。双谱估计依赖式(5)描述的二阶谱属性,可实现无偏差估计:

var((f1,f2))∞P(f1)P(f2)P(f1+f2)

(5)

式(5)内,P(f)表示大数据负载信息在f处的能量。考虑大数据负载信息双谱估计受双频直接影响,能量较高的双频处,估计值的偏差相对较高,相对的能量较低的双频处,估计值的偏差也较低,这表明双谱估计结果存在明显偏差。针对这一问题,可采用标准化处理过程对双谱实施处理,降低检测结果的偏差同大数据负载信息能量之间的相关性。以双相关值描述标准化处理后的双谱,其公式描述为

(6)

通过以上过程可获取大数据负载中的高阶统计特征,构建高阶统计特征集合F。

2.3 检测器构建

利用人工免疫理论,以高阶统计特征为基础,构建大数据异常负载检测器,图1所示为检测器生成过程。

以高阶统计特征集合F对正常大数据负载样本编码生成“自我”集合。不成熟检测器是通过使用大数据负载样本编码,随机生成过程和高亲和力检测器克隆突变后代而形成的。阴性选择算法用于将“自身”集中的元素与未成熟检测器一一匹配,如果降低匹配阈值,则可以通过免疫耐受将其转换为成熟检测器。成熟检测器在检测足够大数据负载样本的条件下可升级为记忆检测器,利用记忆检测器可有效进行大数据异常负载检测。

图1 检测器构建过程

2.3.1 高阶统计特征编码

二进制编码与实值编码是普遍使用的编码形式,考虑实值编码可有效降低编码过程时间与空间复杂度,因此构建检测器时选取实值编码方式提升编码效率。用F={f1,f2,…fN}表示高阶统计特征集合,利用其待检测的大数据负载信息样本实施编码处理。

利用y表示大数据负载信息样本,对其实施反汇编处理,利用n-gram模型获取指令序列片段,用L表示。统计F内各特征fi在L中出现的频率,利用式(7)确定各特征的频率TFf

(7)

式(7)内,Nf、K和k分别表示样本y的汇编助记符序列内特征f出现的次数、样本y获取的全部特征集合和集合K内的特征。

将TFf作为编码后实值特征向量V内该维度的取值,通过计算获取样本y编码后的特征Vy=(v1,v2,…,vN)。

2.3.2 检测器成熟过程分析

检测器成熟过程中所利用的阴性选择算法扩展了未成熟检测器的开源,归纳其来源主要分为:更能代表异常状态的大数据负载样本信息提取的高阶统计特征、用于扩大检测器非我空间搜索范围的随机生成、通过遗传优良基因变异出更优后代的优秀成熟检测器克隆变异。

逐一匹配“自我”集合内各元素与未成熟检测器,将通过免疫耐受(同全部自我集合内元素均未匹配成功)的未成熟检测器作为成熟检测器。利用式(8)表示检测器d同“自我”元素m间的欧氏距离Ed(d,m)

(8)

在Ed(d,m)≤rd的条件下,“自我”元素m在检测器d覆盖的检测范围内,表示此未成熟检测器与正常大数据负载样本相匹配,此时可丢弃未成熟检测器。

2.3.3 检测器优化

在大数据异常负载检测器优化过程中引入克隆选择算法,以获取更准确的检测结果。利用式(9)可确定给定检测器d的亲和度

q(d)=yq(d,G)

(9)

式(9)内,q(d,G)表示检测器d同“非我”抗原集合G内全部元素亲和度之和。

(10)

(11)

选取q(d)值较大,也就是亲和度较高的检测器实施克隆与变异处理。针对检测器d,可利用式(12)就按其克隆数量

N(d)=θ×q(d)

(12)

式(12)内,θ表示克隆系数。

变异操作采用非均一变异法,具体操作过程为

用d=(d1,d2,…,dN)表示待变异检测器,用[maxd,mind]表示检测器的di取值,由此通过计算可获取变异后的取值d′i

(13)

其中:t和δ分别表示当前净化的代数和随机变量,t值越大Δ(t,x)越接近0,δ取值为[0,1]。Δ(t,x)表示[0,x]内符合非均匀分布的一个随机数,其计算公式如下

(14)

式(14)内,T、h和b分别表示最大净化代数、[0,1]内随机分布的实数,和随机数对于净化代数的依赖程度。

用Th表示成熟度阈值,对比检测器亲和度与Th,在前者大于后者的条件下,检测器可不参与克隆与变异过程。

同时在检测器构建过程中引入记忆细胞机制,在整体生命周期内,如果检测器能够匹配足够的抗原,则可转换为记忆检测器,相反则被淘汰。用Ci表示记忆细胞集合的容量上限值,利用最近最少原更替记忆细胞,将被替换的记忆细胞转换为新生成熟检测器。最终利用记忆检测器实现大数据异常负载检测。

3 仿真分析

为测试本文提出的基于高阶统计特征的大数据异常负载检测方法,以某区域光纤网络为测试对象,进行仿真测试并分析测试结果。采用Matlab实施大数据负载检测方法设计,利用Spss1.6统计软件统计并分析大数据异常负载特征。仿真过程中相关参数设定如表1所示。

表1 仿真参数设定

基于以上设定的仿真环境与相关参数,进行研究对象大数据异常负载检。图2所示为待检测的大数据负载样本序列。

图2 大数据负载样本序列

3.1 大数据异常负载检测输出

以图2中列出的样本数据为基础,进行异常负载检测,采用所提方法提取异常负载的统计特征,结构谱分析方法,获取研究对象大数据异常负载检测输出时序波形,结果如图3所示。

图3 异常负载检测输出时序波形

分析图3得到,采用所提方法进行研究对象大数据异常负载检测,输出样本序列具有较高的特征分辨能力,可有效抑制大数据负载样本序列内的重叠干扰,提升研究对象内大数据传输的准确性。

3.2 性能对比仿真

以文献[4]方法、文献[5]方法作为实验对比方法,利用仿真软件对三种三不同检测方法检测性能进行仿真,对比不同检测方法的准确率、耗费流量等方面,结果如下。

3.2.1 检测结果准确率分析

为对比不同检测方法的准确率,采用所提方法与两种对比方法实施异常负载检测,所得检测结果的准确率对比结果与研究对象输出误码率对比结果分别如表2和表3所示。

表2 检测结果准确率对比

表3 输出误码率对比

分析表2和表3得到的仿真结果可得,在研究对象内干扰信噪比逐渐提升的条件下,不同检测方法干扰强度降低,即不同方法对大数据异常负载检测结果的准确性呈整体上升状态。当研究对象内干扰信噪比达到30时,所提方法检测结果的准确率达到99.9%,显著高于对比方法,且所提方法的输出误码率与对比方法相比也显著下降,由此可说明所提方法具有较高的检测精度。

3.2.2 耗费流量分析

对比所提方法与对比方法在进行大数据异常负载检测过程中,约定时间内,不同方法通过时间标签发送信号的掉线负载情况,仿真结果如图4所示。

图4 不同方法耗费流量对比

分析图4得到,不同检测方法检测过程中,检测流量均表现出随着待检测负载提升而提升的状态。对比之下可得,所提方法耗费流量显著低于对比方法。

3.2.3 性能对比

基于仿真结果,对所提方法与对比方法的优势与劣势进行定性分析,结果如表4所示。

分析表4可得,相较于其它两种对比方法,所提方法能够获取偏离高斯特性的大数据负载信息特征,反映大数据负载信息的相位特性,可检测并度量大数据负载时序信息的非线性特征,以此提升最终检测结果的准确性。

表4 定性分析结果

4 结论

本文研究基于高阶统计特征的大数据异常负载检测方法,提取大数据负载信息中的高阶统计特征,以此为基础,构建大数据异常负载检测器,利用记忆检测器实现大数据异常负载检测。仿真结果显示该方法能够准确检测大数据异常负载,表明该方法具有一定的应用性。

猜你喜欢

检测器高阶编码
HEVC对偶编码单元划分优化算法
住院病案首页ICD编码质量在DRG付费中的应用
高阶时频变换理论与应用
高阶思维介入的高中英语阅读教学
三个高阶微分方程的解法研究
高阶非线性惯性波模型的精确孤立波和周期波解
用于录井专用气相色谱仪的FID检测器
高效液相色谱法应用中常见问题与处理
论纪录片影像中的组合编码运用
不断修缮 建立完善的企业编码管理体系