APP下载

基于SVM技术的网络异常点检测模型的研究

2019-09-24叶朱兵

电脑知识与技术 2019年21期

叶朱兵

摘要:随着我国互联网规模的不断扩大,网络通信模式和网络服务也日益复杂,数据种类的增多和数据来源的多元化都不同程度地提高了网络的运维工作难度。以往对于网络异常点的检测工作多采用被动的统计检测技术,其不足指出较多,迫切需要改进。该文提出将网络性能指标作为监测对象,从而实现快速查找和定位异常点的目标,构建了基于同点时间序列的网络性能模型,并采用SVM技术完成了对异常点的分析判断任务,显著提高了网络异常点的检出率和识别速度,具有较好的应用前景。

关键词:SVM;分类算法;网络异常点;同点时间序列;检测模型

中图分类号:TP393        文献标识码:A

文章编号:1009-3044(2019)21-0054-03

开放科学(资源服务)标识码(OSID):

1 引言

随着网络规模的不断扩大,数据种类的不断增多,以及用户覆盖范围的不断拓展,对网络异常检测的需求日益提高,不仅要求检测精度达标,同时也要求将检测耗时控制在一定范围之内,即对检测系统的实时性提出了更高的指标。目前最常见的检测手段依然是被动统计式的,即根据某一时间点上的数据流量超过预定值来判别是否出现异常,这种方法存在许多问题,如检测精度不够,容易出现误报和漏报等,需要对其进行改进。

主动性能检测技术则不再针对流量进行统计,而是针对可能出现的异常指征进行动态的识别,从而更快的对故障点进行定位;另一方面,也可根据网络监控的需求,灵活的设定性能指标的合理范围,一旦超出该范围,则可判定异常点的出现,并及时介入维护,尽可能减轻了因故障的出现而导致的用户体验度的下降程度,也避免了因连锁反应而带来了严重网络故障。在采用此方法进行检测时,参数的合理调整环节至关重要,其调整质量决定了整个检测算法的运行表现。为了提高参数优化水平,本文提出构建反映网络性能变化特征的同点时间序列模型,并采用SVM机制对该模型进行优化,从而提高参数选择的准确性和实时性。

2 SVM机制概述

支持向量机SVM是人工智能领域内发展较快的一种机器学习机制,其良好的自适应性可适用于多种检测分类场合。该机制最大的优势在于可以从高维空间对复杂的非线性问题进行并归与简化,通过对解群体的分类与回归,提高了算法的泛化性,并显著降低了待求问题的空间复杂度。SVM从根本上来看依旧属于二元分类问题,即根据预设标准,自适应的将待求问题的解群体分为两类,其算法如下:

设解群体为{[xi],[yj]},i,j =1,2,…n;[xi]、[yj]为n维向量,描述的系统的输入与输出,同时要求待求解问题采用如下形式描述:

上式中[?(?)]为特征映射函数,其作用是将解向量映射到高维空间,从而简化对问题的描述,降低待求问题的空间复杂度,因此可将上式看作是输入和输出之间的回归函数,基于这一结论,可采用SVM算法将其对应转换为:[]

其中[ω2]为复杂度参数;C为惩罚系数,用于纠正分类错误带来的偏差,[ε]为不灵敏损失函数:

取经验风险为:

结合以上两式,可对式(2)进行转换,得到:

利用拉格朗日乘子法可得其对偶优化问题,描述为:

式(6)中的[K(xi,xj)]被称为SVM机制中的核函数,即用以评价解群体并对其进行分类的关键函数,因此,核函数的适应度高低直接决定了SVM机制的分类质量,本文选取目前成熟度最高,适用范围最广泛的高斯径向基函数为核函数,其描述如下:

以([a,a*])形式的解来描述以上函数,则可得到:

而[b]的计算公式为:

结合以上公式,可得到SVM的最终分类函数为:

[f(x)]为+1和-1时,分别表示两种类型,本文提出的主动预测机制借助了这种分类方法,将网络中某节点性能同样分为正常与异常两类,并采用SVM机制加以实施判别。

3 网络性能异常检测方案设计

3.1 同点序列数据模型

时间序列模型被使用在多种检测场合,通常分为两种类型,即连续时间序列模型与同点时间序列模型。首先介绍连续时间序列模型,即根据某个监测对象在一串连续的时间点上某种性能的波动情况进行采样和分析,并构建如式(11)所描述的数学模型作为训练集,其中U为训练集的输入,V为输出向量:

上式中,[l]为训练集中元素个数;m为嵌入维数;t為连续采样点。该模型针对被测对象在某一时期内的连续波动情况具有较为精确的回归模式,但其缺点是滞后性较为明显,即系统检测实时性能较差,且对于网络性能监测而言,其后果实往往会将异常点当作正常情况代入分析过程,从而导致误检率明显上升。另一方面,通过大量的观察发现,网络性能的变化在一段连续时间内往往呈现出无规律的特征,而在多日同一时刻却表现出了类似的波动特征,这也同网络突发性强的特点相吻合。基于这一结论,本文提出采用如下式所描述的同点时间序列模型作为构建训练集的设计思路。

上式中的n为在1d周期中的采样次数;由于该模型在采样环节采取了分散检测的方法,因此也显著的降低了异常点集中出现而带来的某个样本优先级过高,最终干扰了整个训练集的分析结果这一常见的问题,从而确保了检测工作的稳定性和可靠性。

3.2 核函数的选择及参数优化

如前文所述,在经过了多次对比分析后,本文选取了目前应用范围最广泛的高斯径向基函数为SVM算法的核函数,并对其关键参数进行了优化。为了在检测实时性与精确性之间获取最佳的平衡点,参数优化环节选取了两步优化策略,即首先采用粗略法确定参数的大致取值区间,以压缩检测方法的准备耗时,随后采取精细寻优法确定最佳的参数值。本次优化工作的对象设定为SVM当中最关键的两个参数,即惩罚参数[c]和核函数参数[γ],两步寻优的过程如图1和图2所示。

(1)粗略寻优环节

寻优结果如图1所示:

如上图所示,在空间坐标系中,[x]、[y]轴分别表示[c]、[γ]取以2为底的对数后的值;[z]轴则为([c],[γ])的对应的SVM分析结果的准确度。采用SVMcgForClass函数进行分析计算,得到[c]的粗略优化区间为[(2-2,24)],[γ]的粗略优化区间为[(2-4,24)],在此参数组合下,[SVM]机制对异常点的检出准确率达到了93%以上,效果良好。

(2)精细寻优环节

将[c]在粗略区间内离散化,得到[{2-2,2-1.5,2-1,…24}],同理[γ]离散为[{2-4,2-3.5,2-3,…24}],再次调用SVMcgForClass函数,得到的两个参数寻优结果以及对应的SVM检出准确率如图2所示。

通过精细寻优,[c]和[γ]的最佳组合值分别为[c]=1.3272,[γ]=1,在此参数组合下,[SVM]对网络异常点的检出率达到了95.58%,相较于粗略寻优结果有了明显的改善,从而论证了本方法的有效性。通过大量的对比實验证明,本文提出的采用SVM机制对同点时间序列模型进行网络性能异常点的检测方法明显提高了网络异常的检出率,尤其在网络性能不稳定,出现大量集中错误的关键时期,该机制对异常点的识别率较高,运行质量较为稳定,持续监测性能良好。

4 结束语

随着网络规模的不断拓展,基于网络平台的信息化服务种类日益增多,广大用户对网络性能与服务质量的期望值也在不断提高,网络异常点的及时检出与故障排查时确保网络通信质量的前提。网络运维工作必须要不断引入新技术,借鉴新理念,不断在原有的技术基础上突破创新,才能可靠的完成网络维护目标。本文将成熟的SVM机制与同点时间序列模型相结合,并构建出了一种新的网络异常检测方案,并采用两步交叉验证法提高了参数寻优环节的质量,显著的提高了网络性能异常点的检测水平。相信随着人工智能领域的不断突破,以及随着芯片计算能力的飞速提升,未来网络异常检测工作的可靠性、实时性与准确性都将获得大幅提升,实现从量变到质变的过渡,最终为用户提供更高质量的网络通信服务。

参考文献:

[1] 于艳华,宋俊德.一种基于异常点检测的电信网络性能监控策略[J].电子与信息学报,2009,31(9):2220-2224.

[2] 武优西,郭磊,柴欣,等.基于优化算法的核函数参数选择的研究[J].计算机应用与软件,2014,27(1): 137-140.

[3] 吴景龙,杨淑霞,刘承水.基于遗传算法优化参数的支持向量机短期负荷预测方法[J].中南大学学报:自然科学版,2009,40(1):180-184.

【通联编辑:代影】