基于多特征融合的云平台异常点检测方法研究
2021-06-24冉冉,胡非,齐俊,高强,白亮
冉 冉,胡 非,齐 俊,高 强,白 亮
(国网辽宁省电力有限公司信息通信分公司,辽宁 沈阳 110006)
很多云用户通过云平台实现计算、存储等网络行为,这种高度不间断的动态特点使异常点的出现概率增加,因此研究人员开始对异常点检测进行研究[1]。异常点通常是指一些与预期行为模式不一致的数据源,在不同的场景中,异常点通常又被称为离群点或污染点。传统的云平台异常点检测主要分为无监督的异常点检测方法、有监督的异常点检测方法、半监督的异常点检测方法等[2]。但是这3种方法都有一定的局限性,由单一数据源计算得到的检测方法在后续的分析中会导致近似估值检测的结果具备极大的不确定性,且整体检测准确率较低,误报率较高。因此本文提出了基于多特征融合的云平台异常点检测方法,在保证算法准确率的前提下提高了算法的计算速度,避免了算法结果的不确定性。
1 云平台子系统特征空间优化模型
为进一步提高检测准确率,对云平台不同子系统的特征空间进行优化。在训练云平台虚拟机学习时,需要兼顾检测风险和检测经验,同时输出最小化的权值。
(1)
式中:β为输出权值;i为训练次数;ξ为最小化的虚拟机学习训练误差[3];ξi=[ξi1,ξi2,ξi3,…,ξim]T为虚拟机的训练误差。
(2)
式中:β′为优化后的输出权值;ξ为优化模型的虚拟机学习训练误差;F为样本集中非线性组合特征求解。如此就能够实现不同子系统之间的特征自动融合。
2 基于多特征融合的云平台异常点检测方法设计
基于构建的子系统特征空间优化模型,立足于对云平台异常点的多元监测,设计基于多特征融合的云平台异常点检测方法。
a.模型约束
完成云平台网络拓扑结构的构建后,就需要引入模型约束,分别使用不同的可视化表达将V1、V2、V3作为多特征融合的异常特征,并在实现多特征融合的前提下设置模型参数。该模型必须满足云平台网络拓扑结构的距离约束,以距离约束作为模型约束,进而实现样本数据的特征融合,因此式(2)直接拓展为
(3)
式中:i为样本空间数据集,且i=1,2,…,N;β″为模型约束后的输出权值。在约束下,子系统中扩大特征样本距离的元素值为
(4)
(5)
式中:N为样本数据集的总量;i为数据集中传输数据的具体序号;hi为第i个传输数据与上列传输数据的距离[7]。同时依据拉格朗日定理[8]得到更新后的多特征融合系数为
(6)
式中:si为更新后的特征系数[9];N为样本数据集;β‴为数据更新后的多特征融合输出权值;r为隐藏输出权值系数。
b.检测流程
由式(6)可以得到基于多特征融合的云平台异常点检测流程,如图1所示。
由图1可知,在计算云平台异常点时,首先通过离线训练的方式得到训练精度,设置最大迭代次数为100,当迭代次数大于100时,得到最终的训练值;然后通过离线训练得到组合系数,针对当前训练样本进行特征融合;最后实现基于多特征融合的云平台异常点检测。
3 试验验证
a.试验准备工作
为验证本方法优于传统方法,对基于多特征融合的云平台异常点检测方法与基于SOM算法的异常点检测方法和基于时间序列的异常点检测方法进行对比分析。试验由OpenStack技术搭建真实的云平台环境,由8台计算机组成,其中1台计算机为云平台提供控制功能,其他7台为云平台提供计算功能。在整体的LAN环境下,设置7个计算节点用于检测组件与进行应用服务,设计1个控制节点用于管理组件。
将管理节点生成器中的计算量全部用于模拟用户的服务请求,使云服务器用于定向处理虚拟机的服务请求,再将8台云平台虚拟机的请求信息用于指向响应逻辑,使数据库虚拟机专注于处理存储数据,可以随时添加故障注入程序,以验证基于多特征融合的云平台异常点检测方法。设置4个试验的标准数据集,分别为Iris、Glass、Waveform、MLL。Iris是最小样本集,只有250条样本记录;Waveform是最大样本集,共有6000余条样本记录。这些样本集用于机器学习算法的测试,验证算法的有效性和确定性。为确保试验结果的准确性,每个数据集进行3次试验,最后计算数据结果的平均值。
b.试验结果分析
通过Matlab软件将数据结果进行对比分析,如表1所示。
表1 试验结果对比
由表1可知,基于多特征融合的云平台异常点检测方法中,4个数据集的算法准确率平均值为97.7%;基于SOM算法的异常点检测方法中,4个数据集的算法准确率平均值为95.1%;基于时间序列的异常点检测方法中,4个数据集的算法准确率平均值只有94.1%。因此基于多特征融合的云平台异常点检测方法的准确率高于其他2种方法;由于数据量小的数据集计算速度快,因此在同样的数据集下,基于多特征融合的云平台异常点检测速度快过其他2种方法。
4 结束语
在互联网时代,云平台因为其极具开放性的特点,不可避免地受到更多用户的关注,也因此带来巨大的流量。在频繁的访问下,为提高云平台异常点检测的准确率和计算速度,对基于多特征融合的云平台异常点检测方法进行研究,并通过试验验证方法的实用性,比其他传统方法更为准确可靠,计算速度更快。