基于超球面支持向量机的传感器网络数据异常检测分析
2020-11-13冯乔
冯乔
摘要:构建了一种通过DBN实现的1/4超球面支持向量机(QuarterSpheresupportvectormachines,QSSVM)测试模型,设计了一种可以实现在线测试功能的异常检测算法。当窗口扩大后,QSSVM发生了准确度不断提高的变化趋势,能够提高半径的测试精度。当窗口增大后算法持续时间增加,QSSVM相对于OCSVM(OneClasssupportvectormachines,OCSVM)可以降低近一半的计算时间。随着窗口扩大至临界值后,将会引起准确度的减小,设置QSSVM算法滑动窗口为100。当样本包含更高的维度异常比例时,所有算法都出现了检测率增大的变化现象。当样本维度升高后,QSSVM依然具备优异检测性能,而Kmeans发生了检测性能的下降。通过测试发现,采用新算法能够满足大规模高维传感器的数据处理需求,从而减小时间复杂度并能够更加准确测定异常数据。
关键词:传感器网络;异常检测;深度信念网络;超球面支持向量机
中图分类号:TP393
文献标志码:A
AnomalyDetectionandAnalysisofSensorNetworkData
BasedonHypersphereSupportVectorMachine
FENGQiao
(SchoolofMechanicalandElectricalandInformationEngineering,WuxiVocationalInstituteofArts&Technology,Wuxi214200,China)
Abstract:AQSSVMtestmodelof1/4hyperspheresupportvectormachineimplementedbyDBNisconstructed,andananomalydetectionalgorithmthatcanrealizeonlinetestisdesigned.Whenthewindowisenlarged,theaccuracyofQSSVMchangescontinuously,whichcanimprovethetestingaccuracyofradius.Thealgorithmcancontinuetoincreasethetimeafterthewindowisenlarged,QSSVMcanreducethecomputingtimebynearlyhalfcomparedwithOCSVM.Asthewindowexpandstothecriticalvalue,theaccuracywilldecrease.WesettheslidingwindowofQSSVMalgorithmto100.Whenthesamplecontainsahigherproportionofdimensionalanomalies,allalgorithmsshowthephenomenonofincreasingdetectionrate.Whenthesampledimensionisincreased,QSSVMstillhasexcellentdetectionperformance,whilekmeanshasdecreaseddetectionperformance.Throughtesting,itisfoundthatthenewalgorithmcanmeetthedataprocessingrequirementsoflargescalehighdimensionalsensors,itreducesthetimecomplexity,andmeasurestheabnormaldatamoreaccurately.
Keywords:sensornetwork;abnormaldetection;deepbeliefnetwork;hyperspheresupportvectormachine
0引言
隨着时代的发展,物联网已成为当前人们开展生活与工作的重要工具,这也因此促进了无线传感器网络的大量应用[13]。但考虑到这些传感器通常都被安装于多种复杂的环境中,并且不同类型的传感器的数据结构、传输模式也存在较大差异,一旦出现运行故障时便会引起数据异常的情况,这些异常数据将会对实际处理过程造成较大干扰,无法从中提取出准确的参考信息,从而对最后的决策过程造成不利影响[46]。为克服上述问题,需要对无线传感器网络内的各类异常数据实施快速高效监测。通过快速测定异常数据可以使传感器能够更加稳定并准确地采集数据。
利用近邻分析方法计算出本节点和相邻节点的数据距离再判断本节点的数据是否存在异常的情况,当实际测定的数据和邻居节点数据具有明显差异时说明该数据发生了异常,由于需要很长时间才能计算得到各数据距离,因此不能满足大规模传感器网络的应用条件;可以采用聚类分析的方式,根据数据分簇类型来达到对异常数据的孤立目的,但采用这一方法需获得所有数据后再对其实施分簇,无法满足在线测试异常数据的要求[78]。采用上述方法可以同时满足测试精度与在线检测的要求,同时还可以对高维数据集合出现异常情况时进行测试,已经成为现阶段获得普遍应用的异常测试方法[911]。利用单类支持向量机OCSVM来完成异常测试已经成为现阶段的一种重要检测方法,该方法可以采用无监督的状态快速找出各项异常数据。为克服上述缺陷,本研究根据上述研究内容,进一步优化了OCSVM,构建得到了一种通过DBN实现的1/4超球面支持向量机QSSVM测试模型,同时根据该模型设计了一种可以实现在线测试功能的异常检测算法。
1算法
1.11/4超球面支持向量机(QSSVM)
QSSVM把样本数据映射至高维空间内,再把该空间内由样本组成的圆心移动到坐标原点,按照正坐标轴的方向构建1/4超球面,其中被球面包含的数据属于正常数据,处于球面以外的数据属于异常数据。
对于样本
X={xi,1≤i≤n}处于特征空间内的1/4球面需要求解下述问题如式(1)。
minR∈R,ξ∈Rn
R2+1vn∑ni=1ξi
s.t.Φ(xi)2≤R2+ξi
ξi≥0,i=1,2…,n
(1)
把式(1)对偶问题通过式(2)进行表示,如式(2)。
minα∈Rn
-∑ni=1αik(xi,xi)
s.t.∑ni=1αi=10≤αi≤1vn;i=1,2,…,n
(2)
与球面QSSVM进行非线性规划的过程相比可以发现,采用式(2)实施线性规划可以显著降低计算过程的复杂度。但因为通过距离指标构建的核函数k(xi,xi)对所有样本节点都相同,所以不能根据式(2)获得有意义的解。需要利用核函数中心化的处理方式求解上述问题,把完成中心化的核函数表示如式(3)。
kc=k-1nk-k1n+1nk1n
(3)
再把式(2)转变成如式(4)。
minα∈Rn
-∑ni=1αikc(xi,xi)
s.t.∑ni=1αi=10≤αi≤1vn;i=1,2,…,n
(4)
利用式(4)求解拉格朗日系数αi,并判断样本xi的节点和超球体之间的相互关系:如果αi=0,可以认为此时的样本节点属于正常数据;如果αi=1vn,表明样本节点属于异常数据;如果0<αi<1vn,同时xi表示边界支持向量,利用此向量和原点之间的距离计算出1/4球面半径R。
1.2深度信念网络(DeepBeliefNetwork,DBN)模型
深度信念网络具备深度学习功能,包含了多个玻尔兹曼机(Restrictedboltzmannmachine,RBM),如图1所示。
这一网络可以对RBM实施分层训练,其作用是接收进行RBM训练时产生的特征数据。因为各层RBM在训练过程中只能实现自身最优的状态,这使得采用分层训练方法也不能达到全局最优的效果。
1.3基于深度信念网络的传感器数据异常检测算法
DBN和QSSVM构成的混合模型如图2所示。
模型功能是对DBN降维模型实施训练并去除训练时产生的异常数据,采用测试模型对各类数据进行实时测试发现异常情况。
把训练数据输入到训练模型的DBN底层节点中,再对DBN内各层权值W进行训练,包括显层与隐层节点偏执两种情况,再把经过降维处理的训练数据传输至QSSVM再将异常数据进行输出,去除数据集内的所有异常数据。
把采集获得的待检测数据传输至经过训练的DBN模型内,再输出经过降维处理的测试数据,同时将其加入滑动窗口内,把上述窗口数据传输至QSSVM,判断新数据有无异常的问题。
2实验
2.1数据集与实验设置
本次测试的数据来自UCI机器学习库[12],总共包含了四组通过实际传感器检测得到的数据,具体包括:48维Forest监测参数、110维GAS气体测试数据、320维DSA活动记录数据以及540维HAR智能设备测试数据。之后从各数据集内选出由连续时间组成的1000个样本,再选择其中的800个样本数据用于训练,通过随机的方式加入比例为5%的异常数据,再对剩余的20%数据进行测试,同时以随机方式设置了10%异常数据。
为了尽量提升算法的性能,本实验实施了多次测试,使用两层DBN对输入数据实施降温至6维。各算法都通过MATLABR2017a进行模拟分析,总共进行10次测试并计算平均值。
2.2算法效率及窗口大小影响
表1显示了对上述算法进行训练的模型以及在异常数据检测阶段花费的时间,同时给出了各窗口下的QSSVM准确性。考虑到时间受到数据集合和异常维度比率的影响程度很小,所有记录时间都是处于异常维度比率条件下算法所需的平均运行时间。测试结果如表1所示。
当窗口扩大后,QSSVM发生了准确度不断提高的变化趋势,产生这一情况的原因是当窗口增大后,将包含更多的样本数据,每次进行球面半径计算时可以获得更多的正常样
本,同时也能够提高半径的测试精度。
2.3检测率(DR)
各算法处于不同比率维度下的异常数据测试精度如图3所示。
通过四组测试结果可知,当样本包含更高的维度异常比例时,所有算法都出现了检测率增大的变化现象。采用QSSVM算法处理Forest数据与GAS数据时相对于Kmeans的性能略差,而当样本维度升高后,QSSVM依然具备优异检测性能,而Kmeans发生了检测性能的下降,对于560维的HAR数据只能达到43.81%的检测率,采用QSSVM算法则能够获得高达94.16%的检测率,当样本维度升高后,一些低維度异常数据不能被检测到,说明此时没有检测出所有异常数据。
3总结
(1)当窗口扩大后,QSSVM发生了准确度不断提高的变化趋势,能够提高半径的测试精度。当窗口增大后算法持续时间增加,QSSVM相对于OCSVM可以降低近一半的计算时间。随着窗口扩大至临界值后,将会引起准确度的减小,设置QSSVM算法滑动窗口为100。
(2)当样本包含更高的维度异常比例时,所有算法都出现了检测率增大的变化现象。当样本维度升高后,QSSVM依然具备优异检测性能,而Kmeans发生了检测性能的下降。
参考文献
[1]
许春杰,吴蒙,杨立君.一种基于分层聚合的分布式异常数据检测方案[J/OL].计算机工程,[20190709].https://doi.org/10.19678/j.issn.10003428.0054066.
[2]刘禹彤,李锐,包俊杰,刘亚希.中国区域电离层异常数据野值检测[J/OL].北京航空航天大学学报,[20190709].https://doi.org/10.13700/j.bh.10015965.2019.0152.
[3]武海龙,武海艳.云计算光纤网络中大数据异常负载检测模型[J].激光杂志,2019(6):207211.
[4]刘志方.大数据网络下船舶轨迹异常故障檢测技术优化[J].舰船科学技术,2019,41(10):3436.
[5]陈永聪.云组合服务网络的异常植入数据检测算法[J].信息技术,2019,43(6):111114.
[6]赵宝庆,王赫男.基于熵权聚类网络异常行为的检测方法研究[J].信息技术,2019,43(6):121124.
[7]农婷.大数据环境下的网络流量异常检测研究[J].科技风,2019(17):84.
[8]ChristodoulouVyron,BiYaxin,WilkieGeorge.AtoolforSwarmsatellitedataanalysisandanomalydetection.[J].PloSone,2019,14(4):12841291.
[9]MunirMohsin,SiddiquiShoaibAhmed,ChatthaMuhammadAli,etal.FuseAD:UnsupervisedAnomalyDetectioninStreamingSensorsDatabyFusingStatisticalandDeepLearningModels[J].Sensors(Basel,Switzerland),2019,19(11):24512459.
[10]吴海波,施式亮,念其锋.瓦斯浓度流数据实时异常检测方法[J].计算机与数字工程,2019,47(5):10861090.
[11]王振昊,王布宏.基于SVDD的ADSB异常数据检测[J].河北大学学报(自然科学版),2019,39(3):323329.
[12]李昊奇,应娜,郭春生,等.基于深度信念网络和线性单分类SVM的高维异常检测[J].电信科学,2018(1):3442.
(收稿日期:2020.02.25)