基于改进SVDD算法的池塘水质数据流异常检测
2021-03-17袁永明余晓栋
施 珮,匡 亮,唐 玥,袁永明,余晓栋
基于改进SVDD算法的池塘水质数据流异常检测
施 珮1,2,匡 亮3,唐 玥1,2,袁永明4,余晓栋1,2
(1. 南京信息工程大学滨江学院,无锡 214105;2. 江苏省物联网设备超融合与安全工程研究中心,无锡 214105;3. 江苏信息职业技术学院物联网工程学院,无锡 214153;4. 中国水产科学研究院淡水渔业研究中心,无锡 214081)
无线传感器网络获取的水质数据流具有高复杂性、非平稳性、非线性等特点,为了提高传感数据流的异常检测能力,保障水质监测数据流的有效性,该研究提出一种基于改进支持向量数据描述(Support Vector Data Description,SVDD)水质数据流异常检测方法。首先应用马氏距离改进Parzen-Window高斯窗函数,避免数据在分类过程中产生干扰。再利用改进的Parzen-Window获取训练数据的分布密度估计,并结合模糊隶属度函数,对传统SVDD算法进行密度补偿,构建改进的SVDD异常检测模型,从而降低有噪正常样本的干扰性,提高算法的分类精度。最后,选择密度补偿支持向量数据描述(Density Weighted Support Vector Data Description,D-SVDD)、传统SVDD和FastFood算法,在不同试验池塘的多个测试数据集中进行对比试验。结果表明,改进 SVDD 算法具有较高的检测性能,该算法在 3 口池塘的最高异常检测正确率 TPR(True Positive Rate)值达到99.83%,最高检测准确率 Accuracy 达到 99.83%,明显优于 D-SVDD 和传统 SVDD 算法,且最低运行时间仅 1.34 s。结果可为水质数据流异常监测提供技术支持。
水产养殖;水质;数据流;密度补偿;支持向量数据描述
0 引 言
在集约化的水产养殖中,传感器网络作为一种常见的技术被应用于养殖水体的环境监测[1]。通过部署多种传感器节点,可以不间断地采集水质数据,构成具有时间特性的传感器数据流。然而,受传感器老化、电气特性、外界磁性干扰或节点间通讯等原因[2],采集的数据流会存在数据缺失、异常等问题。水质数据流的异常检测能够帮助及时发现偏离正常情况的数据,同时,针对异常数据实时发送警报信息、节点故障信息等。在高密度的集约化水产养殖中,基于水质数据流进行的异常检测能有效地保障水产养殖水质监测的可靠性和有效性,从而为精准养殖生产提供决策依据。
传感器数据流的异常检测是一项具有重要意义的研究,基于不同研究算法的传感器数据流异常检测已经被广泛应用于各个领域[3-7]。张怀峰等[3]提出代表性特征自编码器异常检测算法,提取相位相同样本的代表性特征,并根据这些特征衡量卫星电源系统的异常数据。Lee等[4]提出了一种基于Self-organizing Maps(SOM)算法的自适应动态分簇式在线异常检测算法。该算法利用实时更新的网络结构和适应度为依据构建异常簇或正常簇。这类算法在进行异常检测时无需数据标定,具有很强的特征提取能力,较适合具有确定性时序特征的数据流。唐斯琪等[5]基于局部保持投影算法基本思想,提出基于类别信息的监督判别(Locally Preserving Projection,LPP)的(Supervised Discriminant Locality Preserving Projection,SDLPP)算法,并应用到网络数据流的异常检测中。这类算法具有较高的检测精度,但对测试和训练的数据集有较高的要求。事实上,在实际工程实践中,诸如养殖池塘的水质数据流,其数据本身异常和正常比例不均衡,且异常类型复杂多变,全面地采集和准确标定是难以实现的,因此需要更为合适、有效的算法应用于这类问题的数据流异常检测。SVDD作为一种适用于不均衡数据集分类的机器学习方法,具有高效的非线性分割能力[8-11]。为了解决具有分布差异的训练数据出现分类界面偏移的问题,Cha等[12]将密度权重的概念引入到SVDD算法中,并采用阶邻域(K-Nearest Neighbor,KNN)算法来度量数据的相对密度分布情况。陶新民等[13]提出一种最大软间隔SVDD故障检测算法对不均衡数据下的轴承故障问题进行检测,取得了较好的效果。目前,SVDD模型已广泛应用于工业过程中的故障检测领域,但在水产养殖水质监测领域应用较少。
本文提出一种改进的SVDD异常检测算法,并将检测结果同密度补偿支持向量数据描述(Density Weighted Support Vector Data Description,D-SVDD)、SVDD和FastFood三种模型进行对比,探索具有较高检测准确度、效率和泛化性能的水质数据流异常检测算法,解决传统水质数据流异常检测中不平衡数据检测准确度低、特征信息贫乏、鲁棒性差的问题,以进一步提高水质数据流的长期异常检测精度。
1 材料与方法
1.1 数据源
为了对数据流异常检测算法的适用性进行试验和测试,本研究首先使用国际通用传感网络数据集SensorScope中的12号传感器节点的外部温度、地表温度进行仿真试验。同时,以实际生产中的多个试验池塘的水质数据流为异常检测的研究对象,在江苏省常熟市水产养殖基地(121.9°E、31.6°N)的多个养殖池塘中部署传感器网络,从而获取传感器感知的水质数据流。养殖区域内共3口试验池塘,总面积约为2×104m2,每口池塘约6.7×103m2(长110 m,宽60 m)。1号池塘养殖南美白对虾,养殖密度为75尾/m2;3号池塘养殖中华绒螯蟹,养殖密度为0.013 5 kg/m2,放养规格为120尾/kg;13号池塘混养青虾和中华绒螯蟹,中华绒螯蟹养殖密度0.011 2 kg/m2,放养规格为600尾/kg,青虾放养密度为0.004 5 kg/m2,放养规格为8 000尾/kg。获取的水质数据指标数据包括溶解氧浓度和pH值。在水产养殖远程监测系统中,水下传感器的数据采集间隔为10 min。水体数据经ZigBee传输至Sink节点,再传输至服务器端,系统总体架构如图1所示。
本文以2020年5月20至6月2日为试验周期,采集周期内3个养殖池塘的水质数据流为试验样本。同时,在1号池塘中分别构建不同大小的样本集进行模型训练和测试,各试验数据集均包含两项检测指标,其详细信息如表1所示。1号池塘、3号池塘和13号池塘均包含大小相近的数据集样本。同时,在1号池塘中,分别设置3个试验样本集:No.1、No.2和No.3,各样本集中总试验数据量递增,训练和测试集中样本量也分别递增。
表1 试验数据集
1.2 支持向量数据描述SVDD
SVDD是支持向量机的一种分支。它的主要思想是通过对训练集中的数据使用立体概念超球体进行包裹,从而实现数据间的划分[14]。
在这个超球体实现数据分类的过程中,其依赖的是数据间的映射。SVDD以结构风险为目标,数据的分类为目的,不断优化超球体的大小,以期最大程度地包含所有目标数据[15]。在超球体内部,以为球心,为半径。球体内部数据为目标类,外部数据则为非目标类,其算法结构图如图2所示。
式中ξ≥0,为惩罚因子。
引入拉格朗日乘子求解式(1),替换其中内积运算为核函数 K(),在满足Mercer 定理的条件下,获得其对偶表达式如下:
求解式(2),得到特征空间中观测数据到球中心的距离和球体半径,x为第个数据,x为第个数据,它们的计算表达式如下:
核函数表征样本从低维到高维的特征映射,在SVM中占有重要地位,影响着函数的性能。目前常用的核函数包括线性核函数、多项式核函数、高斯核函数和Sigmoid核函数等[16]。在不同的应用领域中,各个核函数均有不同的适用性。
1.3 Parzen-Window概率密度估计
概率密度估计能够对样本进行参数估计,获得其分布情况的特征统计信息(概率密度函数值)[17]。参数估计和非参数估计作为概率密度估计主要的2种形式,分别以已知分布形式的训练样本集和未知分布形式的训练样本集为研究对象。Parzen-Window(核密度估计)作为概率论中的典型非参数估计方法,能够实现样本的未知概率密度函数值的估算[18]。
使用Parzen-Window函数进行概率密度估计,本文中选择常用的高斯窗核函数完成概率密度估计,其表达式为
1.4 密度估计补偿SVDD
在传统SVDD算法中,不需要对样本的数据密度分布进行分析。相对密度的引入能够补偿SVDD算法的缺陷,使得研究区域中相对密度高的样本更易被超球体包围。对样本集[1,2,, x]中任意样本x,其相对密度ρ为
式中为输入维度,为权重,为Parzen-window平滑参数。
当x的相对密度ρ越小,则样本点x所处的区域越稀疏。将相对密度引入SVDD中,使用概率密度(x)乘以公式(1)中松弛变量ξ,获得表达式如下:
密度补偿SVDD算法(Density Weighted Support Vector Data Description,DSVDD)通过引入相对密度能够让位于相对密度较大区域中的样本点尽可能多的被超球体边界所包含。在求公式(10)的最优解时,引入拉格朗日乘子,则获得式(11):
1.5 改进的支持向量数据描述
在DSVDD异常检测算法中,Parzen-window窗函数一般选择高斯核函数。为了避免传感器数据流在量纲上的差异带来的影响,在高斯函数中,选择马氏距离(Mahalanobis distance)替代传统欧式距离,将样本点之间包含的隐藏信息考虑进去,从而构建新的Parzen-window窗函数[19]。在新的Parzen-window窗函数中,对样本集[1,2,, x]中某样本x,则其相对密度ρ为
同时,在目标样本被划分为正常样本的过程中,会存在一部分有噪正常样本混在其中。这些噪声样本会对DSVDD的异常检测模型的构建产生负作用。因此,本文选择利用隶属度函数[20-21]对DSVDD进行改进。通过隶属度函数,使每个训练集中的样本都能产生一个相应密度信息下的隶属度值。对于样本集[1,2,, x]中某一样本x,其相对密度ρ下的模糊隶属度z可表示如下:
式中max为ρ中的最大值,min为ρ中的最小值。由隶属度函数公式(14)生成的相关密度的隶属度值,使得所有训练样本集中重要性越大的样本分配得到越大的模糊隶属度值,且样本隶属于一个相对密集的区域中。而重要性越小的样本则分配越小的隶属度值,且样本隶属于一个稀疏的区域。
引入相对密度ρ的隶属度函数z对公式(10)进行改进,获得改进的密度估计补偿SVDD算法,其表达式如下:
求解公式(15)的最优解时,引入拉格朗日乘子,则获得式(16):
2 异常检测算法
2.1 数据预处理
针对水质数据流在数据量纲上的差异,需要对这些数据流进行标准化处理。因此,本文采用Z-score方法[22]完成数据流的标准化过程,其预处理的表达式为
2.2 异常检测模型构建
在水质数据流的异常检测中,正常数据和异常数据之间比例具有不均衡性,且异常样本难以被标记。传统有监督算法进行异常检测时,模型难以准确设计和构建,因此需要使用新的方法来解决这些实际的问题,并保证数据流异常检测的准确度。因而,本文尝试使用SVDD算法构建一种半监督型的数据流异常检测算法,并构造关于相对密度的模糊隶属度函数(),降低有噪正常样本对异常检测模型的干扰,求解计算如式(14)。
本文构建的养殖水体数据流异常检测模型,首先需要采用式(17)进行数据标准化。然后,利用概率估计和模糊隶属度计算,构建改进的SVDD异常检测模型实现数据流的异常检测,主要包括数据预处理、改进SVDD检测模型的训练、改进SVDD模型的测试和验证效果等,具体异常检测流程如图3所示。
数据预处理。对传感器采集的水质数据流样本进行标准化处理,避免数值量纲和变异等对改进SVDD模型训练过程中的参数寻优产生影响。
模型训练。在改进SVDD的模型训练过程中,首先需要设置初始参数惩罚因子和,利用5-折交叉验证法对参数进行寻优,以平均绝对误差(Mean Absolute Error,MAE)作为迭代寻求的评估指标;再利用改进的Parzen-Window函数进行样本的概率密度估计,确定密度函数值;结合模糊隶属度函数,将基于相对密度的隶属度值带入SVDD中,求解改进SVDD模型的输出参数超球体半径和拉格朗日乘子的值。
异常检测测试。进行异常检测测试时,计算各观测点到中心的距离值。对比值与超球体半径;当>时,则判定该观测点为异常数据;当<时,则判定该观测点为正常数据;输出异常数据,完成测试数据的异常检测过程。
3 试验与分析
3.1 试验环境与评价指标
本文将2020年5月20日-6月2日期间养殖区域中各试验池塘的溶解氧浓度和pH数据流作为异常检测对象,分别构建训练样本集和测试样本集。试验中,异常检测算法采用Matlab 2014进行程序的编写和运行,使用的Intel双核2.7 GHzCPU,16.00 GB RAM,Windows 10(64 bit)操作系统。在算法的性能评价上,分别采用正确率(True Positive Rate,TPR),误报率(False Negative Rate,FPR),准确率(Accuracy)和运行时间Time对异常检测算法进行性能评估。TPR代表正常数据被正确检测的识别率百分比;FPR为异常数据被检测为正常数据的错误检测百分比[23-25]。其计算公式分别为
式中TP(True Positive)代表正常数据被检测为正常数据的数量;FP(False Positive)代表异常数据被检测为正常数据的样本数量;TN(True Negative)代表异常数据被检测为异常样本的数量;FN(False Negative)代表异常数据被检测为正常样本的数量。
3.2 结果与分析
3.2.1 不同核函数性能比较
为了评估异常检测算法不同核函数的检测性能,选择SensorScope数据集进行仿真试验,从而确定最适宜的异常检测核函数。在试验过程中,设置SVDD的参数为[2-3, 23],为[0.1, 1]。利用5-折交叉验证法测试各核函数的检测性能,仿真试验结果如表2所示。
表2 不同核函数的检测结果
表2为改进SVDD算法使用不同核函数的异常检测试验结果,可以发现各核函数均能较好的实现异常检测过程。然而,在这4种核函数中,基于高斯核函数的改进SVDD异常检测算法的FPR值明显低于其他3种核函数,Accuracy值明显高于其他3种核函数。该核函数的TPR值与Sigmoid核函数接近,明显高于Linear和Poly核函数。结果表明,改进SVDD算法使用高斯核函数时有明显的优势,在异常检测中能获得更好的检测效果。
3.2.2 检测性能对比
1)改进SVDD在不同池塘中的检测结果
为了测试改进SVDD异常检测算法的检测性能,使用试验区域中试验样本量大小相近的数据集进行试验。经过多次试验,获得各试验池塘水质数据流的异常检测结果如表3所示。
表3 改进SVDD算法在不同数据集的异常检测结果
表3显示,改进SVDD异常检测算法在13号池塘、3号池塘和1号池塘第一组No.1的试验数据集中均取得了较好的检测结果。3组试验数据集的异常检测正确率TPR值均大于90%,误报率FPR值均小于4%,准确率Accuracy值均大于90%。同时,运算速度较快,具有较高的运行效率。
通过对试验环境进行分析发现,3口试验池塘均在养殖周期前后经过了标准化池塘改造,养殖品种分别为南美白对虾、青虾和中华绒螯蟹,养殖模式虽有所差异,但在养殖生产周期内,各试验池塘均定期进行水质调控和设备清洗等日常生产管理行为。事实上,传感器的工作环境复杂,表面易附着各种藻类、淤泥和微生物等,使得水质数据流在采集过程中容易出现误差。综合改进SVDD在3口池塘水质数据流的异常检测结果,该算法的检测性能较稳定,能够实现水质数据流的可靠性和有效性检测。
2)改进SVDD在不同大小样本集中的检测分析
本文以1号池塘采集的3组样本为试验对象,分别测试样本在不同试验样本量条件下改进SVDD异常检测算法的检测性能情况,检测结果如表3所示。表3显示,改进SVDD算法在1号池塘第一组No.1、第二组No.2和第三组No.3样本集中的检测结果TPR值分别为96.13%、99.94%和99.83%。误报率FPR值分别为0、32.14%和0。虽然样本大小有不同,但改进SVDD算法的检测准确率Accuracy值无较大差异,且无明显变化规律。
同时,本文选择D-SVDD对比算法来验证改进SVDD算法的模糊隶属度函数改进操作的优越性。将SVDD对比算法验证改进SVDD算法的检测精度,FastFood算法则作为运行时间对比算法验证改进SVDD的运行效率。各算法均进行多次试验,并取其运行平均时间作为效率指标,具体对比结果如图4所示。
如图4所示,随着样本量的增大,4种检测算法的检测时间随之增加;在4种算法中,改进SVDD算法的平均检测时间与D-SVDD算法相近;FastFood算法具有最快的检测速度,在3个试验数据集中的运行时间均不高于0.6 s,检测时间明显低于其他3种。SVDD算法的检测时间随着样本量的增加快速增加。这主要是由于本文的异常检测方法与D-SVDD算法均需要考虑数据的密度分布,二者的算法原理相似。而FastFood是一种近似核函数映射的SVDD算法,算法的复杂度低于其他3种算法。
3)不同方法在不同池塘中异常检测的结果分析
为了深入分析改进SVDD算法的适用性,对比了不同检测算法在不同试验池塘水质数据流中的检测效果。选择ROC(Receiver Operating Characteristic)曲线[26-28]对各检测算法进行综合性能评估。在1号池塘、3号池塘和13号池塘的各异常检测算法的ROC曲线如图5所示。
由图5可以发现,在3个试验池塘中,改进SVDD算法的ROC曲线下的面积(AUC值)最大,最接近1。因此,相比其他3个算法,改进SVDD算法的检测性能具有显著的优势。同时,在3号池塘中FastFood算法明显更靠近对角参考线,故其ROC曲线下的面积最小,检测性能最差。在13号和1号池塘中传统SVDD算法更靠近对角参考线,故其ROC曲线下的面积最小,检测性能最差。且D-SVDD算法在3号和1号池塘中的ROC曲线与改进SVDD基本重合,AUC值较接近1,因此该算法的检测性能较FastFood和SVDD更好。综上,在不同的试验池塘中,改进SVDD均有较高的检测正确率和较低的检测误报率,算法的检测性能较稳定。
为了充分了解不同检测算法的实际试验结果情况,表4列出不同检测算法在不同试验池塘的异常检测结果。由表4可以发现,改进SVDD算法在13号、3号和1号池塘中的检测正确率TPR值较D-SVDD算法分别提高了24.54%、5.53%和5.72%;较SVDD算法分别提高了34.06%、20.29%和52.22%;较FastFood算法则分别提高了1.32%、19.03%和23.95%。而该算法在3号和1号池塘中的检测误报率FPR与D-SVDD和SVDD算法相同,均为0。在13号和3号池塘中检测FPR值较FastFood算法有明显降低。同时,改进SVDD算法在13号、3号和1号池塘中的检测准确率Accuracy指标较D-SVDD算法分别提高了23.08%、5.24%和5.54%;较SVDD算法分别提高了31.96%、19.12%和49.85%;较FastFood算法则分别提高了1.59%、18.14%和49.85%。
同时,对表4中不同检测算法在不同池塘中的检测时间进行分析可以发现,在3口池塘数据集中,FastFood算法的运行时间明显低于其他3个算法。在1号和3号池塘中,改进SVDD算法的运行时间与D-SVDD算法相近。在1号池塘中,传统SVDD算法运行时间最长。结果表明,改进 SVDD 算法具有较高的检测性能,该算法在 3 口池塘的最高异常检测正确率 TPR(True Positive Rate)值达到99.83%,最高检测准确率 Accuracy达到99.83%,明显优于 D-SVDD 和传统 SVDD 算法,且最低运行时间仅 1.34 s。结果可为水质数据流异常监测提供技术支持。
事实上,综合上述所有试验结果进行分析,尽管试验池塘环境和试验数据量不同,但是改进SVDD算法较传统算法(如SVDD算法)、其他同类型算法(如D-SVDD算法)或典型算法(如FastFood算法),均能获得较稳定的异常检测性能,实现水质数据流的可靠性和有效性检测,为水产养殖水质数据流的检测预警提供可靠的决策依据。
表4 不同检测算法在不同试验池塘的检测结果对比
4 结 论
针对养殖水体中水质数据流的异常问题,提出了一种新型的改进SVDD异常检测方法。引入基于相对密度的模糊隶属度函数对传统SVDD算法进行补偿,利用Parzen-Window算法估算数据的概率密度。并使用马氏距离改进Parzen-Window的高斯窗函数,从而提高水质数据流异常检测的准确度。经过不同的核函数异常检测测试,确定最适合的核函数。在不同的数据集中进行异常检测试验,改进SVDD均达到了较好的检测效果。同时,对比不同的异常检测算法,在不同的池塘水质数据流中,改进SVDD算法的平均异常检测正确率TPR值达到99.83%,最高检测准确率Accuracy值达到99%,且运行速度较快。本文的试验结果对改进和应用现有的有监督型数据流异常检测算法提供了一定的理论参考。
[1] 张铮,曹守启,朱建平,等. 面向大面积渔业环境监测的长距离低功耗LoRa传感器网络[J]. 农业工程学报,2019,35(1):164-171.
Zhang Zheng, Cao Shouqi, Zhu Jianping, et al. Long range low power sensor networks with LoRa sensor for large area fishery environment monitoring[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(1): 164-171. (in Chinese with English abstract)
[2] 焦贤龙,王刚,田海琛,等. 基于相继干扰消除的无线传感网低时延广播算法[J]. 计算机学报,2019,42(11):2526-2538.
Jiao Xianlong, Wang Gang, Tian Haishen, et al. Successive interference cancellation based low-delay broadcast algorithms for wireless sensor networks[J]. Chinese Journal of Computers, 2019, 42(11): 2526-2538. (in Chinese with English abstract)
[3] 张怀峰,江婧,张香燕,等. 面向卫星电源系统的一种新颖异常检测方法[J]. 宇航学报,2019,40(12):1468-1477.
Zhang Huaifeng, Jiang Jing, Zhang Xiangyan, et al. Novel anomaly detection method for satellite power system[J]. Journal of Astronautics, 2019, 40(12): 1468-1477. (in Chinese with English abstract)
[4] Lee S, Kim G, Kim S. Self-adaptive and dynamic clustering for online anomaly detection[J]. Expert Systems with Applications, 2011, 38(12): 14891-14898.
[5] 唐斯琪,潘志松. 基于流形学习的网络数据流异常检测[J]. 济南大学学报:自然科学版,2017,31(2):118-128.
Tang Siqi, Pan Zhisong. Anomaly detection in network traffic flow based on manifold learning[J]. Journal of University of Jinan: Science and Technology, 2017, 31(2): 118-128. (in Chinese with English abstract)
[6] Kim T Y, Cho S B. Web traffic anomaly detection using C-LSTM neural networks[J]. Expert Systems with Applications, 2018, 106: 66-76.
[7] Xu X, Liu Y, Liu S, et al. Real-time detection of potable-reclaimed water pipe cross-connection events by conventional water quality sensors using machine learning methods[J]. Journal of Environmental Management, 2019, 238(3): 201-209.
[8] 肖利平,全腊珍,余波,等. 基于改进CoSaMP的农田信息异常事件检测算法[J]. 农业机械学报,2019,50(10):230-235.
Xiao Liping, Quan Lazhen, Yu Bo, et al. Anomaly event detection for farmland information monitoring based on improved CoSaMP[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(10): 230-235. (in Chinese with English abstract)
[9] 亚森江·加入拉,高建民,高智勇,等. 一种复杂机电系统LE-SVDD异常监测方法[J]. 振动、测试与诊断,2017,37(3):469-475.
YasenJiang·Jiarula, Gao Jianmin, Gao Zhiyong, et al. Laplacian eigenmaps-support vector domain description method for complex electromechanical system[J]. Journal of Vibration, Measurement & Diagnosis, 2017, 37(3): 469-475. (in Chinese with English abstract)
[10] 谢彦红,孙呈敖,李元. 加权动态SVDD在非线性过程监测中的应用研究[J]. 系统仿真学报,2017,29(7):1506-1513.
Xie Yanhong, Sun Chengao, Li Yuan. Application of weighted dynamic SVDD in nonlinear process monitoring[J]. Journal of System Simulation, 2017, 29(7): 1506-1513. (in Chinese with English abstract)
[11] 张汉元,田学民. 基于KSFDA-SVDD的非线性过程故障检测方法[J]. 化工学报,2016,67(3):827-832.
Zhang Hanyuan, Tian Xuemin. Nonlinear process fault detection based on KSFDA and SVDD[J]. Journal of Chemical Industry and Engineering (China) (CIESC )Journal, 2016, 67(3): 827-832. (in Chinese with English abstract)
[12] Cha M, Kim J S, Baek J G. Density weighted support vector data description[J]. Expert Systems with Applications, 2014, 41(7), 3343-3350.
[13] 陶新民,李晨曦,李青,等. 不均衡最大软间隔SVDD轴承故障检测模型[J]. 振动工程学报,2019,32(4):718-729.
Tao Xinmin, Li Chenxi, Li Qing, et al. Rolling bearings fault detection model using imbalanced maximum soft margin support vector domain description[J]. Journal of Vibration Engineering, 2019, 32(4): 718-729. (in Chinese with English abstract)
[14] 罗鹏,王布宏,李腾耀. 基于BiGRU-SVDD的ADS-B异常数据检测模型[J]. 航空学报,2020,41(10):281-291.
Luo Peng, Wang Buhong, Li Tengyao. ADS-B anomaly data detection model based on BIGRU-SVDD[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(10): 281-291. (in Chinese with English abstract)
[15] 陈士刚,关永刚,张小青,等. 不完备故障类别下基于Multi-SVDD的高压隔离开关故障诊断方法[J]. 电工技术学报,2018,33(11):2439-2447.
Chen Shigang, Guan Yonggang, Zhang Xiaoqing, et al. Diagnosis method of high voltage isolating switch fault based on multi-SVDD under incomplete fault type[J]. Transactions of China Electro technical Society, 2018, 33(11): 2439-2447. (in Chinese with English abstract)
[16] 楼俊钢,蒋云良,申情,等. 软件可靠性预测中不同核函数的预测能力评估[J]. 计算机学报,2013,36(6):1303-1311.
Lou Jungang, Jiang Yunliang, Sheng Qing, et al. Evaluation the prediction performance of different kernel functions in kernel based software reliability models[J]. Chinese Journal of Computers, 2013, 36(6): 1303-1311. (in Chinese with English abstract)
[17] 李杰,陈建兵,张琳琳. 随机过程的概率密度函数估计[J]. 应用力学学报,2010,27(3):481-485.
Li Jie, Chen Jianbing, Zhang Linlin. Moment method for global sensitivity analysis in multiple failure modes[J]. Chinese Journal of Applied Mechanics, 2010, 27(3): 481-485. (in Chinese with English abstract)
[18] 杨楠,周峥,陈道君,等. 基于非参数核密度估计的风功率波动性概率密度建模方法[J]. 太阳能学报,2019,48(7):2028-2035.
Yang Nan, Zhou Zheng, Chen Daojun, et al. Research of modeling method based on non-parametric kernel density estimation of probability of wind power fluctuations[J]. Acta Energiae Solaris Sinica, 2019, 48(7): 2028-2035. (in Chinese with English abstract)
[19] 吕鹏飞,闫云聚,荔越. 基于马氏距离的改进核Fisher化工故障诊断研究[J]. 自动化学报,2020,46(11):143-155.
Lv Pengfei, Yan Yunju, Li Yue. Research on fault diagnosis of improved kernel fisher based on mahalanobis distance in the field of chemical industry[J]. Acta Automatica Sinica, 2020, 46(11): 143-155. (in Chinese with English abstract)
[20] Lin C F, Wang S D. Fuzzy support vector machines[J]. IEEE Transactions on Neural Networks, 2002, 13(2): 464-471.
[21] 张铁民,黄俊端. 基于音频特征和模糊神经网络的禽流感病鸡检测[J]. 农业工程学报,2019,35(2):8-174.
Zhang Tiemin, Huang Junduan. Detection of chicken infected with avian influenza based on audio features and fuzzy neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(2): 168-174. (in Chinese with English abstract)
[22] Mcintosh A R, Grady C L, Haxby J V, et al. Within-subject transformations of PET regional cerebral blood flow data: ANCOVA, ratio, and Z-score adjustments on empirical data[J]. Human Brain Mapping, 2015, 4(2): 93-102.
[23] Ali K, Liu A X, Chai E, et al. Monitoring browsing behavior of customers in retail stores via RFID imaging[J]. IEEE Transactions on Mobile Computing, 2020, (99): 1-14.
[24] 谢为俊,魏硕,郑招辉,等. 深度多分支模型融合网络的胡萝卜缺陷识别与分割[J]. 农业工程学报,2021,37(2):177-186.
Xie Weijun, Wei Shuo, Zheng Zhaohui, et al. Classification and segmentation of defect carrots using deep multi-branch models fusion network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(2): 177-186. (in Chinese with English abstract)
[25] 段青玲,肖晓琰,刘怡然,等. 基于SW-SVR的畜禽养殖物联网异常数据实时检测方法[J]. 农业机械学报,2017,48(8):159-165.
Duan Qingling, Xiao Xiaoyan, Liu Yiran, et al. Anomaly data real-time detection method of livestock breeding internet of things based on SW-SVR[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(8): 159-165. (in Chinese with English abstract)
[26] Le Q V, Sarlos T, Smola A J. FastFood: Approximate kernel expansions in loglinear time[C]. // In: JMLR Workshop and Conference Proceedings. Atlanta: Microtome Publishing, 2013, 244-525.
[27] 邵园园,王永贤,玄冠涛,等. 高光谱成像快速检测壳聚糖涂膜草莓可溶性固形物[J]. 农业工程学报,2019,35(18):245-254.
Shao Yuanyuan, Wang Yongxian, Xuan Guantao, et al. Rapid detection of soluble solids content in strawberry coated with chitosan based on hyperspectral imaging[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 245-254. (in Chinese with English abstract)
[28] Pan D, Liu D, Zhou J, et al. Anomaly detection for satellite power subsystem with associated rules based on kernel principal component analysis[J]. Microelectronics Reliability, 2015, 55(9): 2082-2086.
Abnormal detection of aquaculture water quality data stream using an improved SVDD in pond
Shi Pei1,2, Kuang Liang3, Tang Yue1,2,Yuan Yongming4,Yu Xiaodong1,2
(1.,,214105; 2.,214105; 3.,,214153,; 4.,,214081,)
An anomaly detection of the data stream has been one of the most critical subjects for the monitoring of water quality in aquaculture. The data stream of water quality collected by wireless sensor network is normally difficult to be detected accurately, due to the characteristics of high complexity, instability, and nonlinearity. The traditional support vector data description (SVDD) presents a relatively low recognition on a small number of abnormal samples under the condition of data imbalance. The noise samples have also a great interference to the anomaly detection, leading to the specific features that cannot be captured completely. In this study, an improved support vector data description (improved SVDD) was proposed to strengthen the detection capability of the sensor data stream. First, a mahalanobis distance was applied to enhance the Gaussian function of Parzen-Window, thus avoiding data interference in the process of classification. Then, the improved Parzen-Window function was utilized to realize the density estimation of training data. As such, the data classification was completed to extract the distribution of training data. In this case, the new ISVDD model was constructed to combine the fuzzy membership function. Thus, the interference of the model from the noise samples was significantly reduced to improve the classification accuracy. Finally, the abnormal detection effect of SVDD different kernel functions was compared to determine the optimal kernel function, according to the performances. The density-weighted support vector data description (D-SVDD), traditional support vector data description (improved SVDD), and the FastFood were selected to verify the performance in different testing datasets of three ponds. The D-SVDD was used to verify the superiority of the fuzzy membership function during improvement operation. The traditional SVDD was used to verify the detection precision of improved SVDD. The FastFood was taken to verify the running efficiency. All detections were tested several times to choose the average values as the final. The true positive rate (TPR), false negative rate (FPR), accuracy value, and running time were used as the detection performance to evaluate all models. The experimental results showed that the improved SVDD presented a higher detection performance. Among them, the maximum TPR value of ISVDD was 99.83%, the minimum FPR value reached zero, the maximum accuracy value of anomaly detection was 99.83%, and the minimum running time was 1.34 s. It indicated that the improved SVDD presented a superior performance than the D-SVDD and traditional SVDD. The detection performance demonstrated that the different kernel functions in SVDD and different detection were identified in all testing ponds during the aquaculture period. In addition, the expanding boundary of normal and abnormal data was achieved using the density-weighted and fuzzy membership function with a greatly better performance of abnormal detection. The finding can provide a new idea to improve the accuracy of anomaly detection in the whole aquaculture cycle. Meanwhile, the experimental and improved SVDD can be expected to serve as a theoretical reference to enhance the supervised level of anomaly detection.
aquaculture; water quality; data stream; density compensation; support vector data description
2021-07-20
2021-11-28
江苏省高校自然科学基金面上项目(21KJB520020);南京信息工程大学滨江学院人才启动经费资助(2021r038);国家自然科学基金项目(62072216);现代农业产业技术体系专项(CARS-46)
施珮,博士,讲师,研究方向为农业物联网和边缘计算。Email:njxk_sp@163.com
10.11975/j.issn.1002-6819.2021.24.028
TP39;TP212;TP274.2
A
1002-6819(2021)-24-0249-08
施珮,匡亮,唐玥,等. 基于改进SVDD算法的池塘水质数据流异常检测[J]. 农业工程学报,2021,37(24):249-256. doi:10.11975/j.issn.1002-6819.2021.24.028 http://www.tcsae.org
Shi Pei, Kuang Liang, Tang Yue, et al. Abnormal detection of aquaculture water quality data stream using an improved SVDD in pond[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(24): 249-256. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.24.028 http://www.tcsae.org