试析可信评估下农业物联网异常数据检测及补值
2023-09-16王飞鸿
王飞鸿
(国立政治大学,中国台北 11656)
0 引言
目前,我国正在大力推进智能农业的发展,将物联网技术应用于农业生产的各个领域,将其优势发挥到极致,例如,通过远程实时监测和管理农产品的环境因子,可以大大提高我国农业的现代化水平。但在数据传送过程中,可能出现数据不正常或丢失的状况,或在传送时出现一系列的数据空白,必须对该缺失值进行数据补充。对缺失值的预测不但能保证数据的可靠性和完整性,而且还能为后续的数据处理及分析提供全面的数据基础。
1 农业物联网异常数据检测
1.1 农业物联网结构
针对当前的物联网系统框架,结合当前的农业工业系统,将其分为5 个层级。自下而上划分为感知层、接入层、网络层、数据层和应用层,农业物联网架构如图1 所示[1]。
图1 农业物联网架构
1.2 数据异常检测
数据的异常检测,可以分为异常点检测、新颖点检测、偏差检测、离群点检测以及隔离点检测。数据丢失、不正常数据等均属于异常情况[2]。所谓“数据丢失”就是在获取的时候,因为某些因素而失去了信息。在实际中,因为一些特殊因素,会出现遗漏信息的现象,造成数据丢失的因素很多,主要有以下几种。在农业领域中,数据的传递会造成信息的滞后,从而导致信息不能及时地进行更新。数据的遗漏有一定的主观原因,比如因为注册的人不小心,忽略了数据的录入,也有一些客观原因,比如装置发生了问题,比如终端的电源不足,又比如被其他的无线电信号所影响,导致了数据的遗失和差错,从而忽略了信息。一些特性不能被使用,或被主观地视为无用。
2 可信评估下农业物联网异常数据检测方法
2.1 数据异常检测方法
在进行异常检测时,目标是发现数据集与其他数据或异常数据有何区别。通常,数据异常检测算法按照检测方法分为4 种:基于统计的异常检测算法、基于聚类的异常检测算法、基于密度的异常检测算法、基于距离的异常检测算法。
利用统计技术对异常数据进行检测,首先建立一个随机的概率分布模型,它可以是正态分布或者是泊松分布,然后计算集上的每一个符合模型数据的概率,在列出了这些概率后,将部分概率较低的数据判定为异常数据。利用聚类技术对离群点进行识别,聚类是把具有相似性的数据分成不同的类别,经过聚类运算,当有异常数据时,会发现有一个或多个集群的样本数据非常稀少,并且与其他集群的平均偏差也有很大的差别[3]。基于距离的异常探测技术,首先需确定数据间的距离,然后计算出数据的间距,如果距离接近,就是普通的数据,当距离超过一定的范围时,就会被称为“离群点”。距离异常检测虽然简单,但与其他方法相比,其耗时更长。利用密度对异常数据进行探测,是以距离为基础,通过将各点间的间距与数量相结合,得到的数据密度。基于密度的异常检测方法可以很好地识别局部异常,但由于这种方法是基于距离的异常检测,其计算复杂度较高。
2.2 缺失数据的处理方法
缺少了数据,就会造成有价值数据的损失,无法保证分析的完整性和可靠性,从而影响到后续的数据信息分析。其次可能会导致计算过程出现混乱,计算结果错误。因此,有必要对丢失的数据进行相应的处理,关于缺失值的处理方法有以下几种。直接删除,将丢失的数据中的相应属性剔除,从而获得没有遗漏的信息。不做处理,只保存有数据遗漏的信息表格,不采取其他操作。预测值插补能够利用自身和其它传感器节点的数据,对该缺失的数据进行预测,从而完成补值[4]。
3 可信评估下农业物联网数据补值的相关方法
3.1 均值插补法
均值插补是用一组数据中最常发生的数据来填补遗漏数据。有学者提出用平均相似性来对其进行间接信任,用平均相似性对其进行计算,其信任度是用平均法直接计算的,当专家的信任度与平均值相近时,其可信程度就会增加。这种方法在填补缺失值时,由于不能确定标准偏差的大小,如果标准偏差很大,会造成很大的偏差。
3.2 随机插补法
从现有数据中随机选取同一性质的数据,进行遗漏数据的填补。有学者将LIN 算法与MR 方法相结合,提出了基于同一属性的LIN 算法,并将LIN 算法与MR 方法相结合,LIN 算法是通过与该缺失值的邻接时间相对应的值,来预测目前的缺失值。由于时间上的差异较大,这种方法的计算结果也会有很大的偏差,而且该方法需要依赖于时间和空间上的数据,因而对时间和数据的依赖程度很高。
3.3 回归插补法
通过采用多元线性回归,建立了丢失数据与其他数据的联系,并通过迭代逐步减小目标与实际值的偏差,实现了对缺失数据的补充。MR 算法是一种基于多变量线性回归的方法,该算法利用邻近接触点的数据,采用多元线性回归法对目前的缺失值进行预测。KMRA 方法将空间和时间属性结合起来,采用时间属性和空间属性的KNN 方法对其进行评估,然后将两个属性的预测值统一起来。在采用多元线性回归方法进行空间属性计算时,由于要确定节点的数量和位置,会导致计算工作量偏大。
4 可信评估下农业物联网异常数据检测及补值应用
4.1 农业物联网异常数据检测系统
马田系统在农业物联网中的应用,利用马氏距离对正常和非正常样本进行马氏抽样,然后利用正交表和信噪比对特征参数进行筛选,实现了对数据的降维,并利用f 极大值法求出了阈值[5]。提出了一种基于农业物联网的异常数据分类标准,并建立了一个农业异常数据检测系统,为有异常情况的数据进行相应的补强。马田系统包括了马氏距离法和田口法。马氏距离不仅是一种测量距离的方法,也是一种用来描述数据之间的协方差距离的方法。这是考虑到了各属性间的相互关系,而不涉及数据的计量单元。马氏距离是用来区别正常和异常的,在马氏空间中使用田口法的正交表和信噪比,从而得到最优的特征值,减少后续计算的复杂性。在马氏空间中,对异常和常规数据分别进行阈值分割,在出现新的样本数据时,可以根据已有的门限,对其进行分类和预测。在马田系统中,对异常数据进行了分割,在不信任的情况下,对不可信的异常进行了补足[6]。
4.2 马氏空间的验证与优化
因为马氏空间是用普通的样本来构造的,因此马氏空间的有效性还有待验证,如果马氏空间可以分辨出正常和不正常的数据,就说明这个马氏空间是有效的,否则就必须重建。在进行马氏空间验证时,首先要对异常数据的马氏距离进行平均,然后将其与马氏距离平均值进行对比,若马氏间距高于正常值,则表示马氏空间的建立是可行的。在对马氏距离进行计算时,使用的采样平均值和标准偏差都是通过正常的采样获得的。马氏空间对异常数据进行了规范化处理,并采用马氏空间的施密特正交化方法构造了异常数据。若马氏空间比异常值马氏空间小得多,则表明马氏空间是有效的,否则要重建马氏空间,重新选取样本数据。
选取的所有初始变数,并非全部都参与了异常检测,因此在建立马氏空间后,需要对马氏空间进行优化,这样既可以减少数据维度,又可以减少后续运算的复杂性。信噪比既可以对筛选后的特征变量进行可靠度、鲁棒性评估,也可以对筛选出的特征变量进行功能评估。在评估异常数据时,对于不熟悉的数据,与一般数据的偏差愈大,愈有利于数据的识别。信息增益值愈大,表示此特性变项在马氏数据分类及判别上的作用愈大,故应依据资讯增益值,选取具有较高贡献的特征量,建立马氏空间,从而实现数据降维。
4.3 马氏空间的应用
在利用马田系统进行数据分析之前,首先要对原始数据进行处理,然后再利用该系统的特征矢量。在采集到的农业数据中,将各传感器节点所获得的数据视为多维系统,因此,可以将从农业物联网获取的数据视为一组多维的数据。利用马氏系统的时序数据,选取土壤温度、土壤湿度、风速、空气湿度、空气湿度、光照强度、气压等七个参数,对农业数据进行统计分析。这个样本的特征是指在正常条件下,农业作物的生长需要的外界条件。程序采用python 编程,采用施密特正交表对7 个特征变量进行了归一化,得出马氏距离为1 左右。
在作物生长的条件中,环境因素对作物的生长有很大的影响。正常情况下,庄稼都可以正常地生长,但是如果出现了异常,很有可能会导致庄稼的死亡。在此基础上,采用人工方法对非正常状态进行仿真,从而对农业生产造成一定的影响。为了让数据恢复到真实的状态,可以通过仿真数据采集、终端节点断电、攻击节点、发送数据超时等方式。选择50 个异常的数据,异常样本的马氏间距为7.366,即异常样本的马氏距离比正常样本的马氏间距要大得多,可见用普通样本建立马氏空间的方法是可行的。然而,如果马氏距离和正常马氏距离之间的差距很小,就必须重新选取正常的数据,以建立马氏空间[7]。
4.4 补值方法
对于丢失的数据,采用 ARIMA 算法进行时间属性的补漏,并根据以往的历史数据进行补漏;另外,给出了基于 MLRTA 的信任属性补足方法,并通过信任节点的数据来弥补目前的缺损。最后,将时间的补充性与信任的补充性相结合,利用权重的分布来实现。与LIN、 KMRA 进行了比较,结果表明,ARIMA-MLRTA 方法的错误率较低,精度较高。
5 结语
在农业物联网中,经常会发生一些数据不正常的现象,在进行无线通信时,终端节点可能会因为网络本身的特性,或是网络的部署环境,产生这种现象。在农业物联网领域,存在着因电池电量限制、无线干扰等突发事件而造成的数据异常、丢失等问题。因此,如何对监测样本进行异常数据检测,并对异常数据以及丢失数据进行补值是非常必要的。