试析可信评估下农业物联网异常数据检测及补值

2023-09-16王飞鸿

中国科技纵横 2023年13期

王飞鸿

（国立政治大学，中国台北 11656）

0 引言

目前，我国正在大力推进智能农业的发展，将物联网技术应用于农业生产的各个领域，将其优势发挥到极致，例如，通过远程实时监测和管理农产品的环境因子，可以大大提高我国农业的现代化水平。但在数据传送过程中，可能出现数据不正常或丢失的状况，或在传送时出现一系列的数据空白，必须对该缺失值进行数据补充。对缺失值的预测不但能保证数据的可靠性和完整性，而且还能为后续的数据处理及分析提供全面的数据基础。

1 农业物联网异常数据检测

1.1 农业物联网结构

针对当前的物联网系统框架，结合当前的农业工业系统，将其分为5 个层级。自下而上划分为感知层、接入层、网络层、数据层和应用层，农业物联网架构如图1 所示[1]。

图1 农业物联网架构

1.2 数据异常检测

数据的异常检测，可以分为异常点检测、新颖点检测、偏差检测、离群点检测以及隔离点检测。数据丢失、不正常数据等均属于异常情况[2]。所谓“数据丢失”就是在获取的时候，因为某些因素而失去了信息。在实际中，因为一些特殊因素，会出现遗漏信息的现象，造成数据丢失的因素很多，主要有以下几种。在农业领域中，数据的传递会造成信息的滞后，从而导致信息不能及时地进行更新。数据的遗漏有一定的主观原因，比如因为注册的人不小心，忽略了数据的录入，也有一些客观原因，比如装置发生了问题，比如终端的电源不足，又比如被其他的无线电信号所影响，导致了数据的遗失和差错，从而忽略了信息。一些特性不能被使用，或被主观地视为无用。

2 可信评估下农业物联网异常数据检测方法

2.1 数据异常检测方法

在进行异常检测时，目标是发现数据集与其他数据或异常数据有何区别。通常，数据异常检测算法按照检测方法分为4 种：基于统计的异常检测算法、基于聚类的异常检测算法、基于密度的异常检测算法、基于距离的异常检测算法。

利用统计技术对异常数据进行检测，首先建立一个随机的概率分布模型，它可以是正态分布或者是泊松分布，然后计算集上的每一个符合模型数据的概率，在列出了这些概率后，将部分概率较低的数据判定为异常数据。利用聚类技术对离群点进行识别，聚类是把具有相似性的数据分成不同的类别，经过聚类运算，当有异常数据时，会发现有一个或多个集群的样本数据非常稀少，并且与其他集群的平均偏差也有很大的差别[3]。基于距离的异常探测技术，首先需确定数据间的距离，然后计算出数据的间距，如果距离接近，就是普通的数据，当距离超过一定的范围时，就会被称为“离群点”。距离异常检测虽然简单，但与其他方法相比，其耗时更长。利用密度对异常数据进行探测，是以距离为基础，通过将各点间的间距与数量相结合，得到的数据密度。基于密度的异常检测方法可以很好地识别局部异常，但由于这种方法是基于距离的异常检测，其计算复杂度较高。

2.2 缺失数据的处理方法

缺少了数据，就会造成有价值数据的损失，无法保证分析的完整性和可靠性，从而影响到后续的数据信息分析。其次可能会导致计算过程出现混乱，计算结果错误。因此，有必要对丢失的数据进行相应的处理，关于缺失值的处理方法有以下几种。直接删除，将丢失的数据中的相应属性剔除，从而获得没有遗漏的信息。不做处理，只保存有数据遗漏的信息表格，不采取其他操作。预测值插补能够利用自身和其它传感器节点的数据，对该缺失的数据进行预测，从而完成补值[4]。

3 可信评估下农业物联网数据补值的相关方法

3.1 均值插补法

均值插补是用一组数据中最常发生的数据来填补遗漏数据。有学者提出用平均相似性来对其进行间接信任，用平均相似性对其进行计算，其信任度是用平均法直接计算的，当专家的信任度与平均值相近时，其可信程度就会增加。这种方法在填补缺失值时，由于不能确定标准偏差的大小，如果标准偏差很大，会造成很大的偏差。

3.2 随机插补法

从现有数据中随机选取同一性质的数据，进行遗漏数据的填补。有学者将LIN 算法与MR 方法相结合，提出了基于同一属性的LIN 算法，并将LIN 算法与MR 方法相结合，LIN 算法是通过与该缺失值的邻接时间相对应的值，来预测目前的缺失值。由于时间上的差异较大，这种方法的计算结果也会有很大的偏差，而且该方法需要依赖于时间和空间上的数据，因而对时间和数据的依赖程度很高。

3.3 回归插补法

通过采用多元线性回归，建立了丢失数据与其他数据的联系，并通过迭代逐步减小目标与实际值的偏差，实现了对缺失数据的补充。MR 算法是一种基于多变量线性回归的方法，该算法利用邻近接触点的数据，采用多元线性回归法对目前的缺失值进行预测。KMRA 方法将空间和时间属性结合起来，采用时间属性和空间属性的KNN 方法对其进行评估，然后将两个属性的预测值统一起来。在采用多元线性回归方法进行空间属性计算时，由于要确定节点的数量和位置，会导致计算工作量偏大。

4 可信评估下农业物联网异常数据检测及补值应用

4.1 农业物联网异常数据检测系统

马田系统在农业物联网中的应用，利用马氏距离对正常和非正常样本进行马氏抽样，然后利用正交表和信噪比对特征参数进行筛选，实现了对数据的降维，并利用f 极大值法求出了阈值[5]。提出了一种基于农业物联网的异常数据分类标准，并建立了一个农业异常数据检测系统，为有异常情况的数据进行相应的补强。马田系统包括了马氏距离法和田口法。马氏距离不仅是一种测量距离的方法，也是一种用来描述数据之间的协方差距离的方法。这是考虑到了各属性间的相互关系，而不涉及数据的计量单元。马氏距离是用来区别正常和异常的，在马氏空间中使用田口法的正交表和信噪比，从而得到最优的特征值，减少后续计算的复杂性。在马氏空间中，对异常和常规数据分别进行阈值分割，在出现新的样本数据时，可以根据已有的门限，对其进行分类和预测。在马田系统中，对异常数据进行了分割，在不信任的情况下，对不可信的异常进行了补足[6]。

4.2 马氏空间的验证与优化

因为马氏空间是用普通的样本来构造的，因此马氏空间的有效性还有待验证，如果马氏空间可以分辨出正常和不正常的数据，就说明这个马氏空间是有效的，否则就必须重建。在进行马氏空间验证时，首先要对异常数据的马氏距离进行平均，然后将其与马氏距离平均值进行对比，若马氏间距高于正常值，则表示马氏空间的建立是可行的。在对马氏距离进行计算时，使用的采样平均值和标准偏差都是通过正常的采样获得的。马氏空间对异常数据进行了规范化处理，并采用马氏空间的施密特正交化方法构造了异常数据。若马氏空间比异常值马氏空间小得多，则表明马氏空间是有效的，否则要重建马氏空间，重新选取样本数据。

选取的所有初始变数，并非全部都参与了异常检测，因此在建立马氏空间后，需要对马氏空间进行优化，这样既可以减少数据维度，又可以减少后续运算的复杂性。信噪比既可以对筛选后的特征变量进行可靠度、鲁棒性评估，也可以对筛选出的特征变量进行功能评估。在评估异常数据时，对于不熟悉的数据，与一般数据的偏差愈大，愈有利于数据的识别。信息增益值愈大，表示此特性变项在马氏数据分类及判别上的作用愈大，故应依据资讯增益值，选取具有较高贡献的特征量，建立马氏空间，从而实现数据降维。

4.3 马氏空间的应用

在利用马田系统进行数据分析之前，首先要对原始数据进行处理，然后再利用该系统的特征矢量。在采集到的农业数据中，将各传感器节点所获得的数据视为多维系统，因此，可以将从农业物联网获取的数据视为一组多维的数据。利用马氏系统的时序数据，选取土壤温度、土壤湿度、风速、空气湿度、空气湿度、光照强度、气压等七个参数，对农业数据进行统计分析。这个样本的特征是指在正常条件下，农业作物的生长需要的外界条件。程序采用python 编程，采用施密特正交表对7 个特征变量进行了归一化，得出马氏距离为1 左右。

在作物生长的条件中，环境因素对作物的生长有很大的影响。正常情况下，庄稼都可以正常地生长，但是如果出现了异常，很有可能会导致庄稼的死亡。在此基础上，采用人工方法对非正常状态进行仿真，从而对农业生产造成一定的影响。为了让数据恢复到真实的状态，可以通过仿真数据采集、终端节点断电、攻击节点、发送数据超时等方式。选择50 个异常的数据，异常样本的马氏间距为7.366，即异常样本的马氏距离比正常样本的马氏间距要大得多，可见用普通样本建立马氏空间的方法是可行的。然而，如果马氏距离和正常马氏距离之间的差距很小，就必须重新选取正常的数据，以建立马氏空间[7]。

4.4 补值方法

对于丢失的数据，采用 ARIMA 算法进行时间属性的补漏，并根据以往的历史数据进行补漏；另外，给出了基于 MLRTA 的信任属性补足方法，并通过信任节点的数据来弥补目前的缺损。最后，将时间的补充性与信任的补充性相结合，利用权重的分布来实现。与LIN、 KMRA 进行了比较，结果表明，ARIMA-MLRTA 方法的错误率较低，精度较高。

5 结语

在农业物联网中，经常会发生一些数据不正常的现象，在进行无线通信时，终端节点可能会因为网络本身的特性，或是网络的部署环境，产生这种现象。在农业物联网领域，存在着因电池电量限制、无线干扰等突发事件而造成的数据异常、丢失等问题。因此，如何对监测样本进行异常数据检测，并对异常数据以及丢失数据进行补值是非常必要的。