APP下载

3种植被覆盖度模型的构建理论研究

2023-07-30吕霞

农业科技与装备 2023年3期

摘要:构建植被覆盖度模型是运用数学算法对作物群体监控系统中采集的数据进行处理的一种数学方法,常用的构建模型主要有KNN、朴素贝叶斯、Kmeans等。介绍3种模型在提取植被覆盖度运用的相关理论,以期为作物群体监控系统应用提供算法基础。

关键词:植被覆盖度;构建模型;KNN;朴素贝叶斯;Kmeans

中图分类号:TP183    文献标识码:A    文章编号:1674-1161(2023)03-0038-02

在电子信息技术飞速发展的背景下,作物群体监控系统成为当下农业科研的热点,该系统可以服务精细化农业,准确了解作物生长状况,实现对作物生长发育的控制,对提高作物产量和质量具有重要意义[1]。作物群体监控系统主要通过无人机搭载高光谱成像设备采集水稻图像数据,截取部分图像进行预处理、样本扩展库构建和图像分割,最后构建植被覆盖度模型。构建植被覆盖度模型是运用数学算法对作物群体监控系统中采集的数据进行处理的一种数学方法,常用的构建模型主要有KNN、朴素贝叶斯、Kmeans等。介绍3种模型在提取植被覆盖度运用的相关理论,以期为作物群体监控系统应用提供算法基础。

1 KNN模型构建

KNN训练算法是一种基本的实例分类训练算法。该算法假设已成功给定了一个被称为分类训練且类别已确定的实例数据集,在实例分类时新加入一个实例,依照其中k个最近相邻的训练学习实例类别,通过多数实例组合进行表决等多种手段,对其类型进行综合预测。因此,KNN算法并没有必要提供显式的自动机器深度学习计算过程,它实际上是利用训练数据集对特征向量空间进行划分,并作为其分类模型[2]。

1.1 KNN算法原理

KNN数值模型的3个重要基础性设计要素分别是k值的正确选取、距离值的衡量及分类决策准则。当k值三要素均已确定时,对于任何新的输入实例,其所属的类都是唯一可以被确定的,即可以依照要素把特征空间分割成几组子空间,确定各子空间中每一点都所属的子空间类。

1.2 基于KNN距离度量

在一个特征数据空间中两个不同实例的点之间的数据距离值,也就是两个不同实例的点之间的数据相似性不同程度的反映。例如,KNN模型的向量特征实数空间为三维的向量实数空间时,使用的空间距离计算公式为欧式空间距离,其距离公式为

[L2(xi,xj)=(l=13|x(l)i-x(l)j|2)12]                (1)

1.3 k值的选择

k值不同,KNN模型得到的结果也会有很大差异。当给定的k值较小时,相当于使用较小的邻域中输入训练过程实例的值来对其结果进行模拟预测,学习时的近似和模拟误差也同样会逐渐减小,只有和输入的一个训练过程实例较近的一个输入训练过的实例,才真正能够对我们预测的学习结果有效。k值降低代表着整个系统模型的拟合设置过程变得更加复杂,极易产生过拟合现象。当给定的k值较大时,相当于对较大邻域内部智能训练过程实例的一个数据模型进行了数值预测,此时的优点是可以大幅降低根据学习公式估算时的误差,缺点是根据学习公式估算的近似度和误差将会逐渐加大。k值增大意味着整个模型中的整体设计变得更加简单。

1.4 KNN模型构建过程

1) 计算每个已分好类的点与待测点的欧式距离;2) 把各点到待测点的距离按从小到大进行排序;3) 根据给定的k值选择距离最小的k个点;4) 观察k个点所代表类别的各自出现次数;5) 取出出现次数最多的点的类别,并把待测点归为这一类别。

2 朴素贝叶斯模型构建

朴素贝叶斯模型是基于贝叶斯定理及其朴素特征符合条件的几个独立基本假设而逐步提出来的。该属性计算简化方法以贝叶斯算法模型为理论基础,对属性彼此独立的计算目标和取值函数进行简化,没有任何一个属性变量对其所需占据的决策过程结果的影响比重很大,也没有任何一个属性变量对它所需要占据的决策过程结果的影响比重很小。

2.1 构建算法

对于给定的训练数据集,首先做出条件独立的假设,得到输入和输出的联合概率分布;然后在此模型基础上给出输入x,利用贝叶斯定理求出后每个分类的后验概率,选出其中最大者作为输出y[3]。

朴素贝叶斯方法主要是通过对联合训练的多个数据模型进行联合学习分析来帮助理解的一种联合概率分布方法。先验概率分布

P(Y = ck) , k = 1,2,...,K                  (2)

条件概率分布

P(X=x|Y=ck)=P(X(1)=x(1), ... ,X(n)=x(n)|Y=ck ),k=1,

2,...,K    (3)

朴素贝叶斯法就条件概率分布公式做出了保持条件概率独立性的基本假设,这种算法其实是比较强烈的数学假说,朴素贝叶斯法因之得名。具体来说,条件独立性可以用一种假设性来表示

P(X=x|Y=ck)=P(X(1)=x(1), ... ,X(n)=x(n)|Y=ck )

=ΠP(X(j)=x(j)|Y=ck)       (4)

朴素贝叶斯分类时,对给定的输入x,通过这个学习过程得到的朴素模型可用来直接计算后验概率分布P(Y=ck|X=x),将后验概率最大的类作为x的类输出。

2.2 朴素贝叶斯分类流程

2.2.1 准备工作阶段 根据具体情况确定特征属性并适当划分,再由人工将待分类项分类,形成训练样本集合。准备工作流程是该方法唯一通过人工分类的流程,对后续样本分类质量起到至关重要的作用

2.2.2 分类器训练阶段 将特征属性和训练样本输入,根据输入数据计算每个特征属性划分对每个类别的条件概率预估以及每个类别在训练样本中出现的频率,记录并输出分类器。

2.2.3 应用阶段 应用第二阶段分类器对待分类项分类,输出待分类项和类别的映射关系。

3 Kmeans模型构建

Kmeans是一种非监督学习、面向聚类函数的算法,其算法设计思路是当k被赋予特定值、使用原始群集中心点时,每个点(或数据记录)将被划分为离其最近群集中心所代表的群集。定义所有群体类集中的中心点后,再次遍历所有的点,计算下一次聚类中心(就是取点的平均值),然后对其他点进行一个替换点并分配中心点和迭换替代点并更新一个群集内的所有点的替换步骤,直到1 个群集内所有点的变化很小或能重新达到指定的迭代次数[4]。

3.1 算法流程

1) 鉴于k值未知,故先给定k值,即聚类后得到的k个簇;2) 遍历所有数据,在其中随机选中k个数据点作为聚类中心点,即每个簇的中心;3) 通过计算每个点与聚类中心点的欧式距离,比较所有距离的大小,取最小距离并将点归入此集合内;4) 把所有数据回归到最优集合(包含 k 个集合),对各集合重新求解,再对其中的质心进行求解;5) 如果计算聚类得到的质心与原始质心之间稳定距离远远小于某个点设置的质心阈值,则意味着重新计算的质心在此位置上已变化不大且趋于稳定(称为收敛),此时可直接确定该质心聚类已达到期望的阈值结果,算法可能会被自动终止;6) 若新的聚类中心点与原来的中心点之间距离变化很大,则需替换3~5 个步骤。

3.2 数学原理

将Kmeans算法原理用数学公式表示:假设集合划分成k个,标记为(C1,C2,...CK),则得到的最小化平方误差E为

[E=i=1kx∈Ci||x-μi||22]                         (5)

式中,μi是集合Ci的平方均值向量,也称为质心,其表示方法为:

[μi=1Cix∈Cix]                                (6)

优点:1) Kmeans是最简单的聚类算法,实现起来较为容易且速度较快;2) 当聚类得到的集合均较密集且每个集合之间的差异较大,则该模型实现得较好;3) 该算法需确定的参数很少,只有集合个数k值。

缺点:1) k值未知,需人为设定,但通常情况下确定k值很难;2) Kmeans聚类算法对聚类开始的中心点选取要求很高,不同随机点直接获得的初始聚类选择结果截然不同,故对其聚类结果产生极大影响;3) 通过迭代方式得到的解,有极大可能会得到局部最优解,但无法得到全局最优解,从而为模型构建带来很大误差,影响真实效果。

参考文献

[1] 吕霞,马向阳,冮地,等.基于水稻群体监控系统的植被覆盖度模型对比研究[J].农业科技与装备,2022(1):47-48.

[2] 劉文斌,张乐.基于KNN的卷积神经网络改进算法[J].信息与电脑(理论版),2019(2):48-49.

[3] 李涛.多源传感器数据融合及其在目标检测中的应用[D].成都:电子科技大学,2015.

[4] 钟穗希,李子波,唐荣年.基于PCA-Kmeans聚类法的橡胶树叶片氮含量的近红外高光谱诊断模型研究[J].海南大学学报(自然科学版),2020,38(3):260-269.

Theoretical Research on the Construction of Three Planting Coverage Models

L? Xia

(Liaoning Institute of Agricultural Mechanization, Shenyang 110161, China)

Abstract: The construction of vegetation coverage model is a mathematical method that uses mathematical algorithms to process the data collected in crop population monitoring system. The commonly used construction models mainly include KNN, Naive Bayes, Kmeans, etc. This paper introduced the relevant theories of the application of the three models in the extraction of vegetation coverage, so as to provide the algorithm basis for the application of crop population monitoring system.

Key words: vegetation coverage; construct model; KNN; Naive Bayes; Kmeans