基于条件随机场的高光谱遥感影像农作物精细分类*
2018-10-24魏立飞李丹丹黄庆彬
余 铭,魏立飞※,尹 峰,李丹丹,黄庆彬
(1.湖北大学资源环境学院,武汉 430062;2.湖北省国土资源研究院,武汉 430062;3.中国农业科学院农业资源与农业区划研究所/农业部农业遥感重点实验室,北京 100081;4.深圳市地籍测绘大队,深圳 518000)
0 引言
农作物类型识别是农业灾情监测、农作物估产、长势分析、确定农作物类别、面积以及空间分布的重要基础。同时也是农业生产过程中合理分配资源、精准施肥的重要依据[1-3]。随着空间技术的发展,通过遥感影像解译法进行农作物类型识别逐渐成为一种主流方式[4-5]。王立辉等[6]基于环境减灾卫星数据,应用支持向量机(Support Vector Machine,SVM)方法对农作物进行分类,精度优于传统的最大似然法分类精度;刘磊等[7]利用决策树方法基于多光谱数据提取了大麦、小麦、油菜和人工林草地的种植信息,总体分类精度达到86.90%;Zhang等[8]、平跃鹏[9]利用MODIS数据进行分类,整体准确度均大于90%;B.E.Bhojaraja等[10]基于Hyperion图像,利用光谱角分类(Spectral Angle Mapper,SAM)算法提取了印度南部卡纳塔克邦槟榔种植面积,达到了73.68%的准确度;Peijun Du等[11]提出了一种高级二叉树支持向量机方法基于AVIRIS数据对印度松进行分类,精度高于90%;Ştefan Conţiu等[12]利用农业专家知识和机器学习算法基于Landsat数据实现了玉米、大豆、棉花、水稻的分类;郭交等[13]将Sentinel-1雷达影像与Sentinel-2光学影像融合对农作物进行分类;郑利娟[14]基于高分一号和六号卫星的影像特征,通过挖掘适用于农作物分类的特征,研究其对农作物分类的精度影响;欧阳玲、毛德华等[15]以Landsat8和多时相GF-1为遥感数据源,基于物候信息和光谱特征确定的农作物识别关键时期和特征参数,构建面向对象的决策树分类模型。上述研究均围绕传统的多光谱遥感影像展开,但是多光谱遥感影像由于其波段数少、光谱分辨率较低等原因难以实现农作物精细分类。高光谱数据除了具有较高的空间分辨率,还有连续且丰富的光谱波段,波段数多达几十甚至上百个,能够检测到作物细微差别并鉴别出不同类别的作物,有利于提高农作物分类的精度[16]。但是目前运用高光谱数据对农作物进行精细分类的研究较少。而且常见的农作物分布破碎不均匀,现有的高光谱数据农作物分类方法没有考虑到相邻像素之间的相关性。由于条件随机场(Conditional Random Field,CRF)能够结合空间背景信息而被广泛地运用于图像分割、立体视觉和活动分析等领域[17-18]。
本文以由AVIRIS传感器收集的美国加利福尼亚州南部萨利纳斯山谷(Salinas场景)的农作物区域的高光谱数据为研究对象,提出了一种基于条件随机场的高光谱遥感农作物精细分类方法,对该数据集进行精细分类研究,实验结果表明该方法有效地提高了农作物精细分类精度,对精准农业的发展有着重要意义。
1 研究区域与数据
本文实验数据是由AVIRIS传感器获取的美国加利福尼亚州南部萨利纳斯山谷的高光谱数据集,该数据集大小为512×217,空间分辨率为3.7 m,电磁波范围为0.4~2.5 μm,共224个波段,去除108~112、154~167、224等20个受水吸收影响的波段后,用于研究的204个波段共包含蔬菜、裸地、葡萄园等16种地物类型。Salinas场景的编号、类别及各类的样本数如表1所示。
表1 Salinas场景的验证样本及各类地物样本数Fig.1 Validation samples of the Salinas scene and the number of samples in each category
真实地物分布与验证数据集如图1所示,其中图1(a)为研究区地物真实分布图,图1(b)为验证数据集。
图1 Salinas数据集:(a)真实地物分布图(b)验证数据集Fig.1 The real object distribution and verification data set of Salinas data
2 分类方法
条件随机场是一种概率模型,由于能够结合空间背景信息而被广泛地运用于图像分割、立体视觉和活动分析等领域,但传统的条件随机场方法具有超平滑的现象[19]。因此本文提出了一种基于条件随机场的高光谱遥感农作物精细分类方法,该方法将利用SVM分类器获得的各类别概率定义为条件随机场的一元势函数,将空间平滑项与局部类别标签项的线性组合定义为二元势函数,从而达到在结合空间上下文信息的同时保留细节信息的分类效果。
CRF用统一的概率框架模拟随机变量之间的局部邻域相互作用,它直接模拟标签的后验概率,给出观察图像数据为吉布斯(Gibbs)分布:
其中y为输入图像的观察数据,x是整个图像的相应类别标签,Z是分区函数,ψc(xc,y)是势函数,它根据图像中的邻域系统和派系对随机变量的空间交互进行局部建模。
作为判别分类框架,如公式(1)所示,CRF直接模拟标签x的后验分布,给定观察值y,相应的吉布斯能为:
分类影像通过贝叶斯最大后验规则(MAP)找到使后验概率P(x|y)最大化的标签图像y。所以随机场的MAP标记xMAP由下式给出:
因此,当后验概率P(x|y)最大时,能量函数E(x|y)最小。遥感分类问题可以通过设计合适的势函数来描述:
其中ψi(xi,y)和ψij(xi,xj,y)分别定义在点i局部领域Ni上的一元势函数和二元势函数。
2.1 一元势函数
一元势函数ψi(xi,y)对标签和观察图像数据之间的关系进行建模,通过光谱特征向量来计算采用特定类别标签的单个像素成本。因此,可以用能够给出标签xi的概率估计的判别式分类器单独计算每个像元,给出特征向量。它在分类过程中其主导作用,一般为某监督分类器的后验概率。通常被定义为:
其中f是一个特征映射函数,它将图像中任意一个像元映射到一个特征向量,fi(y)表示位置i处的特征向量,即光谱特征向量。P[xi=lk|fi(y)]是基于特征向量的像素i取的标签lk的概率。由于SVM分类器在遥感图像分类的小训练集中表现良好,本文选取SVM分类器作为一元势能。
2.2 二元势函数
二元势函数通过考虑标记场和观测场来模拟每个像素与其邻域之间的空间上下文信息。虽然由于光谱变化和噪声的影响,均匀影像上的相邻像素的光谱值可能看起来不相同,但是由于空间相关性的影响,它们很有可能是相同的类别。二元势函数模拟了这种光滑性并且考虑了标签约束,这有利于分布均匀的区域中具有相同地物像元的分类以及保留两个相邻区域的边缘。在本文中二元势函数定义如下:
其中gij(y)表示与数据y有关的平滑项,ΘL(xi,xj|y)是大小为|L|×|L|的局部类标签成本项,它表示邻域内的标签xi和xj之间的成本。参数θ是控制二元势函数中标签成本项的程度的相互作用系数。函数gij(y)模拟相邻像素i和j之间相互作用,用于衡量相邻像素之间的差异,定义如下:
其中(i,j)是相邻像素的空间位置,函数dist(i,j)是它们的欧几里德距离。yi和yj是表示像素i和j出现的光谱向量,可以使邻域内相互作用的强度与图像数据相关并且在相似区域促进一致性。参数β为图像中所有相邻像素的光谱向量之间的均方差(即,β=(2<||yi-yj||2>)-1,其中<||yi-yj||2>是图像上的平均值)。
局部类标签成本项ΘL(xi,xj|y)通过观察到的图像数据来模拟不同邻域类别标签xi和xj之间的空间关系,并且被定义为:
其中P[xj|fi(y)]是特征向量fi(y)的标签概率。局部类别标签成本项考虑了相邻像素的当前类别标签xi以衡量相邻元素i和j处标签之间的相互关系,当特征空间中的类存在较强的重叠时,它会通过邻域空间标签信息来改变像元的标签。因此,与当前专题标签相关的局部类别标签成本项通过专题类标签的概率分布的估计形式来考虑光谱信息,以在考虑空间上下文信息的同时进行适当的平滑。
3 实验结果与分析
3.1 训练样本选择
本文分别选取5%、10%的训练样本进行CRF分类模型训练,如图2所示。
图2 训练样本的选取Fig.2 Selection of training samples
3.2 分类结果与分析
分别利用最小距离法、SVM、CRF方法对研究区主要农作物,即蔬菜、裸地、葡萄园等16类地物进行分类,并对比分析分类结果。分类结果与精度评价分别如图3、表2所示。
图3 Salinas数据分类效果对比图:(a)(b)(c)当训练样本为5%时,最小距离法、SVM、CRF分类效果图;(d)(e)(f)当训练样本为10%时,最小距离法、SVM、CRF分类效果图Fig.3 Salinas data classification effect comparison:Minimun distance(a),SVM(b),CRF(c) classification effect map when the training sample is 5%;Minimun distance(d),SVM(e),CRF(f) classification effect map when the training sample is 10%
表2 Salinas数据不同算法精度对比Table 2 Accuracy comparison of different algorithms of Salinas data
图3为Salinas数据在训练样本分别为5%、10%时的分类效果对比图。从图中可以看出最小距离法分类结果“椒盐”噪声明显,分类混淆现象严重,尤其是图(a)、(d)右下角的背景全部被错分为C2、C3、C5和C9类。图(b)、(e)为SVM算法分类结果,图中分类混淆现象有所改善,但“椒盐”噪声依然严重:如左上角的C2类与C15类等。图(c)、(f)为CRF算法的分类效果图,在综合考虑了空间背景信息和光谱信息后,噪声与分类混淆现象得到了优化,对农作物精细分类的效果较前两种方法有较大的改善。
从表2可知,在训练样本为5%、10%时,最小距离法分类结果的总体精度分别达到74.95%、75.70%,Kappa系数分别为0.7223、0.7308,但是个别地物精度较低,如在训练样本为5%时,C8、C10、C15、C16的分类精度分别为60.87%、15.24%、44.32%、52.30%。训练样本为10%时,C8、C10、C15、C16的分类精度分别为60.05%、28.31%、46.20%、52.95%;SVM算法分类结果的总体精度分别为88.86%、90.18%,Kappa系数分别为0.8874、0.8894,其中C15类地物精度仅为49.69%与51.97%;CRF方法分类结果的总体精度分别达到了90.74%、91.49%,Kappa系数分别为0.8954、0.9041,与前两种方法相比分别提高了16%和2%,在前两种方法中分类效果较差的C15在该方法中精度分别达到了72.32%与74.11%,除此之外所有类别的精度均在94%以上,分类效果较好。
4 结论与讨论
针对传统分类方法存在的局限,本文提出一种基于条件随机场的高光谱遥感影像农作物精细分类方法,对美国加利福尼亚州南部萨利纳斯山谷的蔬菜、裸地、葡萄园等16种地物进行分类,通过对条件随机场模型中的一元势函数使用SVM分类器对局部领域和有限的训练样本获得概率估计,在二元势函数中使用空间平滑项和局部类别标签成本项来平滑局部邻域空间以及考虑空间上下文信息,从而达到较好的农作物精细分类效果。实验表明,与传统的最小距离法和SVM方法相比,该方法的精度分别提高16%和2%,除C15类精度为74.11%外,各类地物的精度达到94%以上,在农作物精细分类应用中具有较大优势,能满足实际生产需要。
随着空间技术的不断发展,新型的高光谱遥感影像的空间分辨率也越来越高,这使得高光谱遥感影像包含了更多的细节信息,由此也会造成同一地物内部的光谱变化与异质性。因此在未来的研究工作中,将重点展开空间特征与光谱特征信息互补研究,进一步提升分类精度。