基于SVM的县域冬小麦种植面积遥感提取
2019-05-15李卫国景元书徐向华
罗 桓,李卫国,景元书,徐向华,陈 华
(1.南京信息工程大学应用气象学院,江苏南京 210044;2.江苏省农业科学院农业信息研究所,江苏南京 210014)
农作物种植面积和空间分布等信息的准确获取,对农业部门进行长势监测和产量估测有重要支撑作用,农作物种植面积精确提取一直是农业遥感学术界研究热门的问题[1-3]。基于遥感的农作物种植面积计算机自动分类[4]提取主要有两种方法:非监督分类与监督分类[5]。非监督分类是先利用遥感影像中像元光谱特性的相关和相似性进行分类,再使用地物类型经验知识来对各类别进行确定的分类方法。非监督分类的分类速度快,但耗费的人力多,又由于同物异普谱、异物同谱现象存在,常使地物类别与实际地物类别的分类结果产生较大的误差。监督分类是利用训练样本结合智能分类器进行分类,由于训练样本是结合实地考察进行选取,可确保其分类结果与实际结果有较高的吻合程度,较好地减少非监督分类的误差[5]。在进行监督分类时,由于影像中地物种类较多,选取的训练样本数量不足,有时无法囊括所有的地物种类(称为小样本问题),也会出现一定程度的错分或漏分。传统的监督分类方法如最大似然法、最小距离法,对大数据样本的依赖性很强,在使用小样本数据分类时,会因为本身算法不稳定,出现错分现象[6]。支持向量机(support vector machine,SVM)作为近年来监督分类方法中一种新的智能学习分类方法,在样本信息有限时,依靠其本身的稳定性、学习能力和泛化能力,能够保证分类分割面为最优分割面,可大大减少小样本和分类器过学习等问题[6]。如Zhu等[7]研究表明,SVM分类法在处理卫星遥感数据时,分类精度较高,分类速度较快。Foody等[8]研究认为,SVM分类在面对小样本数据时,其处理效果相当良好。董金芳等[9]利用SVM支持向量机法来对湿地进行遥感提取,精度达到98.76%。李梦颖[10]利用SVM支持向量机来对Landsat-8影像进行森林类型的识别分析,可较好地对阔叶林、针叶林、针阔混交林进行识别,分类精度达到 89.58%。马鹏鹏[11]利用SVM分类对小样本的水稻害虫进行分类,有效识别了水稻害虫。
冬小麦作为是我国江淮地区的主要粮食作物,其种植信息的准确、快速获取对县级农业部门制定生产管理措施有重要意义。目前通过遥感手段提取冬小麦种植面积的方法颇多,而有关使用SVM法对冬小麦种植面积提取的研究较少。本研究借鉴前人在农作物面积提取的研究方法[12-14,21],以江苏省盐城市大丰区为研究区域,通过计算影像的最佳波段指数,基于试验样方内训练样本,使用SVM分类法,采用不同的核函数进行影像分类,寻求最优分类核函数,并用最优核函数进行SVM分类,以实现冬小麦识别和种植面积的提取,在以期为江淮麦区县域冬小麦种植面积的精确提取提供方法参考。
1 材料与方法
1.1 研究区域和遥感影像数据
研究区域选择在位于江苏省东部的盐城市大丰区(120°13′~120°56′E,32°56′~33°36′N),属于北亚热带季风气候区,年平均气温15 ℃,常年降水量1 058 mm,日照2 255 h。大丰总耕地面积占江苏省各区县之首,人均耕地面积0.12 hm2,且每年经开发滩涂能新增耕地约2 667~3 333 hm2。冬小麦、水稻都属于当地的主要粮食作物。
遥感影像数据采用Landsat-8卫星影像数据,下载自USGS。Landsat-8卫星于2013年发射,搭载OLI陆地成像仪,在全球农、林、畜牧业等方面有着广泛的应用。Landsat-8卫星影像共包含9个波段,其影像多光谱波段30 m×30 m空间分辨率,全色波段15 m×15 m空间分辨率,影像成像宽幅185 km×185 km。对影像前7个波段和全色波段使用GS光谱锐化方法(gram-schmidt spectral sharpening)进行影像融合,得到空间分辨率为15 m×15 m的融合影像。融合影像波段信息如表1所示。
选用2018年4月28日卫星影像。当日卫星过境时,大丰区天气晴朗、无云,冬小麦正处于扬花期,油菜处于蕾苔期,树木等植被处于返青期。
在Envi5.1软件中对遥感影像进行辐射定标和FLASHH大气校正,得到真实地物反射率。在Envi4.7中使用Image to Image几何校正法进行几何校正[15]。采用已拥有的带有投影坐标的江苏省影像作为几何校正参考影像,使用多项式几何校正模型,利用经过实地GPS定位的地面控制点进行校正,将校正精度维持在0.5个像元内。然后利用大丰区行政规划矢量文件进行裁剪,得到大丰区遥感影像。
表1 Landsat-8卫星融合影像波段信息Table 1 Iimage band information from Landsat-8 satellite
1.2 最佳波段指数(OIF)计算
最佳波段指数(OIF)由美国查维茨提出,通过综合考虑各波段所包含的信息量和各波段之间相关性,进行最佳波段选择,保留主要的波段信息,使影像所呈现的信息量最大,从而在分类时进一步增加影像的分类精度[16]。其计算公式为:
(1)
式(1)中Si为第i个波段的标准差,Rij为i、j两波段的相关系数。计算结果Band5近红外波段(0.525~0.600 μm)、Band4红波段(0. 630~0.680 μm)、Band3绿波段(0.845~0.885 μm)三个波段组合(5-4-3波段)的OIF指数最大,因此选取此组合波段进行遥感影像显示。
1.3 支持向量机(SVM)分类
支持向量机(support vector machine,SVM)由Vapnik提出,为近几年应用前景较好的一种新兴的统计学机器分类法。其核心思想是对于线性可分的数据,通过寻找最优分隔面来对数据进行分隔,能够最大程度地将待分样本分隔,且保证分隔距离最大。而对于非线性可分数据时,基于线性可分思想,将原始数据映射致高维线性空间之中,在高维空间中寻找最优分隔面,使各样本之间的离散程度最大[17]。支持向量机能够很好地解决小样本、非线性、高维数等问题,具有很强的泛化能力[18]。
通过解SVM的基本数学公式得出最优分类函数:
(2)
线性核函数(Linear):K(xi,xj)=(xi·xj)
(3)
多项式函数(Polynomial):K(xi,xj) = (γ(xi·xj) +r)d,γ> 0
(4)
(5)
Sigmoid 核函数:K(xi,xj) = tanh[γ(xi·yj) +r],γ> 0
(6)
式(4)中γ为Gamma系数,d为多项式系数,r分别为径向基和Sigmoid 核函数里的偏移值
1.4 试验样方选择与样本选取
试验样方主要用于地物样本的确立。使用Juno SB(美国)GPS接收机进行样方的建立及其内部不同地物信息的采集,在大丰区共建立20个大小近似400 m×400 m试验样方,样方间距大于3 km,随机分布,样方内包含冬小麦、树木、其他植被(油菜、蔬菜等)、建筑、水体等地物信息,试验样方在大丰的分布如图1a所示。图1b为大丰区大中农场附近采集的一个样方信息。随后利用试验样方,进行样本的选取,在20个试验样方内选取其中的12个样方作为监督分类训练样本,剩余8个样方作为后期精度验证样本。为检验SVM分类使用样本数据时的分类效果,依据地物样方分布图(图1b)确定冬小麦、树木、建筑(包括房屋、道路)、其他植被(包括油菜、蔬菜)、水体(包括湖泊、鱼塘、河流)5类地物类型。样本选取结果如表2所示。
1.5 冬小麦种植面积提取
采用支持向量机法、最大似然法和最小距离法三种监督分类方法,对相同训练样本分别进行冬小麦种植面积提取。最大似然法为通过求取每个像元与相应的归属类别之间的最大概率,对像元进行分类的方法[20]。最小距离法为通过求取未知类别向量与已知类别样本向量中心点的距离,将非样本像元归属到距离最短那一类别中的分类方法[21]。
图1 大丰区GPS采集样方点分布(a)和样方信息(b)
表2 训练样本和验证样本Table 2 Training and testing samples
2 结果与分析
2.1 样本的选取
基于样本选取的结果,使用Envi5.1软件中的ROI可分离性(computer ROI separability)工具来计算各种类间的可分离性。根据参考文献,样本分离性定义为计算两类别间最小错误机率等价的最大机率距离量。样本间可分离性值应处于1.8以上。当可分离性过小时,应当重新选取样本或将样本合并处理[20]。由表3可知,选取的五类地物样本的可分离性值均在1.9以上,样本可分离性较好。其中,冬小麦与建筑,冬小麦与水体,其他植被与水体的可分离性值均达到2.0。
表3 不同类型地物特征分离度Table 3 Divergence of different features
2.2 不同核函数的SVM分类效果
对SVM中的4种核函数分类结果进行比较,选取分类效果最好的核函数。使用Envi5.1监督分类工具箱中的SVM,根据表4进行四种核函数的参数设置,基于最佳组合波段(5-4-3波段)的大丰区域遥感影像,结合训练样本进行SVM分类,生成分类影像。在生成的分类影像当中剪取具有代表性的影像区域,结果如图2所示。
表4 不同类型核函数名称及参数Table 4 Name and parameters of kernel function
从分类结果来看,4种核函数分类得到的地物种类空间分布基本一致。Linear线性(图2a)、Polynomial多项式(图2b)和Sigmoid(图2c)核函数对冬小麦、水体、建筑的分类效果良好,RBF径向基(图2d)核函数的分类结果中存在少量冬小麦和其他植被错分的现象。通过与图1b样方信息进行比较,总体来看,4种核函数方法能够较好地将冬小麦从影像中提取出。使用检验样本建立混淆矩阵,得到4种核函数的分类精度(表5),且均达到95%以上,其中Linear线性核函数(图2a)的总分类精度和Kappa系数均为最高,分别达到 98.56%和0.980 9。因此,选用线性Linear核函数为SVM的最优分类核函数。
2.3 冬小麦种植面积的提取精度
根据上述结果,选取Linear线性核函数进行SVM分类,利用最佳波段组合(5-4-3波段)的大丰区遥感影像进行冬小麦种植面积提取,并与最大似然法、最小距离法的提取结果进行比较,结果(图3)表明,SVM分类法对大丰区冬小麦进行了充分提取,最大似然法和最小距离法提取的冬小麦较为稀疏,存在冬小麦错分漏分情况,最小距离法提取效果最差。大丰区北部的三龙镇、方强镇、上海农场,西部的刘庄镇、西团镇,南部的小海镇、大桥镇等乡镇的冬小麦种植较多,且这些地区还存在油菜、蔬菜、树木、人工绿地等植被。在上述地区,SVM分类法对冬小麦提取的优势明显,可见冬小麦田、道路的轮廓较为清晰,提取效果较好。而最大似然法和最小距离法在缺少大量样本的支持下,分类器算法对于本试验样本的适应性较差,出现冬小麦错分漏分,导致对大丰东北部和南部冬小麦种植面积的提取效果较差。对于大中农场和华丰农场,SVM和最大似然法的冬小麦提取结果相差不大,最小距离法提取效果稍差,这主要是因为该地区为作物类型较单一,多为冬小麦,因此三种方法都能够对冬小麦较好地提取。从SVM提取结果来看,冬小麦主要分布于大丰的北部、西南和东南地区。其中,北部地区的三龙镇、方强镇种植面积较多。西南地区刘庄镇、西团镇、小海镇、白驹镇、草堰镇等种植面积较大。东南地区大中农场、华丰农场、大桥镇、草庙镇等种植面积较大。对于冬小麦种植面积大的地区,应加大农业管理资金投入,建设高效的农业生产管理基地,能够方便冬小麦加工生产的统一化管理。而大丰中部新丰镇、南阳镇、裕华镇等地区冬小麦种植较为少,分布稀疏,主要是与这些地区城镇房屋、工业企业较集中有关。
a:线性 Linear;b:多项式 Polynomial;c:Sigmoid;d:径向基 RBF
表5 4种核函数分类精度Table 5 Classification accuracy of four kinds of kernel functions
使用Arcgis软件对SVM、最大似然法、最小距离法提取的冬小麦种植面积进行统计,根据当地农业部门提供的2018年冬小麦实际种植面积78 720 hm2,计算冬小麦种植面积提取精度。利用检验样本建立混淆矩阵,检验分类精度。结果(表6)表明,SVM所提取的冬小麦种植面积为 71 834.6 hm2,种植面积精度较高,达到 91.25%,比最大似然法和最小距离法分别提高 20.88%和50.86%。同样,SVM的分类精度和Kappa系数较高,分别达到98.55%和0.98,比最大似然法分别提高16.74%和0.15,比最小距离法分别提高24.35%和0.20。可见使用线性作为SVM核函数在处理样本数据时,其本身分类算法的学习和泛化能力较强,分类精度和冬小麦面积提取精度要好于传统的监督分类方法,能够满足农业部门的农作物监测需求。
图3 大丰区冬小麦种植面积分布
表6 分类精度评价Table 6 Classification accuracy evaluation
3 讨 论
目前,关于农作物种植面积的提取方法的研究存在很多。监督分类作为遥感分类方法中的主要方法之一,应用广泛[5]。在使用监督分类法时,样本和监督分类器是监督分类中最主要的两个部分[19]。本研究对采用江苏大丰区经过处理的 15 m×15 m分辨率Landsat-8影像,在所建立的20个试验样方内进行样本选取,既保证了影像的分辨率,又确保了样本的准确性。结合使用新兴的智能分类器SVM分类法,最终得到的分类精度和冬小麦提取精度均较高。该方法为江淮区域县域的冬小麦种植面积提取提供技术支持,也为当地的冬小麦进一步的监测指导提供条件。
运用SVM分类方法最终提取的冬小麦种植面积为71 834.5 hm2,提取精度达到了91.25%,但是仍然有部分冬小麦像元错分漏分。这可能是由于在使用SVM进行分类时,仅采用了影像的光谱特征,对于同物异谱、异物同谱现象仍然无法较好解决。要想更好地解决此问题,下一步可以通过将地物光谱特征与纹理特征相结合进行分类[19]。其次,冬小麦真实种植面积因条件限制无法进行精确统计,而当地农业部门所提供的种植面积数据也会存在误差,如何更好地消除这些误差也是今后值得关注的问题。最后,影像的分辨率也会对分类结果造成影响。由于影像分辨率过低,会造成一个像元中包括多类地物。影像分辨率越高,影像像元也能够更好地代表相应的地物,因此采用更高分辨率的影像也将会是接下来研究的主要内容[22]。