APP下载

基于多分类器集成的GF-2作物信息精细提取研究

2023-04-18李金朝买买提沙吾提

西南农业学报 2023年2期
关键词:套种纹理分类器

李金朝,买买提·沙吾提

(1.新疆大学地理与遥感科学学院,乌鲁木齐 830046;2.新疆绿洲生态重点实验室,乌鲁木齐 830046;3.智慧城市与环境建模自治区普通高校重点实验室,乌鲁木齐 830046)

【研究意义】快速准确的农作物分类及种植面积信息提取是农情监测重要的基础工作[1]。当前,机器识别分类已成为农业遥感影像分类的主要技术,其在水稻[2]、小麦[3]、玉米[4]、棉花[5]等多种作物遥感信息提取中展开应用,并证明是非常有效的手段。【前人研究进展】由于棉花是世界性作物,我国大量种植,尤其是新疆种植面积和产量均处于我国首位[6]。因此,国内外众多学者对棉花的遥感监测研究非常重视,并且在基于遥感影像分类获取棉花信息方面取得了一定的成果,其中基于传统机器学习方法的提取棉花信息最为常见,如最大似然分类法(Maximum likelihood classification)[7]、支持向量机(Support vector machine)[8]、神经网络(Neural net classification)[9]等,此外少数人用随机森林(Random forest)[10]和基于时序植被指数的棉花识别分类方法[11-12]。随着遥感数据分辨率的日益提高,近年来,面向对象分类方法[13]在棉花识别分类中的应用越来越多。过去,由于缺少自主的高分辨率影像数据,长期以来作物信息提取多采用Landsat、Modis等中、低分辨率的卫星数据,混合像元数量众多,识别精度有限;而且仅采用有限的浅层特征和规则简单、结构单一的传统机器学习方法在面对复杂地物分布情况时表现出一定的局限性;此外,以往研究中多是针对单一作物的信息进行提取研究[2-5],对于包含多种作物以及套种作物的信息提取研究较欠缺。因此开展复杂背景下的高分辨率遥感数据的农作物精细提取研究十分必要。【本研究切入点】国产高分系列卫星的成功发射为农作物的精细提取提供可能,尤其是高分2号卫星具有空间分辨率高、图幅范围较大、寿命长、重访周期短、图像定位准确等优势[14],已成为我国水稻、棉花、小麦和玉米等大宗农作物遥感监测的重要数据源之一。但是由于卫星发射时间较短,其用于作物精细提取的研究较少。此外GF-2可以提供丰富的纹理信息,有利于提取渭库绿洲广泛存在的农作物套种信息。传统的遥感影像分类方法对于高分辨率遥感数据的细节信息提取不理想;新兴的深度学习方法,例如卷积神经网络、循环神经网络等需要大量的样本数据来保证信息的提取精度,效率较低;而多分类器集成分类法可以综合多个不同子分类器的优势[20],只需要与传统机器学习方法相同数量的样本就可以取得较高的信息提取精度[34]。因此,很多学者对多分类器集成方法在遥感信息提取领域的应用进行了研究,例如:对高光谱数据[15,18,31]的信息提取,对SAR雷达[19,27]、ASTER[23]、无人机雷达[31]等传感器数据的信息提取,对GF-2[3]、Landsat[16,25]、GF-1[17]、“北京1号”卫星[22]等卫星数据的信息提取,以及最新的将多分类器集成技术应用于X射线医学影像以诊断新型冠状病毒肺炎[29]等。学者们选取的基分类器主要有支持向量机分类器、最大似然分类器、最小距离分类器、人工神经网络分类器、K最邻分类器等[15-33],并有学者探讨了多分类器集成技术与卷积神经网络相结合应用于遥感影像分类[24]。还有学者详细探讨了基分类器的数目和多样性或者差异性对于多分类器集成系统最终效果的影响[20,32-33],并提出了自己的建议,即子分类器间的差异性与集成系统的有效性呈正相关关系。【拟解决的关键问题】针对当前对于作物在复杂背景下的精细提取研究较少,且少有研究将多分类器集成技术应用于GF-2数据的信息提取研究的现状,本文以渭干河-库车河绿洲为试验区,主要利用国产高分2号数据,通过特征提取,在传统机器学习分类方法的基础上,构建了2种投票集成分类算法,对研究区内的多种农作物进行精细提取研究,以期拓展作物信息提取的方向和GF-2数据的应用领域。

1 材料与方法

1.1 研究区概况

研究区域位于天山南麓,塔里木盆地中北部,是典型的扇形平原绿洲,属于新疆阿克苏地区,包括库车市、沙雅县和新和县。该地区属于干旱与极端干旱区,是塔里木河流域开垦较早的一个绿洲,也是新疆主要的棉花生产区域之一,区内作物种植结构较为复杂,地块较为破碎,其境内作物主要有棉花、玉米、小麦、果树等,其中棉花、玉米的生长期大致重合为4—10月。研究区及采样点见图1。

图1 研究区示意图Fig.1 Schematic diagram of the study area

1.2 数据获取及预处理

本研究使用的遥感数据是2018年9月17日获取的高分2号(GF2)PMS2数据,其中多光谱数据主要包括4个波段:蓝(Blue:450~520 nm)、绿(Green:520~590 nm)、红(Red:630~690 nm)、近红外(Near infrared:770~890 nm),空间分辨率为4 m;全色数据(Pan)的波段范围为450~900 nm,空间分辨率为1 m。获取的GF-2数据经过辐射定标、大气校正、正射校正、几何配准、图像融合、裁剪等处理流程,得到最终的研究区GF-2影像(图1-b)。于2018年7月3—12日,采用GVG调查方法[36]对渭库绿洲进行野外实地考察,利用GARMIN GPS沿行进路线进行采样,并记录采样点的坐标和周边的地物类型信息,共采集解译标志点1015个(图1-a),作为选取样本数据的参考数据。

1.3 技术路线

根据野外考察情况和研究目的,将研究区域划分为棉花、套种棉花、玉米、套种玉米、核桃园、建筑、道路、林地、裸地、阴影10种地物类型。从GF-2影像数据特点出发,本研究提取了归一化植被指数特征(NDVI),基于灰度共生矩阵提取了2种纹理特征:基于一阶概率统计的纹理特征(纹理特征1)、基于二阶概率统计的纹理特征(纹理特征2);纹理特征提取的窗口大小为3×3;其中纹理特征1每个波段可以提取5个特征,分别为数据范围(Data range)、均值(Mean)、方差(Variance)、熵(Entropy)、斜态(Skewness),总共可提取4×5=20个特征;纹理特征2每个波段可提取8个特征,分别为均值、方差、同质性(Homogeneity)、对比度(Contrast)、相异性(Dissimilarity)、熵、二阶矩(Second Moment)、相关性(Correlation),总可提取共4×8=32个特征;最终构建6种特征组合方案(表1)。选择马氏距离MsDC(Mahalanobis distance classification)、最小距离MDC(Minimum distance classification)、最大似然(MLC)、神经网络(NNC)、支持向量机(SVM)5种机器学习方法对遥感影像进行分类。根据上述5种分类器的分类结果选取基分类器,并基于交互式数据编程语言IDL(Interactive data language)、编程实现多数投票法(Majority voting)和保守投票法(Conservative voting)的多分类器集成。通过混淆矩阵(Confusion matrix)[37]方法计算获取制图精度PA(Producer’s accuracy)、用户精度UA(User’s accuracy)、总体精度OA(Overall accuracy)、Kappa系数对分类结果进行定量评价。技术路线如图2所示。

图2 技术路线Fig.2 Technology roadmap

表1 特征组合方案Table 1 Feature combination scheme

1.4 投票法判定规则

多数投票法的判定规则[35]如下:

(1)

同理保守投票法的判定规则如下:

(2)

式2表示只有当所有的分类器hi都将x分为cj时,才确定最终类别H(x)=cj,否则不确定x的类别。

2 结果与分析

2.1 子分类器的结果分析

如表2所示,MsDC总体精度最高的是MsDC-5,6种分类结果的总体精度随着NDVI、纹理特征1、纹理特征2的加入,总体呈上升趋势。MDC总体精度最高的是MDC-4,是加入纹理特征2后的结果。MLC总体精度最高的是MLC-1,为没有加入额外特征时的分类结果,加入提取特征后的精度出现了不同程度的下降,其中加入纹理特征1后总体精度下降32.66%。NNC总体精度最高的是NNC-4,为加入纹理特征2后的分类结果,精度提高2.28%,Kappa系数提高0.04;并且加入NDVI和纹理特征1后的NNC-2、NNC-3、NNC-5、NNC-6精度出现不同程度的下降。SVM总体精度最高的是SVM-5,加入了纹理特征1和纹理特征2,精度提高4.4%,Kappa系数提高0.06,是5种分类器中加入额外特征后精度提高最大的分类器。子分类器中精度最高的是NNC-4,总体精度为83.54%,Kappa系数为0.77;没有加入额外特征时精度最高的是NNC-1,总体精度为81.26%,Kappa系数为0.73。加入额外特征的方案2~6,精度最高的分类器分别为NNC-2、SVM-3、NNC-4、SVM-5、SVM-6。总之,不同分类器对不同特征组合方案的适应性不同,有的额外特征的加入会导致精度提高,有的额外特征的加入反而导致精度下降;对于5种分类器,纹理特征相比NDVI提高精度更明显,并且基于二阶概率统计的纹理特征2相比基于一阶概率统计的纹理特征1更有效;加入纹理特征1后,MDC、MLC、NNC精度下降,MsDC、SVM精度提高;加入纹理特征2后,除了MLC精度下降,其余4个分类器精度都提高。

表2 子分类器总体精度和Kappa系数Table 2 Overall accuracy and Kappa coefficient of subclassifiers

由表3可知,对棉花识别效果最好的是NNC-4,对套种棉花、裸地识别效果最好的是MsDC-5,对玉米识别效果最好的是MLC-1,对套种玉米、核桃园、道路、林地识别效果最好的是SVM-5,对建筑、阴影识别效果最好的是MDC-4。可见5种子分类器各有优势,因此可以通过集成实现互补,进而实现分类效果的提升。

表3 基分类器制图精度Table 3 Producer’s accuracy of the base classifiers (%)

图3 基分类器分类结果Fig.3 Classification result of the base classifiers

2.2 投票法多分类器集成的结果分析

选择每种分类器的最佳特征组合方案的分类结果作为多分类器集成的基分类器,然后基于多数投票和保守投票2种方法的集成分类结果见图4。集成分类结果的制图精度见表4。

表4 集成分类器制图精度Table 4 Producer’s accuracy of ensemble classifiers (%)

图4 集成分类结果Fig.4 Results of ensemble classification

由表3~4可知,基分类器中分类结果最优的是NNC-4,投票法集成分类结果中最优的是保守投票法V2,两者相比,V2的OA提高2.35%,Kappa系数提高0.03。由表2可知,没有加入额外特征时,分类结果最优的是NNC-1,OA为81.26%,Kappa系数为0.73;与之相比,V2的OA提高4.63%,Kappa系数提高0.07。V2相比V1总体精度提高2.78%,Kappa系数提高0.03,棉花、套种玉米、核桃园的提取精度获得提高,但是套种棉花、玉米的提取精度出现下降。

选择典型的棉花、套种棉花、玉米、套种玉米、核桃园区域(图5),对比分析基分类器与集成分类结果的不同。图5左边第一列是5种作物的GF-2假彩色影像。棉花典型区域中分类结果最好的是NNC-4和V2,较好的是SVM-5、V1和MLC-1,较差的是MsDC-5和MDC-4。套种棉花典型区域中,SVM-5识别效果最好,除了部分像元识别为棉花,套种棉花的大部分像元都能正确识别,并且四周的套种玉米识别也较好;NNC-4、V1、V2较好;MsDC-5、MDC-4较差。玉米典型区域中,MsDC-5、MDC-4、MLC-1的识别最好,大部分玉米像元都得到了正确识别;V1次之,大部分像元被正确识别为玉米;NNC-4、SVM-5、V2较差,将大部分像元识别为套种玉米。套种玉米典型区域中,NNC-4、SVM-5、V1、V2识别最好,大部分像元都得到了正确分类,并且错分像元的类别也较接近;MsDC-5、MDC-4、MLC-1识别较差,将很多像元错分为了玉米和核桃。核桃园典型区域中,MLC-1、NNC-4、SVM-5、V1、V2识别效果最好,分类结果较接近,但是错分类像元的类别有区别;MsDC-5的结果较好,但是图斑较破碎,部分像元识别为玉米和套种玉米;MDC-4对核桃园的识别最差,错分像元最多。总之,通过典型区域的对比可知,集成分类的结果不一定都优于基分类器的结果,一般是介于最差和最优基分类器之间。

图5 基分类器与集成分类器典型区域对比Fig.5 Typical area comparison between base classifiers and ensemble classifiers

选择未加入额外特征分类结果最优的NNC-1;加入NDVI和纹理特征后,分类结果最优的NNC-4;投票法集成后分类精度最高的V2;进行对比分析(表5和图6)。

表5 NNC-1、NNC-4、V2分类精度Table 5 Classification accuracy of NNC-1,NNC-4 and V2

图6 NC-1、NNC-4、V2精度对比Fig.6 Accuracy comparison of NNC-1,NNC-4 and V2

由集成分类结果分析可知,保守投票法集成,除棉花外,其他地物的制图精度都高于NNC-1和NNC-4,这说明本研究中的多分类器集成方法有效。V2对棉花、套种玉米、核桃园的提取较理想,PA分别达到94.94%、86.05%、79.09%;但是对于套种棉花和玉米的提取不理想,套种棉花的PA只有63.86%,玉米为12.17%;这是因为①研究区内玉米和套种玉米的特征过于相似,加入的纹理特征并不能很好地区分两者;②套种棉花和玉米在研究区内占比较小,而投票法多分类器集成时,由于集成的最终目的是提高总体精度,因此算法会过多的考虑占比较大的棉花和套种玉米而忽视套种棉花和玉米,导致有很多的属于套种棉花的像元被分为棉花,原属于玉米的像元被分为套种玉米。这也是集成分类后套种棉花和玉米的用户精度较低(分别为56.59%、62.45%)原因。用户精度代表了分类结果的可信程度,由图6可知,除了核桃园和林地,最优集成分类器V2的其他地物用户精度都高于NNC-1和NNC-4,说明多分类器集成后的分类结果总体上可信程度更高。

3 讨 论

本研究选择国产高分2号卫星遥感数据作为数据源,对新疆南部典型绿洲农业区——渭干河-库车河绿洲的作物信息进行提取。数据获取时间点(2018年9月17日),绿洲内的棉花和玉米是主要作物。农作物和果树(核桃树、枣树、梨树等)的套种模式是渭库绿洲上十分普遍的农业种植方式,主要是由于新疆南部常年干旱少雨,渭库绿洲又位于塔克拉玛干沙漠边缘,风沙大,而农作物与果树套种的模式有利于保持水土、阻挡风沙、改善周边脆弱的生态环境。因此,对套种模式的农业信息进行提取和研究十分有意义,不仅是农业调查一个新方向,也可以拓展GF-2数据的应用领域。

本研究提取归一化植被指数(NDVI)和2种纹理特征作为辅助特征对研究区内的棉花、套种棉花、玉米、套种玉米、核桃园等主要农作物及种植结构进行提取,并设计了6种特种组合方案分别训练5种不同的分类器来生成基分类器,采用多数投票和保守投票2种方法对5种基分类器进行集成,结果表明保守投票法优于多数投票法。

(1) 辅助特征的加入对于子分类器精度的提高有显著作用。5种分类器中除了MLC是MLC-1分类结果最好(未加入额外特征),其他4种分类器的分类结果都是加入额外特征的分类结果最好,如MsDC-5和SVM-5,加入了纹理特征1和纹理特征2;MDC-4和NNC-4,加入了纹理特征2。并且由于研究区内植被占比很高,虽然NDVI可以提高植被与非植被的区分度,但是并没有提高不同植被之间的区分度;而纹理特征的加入提高了不同植被之间的区分度,导致相比NDVI特征,纹理特征对于精度的提高更明显,而这也是高空间分辨率数据(GF-2)的最大优势。

(2)5种分类器对2种纹理特征的敏感程度不同,加入不同的纹理特征后表现出不同的结果。MsDC和SVM对2种纹理特征都比较敏感,MDC和NNC只对纹理特征2敏感,MLC对2种纹理特征都不敏感。总体上,基于二阶概率统计的纹理特征2比基于一阶概率统计的纹理特征1更有效。

(3)多分类器集成后的结果总体上要优于5个基分类器。相比于基分类器,多分类器集成方法能够在制图精度和用户精度两方面提高农作物的提取精度。并且保守投票法优于多数投票法,OA为85.89%,Kappa系数为0.80。保守投票集成后的用户精度除核桃园外,其余地类的用户精度都高于或等于最优基分类器NNC-4;说明集成分类的结果相比单一分类器有着更高的置信度。保守投票集成后各地物的制图精度除了棉花与NNC-4一样外,其余作物相比NNC-4都有所提高,提高最大的是核桃园为10.07%,提高最小的是套种棉花为0.35%,并且总体精度提高2.35%。未加入额外特征分类结果最优的是NNC-1,OA为81.26%,Kappa系数为0.73;与之相比,保守投票法集成OA提高4.63%,Kappa系数提高0.07。综上,本文提出的基于特征提取和特征组合方案构建的多分类器集成方法是有效的。

(4)最优的保守投票法多分类器集成对于棉花、套种玉米、核桃园等农作物信息的提取精度较理想,但是对于套种棉花和玉米的提取精度比较差,原因如下:①玉米和套种棉花在研究区占比较小;②投票集成方法过于追求总体精度的提高,而忽视了在研究区内占比较小的玉米和套种棉花,导致棉花和套种棉花、玉米和套种玉米存在混分现象。因此,借助遥感技术对套种这一重要的农业种植模式进行提取的研究还有待继续深入。由于套种空间尺度小,要提取这一信息,需要遥感数据的空间分辨率达到亚米级;而GF-2作为我国摆脱对昂贵的国外高空间分辨率遥感数据依赖的第一款国产亚米级空间分辨率遥感数据,其在农作物信息提取和农业调查方面的研究应用前景十分广阔。

4 结 论

(1)辅助特征的加入对于子分类器的精度提高明显。5种分类器中除了MLC,其余4种分类器都是在加入NDVI和纹理特征后取得了最高精度。

(2)基分类器中精度最高的是NNC-4(人工神经网络的第4种特征组合方案),OA达到83.54%,Kappa系数为0.77。

(3)相比基分类器,多分类器集成方法能够在制图精度和用户精度两方面提高农作物的提取精度。并且保守投票法优于多数投票法,OA为85.89%,Kappa系数为0.80。

(4)集成分类结果中除了棉花的识别精度与最优基分类器NNC-4相等,达到94.94%外,其他的农作物如套种棉花、玉米、套种玉米、核桃园的识别精度都高于NNC-4,其中套种玉米与核桃园的提取效果较好,精度分别达到86.05%、79.09%;对于套种棉花的提取较差,只有63.86%;玉米的提取最差,只有12.17%。

猜你喜欢

套种纹理分类器
朝天椒套种芝麻轻简高效栽培技术
草莓大棚套种西红柿亩增收2万元
基于BM3D的复杂纹理区域图像去噪
使用纹理叠加添加艺术画特效
BP-GA光照分类器在车道线识别中的应用
TEXTURE ON TEXTURE质地上的纹理
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
消除凹凸纹理有妙招!
果园套种蚕豆模式的实践与思考