基于高分与多时相中分影像的苹果园地提取*
2022-10-28代佳佳
代佳佳
(北京师范大学地理科学学部,北京 100875)
0 引言
近年来,随着遥感技术的不断进步,可以获得的遥感影像的种类越来越多,光学、雷达以及平面、立体,遥感影像的分辨率也越来越高,因其具有实时、宏观和快捷等优点,遥感影像被广泛应用于农作物的面积监测和土地利用等研究领域,并取得了成功[1,2],基于卫星综合应用技术发展的新趋势,运用卫星遥感、导航及信息服务等多种技术集成,针对行业应用需求进行监测,解决行业“痛点”已经成为遥感在各行业应用的新趋势。农作物空间分布是农作物长势监测、病虫害监测和产量估测的基础数据,也是区域农作物种植结构优化调整、水土资源管理和政府宏观决策的重要支撑[3]。近年来,遥感技术日益成为农作物空间分布制图的主要技术手段。我国是世界苹果产量大国,苹果种植面积目前依旧采用层层上报模式,存在“报多少、是多少的问题”,因此,如何准确掌握苹果园地面积与分布,为苹果优势产区苹果栽培情况动态监测及苹果产业调查与决策提供可靠的数据,从而逐步实现我国苹果产业的信息化管理是当前亟待解决的重要问题。
相对于利用卫星技术广泛应用于小麦、水稻、玉米等方面[4],在果树的研究较少,主要研究集中在利用高光谱分析苹果花微量元素含量以及苹果花期冠层、盛果期冠层特征定量模型预测估产,多尺度空间分辨率的遥感影像还没有广泛应用于苹果园地提取研究上,但是也已经逐步有学者开始研究。董芳[4]等利用多时相CBERS影像,对比分析苹果树与其他植被在不同时相中光谱特征的差异,并通过计算多种植被指数,确定了苹果园地信息提取的最佳时相为苹果花期,并采用花期中分影像进行苹果园提取。基于高分辨率影像纹理特征采用随机森林方法提取苹果园信息,效果良好,证明了高分纹理特征在苹果园信息提取应用中的贡献和价值[5]。但是高分影像覆盖周期长,难以获得不同地物在不同时相的遥感影像上的光谱特征差异,而中分影像相较于高分影像,数据保障性较好,可提供时序的光谱特征。在分类方法方面,目前,针对不同的遥感影像有很多种分类方法,包括监督分类、非监督分类和其他分类3种主要的分类方法,诸如平行算法、支持向量机、最小距离法和最大似然法、ISODATA法,其中最大似然法的应用较为广泛[6],是传统分类法中重要的分类方法。近年来,随着遥感技术的纵深发展,遥感数据的时间、空间和光谱分辨率不断提高,一些新的分类方法层出不穷,包括专家分类、人工智能神经元网络法(简称神经网络法)专家、面向对象分类法、深度学习方法等。但这些方法或者算法过于复杂、难以理解,或者对分类者有较高的遥感和地学知识要求,都未能在更大领域得到推广和应用[7]。决策树分类法具有灵活、直观、清晰、运算效率高等特点,在遥感分类问题上表现出巨大优势。目前决策树分类方法已经开始应用于各种遥感影像信息提取和土地利用/土地覆盖分类中[8-11]。
文章综合中高分数据的特性,以单期高分二号影像(高分)、多期哨兵影像(中分)为数据源,综合利用高分纹理特征和中分多时相光谱特征构建不同分类组合特征、不同决策树分类的分类模型,并通过对比不同分类组合特征以及分类方法对苹果园提取的优势和劣势,探索利用中高分影像进行苹果园准确、高效识别方法途径,为基于遥感技术准确、快速地掌握苹果园种植的规模和空间分布提供方法支撑。
1 研究区与数据
1.1 研究区
宁县(东经107.665°~108.542°,北纬35.244°~35.882°)隶属于甘肃省庆阳市,位于甘肃省东部,纵跨两个气候带,气候温和,日照长,年均降雨量600mm,海拔800~1 200m,昼夜温差大,土层深厚,质地疏松,富含钾、钙、镁、锌、硒等多种微量元素,是全国苹果产区中唯一符合最适宜区7项气候指标的最佳优生区,全国苹果最佳适生区之一,也是世界公认的最大优质苹果产区。
表1 苹果物候期
1.2 遥感数据选取及预处理
中分数据选择光谱波段丰富、重放周期短的哨兵-2A数据,其波谱范围0.4~2.4μm,空间分辨率10m、重访周期10d。参考苹果物候期,查询下载了2019年4月19日、5月24日、8月15日、9月21日、10月24日5期数据。高分数据选取从中国资源卫星应用中心下载的2019年5月31日的国产高分二号影像数据,包括蓝光波段(0.45~0.52μm)、绿光波段(0.52~0.59μm)、红光波段(0.63~0.69μm)、近红外波段(0.77~0.89μm)4个多光谱波段和1个全色波段(0.45~0.90μm),多光谱波段分辨率4m,全色波段分辨率1m,重访周期5d(测摆),69d(不测摆)。
遥感数据预处理主要包括几何校正、正射校正、图像融合。高分二号卫星影像预处理以获取的研究区0.93m高分辨率Google数据作为参考数据,利用PCI GXL软件对高分二号卫星影像进行几何校正、正射校正,并采用UNB PanSharp方法对全色与多光谱影像进行融合,输出1m分辨率的融合影像。哨兵数据预处理通过Google Earth Engine在线编程方式完成,数据分辨率为10m。
图1 野外采集点分布
1.3 野外调查数据及样本选取
为获取研究区实际地物覆盖情况,于5月20—21日进行了为期2d的野外调查。该次野外采用手机软件“AW拍”(iOS、安卓版可以通过手机应用市场下载安装),共采集23个样本点和对应的现场照片,点分布如图1,其中冬小麦6个,苹果11个,蔬菜2个,其他树种4个,其他地物如林地、草地、水体、建筑、休耕地等从影像上看地物特征非常明显,所以野外调查中未采集。依据野外采集点标识的地物光谱特征和纹理结构特征,经过目视解译,研究区主要种植类型为冬小麦和苹果,为了突出目标地物,减少其他类别的干扰,将研究区地物划分为4类:苹果、农作物用地(冬小麦、休耕地等)、林地、其他(道路、建筑物、水体等)。为了分类训练和分类精度评价,该文利用ENVI 5.3软件的感兴趣区工具,对照哨兵影像,在高分二号卫星影像上选取一套用来进行苹果种植面积分类样本和精度评价的参考真值。经统计,共计30 180像元,其中20 478像元作为训练样本,剩余的9 702像元作为验证样本,见表2所示。
表2 各地物类型训练样本与验证样本
2 苹果园提取方法
2.1 基于高分影像的纹理特征提取
特征变量选择是开展农作物遥感图像分类的重要步骤,能否有效地使用多种特征变量用于分类是农作物遥感分类精度提升的关键。农作物在高分辨率遥感影像上的影像特征主要表现为光谱特征和纹理特征。高分影像能提供丰富的纹理特征,基于高分影像的特征提取分为两个部分:一是纹理特征的提取,二是特征选择。
纹理特征提取:灰度共生矩阵[12]是通过计算图像灰度级之间条件概率密度函数来提取纹理特征的一种统计分析方法(下文简称为GLCM),该文采用灰度共生矩阵纹理特征提取方法提取均值、对比度、方差、差异性、信息熵、相关性、协同性、二阶矩8种纹理特征。纹理窗口大小设定时,考虑到窗口设定太小,则会在同一种纹理内部出现误分割;而分析窗太大,则会在纹理边界区域出现许多误分割,为了分析纹理窗口大小对分类结果的影响,该文选取8种纹理特征,方向为45°,步长为1,分别选用3×3、5×5、7×7、9×9大小的窗口提取4组GLCM纹理,讨论不同窗口大小对分类结果的影响,选取最佳提取参数。最终基于纹理特征最佳窗口参数对高分影像进行纹理特征提取。由于高分影像有4个波段,因此每组纹理特征中包含32个波段信息。
特征选择:特征选择的目的是为了提高分类速度,减少影像噪声特征的加入,有利于改善分类结果,所以需要计算出每一个特征的重要性并对这些特征进行一个排序,进而可以从所有特征中选择出重要性靠前的特征作为优选。随机森林作为一种集成学习方法,具有高效、准确度高等特点,在中高分分辨率影像分类中不仅能保证较高的精度,也能保证较快的速度,且具有特征选择的能力[13-15]。该文对特征重要性评估和特征选择在Python平台下编程实现,通过调用随机森林分类器建立随机森林模型,并使用平均不纯度减少的方法计算模型中特征的重要性,对得到的特征重要性结果排序,选择特征重要性累计大于90%以上的特征波段进行分析得到最优特征。
2.2 基于高分与中分的空间特征组合
高分影像能提供丰富的纹理特征,中分辨率影像重访周期短,能在作物生长周期内提供丰富的光谱信息,两种数据类型相互补充,能一定程度上提高地物识别精度。为比较不同生长周期光谱特征对苹果园提取的贡献,将高分纹理特征分别与高分二号融合影像、多期哨兵影像进行组合,构建得到高分纹理与多光谱、高分纹理与多光谱+单期中分多光谱、高分纹理与多光谱+全时序中分多光谱3类空间特征。
2.3 分类方法
决策树分类是一种常见的分类方法,遥感应用中经常利用该方法对地物进行提取分类。该研究选择C4.5、CART、RF,3种常用方法实现分类。C4.5算法是由Ross Quinlan[16]开发的用于产生决策树的算法,用信息增益率来选择属性,产生的分类规则易于理解,准确率较高,但是该算法将连续属性离散化时,需遍历该属性的所有值,效率有所降低。CART(Classification and Regression Trees)[17]是由Leo Breiman,Jerome Friedman等于1984年提出,被称为数据挖掘领域内里程碑式的算法。该算法生成的决策树精度较高,但随着决策树复杂度的提高,分类精确度会有所降低。RF方法是Breiman于2001年提出的由多棵CART决策树组合构成的一种非常有效的机器学习算法。随机森林算法适用于处理高维数据且运行速度相对较快,近年来在遥感影像分类领域得到了广泛应用。RF算法有两个重要参数,即Mtry和Ntree,该研究综合考虑分类精度和计算效率,最终将Mtry设置为全部特征平方根,Ntree设值为100进行分类,其他参数均为默认。
但是,以“酉鸡”与“卯兔”来解释日中的“金鸡”与月中的“玉兔”,却与人们在现实生活中的观察不符。因为鸡所属的“酉”时是傍晚的五时至七时,并无太阳,反而是月亮初升的时刻;而兔所属的“卯”时,则为早晨的五时至七时,也没有月亮,反而是太阳初升之时,明显与“日中有金鸡,乃酉之属;月中有玉兔,乃卯之属”的说法矛盾。于是,便又有试图以“镜像”的观念来解释东方的兔在西边的月中、而西方的鸡在东边的日中的现象者,如北宋人陆佃在其《埤雅》中说:
数据挖掘工作平台——怀卡托智能分析环境(Waikato Environment for Knowledge Analysis,WEKA)[18],是新西兰怀卡托大学开发的公开的数据挖掘系统,实现了基本的决策树分类算法,提供了适用于各类数据集的数据预处理以及算法性能评估方法,具有很强的扩展性和兼容性[19]。上述分类方法均依托WEKA平台实现。
2.4 精度评价方法
对分类识别出的结果与验证样本构建混淆矩阵,评估不同特征组合下C4.5、CART、RF 3种方法分类结果的总体精度,kappa系数以及苹果分类精度,其中苹果园分类精度定义为:
其中,PA是制图精度,TP表示分类器正确划分的苹果样本数量,FN表示分类器将苹果样本错误划分为其他地物类型的样本数量;UA是用户精度,FP表示分类器将其他地物类型样本错误划分为苹果的数量;TA是在综合考虑苹果错入、错出情况下的识别精度。
3 结果与分析
3.1 GLCM最佳窗口选取
将基于3×3、5×5、7×7、9×9不同大小纹理窗口提取的4组GLCM纹理与高分二号多光谱影像组合,采用C4.5、CART、RF进行分类实验,总体分类精度见表3。由表3可知,GLCM纹理窗口大小为7×7像元时分类效果最佳。
表3 不同纹理窗口、不同分类方法下的总体精度
3.2 最优纹理特征选择
在ENVI软件中,采用方向45°,步长1,窗口大小7×7等参数对高分二号融合影像进行纹理特征提取,构成如表4所示的纹理特征,其中B1、B2、B3、B4分别表示蓝、绿、红、近红外融合后的波段。
将以上纹理特征作为输入,通过随机森林特征选择模块,设定迭代次数为100,计算特征重要性,按照重要性排序,对特征重要性进行累计,如图2所示,默认选择特征重要性累计大于90.78%的特征波段进行分析,从图2可以看出,贡献最大的是均值特征,其次是相关性、信息熵和方差,所以选用均值、相关性、方差、信息熵4种纹理特征进行后续训练和预测。
图2 苹果识别高分纹理特征重要性得分
3.3 空间特征组合与分类
为构建高分纹理与多光谱、高分纹理与多光谱+单期中分多光谱、高分纹理与多光谱+全时序中分多光谱这3类空间特征,首先在ENVI软件中,将预处理好的哨兵数据(10m分辨率)重采样为1m,使其与纹理特征分辨率保持一致,并采用Layer Stacking功能将高分纹理特征分别与高分二号融合影像、4月、5月、8月、9月、10月5期哨兵影像进行组合,构建得到高分纹理与多光谱、高分纹理与多光谱+4月中分多光谱、高分纹理与多光谱+5月中分多光谱、高分纹理与多光谱+8月中分多光谱、高分纹理与多光谱+9月中分多光谱、高分纹理与多光谱+10月中分多光谱、高分纹理与多光谱+全时序中分多光谱,共计7组空间组合特征。然后依托WEKA平台,根据选取的训练样本(表2),从上述7组组合特征中分别提取训练样本信息作为建模信息,并分别采用C4.5、CART、RF方法进行模型构建实验,基于构建好的预测模型,依据7组组合特征,提取苹果种植范围,共计21个分类结果。
3.4 精度评价
为验证不同分类方法对苹果园识别的效果,选用相同的独立测试集(表2),采用混淆矩阵的方法对不同提取结果进行精度评价,结果如表5所示。
从表5可以看出,采用C4.5、CART、RF任意分类方法,高分与中分组合特征精度都高于单一高分特征,且苹果园分类精度分辨提升至少5.01%,4.30%,3.05%,总体精度分别提升至少5.12%,4.74%,3.16%,说明中高分组合特征有助于苹果园地提取。但是采用高分与中分全时序组合特征提取的苹果园分类精度和总体精度并不一定高于高分与单一中分组合特征,表明加入的特征越多,机器噪声越多,而且噪声的累加还不是线性的。
表4 纹理特征
表5 不同分类方法精度评价
图3 苹果园分类精度对比
从整体时序上分析,无论采用哪种方法,高分与哨兵4月份组合的分类精度最高,可达99.06%,其苹果园地分类精度、总体精度比单一高分纹理光谱组合特征分别提高至少8.14%、8.29%,比高分纹理光谱与多时相中分光谱组合特征分别提高至少1.14%、0.95%,主要原因是4月19日(花期)各类地物可分离性较好,因为4月初,冬小麦开始返青,植被信息强,但是苹果园地未呈现植被信息,容易与裸地混淆,5月幼果期的苹果园地植被信息强,容易与林地混淆,而4月19日,属于苹果初花期,初花期苹果叶片较小,绿量偏低,红光吸收偏小,同时花骨朵颜色整体偏红,红光呈现强烈反射,所以相对于易混淆的林地,红光波段光谱值偏高,提高了苹果园的可分离度,因此4月份中分光谱特征对苹果园提取贡献最大,即利用非最优的高分与花期中分能得到最优的精度(图4为分别采用3种分类方法基于高分与中分4月花期的影像分类识别结果)。
从分类方法上分析,RF是一种新型高效的组合决策树分类方法,具有实现简单、分类速度快、分类精度高、抗噪声能力强的优点,目前在农作物信息提取方面被广泛使用[20-22]。当采用相同分类特征时,RF分类的精度高于C4.5和CART分类结果,图3为3种分类方法采用相同分类特征分类时的苹果园分类精度对比图;与C4.5分类相比,苹果园精度和总体精度最高分别提升6.43%、6.87%;与CART分类相比,苹果园精度和总体精度最高提升6.96%,7.09%;综合苹果园提取精度来看,当采用相同分类特征时,随机森林分类方法提取苹果园地精度最好,苹果园提取精度均在90%以上,表明采用集成学习方法提取苹果园的效果和稳定性相对于其他方法较优。
图4 单一高分特征、高分与最优时相中分组合的C4.5、CART、RF分类
4 结论与讨论
GF-2号和哨兵两种影像都是遥感分类常用影像,两者各有优势。GF-2号空间分辨率高、地物纹理、细节丰富,但是重访周期长,数据获取困难,光谱信息少,在分类中也容易产生错分现象,哨兵数据光谱信息丰富、重访周期短,数据容易获得,但是分辨率低,但是将两者结合起来应用具有取长补短的效果,该文利用苹果生长期中GF-2号影像和多期哨兵影像为数据源,综合运用高分纹理及光谱特征与时序变化的中分光谱特征组合特征,利用决策树分类技术进行苹果园地信息提取。通过对比不同特征组合的分类精度,发现GF-2号影像与4月花期哨兵影像组合特征精度最高,其苹果园地分类精度、总体精度比单一高分纹理光谱组合特征分别提高至少8.14%、8.29%,比高分纹理光谱与多时相中分光谱组合特征分别提高至少1.14%、0.95%,通过对比RF、CART和C4.5分类方法,当采用相同分类特征时,RF分类方法提取苹果园地效果最好,苹果园提取精度均在90%以上,结果表明,中高分特征组合能充分利用高分影像纹理特征差异和不同时相中分遥感影像上的光谱特征差异,有效提升苹果园提取精度,苹果花期是苹果园遥感识别最佳时相的选择,随机森林分类方法提取苹果园效果和稳定性最好。
所以得出以下结论,利用非最优时相的高分影像结合花期中分影像能够得到最优的精度,如果没有花期中分影像,其他时相中分影像与非最优时相高分影像组合也能够得到比较优的精度。利用中高分影像提取苹果园地一定程度上排除了与苹果园纹理相似、物候期不同的地物干扰。但是与苹果园地相似物候期、纹理特征的其他地物还是无法区分,近年来,深度学习方法在基于高分辨率遥感影像的农作物种植信息提取领域应用广泛,精度相较于传统的分类方法会有较明显的提升,在今后的研究中,如何引入深度学习方法于苹果园地提取应用中,从而进一步快速准确地提取苹果园地信息有待进一步研究。