APP下载

基于XGBoost算法的多云多雾地区多源遥感作物识别

2022-05-12徐海清

农业机械学报 2022年4期
关键词:植被指数光谱烟草

张 超 陈 畅 徐海清 薛 琳

(1.中国农业大学土地科学与技术学院,北京 100083;2.自然资源部农用地质量与监控重点实验室,北京 100083;3.安徽皖南烟叶有限责任公司,宣城 242000)

0 引言

快速、准确地获取农作物空间分布信息是区域作物长势监测、产量估测以及种植结构调整的重要依据[1]。遥感以其覆盖范围广、时效性强等特点,成为获取农作物信息的重要手段[2]。针对我国南方多云多雾地区农作物遥感识别问题,YU等[3]以MODIS时间序列影像为数据源,采用植被指数和水体指数,提取我国南部13个省地区的水稻种植区。冯实磊[4]综合MODIS、Landsat、Sentinel系列多源卫星遥感数据,实现了多云雨雾地区大范围水稻种植信息提取,精度达85%。于彬[5]设计多云雨地区多源遥感影像融合增强方法,采用面向对象分类影像方法,精度达88.17%。具有强穿透力的微波雷达为遥感作物识别提供了数据支撑[6-7]。综合微波雷达和光学多光谱遥感影像等多源遥感数据进行作物识别具有很大潜力[8]。文献[9-10]融合Sentinel-1和Sentinel-2多源遥感数据提高分类精度,评估现有监督学习模型进行作物精确分类的可行性,分类精度均达90%以上。针对起垄覆膜作物遥感识别[11],尹楠[12]基于全极化雷达数据,采用Oh模型分析垄行结构参数对不同极化后向散射系数的影响。朱秀芳等[13]结合纹理特征数据,研究无人机遥感在覆膜农田面积及分布提取的方法。在分类方法上,随机森林(Random forest,RF)算法[14]广泛应用于水稻[15]、玉米[16]、小麦[17]等作物识别[18],而有研究表明极端梯度提升树模型(eXtreme gradient boosting,XGBoost)在高光谱图像的光谱空间分类和雷达极化空间信息分类方面,优于RF方法[19]。蔡林菲等[20]基于高分二号影像,采用支持向量机、RF和XGBoost等3种方法,对主要优势树种进行分类,得出XGBoost优于其他两种方法。DONG等[21]利用高分三号PolSAR图像进行土地覆被分类,在分类结果和时间成本方面,XGBoost方法相比RF更为有效。

我国皖南地区,作物关键生育期多云多雾,光学遥感数据难以有效获取,遥感作物识别的数据和精度都难以保障。本文根据研究区不同作物类别的物候差异,针对主要作物早期覆膜保温保水等特点,以关键生育期的多时相遥感数据,多光谱反射率结合SAR后向散射,研究我国南方多云多雾地区作物识别问题。

1 研究区及数据源

1.1 研究区概况

研究区选择安徽省宣城市宣州区,地处安徽省东南部,如图1所示。研究区属于亚热带季风气候区,年平均温度15.6℃。雨量适中,年平均降水量约1 430 mm。该区域属于低山丘陵地带,坡度平缓,适宜烟草、水稻、油菜、冬小麦等作物种植,烟草是该区域重要的经济作物。

图1 研究区地理位置与遥感影像Fig.1 Location of study area and remote sensing data

研究区主要作物为烟草、水稻、冬小麦和油菜等。目前宣州区有超过4 000 hm2耕地实施稻-烟轮作的种植模式,该模式为7—10月底种植水稻,11月到次年3月进行土地休养,3—7月种植烟草。烟草移栽前需要进行田间起垄覆膜,起垄高度30~40 cm,起垄宽度60~70 cm;起垄后覆膜,采用银黑双面地膜,地膜覆盖宽度110~120 cm。研究区主要作物的生育期如表1所示。

表1 主要作物类型物候时期Tab.1 Phenological period of major crop types

1.2 数据源及预处理

1.2.1卫星遥感数据

选取3—7月作物主要生育期多期Sentinel-1的SAR数据。Sentinel-1卫星是欧洲航空局的地球观测卫星,搭载C波段SAR,可以全天候连续对地监测。数据使用Sentinel-1干涉测量宽幅模式(IW)的L1级别GRDH数据类型,并经过消除热噪声、辐射定标、几何校正等预处理。同时,选用3—7月主要作物生育期内,能够覆盖研究区的多时相Sentinel-2数据。Sentinel-2是欧空局的高分辨率多光谱卫星,由“Sentinel-2A”和“Sentinel-2B”2颗卫星组成,覆盖从可见光近红外到短波红外共13个波段的数据,本文主要采用可见光至近红外范围的7个波段。Sentinel-2的2颗卫星互补重访周期可达到5 d,多光谱数据经过大气校正、几何校正、辐射校正等预处理。

皖南地区多云多雾,光学遥感影像覆盖的有效性及完整性难以保证,作物生育期(3—7月)内光学影像总数量为127景,图2为研究区逐像元可用光学影像数量,即3—7月各像元位置去除云雾干扰后的光学影像数量[22],分为两种主要类型:受云雾影响小区域(A)和云雾覆盖影响区域(B),所采用的遥感影像信息如表2所示。

图2 宣州区可用光学影像分布(景)Fig.2 Distribution of available optical images

表2 主要遥感影像分辨率及时相Tab.2 Main remote sensing image resolution and time phase

1.2.2外业调查数据及其他专题数据

采用研究区分辨率为30 m Shuttle Radar Topography Mission (SRTM)的DEM数据,提取坡度、高程等地形因子。此外,采用研究区2018年土地利用数据库中的耕地矢量数据,包括水田、水浇地和旱地等耕地二级地类,以耕地数据为约束,减少林地、园地、草地等地类对农作物识别的干扰,提高识别精度。研究区耕地分布如图3所示。

分别于2019年5月和7月在研究区进行两次外业调查,此外,结合高分辨率GoogleEarth影像目视解译增补样本点,共计样本点总数517个。其中烟草样本点224个,其他作物类型样点293个,包括冬小麦、水稻、油菜、蔬菜大棚等。按照7∶3的比例随机抽取划分为训练样本集和测试样本集。样本点分布如图3所示。

图3 宣州区作物识别样本点及耕地分布Fig.3 Samples and farmland distribution in Xuanzhou District

2 研究方法

利用多源遥感数据,构建多时相光谱特征和SAR后向散射特征相结合的多云多雾地区作物识别体系。首先利用不同时期Sentinel-2多光谱遥感影像提取研究区典型地物类型的光谱特征,分析研究区随着不同作物生长光谱变化特征,选取多种植被指数;此外,分析不同作物的微波雷达后向散射特征,结合光学植被指数构建地膜植被指数(SAR plastic-film vegetation index,SPVI);构建多种指数时序数据集,利用XGBoost模型进行作物分类,并和RF分类结果对比,实现研究区作物遥感高精度识别,具体技术路线如图4所示。

图4 研究技术路线图Fig.4 Technology flowchart for crop identification

2.1 作物识别特征选取

根据样本点获取Sentinel-2每个时相遥感数据的可见光至近红外范围7个波段各波段反射数据,可见光至近红外波段是常用植被指数的波段范围,被广泛用于获取植被特征。不同时相遥感影像中不同地类的光谱反射曲线如图5所示,不同作物在同一时期光谱反射存在差异,3月中旬油菜和小麦植被生长旺盛,红外波段反射最高;两图间变化反映作物生长情况,从移栽至现蕾期,长势达到峰值,烟草红外波段反射率明显高于其他作物。

图5 研究区典型地类光谱曲线Fig.5 Spectral curves of typical class of study area

根据研究区主要作物的时序光谱特征情况,从3方面选取指标构建分类特征集:

(1)光谱特征。根据上述反射光谱曲线特征,提取经预处理后的3月多光谱影像的红(B4)、绿(B3)、蓝(B2)3个波段以及5月红边波段(B6、B7)、近红外波段(B8),得到6个波段组合的光谱特征集。

(2)植被指数。本文对常用的植被指数进行相关性分析,选取增强型植被指数(EVI)、比值植被指数(RVI)、归一化植被指数(NDVI)、土壤调节植被指数(SAVI)、归一化差异水体指数(NDWI)等5种参与作物识别,并在作物种植特性和光谱特征的基础上,结合SAR数据,针对研究区作物的种植特点,改进构建SPVI。

通过光谱反射差异及相关研究[23-24],蓝波段对地膜覆盖农田识别较为敏感。选取添加蓝波段的NDVIB反映覆膜农田的地膜和植被特征,计算式为

(1)

式中N——Sentinel-2近红外波段反射率

R——Sentinel-2红色波段反射率

B——Sentinel-2蓝色波段反射率

比值后向散射系数反映由田间起垄和植株高度产生的后向散射系数差异。综合两者构建SPVI为

(2)

式中SVV——Sentinel-1的VV极化后向散射系数

SVH——Sentinel-1的VH极化后向散射系数

(3)地形因子。地形因子影响降水量、光照强度以及气温、土壤湿度,进一步决定了作物的空间分布。将研究区的坡度和高程因子特征作为辅助因素,参与作物分类,可提高作物识别精度。

2.2 XGBoost分类算法

XGBoost算法由CHEN等[25]提出,是在梯度提升算法(Gradient boosting,GDBT)基础上优化而来。Boosting算法是将基分类器组合提升为强分类器的算法,首先利用初始训练集训练一个基分类器,根据表现调整下一个基分类器中训练样本的权重,分类错误的样本得到更多的关注,多次重复达到满足条件为止,最后将训练后的多个分类器加权组合。与GDBT相比,XGBoost具有准确度高、不易过拟合、可扩展性强等特点[20]。

XGBoost算法在决策树算法的基础上,添加包括叶子节点数及叶子节点数平方和的正则项,因此其目标函数包括损失函数和正则项两部分。损失函数为预测值和真实值之差,通过减少损失来优化目标函数;正则项用来控制模型的复杂度,防止模型出现极端情况。XGBoost算法最优的目标函数为

(3)

其中

(4)

式中λ——固定系数γ——复杂度参数

T——树中叶节点的数量

Gj——叶子节点j所包含样本的一阶偏导数gi累加之和

Hj——叶子节点j所包含样本的二阶偏导数hi累加之和

XGBoost算法参数设置采用网格搜索法[26],为一种指定参数的穷举搜索方法,在取值区域内,由步长决定的网格作为自变量分组依据,通过划分网格,逐一计算每个网格点上的约束值,自动输出最佳参数的组合。

3 试验与结果分析

3.1 时序曲线构建

利用主要作物生育期可覆盖多期多源遥感数据集,获取的6种植被指数叠加合成时序影像数据集,以提取作物主要生育期的时序曲线。图6为不同作物指数时序的变化曲线,其中烟草和早稻栽种及收获时间较为一致,指数曲线的趋势相似,但3月烟草覆膜时期SPVI和6、7月成熟期的SPVI、NDWI、RVI可将两者较好区分;在3月,农田覆膜反射与大棚类似,烟草处于移栽前后期,未表现出植被特征。图6a烟田、大棚两者反射率相差不大,烟草的SPVI指数略高于早稻。6—7月烟草和早稻进入成熟收获期,烟草的植株高度可达150 cm,比值后向散射降低,使得早稻SPVI明显高于烟草。图6b~6f的植被指数时序曲线,5月烟草处于生长旺盛的现蕾期,指数处于峰值,EVI明显高于早稻;6—7月植被指数逐步降低,此时烟草和早稻之间的NDWI以及RVI有明显差异且趋势相反,可用于区分作物。

图6 多时相植被指数时序曲线Fig.6 Time series curves of multi-temporal vegetation index

图6a中SPVI指数可表达覆膜起垄作物与其他作物的差异,3月冬小麦和油菜等进入拔节期和蕾薹期,在SPVI上两者相似,但与烟草差别较大;图6b~6f植被指数中可以看出冬小麦和油菜在4月达到生长旺盛期,指数出现峰值随后逐渐降低,与烟草的植被指数变化趋势相反。

3.2 分类模型训练

利用研究区的多源遥感数据,计算选取分类指标,综合6个光谱特征,构建30个多时相植被指数和两个地形因子辅助特征的多指数分类特征集。随机抽取70%样本训练XGBoost和RF模型,对研究区地物进行分类,30%作为测试样本对作物识别结果进行精度评价。本文通过网格搜索法使用Python分别优化XGBoost模型和RF模型的参数[27],最终确定两个模型的最优参数如表3所示,其余参数均为默认值。

表3 模型参数含义及调优结果Tab.3 Implications of model parameters and tuning results

3.3 作物识别结果分析

根据云雾影响情况和作物种植分布,将研究区分块,对不同区域,针对性的提出有差异的作物识别方法,并在区域A和B开展实例验证。在区域A有效 Sentinel-2影像数量可达30景左右,综合区域内多时相多源遥感数据,采用了XGBoost模型,依据光谱特征及时序指数特征差异,对耕地内的作物进行分类,并和RF算法进行对比,两者的总体精度分别为88.68%和86.22%,XGBoost模型总体精度略高于RF模型,识别结果如图7b、7a所示。两种分类方法主要作物烟草识别的精度评价如表4所示。两种方法作物识别的漏分率接近,而XGBoost算法错分率仅为1.42%,烟草识别效果更优。

图7 作物识别结果Fig.7 Crop identification results

表4 2种分类方法精度评价Tab.4 Accuracy evaluation of XGBoost and RF classification methods %

研究区主要作物烟草生长旺盛以及收获期(5—7月)皖南地区云雾较多,光学影像难以覆盖整个研究区域。在区域B整个生育期可用影像数量仅为7景左右,而在烟草现蕾以及成熟收获期,受云雾影响,大部分区域可用影像数量仅有1景,难以保证作物识别精度。因此在5—7月云雾覆盖区域,选取3月的红、绿、蓝波段为光学特征,5—7月Sentinel-1影像为后向散射特征,以已有多期Sentinel-2影像的NDVIB指数与Sentinel-1的比值后向散射结合,得到SPVI指数特征。采用XGBoost算法按照上述相同的样本集以及模型训练方法,对云雾区域的主要作物进行识别,识别总体精度为84.87%,烟草制图精度88.69%,用户精度95.51%,基本满足作物识别的精度要求。RF算法总体精度为83.93%,略低于XGBoost算法。仅使用生育期Sentinel-2影像的作物识别总体精度79.01%,主要作物烟草识别制图精度82.30%,用户精度93.49%,表明本文构建的作物识别方法可提高云雾影响地区作物识别的精度。

利用本文构建的分区域作物识别方法,两个典型区域识别结果如图7所示。经多区汇总和面积估算(图8),得到研究区主要作物烟草的种植面积约为4 133.34 hm2,同2019年实际统计种植面积4 333.34 hm2对比,识别误差约为4.6%,基本符合宣州区该作物种植分布和面积统计实际情况。

图8 研究区作物识别结果Fig.8 Crop identification results in study area

4 结论

(1)综合多光谱光学数据与雷达数据,针对作物早春覆膜特点,构建SPVI和NDVI、EVI、SAVI、NDWI、RVI等5种植被指数,共同构建多时相植被指数集,利用时间序列上的变化信息,提高了多云多雾地区作物识别精度。

(2)利用作物全生育期(3—7月)多时相Sentinel-1和Sentinel-2数据,构建多云多雾地区农田作物识别体系,采用XGBoost分类模型,结合光谱特征、SAR后向散射特征及时序指数特征,分别对研究区的作物进行分类,并与RF算法进行对比。对于全生育期光学多光谱遥感覆盖较密集区域,两者的总体精度分别为88.68%和86.22%,XGBoost模型的总体精度略高于RF模型;对于5—7月云雾覆盖,光学多光谱数据缺失严重区域,XGBoost模型和RF模型识别总体精度分别为84.87%和83.93%。表明本文构建的基于XGBoost模型遥感作物识别方法在多云多雾地区有效。

猜你喜欢

植被指数光谱烟草
上海烟草包装印刷有限公司
基于三维Saab变换的高光谱图像压缩方法
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
基于3D-CNN的高光谱遥感图像分类算法
基于无人机图像的草地植被盖度估算方法比较
浅谈植被指数的分类与应用
全国首次青少年烟草调查
烟草镜头与历史真实
百年烟草传奇的云南叙事