APP下载

基于Sentinel-1和Sentinel-2数据的石河子市棉花种植信息提取

2022-11-01任江龙李昺星

中国新技术新产品 2022年14期
关键词:极化分类器棉花

任江龙 李昺星

(中水北方勘测设计研究有限责任公司,天津 300222)

0 引言

棉花是一种重要的经济作物,提供了世界上约79%的天然纤维,其种植面积及产量影响人类日常生产生活。及时准确地获取棉花空间分布信息,为棉花产量估算、农业生产管理和决策提供依据。自Landsat 发射以来,中高等空间分辨率图像已被广泛用于作物监测,但仍不能满足精细化农业信息提取的需求。随着Sentinel 系列卫星的成功发射,其高空间和时间分辨率的优势在作物监测中得到广泛应用。合成孔径雷达(SAR)不受云层和太阳光照的影响,避免了光学遥感的限制,适用于大尺度高分辨率农作物专题信息提取。不同的光学和SAR 数据特征意味着提供的表面信息是不同的。光学数据提供了研究区地物的光谱特征,而SAR 数据提供了有关植被地表结构和土壤的信息。因此,结合光学和SAR 数据可以更准确、更有效地提取作物。

基于光学和SAR 数据提取棉花种植信息的研究相对较少,现有的分类方法中多采用多分类,未能实现单一作物分类提取。因此该文基于Google earth engine(GEE)云平台,利用Sentinel-1 和Sentinel-2 数据探究单一分类支持向量机在棉花种植信息的适用性,为棉花提取提供新的方法思路。

1 研究区概况

石河子市位于中国新疆北部,地理位置范围为北纬44°24′23″~44°41′12″,东经85°44′19″~86°20′19″E,面积约1500 km(如图1 所示)。该地区属典型的温带大陆性干旱气候,夏热冬冷,昼夜温差大。该地区主要农作物有棉花、小麦和玉米,其中棉花种植面积占比最大,种植时间为4 月中旬至10 月中旬。

图1 研究区位置

2 数据获取及预处理

2.1 遥感数据

该文主要采用2020 年Sentinel-1(S1)和Sentinel-2(S2)数据,2 种数据集均由GEE 平台加载获得,为了分析最合适的棉花提取时间影像,选择5 月~9 月影像进行处理,遥感数据基本信息及所需影像数量见表1。S1 数据集由Sentinel-1A 和Sentinel-1B 这2 颗C 波段SAR 卫星组成,其空间分辨率为10 m,单颗卫星重访周期为12 天。由于2020 年石河子市Sentinel-1B 数据缺失较多,因此该文主要采用干涉宽幅(IW)模式Sentinel-1A GRD 产品数据。GEE 平台中S1 数据均已经过Sentinel-1 工具箱(S1TBX)预处理,预处理过程主要包括轨道校正、热噪声去除、地形校正和辐射校正。为了减少Sentinel-1 数据噪声对分类结果的影响,采用窗口大小为7×7 的Refined Lee 滤波对S1时序数据进行散斑滤波处理。

表1 Sentinel-1 和Sentinel-2 数据

Sentinel-2A 和Sentinel-2B 卫星由欧洲航天局(ESA)发射,其影像空间分辨率为10 m~60 m,双星重返周期为5天,共拥有13 个光谱波段。该文中S2 数据主要采用Level-2A 地表反射率(SR)产品数据,该数据集均经过地形校正、辐射校正和大气校正等预处理。GEE 云平台中Sentinel-2包括云量覆盖信息,因此为了减少云及云阴影对棉花提取结果的影响,该文采用filterMetadata 函数筛选出云量小于20%的影像,并利用位与运算bitwiseAnd 函数判断影像中云像素,进而进行掩膜处理,生成无云影像数据集。为了分析最佳棉花提取影像时间,分别对S1 和S2 数据集以月为单位进行中值合成,同时将S2 所有波段重采样为10 m分辨率。由于部分地区受天气影响,无法获得S2 无云影像,因此采用线性插值方法对空缺S2 影像数据进行填补。

2.2 野外考察数据

研究区棉花生长共4 个阶段,分别是苗期(5 月初~6月下旬)、萌芽期(6 月下旬~7 月中旬)、开花结铃期(7月中旬~8 月中旬)和吐絮期(8 月中旬~10 月初)。为了进一步了解棉花生长特征,笔者于2020 年8 月前往研究区进行野外考察,共获得棉花样本213 个,非棉花样本147个,将野外考察所获得的样本导入GEE 平台中,其中70%作物训练样本,30%作物验证样本。

3 研究方法

3.1 特征提取及特征优选

特征提取是棉花提取中最重要的一步,为了提高棉花与其他农作物的区分度,该文基于S1 和S2 数据集共构建22 个特征数据集。其中基于S1 数据构建了VV 极化、VH极化和归一化差极化指数(NDPI)特征,基于S2 数据构建了10 个S2 光谱波段特征和9 个植被指数特征,其中植被指数特征分别为归一化植被指数(NDVI)、增强植被指数(EVI)、修正型归一化植被指数(MNDVI)、地表水指数(LSWI)、归一化水体指数(NDWI)、红边位置指数(REP)、裸土指数(BSI)、绿色叶绿素植被指数(GCVI)和植被衰老反射指数(PSRI)。

各特征间存在一定相似性,因此存在一定冗余信息,易导致降低分类精度,选择合适的特征组合对分类结果至关重要。该文利用递归特征消除算法(RFE)对特征数据集进行特征优选计算,其主要原理是利用全部特征进行初始特征计算,利用分类器计算出不同特征的权重大小,并按照不同特征权重结果进行排序,依次剔除特征权重最小的特征,并计算剔除后的总体精度,以此类推直到总体精度达到最高,即可获得最佳特征组合。具体过程如下:首先,基于GEE 平台以石河子地区8 月影像为例分别计算各特征数据,构建特征数据集;其次,利用训练样本点提取各特征指标值;最后,将各点提取的值生成Excel 文件,利用Python 实现递归特征消除计算。

3.2 单类支持向量机(OCSVM)

分类器的选择是影响棉花提取的另一个重要因素,该文采用OCSVM 代替传统的多类分类方法,其基本原理就是根据目标样本在特征集中具有较好的相似性。作为支持向量机(SVM)的一个分支,OCSVM的基本原理是在特征空间中构造一个最优超平面,以最大化目标类与其他类之间的边距。与传统的多类分类器不同,OCSVM 可以减少资源需求,因为只需要目标类的训练数据。此外,先前的研究表明,OCSVM在农作物种植信息提取中获得了较高的分类精度。

要使用OCSVM 分类器,需要选择内核类型和相应的参数。关于核类型,该文选择径向基函数(RBF)。以RBF作为内核类型,需要设置2 个参数“gamma”和“nu”。基于前人研究成果选择最佳的“gamma”和“nu”,分别为0.1 和0.1。

为了验证棉花提取结果,该文利用棉花和非棉花样本构建验证样本,基于验证样本对提取结果进行精度评价。采用混淆矩阵方法,分别计算生产者精度(PA)、用户者精度(UA)、总体精度(OA)和Kappa 系数。

4 结果与分析

4.1 特征优选

为了获得最佳特征组合以提高棉花提取精度及效率,该文共选择22 个特征变量进行递归特征消除方法计算,结果如图2 所示。从图中可以看出,当特征变量为1 时,总体分类精度仅为63.21%。而特征数量从1 到2 时,其分类精度上升速率最大。特征数量大于2 后,其分类精度提升明显放缓,当特征数量达到5 时,总体精度增速进一步放缓。而后分类精度缓慢增大,直到特征数量达到15 个时,分类精度达到最大(总体精度为92.3%)。而当特征数量大于15 个后,其分类精度呈现缓慢下降趋势,说明当特征数量大于15 后其特征冗余信息对分类结果产生负面的影响。因此,该文选择排名前15 个特征构建特征组合进行棉花提取,分别为Band6、NDVI、EVI、Band5、Band2、Band3、Band7、Band4、Band8、MNDVI、VV、Band12、VH、REP、Band11。

图2 特征递归消除结果

从特征优选的结果可以看出,光学波段特征占最优特征组合总数的60%,说明光学光谱波段特征对棉花提取至关重要,其中Band6 对棉花提取的贡献率最大,说明Band6 对棉花提取的识别效果较好。植被指数特征中NDVI和EVI 对棉花提取的贡献率较高,与现有的研究结果较为一致,其中MNDVI 和REP 两种指数也有一定的贡献率。Sentinel-1 极化数据及衍生极化指数对棉花提取也存在一定的贡献,主要表现为VV 和VH 共2 种极化信息,而极化衍生产品则贡献率较低。其中微波信号能够识别棉花信息,主要是因为棉花生长周期中,在萌芽期和结铃期,棉花叶片密度不断增大,微波信号逐渐无法穿透植被冠层,此时为表散射或体散射。而到开铃期后,棉花植株叶片不断掉落腐烂,此时微波信号可以穿透植被冠层,发生回波散射。

4.2 棉花识别最佳时间选择

在作物生长季节的关键时期,由于经常受到云量的影响,遥感数据难以获取,因此该文通过对不同月份影像进行合成,探究棉花提取最佳月份,进而实现棉花高精度提取,减少棉花物候特征分析过程。利用GEE 平台分别对5 月~9 月进行月度影像的中值合成,采用4.1 节中递归特征消除方法得到最优特征组合,分别构建了5 月~9 月逐月影像特征组合,并利用OCSVM 进行棉花种植信息提取,对不同月份提取精度进行精度评价,精度结果见表2。从表2 中可以看出,8 月份合成影像棉花提取精度最高,总体精度和kappa 系数最高,分别为91.69%和0.83。这主要是因为8 月中下旬棉花由于处于吐铃期,棉花光谱特征发生较大的变化,与其他作物有较大差异,能较好地与其他作物进行区分。因此,该时期棉花提取精度中生产者精度和用户精度均达到最大,说明误分和漏分情况较少。其中5 月份棉花提取精度最低,总体精度和Kappa 系数分别为82.23%和0.67,与8 月提取结果相差较大。这主要是因为该时期棉花正处于苗期,与玉米等同一生长期的其他作物的光谱特性相似,因此难以通过光谱信息与其他作物进行区分。6 月合成影像和7 月合成影像棉花提取结果具有较大的相似性,其棉花提取总体精度仅相差0.15%,总体精度均大于90%,说明6 月和7 月对棉花提取也有较大的优势,在棉花吐絮前均能获得较好的棉花提取精度。9 月份棉花进入成熟阶段,其他农作物也逐渐成熟,该阶段植被光学特征较为相似,但是Sentinel-1 的2 种极化信号能很好地捕捉到棉花信息,因此9 月份棉花提取精度依旧大于89%。整体来看,在今后的棉花提取中,应重点考虑8 月份影像,其次可以考虑6 月或7 月影像,最后考虑9 月份影像。该文基于特征优选后的特征组合,采用OCSVM 分类器实现了2020 年石河子市棉花种植信息提取。棉花提取结果如图3 所示,从图3 可以看出,石河子市棉花主要集中分布在西部地区,其空间分布较为聚集。经过统计计算得出2020 年石河子市棉花种植面积为194.85 km,占研究区总面积的42.35%。

表2 不同时期影像棉花提取精度

图3 棉花提取结果

5 结论

该文基于GEE 云平台中Sentinel-1 和Sentinel-2 数据,采用OCSVM 分类器实现2020 年石河子市棉花提取。结果表明,Sentinel-2 光谱特征对棉花提取结果贡献率最大,Sentinel-1 的2 种极化特征对棉花提取也存在较大的贡献率。棉花最佳识别月份为8 月份,其总体精度达到91.67%,Kappa 系数为0.83。整体来说OCSVM 在棉花提取的适用性较好,能有效实现单一作物分类。

虽然该文基于GEE 平台在棉花提取中实现了光学和雷达数据的有效结合,但仍存在一定的局限性,未利用多源遥感时序数据进一步挖掘棉花物候特征。同时该文在精度评价中仅采用野外考察数据进行精度验证,并未考虑其他分类器在棉花提取中的适用性。因此,在今后的研究中还将深入挖掘棉花物候信息,并探究不同分类器下棉花提取结果的差异性。

猜你喜欢

极化分类器棉花
棉花是花吗?
认知能力、技术进步与就业极化
棉花
BP-GA光照分类器在车道线识别中的应用
双频带隔板极化器
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于PWM控制的新型极化电源设计与实现
心中的“棉花糖”
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别