APP下载

集成多源遥感数据与生育期时序光谱特征的水稻种植面积提取

2023-11-14郑紫瑞赵辉杰位盼盼王来刚徐少博

河南农业科学 2023年10期
关键词:生育期分类器生育

郑紫瑞,赵辉杰,位盼盼,方 鹏,王来刚,徐少博

(1.河南世纪国科空间技术应用有限公司,河南 郑州 450008;2.河南省农业科学院农业经济与信息研究所,河南 郑州 450002)

水稻作为主要粮食作物之一,为人类社会提供了稳定的食物来源。据统计,全球有12%的耕地种植水稻,超过50%的人口以水稻为重要食物来源,每人每天消耗的谷物中水稻占19%[1-2]。我国有50%的耕地种植水稻,并且约有65%的人口以水稻为主食[3]。然而,日益增长的全球人口对粮食供应提出了更大的需求,城市化影响、环境问题、气候变化也对水稻的生长和种植区域带来了更大的挑战[4]。此外,水稻种植也影响着耕地利用强度[5]、农业耗水量[6]和温室气体排放[7],进而影响到农业生产管理和生态环境。因此,及时掌握水稻种植面积等农情信息对地区农业调控和环境问题决策起到支持作用。

如何更加精确地提取水稻空间分布信息,是诸多研究人员关注的重点问题。目前从时间维度来看,水稻面积提取的主要分类算法包括单时相分类、多时相分类两大类。主要有决策树法[8]、面向对象法[9]、监督和非监督机器学习法[10]、深度学习算法[11]等。上述方法被广泛应用于水稻提取研究中,但主要侧重对单时相影像中的农作物像素单元的提取,对水稻生育期内丰富的物候特征信息利用较少。虽然时间序列指数分析法关注水稻关键生育时期光谱指数“波峰”“波谷”变化差异,然而受到水稻生长期内多云雨天气因素的限制,很难获取高质量的光学影像以实现水稻种植面积的准确提取[12]。

为充分利用水稻生育期内的物候特征信息,弱化因云雨对关键生育时期影像质量的影响,提出水稻像元时序频率约束分类模型(TPFCM),对区域水稻信息进行流程化地快速提取。该流程一方面集成时间序列光学、雷达影像数据,综合考虑水稻生育期内多个关键生育时期的生长信息,利用机器学习算法进行水稻的预分类;另一方面以实测统计数据为参考,对分类器输出的多期结果进行空间分布概率统计约束,以误差最小为标准输出最优水稻提取结果,使水稻分布结果更符合实际情况。

1 材料和方法

1.1 研究区与数据源

1.1.1 研究区概况 研究区位于江西省南昌市(115°27′~116°11′E,28°09′~29°11′N),地处江西省中部偏北,土地总面积7 194.98 km2,其中耕地2 744 km2(占土地总面积的38.1%),有效灌溉面积1 899 km2(占耕地总面积的69.2%),见图1。气候属亚热带季风气候,2021 年平均气温19.7 ℃,最高气温37.6 ℃,最低气温-4.2 ℃。年降水量1 962.8 mm,年日照1 666.6 h,无霜期312 d。全市主要粮食作物为水稻,2021 年水稻种植面积占粮食作物的98.63%,占全部作物种植面积的70.54%,并且水稻熟制复杂,多为一年两熟或者一年三熟。水稻按种植和收割时间的差异分为早稻、中稻和晚稻。通常,早稻每年4 月份左右开始种植,7 月收割(本研究对象早稻后面均称水稻)。

图1 研究区位置Fig.1 Location of the study area

1.1.2 数据来源与预处理

1.1.2.1 遥感数据 采用的遥感数据分别有Sentinel-1 地距合成孔径雷达数据(Ground range detected,GRD)、Sentinel-2 多光谱数据(Multi spectral instrument,MSI)Level-2 产品和Landsat-8陆地成像仪(Operational land imager,OLI)Level-2产品数据。Sentinel-1 和Sentinel-2 数据时间为2021 年4—8 月,与水稻生育期相一致。本研究在Google Earth Engine 中检索并调用Sentinel-2、Sentinel-1、Landsat-8 数据,然后进行云量筛选、月度合成等预处理。

1.1.2.2 辅助数据 为了更准确有效地提取南昌市水稻分布信息,剔除提取过程的非水稻信息,同时使用了以下辅助数据:SRTMGL1_003 DEM[13]数据、ESA WorldCover 10 m 土地利用数据(图1b)[14]、2021年南昌市统计数据。其中,DEM 数据用于生成坡度信息,WorldCover 10 m 数据用于获取耕地信息,此外,研究使用的水稻种植面积验证数据来源于南昌市统计年鉴。

1.1.2.3 样本数据 研究所需样本来源于2 个途径:①Google Earth 高清影像底图;②2021 年GF1 WFV16 m和Sentinel-2 MSI 10 m多光谱影像。通过目视解译的方式选取研究所需的水稻样本、非水稻样本两类样本集。通过对高清影像和多光谱影像的解译判读,勾绘了88 个水稻纯像元多边形、41 个非水稻像元多边形。其中水稻像元为41 716 个,非水稻像元66 227 个(图1c)。最后,将获取的高质量样本数据集通过生成伪随机数分成训练数据集和测试数据集,训练数据集用于随机森林分类器学习,测试数据集用于验证分类器输出的预测精度。

1.2 研究方法

1.2.1 影像特征月度合成 光谱特征是农作物遥感分类的核心要素,具有相对的独立性和差异性[15-16]。不同的农作物因其植株体内具有不同的叶片结构、叶片细胞含水量、色素浓度、氮含量等,使其反射的磁波谱呈现独特特征曲线[17-18]。本研究检索了水稻生育期内大量存档的Sentinel-2、Landsat-8多光谱影像,生成水稻生育期内的月度合成影像,并计算了归一化植被指数(Normalized difference vegetation index,NDVI)[19]、增强植被指数(Enhanced vegetation index,EVI)[20]、地表水分指数(Land surface water index,LSWI)[21]3种光谱指数,拟从水稻全生育期分析其光谱特征的时序差异性,从而更加有效提取水稻分布信息。此外,检索了水稻生育期内的Sentinel-1 存档数据,并通过中值合成的方式将VV、VH 波段合成为月度数据,作为Landsat-8、Sentinel-2的补充数据。

1.2.2 随机森林算法分类 随机森林(Random forest,RF)算法[22]作为一种鲁棒性较强的集成学习算法,已经被广泛用于遥感地物分类提取领域,包括水稻、小麦、玉米等作物提取。RF 算法本质是一个集成了诸多决策树的分类器,每棵树对结果进行投票,选择得票最多的分类结果作为最终的分类结果。此外,由于GINI 指数的简单性,其也被选择作为RF单棵树的分裂标准。RF集合了许多树作为分类的基础,单棵树越独立,其泛化误差越小。本研究调用GEE 内置的RF 算法,参考前人研究结果设置了算法参数值(tree=500),用于水稻生育期内多期预分类工作。

1.2.3 TPFCM 模型 作物关键生育时期的影像光谱特征对其种植区域的提取起到积极作用,而且前人的研究工作也证明了这点[23]。但是在关键生育时期所获取的影像质量因雨云的污染而难以保证,为弱化云雨因素对水稻提取精度的影响,综合利用水稻整个生育期的光谱特性,尽可能监测到不同生育时期的水稻像元,本研究基于多时相的作物识别和水体遥感领域中的水体频率监测思想[24],提出了水稻TPFCM 模型,并用于研究区水稻空间分布区域的优化提取。

式中,TPFCM为水稻像元时序频率约束模型;Pixelsrice为水稻预测像元;Pixelsother为非水稻预测像元;n为水稻生长季内的影像监测期数;m为频率判断系数,取值范围为0~1;w为权重系数,其取值范围为0~1。

1.2.4 精度评估 使用总体精度OA(Overall accuracy)和Kappa系数评估水稻每个生育时期的预提取面积精度。使用相对误差RE(Relative error)评估TPFCM 输出不同频率阈值下的水稻提取面积与统计参考面积误差大小。另外,使用决定系数R2评估各区县水稻提取面积和统计参考面积的相关性。

其中,n为作为对比的行政区数量,yi为市级不同频率阈值下的水稻累计面积,y为对应市级的统计参考面积均值。xi为不同区县提取的水稻面积,为对应的面积均值,ki为不同区县统计参考水稻面积为对应的统计参考面积均值。

2 结果与分析

2.1 水稻影像特征月度变化

与其他作物种植管理不同,水稻在不同生育时期灌溉需求不同,因此其种植环境也会产生较大的差异性,这种特性在时序光谱特征上反映得更加明显。水稻移栽期通常在4 月份,并且为保证水稻移栽存活,水田始终保持存水的状态。此时NDVI、EVI、LSWI 均呈现开始上升。分蘖-拔节期也是水稻生长的关键时期。水稻叶片、茎秆发育迅速,叶片叶绿素含量、氮含量、含水量等不断增多,进而也提高了NDVI、EVI。植株对水分的需求量加大,也使得LSWI呈现上升趋势(图2a)。孕穗-抽穗期,水稻叶片、茎秆与其他器官继续生长发育,该阶段的NDVI、EVI、LSWI也呈现上升的趋势,并且达到特征曲线的最大光谱值。从灌浆期、乳熟期到成熟期,水稻进入生殖生长阶段,对水分需求量逐渐降低。同时,水稻叶片等器官的色素浓度减少、光合作用能力下降,水稻籽粒硬化成熟。对应的水稻NDVI、EVI、LSWI 指标也表现出显著的下降趋势。此外,雷达数据时序VV、VH 特征曲线在水稻各个生育时期的变化与光谱特征曲线一致(图2b),也证明了集成利用光学、雷达极化波段监测水稻季节变化的可行性。

图2 水稻光谱与VV、VH波段月度特征曲线Fig.2 Monthly characteristic curves of rice spectrums and VV and VH bands

2.2 水稻种植区域月度分布

图3a—e 分别是4—8 月份水稻全生育期的月度种植面积提取结果,每期面积提取结果与水稻关键生育时期基本吻合。为评估每期水稻面积提取结果的精度,利用OA、Kappa 系数指标进行分析。水稻移栽期、分蘖-拔节期、孕穗-抽穗期、灌浆期、成熟期OA 分别为0.98、0.98、0.97、0.97、0.97,Kappa系数分别为0.97、0.97、0.94、0.93、0.92,移栽期和分蘖-拔节期提取精度较高,孕穗-抽穗期、灌浆期和成熟期提取精度次之(表1)。对于提取面积的RE绝对值而言,5个关键生育时期的排序为移栽期>孕穗-抽穗期>成熟期>灌浆期>分蘖-拔节期(图3f)。分蘖-拔节期的误差最小,这表明,分蘖-拔节时期的水稻生长环境更加稳定,卫星传感器更能够捕捉水体-植株混合的反射光谱、雷达后向散射特征,从而提高水稻面积提取精度。

表1 水稻移栽期至成熟期种植面积提取的评价指标Tab.1 Classification indicators of planting area from transplanting stage to mature stage

2.3 基于时序频率的水稻提取与分析

图4a—e 展示了TPFCM 模型输出的研究区域水稻空间分布频率。为精确分析不同频率间隔的水稻面积提取误差,将设置频率间隔步长为0.2,分析了0.2~1.0 频率间隔所对应的水稻总种植面积。在水稻移栽期至成熟期的时序像元频率约束结果中,频率为1.0、0.8、0.6、0.4、0.2 的像元占比分别为27.3%、23.7%、20.6%、16.9%、11.4%。频率值大于等于1.0、0.8、0.6、0.4、0.2 的面积提取RE 分别为67.96%、40.17%、16.01%、-3.83%、-17.19%(图4f)。根据上述不同频率间隔的水稻面积提取RE,分析发现,频率大于等于0.4 的水稻面积提取RE 绝对值最小(3.83%),这也表明0.4 为本研究最佳频率阈值。且与单一生育时期的最小RE 绝对值(7.77%)相比,该频率值所对应的水稻面积提取RE 绝对值减少了3.94 百分点,有效降低了面积提取产生的误差。同时也说明,尽管基于关键生育时期内的单景影像能提取水稻的种植区域,但综合水稻全生育期的水稻频率约束能进一步提高水稻面积提取效果。

图4 水稻像元频率空间分布Fig.4 Spatial distribution of rice pixel frequencies

图5a 展示了提取的南昌市9 个县级行政区的水稻面积空间分布与量级大小。其中,水稻种植区域面积相对较大的行政区有4 个,分别为南昌县(688.47 km2)、新建区(429.01 km2)、进贤县(346.37 km2)和安义县(105.88 km2)。这4 个县水稻种植面积占总面积的99.50%。水稻种植面积较小的县区分别为青山湖区(3.67 km2)、湾里管理局(3.14 km2)。由于上述地点主要位于城区,土地利用方式以建筑用地为主,耕地面积较少,因此水稻提取面积偏低。图5b 展示了各行政区水稻种植统计面积与模型提取面积的线性相关性分析结果,二者存在显著的相关性(R2=0.97),也进一步证明了TPFCM 模型提取水稻的准确性。

图5 水稻分区面积统计与相关性Fig.5 Rice extraction area statistics and correlation

2.4 与基于RF分类器单一生育时期水稻提取效果比较

为进一步分析TPFCM 模型提取水稻面积的效果,与基于RF 分类器提取的单一生育时期的水稻空间分布数据进行对比分析(图6)。挑选了平原和河谷两类地形的水稻种植子区域,以便突出比较RF单一生育时期水稻面积提取结果与TPFCM 模型的差异性。结合GF1 假彩色合成影像可以发现,在平原区域(图6a—b),RF 单一生育时期的水稻空间分布和TPFCM 模型大致相同(图6e—h,图6i—l),但是在细节部分存在较大差异。可以明显看出,单一生育时期内RF 算法的水稻提取结果在田间小路、撂荒地等区域造成了误分(图6e—f)。虽然单一生育时期的影像集成了光谱波段和光谱指数特征,但是在水稻处于分蘖-拔节期间,RF 分类器难以准确区分与水稻光谱相似的田间小路和撂荒地自然生长的杂草等像元,造成同谱异物现象。在河谷地区(图6c—d),RF 能相对准确提取河谷区域大面积水稻种植区域,但并未能有效提取河谷区域小面积的水稻田地块(图6g—h)。而TPFCM 模型通过对水稻全生育期的水稻像元进行频率约束控制,确定了水稻种植区域,更准确地提取了河谷地区小区域水稻田分布空间(图6k—l)。

图6 RF单一生育时期水稻面积提取结果与TPFCM模型水稻面积提取结果比较Fig.6 Comparison of RF single-phase rice extraction results and TPFCM model rice extraction results

图6i—l 为TPFCM 模型提取水稻种植区域,与单一生育时期RF 算法提取的水稻区域相比,TPFCM 模型更能从影像时序光谱特征上捕获水稻信号并确认为水稻像元,从而有效提取研究区内的水稻空间分布。该模型在平原区域能准确区分水稻和非水稻像元,同时,也能精细地监测河谷小区域水稻种植空间分布。

3 结论与讨论

在本研究中,得益于研究区域内大量存档的多源遥感数据的支持,TPFCM 发挥出较强的分类能力,准确地提取了南昌市水稻种植区域。但该模型的提取步骤依然存在着一定的不确定性:(1)水稻全生育期内多源影像质量。为尽可能多地获取研究区内全覆盖无云光学影像,将多期云掩膜后的Landsat-8、Sentinel-2 进行了影像合成,生成了多期全覆盖的影像数据,并计算了NDVI、EVI和LSWI光谱指数作为分类特征输入分类器。由于Landsat-8和Sentinel-2 可见光区域和短波红外区域的波长范围并非完全一致,2 种星源对应波段存在细微的光谱反射差异,将二者合成影像及其光谱指数输入分类器,一定程度上影响了分类效果。此外,对于大尺度的水稻分类区域,受制于云雨的影响,Landsat-8、Sentinel-2 光学影像会形成时间连续、大面积的“污染”像元,尽管补充了雷达数据作为分类特征,也会影响到水稻的准确提取。(2)水稻预提取面积结果。由于像元时序频率约束并不以原始影像为分类对象,而是以水稻关键生育时期预提取面积结果为输入对象,因此,预提取结果的数量和质量直接影响到最佳的水稻分布区域。像元时序频率约束方法通过类似“投票”的方式,评估所有参与提取的影像在同一像元位置是否为水稻像元,并根据每期水稻提取影像在该像元出现的次数赋予最终的频率值。通常水稻生育期内预提取结果期数越多,像元时序频率约束输出水稻频率分布越准确。

本研究借助Google Earth Engine 云服务平台调用了水稻生育期内存档的Landsat-8、Sentinel-2、Sentinel-1 等多源遥感数据,并生成了逐月的特征矩阵,通过TPFCM 准确提取了研究区内水稻空间分布区域,RE 绝对值为3.83%,与基于RF 分类器单一生育时期的水稻提取面积最小RE 绝对值相比减少了3.94百分点。通过研究分析,TPFCM 能在一定程度上通过多期频率计算的方式降低云雨和错分的影响,提高水稻提取效果。总之,TPFCM 有助于快速、有效提取以南昌市为代表的南方水稻空间分布,为后续进一步的研究提供高质量的水稻空间分布数据支持。

猜你喜欢

生育期分类器生育
不同生育期大豆品种氮素积累特性研究
决不允许虐待不能生育的妇女
BP-GA光照分类器在车道线识别中的应用
应对生育潮需早做准备
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
不能生育导致家庭破裂
不同生育期水分亏缺对烤烟干物质积累与代谢酶活性的影响
基于作物生育期的潜在蒸散的时空演变特征及R/S 分析
医改和生育 两大重点有看头