2020–2022 年三江平原主要农作物种植分布遥感监测数据集
2024-01-11乔树亭叶回春刘荣豪郭安廷张冰瑞钱彬祥魏鹏黄文江
乔树亭,叶回春,刘荣豪,郭安廷,张冰瑞,钱彬祥,魏鹏,黄文江
1.可持续发展大数据国际研究中心,北京 100094
2.中国科学院空天信息创新研究院,数字地球重点实验室,北京 100094
3.海南空天信息研究院,海南省地球观测重点实验室,海南三亚 572029
4.太原理工大学,水利科学与工程学院,太原 030024
5.中国矿业大学(北京),地球科学与测绘工程学院,北京 100083
引 言
我国既是粮食生产大国又是消费大国,粮食安全不仅影响社会稳定和经济发展,更关系国家长治久安[1]。三江平原位于黑龙江省东北部,不仅是我国黑土地宝贵资源的重要组成部分,还是我国粮食安全关键地区和优质商品粮基地[2]。然而,伴随以可持续农业生产和缓解大豆国际贸易压力为目标的作物轮作实践,该地区的种植制度逐年发生了显著变化[3]。缺乏高精度的年度作物分布图,导致我们对耕地动态和耕作制度变化的潜在驱动因素的理解有一定的欠缺[4]。
目前随着新获得的中等分辨率卫星图像、新算法的发展和云计算基础设施的融合,作物制图取得了相当大的进展[5]。金翠等[6]以250 m 空间分辨率MODIS/NDVI 时间序列数据集为数据源,采用“分层非监督分类法”得到三江平原土地覆盖类型,但MODIS 数据由于其分辨率过低,混合像元的问题很难解决。王楠[7]使用250 m 空间分辨率的MODIS 遥感影像以及30 米空间分辨率的美国陆地资源卫星Landsat 5 TM 影像进行黑龙江省作物种植结构提取;杜国明等[8]使用Landsat TM 以及Landsat OLI 影像为主要数据源,刻画三江平原农作物种植结构时空演变特征及规律,尽管与之前使用低分辨率MODIS 数据[9]的工作相比,Landsat 图像可以提供更多的空间细节,但16 天的重访周期无法轻易地分离不同的作物种类,从而限制了所得影像分类的准确性[10-11]。Sentinel-2 卫星携带多光谱成像仪共13 个波段,其中4 个波段的分辨率为10 m,6 个波段分辨率为20 m,3 个波段的分辨率为60 m,光谱覆盖范围从可见光到近红外至短波红外,并以5 天的间隔提供图像[12],这为地块级别的作物特定监测开辟了一条全新的途径。10 m 至20 m 的空间分辨率可以描述不同地区的各类田块,相对较短的重访周期可以提供与各个作物类型相关的更详细的物候信息[13]。此外,Sentinel-2 卫星包括几个红边波段,已被证明是区分玉米和大豆的有效手段。因此,在东北地区的三江平原主要作物制图上使用长时序的Sentinel-2 图像是当前分类研究的重点[14]。
本文以三江平原为研究区,利用时间序列的Sentinel-2 卫星遥感数据,结合三江平原地面实地典型地物调查数据,筛选主要农作物及周边典型地物的特征波段,采用随机森林分类算法,提取了2020–2022 年三江平原主要农作物(水稻、玉米和大豆)种植分布遥感监测数据集。本数据集不但在分类像元精度上相较于其他数据集得到了大幅度提升,而且总体分类精度相较于使用MODIS[6,9]与Landsat 系列卫星[7-8]也有明显进步,通过连续三年的实地样本考察也保证了作物分类的准确性。可以作为三江平原农作物种植格局时空变化分析的基础数据,同时也为三江平原农业生产管理决策提供信息支撑,服务区域农业信息化建设以及黑土地保护与利用。
1 数据采集和处理方法
1.1 数据采集
本文所用数据为2020–2022 年Sentinel-2(S2)多光谱卫星(MSI)图像(2A 级),来自Google Earth Engine(GEE)平台(https://code.earthengine.google.com/)。根据GEE 平台上官方发布的Sentinel-2 影像数据说明,Sentinel-2 遥感影像产品等级包括1C 级和2A 级,其中2A 级数据是已经经过大气校正的大气底部反射数据可以直接运用到本研究中。
三江平原主要农作物的地面样本点主要通过2020–2022 年野外现场调查,并结合多时相的Google Earth 高分辨率影像数据获取。地物类型共分为四类:水稻、玉米、大豆及其他地物,由于除三种作物以外的其他地物(比如水体、山体和建筑)等地物类型一般不会随着年份产生明显变化,所以三年样本点中的其他地物样本点皆为相同样本点。其中,2020 年包含水稻样本点502 个、玉米样本点300 个、大豆样本点300 个、其他地物样本点1308 个;2021 年水稻样本点470 个、玉米样本点630 个、大豆样本点361 个,其他地物样本点同上;2022 年水稻样本点585 个、玉米样本点302个、大豆样本点311 个,其他地物样本点同上(图1 为2020–2022 三年样本点分布图)。以上所有样本点按3:1 的比例分为训练样本以及验证样本。
图1 2020–2022 年三江平原典型地物实地调查样点分布图Figure 1 Distribution of typical ground objects in Sanjiang Plain from 2020 to 2022.
1.2 数据处理方法
1.2.1 卫星数据处理
本方法选用2020–2022 年Sentinel-2(S2)多光谱卫星(MSI)图像(2A 级)。以往研究已经证明了2A 级数据在图像分类上的可靠性,最近多年的许多研究已经证明Sentinel-2 对于水稻、玉米、大豆三种作物的可靠监测[15-16]。以下为对于Sentinel-2 卫星数据预处理过程:
(1)考虑到云在所有可见带中都是潮湿的,使用四个波段(气溶胶、蓝色、绿色和红色波段)和两个光谱指数(归一化差值水分指数NDMI 和归一化差雪指数NDSI)计算云含量并检测S2 数据的云[17]。两种指数的计算公式如(1)(2)所示:
式中,NIR为近红外波段,MIR为中红外波段,GREEN为绿波段,SWIR1为短波红外波段。
(2)用有效S2 观测值的中值生成10 天复合数据;
(3)通过线性插值来填补数据缺口,以实现整个时间域的完全覆盖;
(4)使用Savitzky-Golay(SG)滤波器平滑10 天时间序列数据。在本数据集中,我们使用70天的窗口大小和三阶多项式。
最终得到基于整个生长季规则的无云和间隙填充的10 天S2 时间序列影像共18 幅。
1.2.2 特征选取
主要通过前人的研究以及基于Google Earth Engine 对各类地物选取不同特征波段进行分析,最终选取B8[16]、B11[16]、B12[16]、EVI(增强型植被指数)[18]、NDVI(归一化植被指数)[19]、LSWI(地表水分指数)[20]、NDSI(归一化雪盖指数)[21]、NDSVI(归一化耕种指数)[22]、NDTI(归一化温差指数)[23]、NDWI(归一化差分水体指数)[23]、RENDVI(改进归一化植被指数)[24]、REP(红边位置指数)[24]为每幅影像的特征波段(筛选过程如图1 所示),计算公式如(3)–(10)所示:
式中,RED为红波段,GREEN为绿波段,BLUE为蓝波段,NIR为近红波段,SWIR1 是中心波长为1613.7 的短波红外波段,SWIR2 是中心波长为2202.4 的短波红外波段,RE1 为中心波长为704.1的红边波段,RE2 为中心波长为740.5 的红边波段,RE3 为中心波长为782.8 的红边波段。
综上计算共18 幅10 天时间序列合成影像,共计216 个特征,特征过多在分类过程中容易造成冗杂的现象,所以通过Google Earth Engine 中随机森林分类器自带的重要性排序功能筛选特征波段,将重要性排名前15 的特征波段保留。将以上筛选得出的特征波段放入随机森林分类器中进行分类。
1.2.3 分类器参数设置
随机森林(RF)作为一种自然非线性分类器,可以通过平均每个决策树的预测来获得最终预测。先前的研究表明,RF 比许多传统分类器(如最大似然法、决策树和单层神经网络)更准确[25]。在训练作物分类器时,我们调整了GEE 中RF 的两个参数:(1)Number Of Trees:决定了用于构建RF模型的二进制决策树的数量,在本方法中设置为100。(2)Min Leaf Population:叶节点所需的最小样本数,设置为10,以限制每棵树的深度以避免过拟合。其他4 个参数在GEE 中默认设置[23]。
1.2.4 平滑影像处理
本研究使用八邻域空间滤波处理,对于最终分类结果小于0.1 公顷的作物斑块,通过半径为100米的基于圆形核的多数过滤器将结果进行更新。大多数斑点通过八领域空间连通性处理算法在生成的分类结果中消失。整体流程图如图2 所示。
图2 分类流程图Figure 2 Flow chart of classification
2 数据样本描述
2.1 数据集信息
本数据集为基于Sentinel-2 卫星遥感数据提取得到的2020–2022 年三江平原主要农作物(水稻、玉米和大豆)种植分布数据,其空间分辨率为10 米,坐标系为WGS84,总数据量为5.64 GB。本数据集包含2020 年至2022 年三年的主要作物(水稻、玉米、大豆)的分类结果数据,每个年份数据包含4 个文件:影像文件、金字塔文件、栅格的辅助文件、影像坐标信息的文本文件。
2.2 数据样本
通过利用Sentinel-2 卫星的10 天时间序列影像数据,提取了2020–2022 年三江平原主要农作物种植分布数据。将数据在ArcGIS 软件中打开,可以看到数据分成了3 类,分别是1、2 和3,其中1表示水稻,2 表示玉米,3 表示大豆。如图3 所示为2020–2022 年的三江平原主要农作物分类结果图。对不同农作物的种植分布面积进行统计分析,可以探究不同时期三江平原农作物种植格局的时空变化规律。也可将提取结果叠加到黑龙江省行政区划图上,得到各市县的作物种植情况分布,为农业生产管理决策提供信息支撑,服务区域农业信息化建设以及黑土地保护与利用。
图3 2020–2022 年三江平原主要农作物种植空间分布图Figure 3 Spatial distribution of major crops in Sanjiang Plain from 2020 to 2022
3 数据质量控制和评估
本研究分类结果评价均采用混淆矩阵作为分类精度的评价方法。对于精度评价的指标主要利用了生产者精度、用户精度、总体精度以及Kappa 系数4 个精度评价指标。其中根据野外调查结果和遥感影像目视解译结果,用于验证结果的样本点分别为:2020 年水稻样本点125 个,玉米样本点75个,大豆样本点75 个,其他地物样本点327 个;2021 年水稻样本点146 个,玉米样本点75 个,大豆样本点77 个,其他地物样本点327 个;2022 年水稻样本点118 个,玉米样本点158 个,大豆样本点90 个,其他地物样本点327 个。最后利用验证样本点数据对提取结果进行精度验证,结果如表1所示。2020 年、2021 年和2022 年三江平原三大农作物提取的总体精度分别为95.18%,95.0%,94.5%,Kappa 系数为0.924、0.925 和0.919。
表1 基于Sentinel-2 卫星数据的2020–2022 年三江平原主要农作物种植分布提取精度评价Table 1 Accuracy evaluation of planting distribution extraction for major crops in Sanjiang Plain from 2020 to 2022 based on Sentinel-2 satellite data
4 数据使用方法和建议
本数据集是一套基于Sentinel-2 卫星数据的2020–2022 年三江平原主要农作物种植分布遥感监测数据产品。数据可以在ArcGIS 等相关软件中进行读取、编辑以及后续的一系列分析工作。如果对不同提取结果进行统计,可以得到2020–2022 年的主要农作物种植分布面积变化信息。本数据集凸显了三江平原农业发展的经济、生态、社会和文化价值,为顺应全面推进乡村振兴新要求,拓展农业多种功能,推动农业高质高效、农民富裕富足,为全面推进乡村振兴、加快农业农村现代化提供有力支撑。不但可以作为三江平原农作物种植格局时空变化分析的基础数据,同时也为农业生产管理决策提供信息支撑,加快推进农业农村现代化进程。
数据作者分工职责
乔树亭(1998—),男,山西孝义人,硕士研究生,研究方向为农业遥感研究。主要承担工作:数据收集、处理与质量控制,数据论文撰写。
叶回春(1985—),男,浙江杭州人,博士,副研究员,研究方向为植被定量遥感机理及应用研究。主要承担工作:数据集生产和实地验证,数据论文撰写。
刘荣豪(1985—),男,山东临沂人,博士,副教授,研究方向为农业水利及利用。主要承担工作:数据集生产和数据论文修改。
郭安廷(1991—),男,山东滨州,博士,博士后,研究方向为植被定量遥感及应用。主要承担工作:实地考察与数据论文修改。
张冰瑞(1997—),女,河南商丘人,硕士研究生,研究方向为农业遥感研究。主要承担工作:实地考察、数据论文撰写与修改。
钱彬祥(1995—),男,河南信阳人,博士研究生,研究方向为3D 作物建模及光谱模拟、参数反演。主要承担工作:实地考察、模型建立与验证。
魏鹏(1997—),男,山西大同人,硕士研究生,研究方向位农业遥感研究。主要承担工作:数据集生产和数据处理。
黄文江(1972—),男,安徽怀宁人,博士,研究员,研究方向为植被定量遥感及应用研究。主要承担工作:数据质量控制,数据论文修改。