基于多时相植被指数的云南高原山地冬小麦识别与研究
2024-01-15杨永明牛昱杰安卫国颜定飞
杨永明, 牛昱杰, 安卫国, 郭 钰, 颜定飞
(1.滇西应用技术大学地球科学与工程学院,云南 大理 671000; 2.昆明理工大学国土资源工程学院,云南 昆明650031; 3.云南省高校山地实景点云数据处理及应用重点实验室,云南 大理 671006; 4.滇西应用技术大学多源数据融合实景三维构建研究科技创新团队,云南 大理 671006; 5.海南大学土木建筑工程学院,海南 海口 570228)
0 引言
粮食的安全保障是国家的基础,冬小麦是我国重要的粮食作物之一[1-2]。云南省位于我国西南冬麦区,其农业特色是以坝子农业为主。对云南省冬小麦种植面积的快速预测,是准确预测粮食产量的基础。此外,云南省高原山地冬小麦的空间分布对粮食政策的制定具有重要作用。传统农作物种植面积和空间分布信息需要人工现场实地考察等方式获取,不但耗费大量人力、物力,同时无法及时快速地更新有关信息[3]。而随着中高分辨率遥感卫星技术的发展,利用多时相遥感数据便可以对地形复杂、植被茂密的云南省高原山地农作物的相关信息进行快速地获取,从而优化工作流程,因此利用遥感数据对云南省高原山地农作物种植面积的提取具有重要意义[4]。
随着卫星遥感影像技术的发展,光学卫星影像作为数据源被广泛应用在耕地信息提取的各个领域[5-6]。MODIS 数据具有重返周期短、光谱范围广、更新频率高、数据易接受和相对完善的处理产品等特点,近年来在作物耕地信息提取研究中时序数据被广泛应用,但受限于MODIS 的250 m 空间分辨率而无法对耕地作物精细化提取[7-9]。Landsat 8 卫星数据(30 m)重返周期为16 d,相较于前者有较高空间分辨率,有研究指出利用Landsat 8 OLI 数据获取的多特征信息,通过随机森林分类方式能够有效地对耕地信息进行提取[10]。GF 系列光学卫星数据可利用其较高的空间分辨率,降低影像中像元的混合比例,在对耕地信息精细化的提取研究中被广泛使用[11]。2017—2022 年,欧空局开始提供较高空间分辨率、波段信息丰富、双星互补重返周期为5 d 的哨兵2 号(Sentinel-2)卫星数据,相较于上述卫星数据具有高空间分辨率、重复周期短等优势,在对河北省的冬小麦精确提取研究中,利用归一化差异植被指数(Normalize Difference Vegetation Index,以下简称植被NDVI)长时序影像提取的总体精度高达92.8%,Kappa系数在0.855 8 以上,试验表明,Sentinel-2 为农作物耕地信息精准提取提供了数据支撑[4]。
耕地信息的提取主要基于分类算法进行研究,随着更多新算法的出现及算法技术的改进,适宜的算法可以逐渐提高对作物的识别效率及精度[5]。有研究表明,基于多源卫星数据集,利用不同指数特征信息方法对我国北方产粮区的冬小麦种植面积提取的精度高达96.31%;在我国南方地区,利用分层提取原理对冬小麦两个关键期提取的种植面积精度约90.2%,而利用多源时序数据的多特征组合分析等方法则将提取精度提高至90.6%[12-15]。随着算法技术的不断进步,农作物耕地面积提取精度也在不断提高。在空间分辨率2.5 m的SPOTS 遥感数据对耕地信息提取试验中,SEaTH 算法与CART 算法的总体精度均超过90%,但SEaTH 算法更适合快速提取耕地信息[16]。随着Sentinel-2卫星数据对耕地信息提取研究的广泛应用,有研究表明,通过结合10 m 分辨率的Sentinel-2 卫星数据和其光谱特性、指数特征等信息,对比4 种不同分类算法对耕地信息的提取,证明利用RF 算法耕地信息提取结果最佳精度最高达到88.52%,有效地优化了提取结果[17]。而在耕地面积稀少、坝子农业特征明显、植被覆盖率高及光学卫星影像覆盖缺失等因素背景下,对我国云南省高原山地地区的农作物耕地信息提取的研究较少。近年来,利用多期影像融合来提取耕地信息的技术被逐渐应用于耕地信息提取研究中,并获得高精度耕地信息,利用增强植被指数(Enhanced Vegetation Index,以下简称植被EVI)提取南方冬小麦种植面积总体精度约为87.1%,但利用多时序影像的不同植被指数对比方式提取冬小麦种植面积的研究较少[9,18-20]。
本研究区位于云南省西部横断山系纵谷区,地形复杂,植被覆盖率高,具有我国西南高原地区特有的坝子农业,受“异物同谱”“异谱同物”的影响,单期的哨兵遥感影像数据无法对云南省高原地区农作物种植面积进行精确提取[21]。现有对耕地信息提取的研究多针对冬小麦产粮大区,但针对西南冬小麦区的相关研究较少,或多利用中低分辨率遥感影像对冬小麦范围进行粗提取,无法实现对西南高原山地冬小麦的精细化识别[22-25]。鉴于此本研究提出了利用Sentinel-2数据,基于多时相影像对2020—2021 年云南省高原山地农作物种植面积的预测方法进行研究,揭示多时相植被指数数据可以有效反映云南高原山地农作物生长变化的规律,为当地的农业生产提供数据支撑,明确了利用多时相数据和多特征信息可有效对农作物耕作面积进行预测。因此,对高原山地农作物种植面积识别方法的研究,为西南冬麦区的识别与提取提供参考,具有一定的研究价值。
1 研究区概况与数据分析
1.1 研究区
本研究区位于南涧彝族自治县(以下简称南涧县),隶属于云南省大理白族自治州(100°06′~100°41′E,24°39′~25°10′N),总面积达1 738.82 km2,地处横断山系纵谷区,地形复杂,多以山地为主,并且耕地较为零散,种植农作物历史悠久,以冬小麦和玉米为主,南涧县具有我国西南冬麦区典型耕种特征,为大理州冬小麦种植面积较大的县域。自然生态资源丰富,种植冬小麦作物历史悠久,2021 年南涧县县域内冬小麦种植面积为2 694 hm2,冬小麦生长期是10 月下旬播种,次年5 月收割,冬小麦物候期如表1 所示[26]。
1.2 数据来源介绍
Sentinel-2 卫 星 数 据 由 A( Sentinel-2A) 与B(Sentinel-2B)双星互补提供,重返周期5 d。本研究区域由编号为RPH 一景影像覆盖,使用影像数据来源于https://scihub.copernicus.eu 平台所提供的S2MSI 产品,包含1C 级数据和2A 级数据,其中1C 为经过正射校正、几何校正的产品,2A 级数据为经过BOA 正射校正的影像。Sentinel-2 卫星影像覆盖有13 个波段,包含10、20 和60 m 共3 种空间分辨率,选择的时相是从2020 年10 月—2021 年6 月,在冬小麦生长期的每个阶段获取一景云量<30%研究区影像,影像时间间隔尽可能保持一致。Sentinel-2 卫星数据使用SNAP 软件处理工具,利用Sen2Cor 插件对其大气校正和辐射定标并重采样获得10 m 影像,通过构建的数据集,可对其中地类光谱信息、各种植被指数等信息进行分析。
植被指数(Vegetation Index,以下简称植被VI)通过植被的光谱特征有效地表现植被的遥感影像特征信息,是云南省高原山地农作物夏粮快速识别的关键,可以反映特定植被变化特征。选择了光谱特征中与农作物密切的蓝色波段、绿色波段、红色波段和近红外波段4 个波段,如表2 所示。
长时间序列影像构建的植被曲线图可以有效反映研究区植被的生长状况。基于GEE(Google Earth Engine)平台,结合高清卫星影像选择研究区地类样本降噪重建,最终构建研究区地类的长时序曲线图。
2 研究方法
本研究包括多时相数据集准备、农作物特征识别与比较、监督分类模型提取、精度评定及作物特征可分离性讨论。技术路线如图1 所示。首先对多期Sentinel-2 卫星数据预处理并提取多种植被指数,然后将每种植被指数多期影像进行组合,最后使用监督分类模型对影像中农作物指数特征分析其可分离性,最终根据研究结果讨论不同特征信息对农作物识别的影响及不同植被指数模型之间的差异。
图1 技术路线Fig.1 Technical route
为探究不同耕地特征对云南高原山地农作物识别的影响因素,本研究选取植被指数、光谱曲线、物候特征、纹理和长时序植被指数曲线特征,构建多期植被指数影像合成模型进行农作物耕地范围的识别与提取。
基于Sentinel-2 时序遥感影像的高原山地地区耕地作物监测及信息提取,主要涉及两个部分,一是利用哨兵影像对耕地信息的识别,二是耕地信息提取方法的选择。在哨兵影像数据10 m 分辨率对云南高原山地研究区作物识别过程中,受到云、雾等自然条件的影响,通过单期影像对冬小麦耕地的识别具有一定的局限性,因此,需要基于面向对象的方法,结合冬小麦的物候谱、光谱曲线和长时序植被指数曲线重构等多种条件对冬小麦耕地信息识别。
2.1 时序植被指数合成
时序植被指数影像可以有效突出冬小麦的地类特征,更好展现出不同地物的可分离性。本研究根据植被指数特性,选用3 种植被指数,包括植被NDVI、植被EVI和植被RECI,以此表现出不同地类在时序指数影像种的特征。如图2 和图3 所示,图中绿色(中间部分)地类表示以冬小麦为主的指数呈增长趋势的作物。为进一步确定冬小麦所对应图斑的颜色,在选冬小麦样本的时候,遵循冬小麦在对应生长期的光谱波段特定数值区间的要求,以及对照高清影像等对地类样本进行确认。
图2 农作物样本示意Fig.2 Schematic diagram of crop samples
图3 植被指数融合影像示意Fig.3 Schematic diagram of vegetation index fusion image
时序植被指数模型是指将一定生长期间隔的植被指数,通过波段合成技术(Layer Stacking)将其融合为一幅影像,从而获得一张最大程度反映不同地物特征差异的图像,并对不同时段像元地类的植被指数的变化情况进行识别与分析[27]。将融合后模型中的不同地类图斑与多期的原始影像变化特征、高清影像做分析比对,从而得出不同图斑地类分别代表的地类信息。
本研究中涉及的植被NDVI、植被EVI和植被RECI相关特性:植被NDVI可适用于跟踪植被发育状态及植被覆盖率,是一种可反应植被空间分布密度的指标;植被EVI则是用于植被茂盛地区的一种指数,用来增强对植被覆盖区的敏感性,较好地处理植被NDVI的饱和问题;植被RECI是指当植被覆盖度较高的时候,对植被异常敏感,并且对植物中氮含量敏感,可用于植物的生长发育期[28-33]。
式中NDVI——植被NDVI值
EVI——植被EVI值
RECI——植被RECI值
ρNIR、ρRED、ρBLUE——近红外、红色和蓝色波段的光谱反射率,在Sentinel-2 影像数据中,表示波段8(842 nm)、波段4(655 nm)和波段2(490 nm)
生长关键期是指农作物区别于其他地类在植被指数变化中特有的时间段,因此选择农作物生长期内的关键期能够得到精度较高的分类结果。本研究选取冬小麦、同期作物、林地、水域和不透水层5 种地类样本,获取并构建的3 种植被指数的时序曲线,如图4、图5 和图6 所示。研究表明,冬小麦的植被指数在每年11 月—次年1 月的时序曲线区别于其他地物植被指数在冬小麦收获期(次年5 月)前后,植被指数会骤降,但在云南省高原地区每年的5—8 月受到云量增多等因素的影响,导致影像缺失。因此,主要选择出苗-分蘖时间段(11 月上旬—次年1 月)为农作物生长关键期对冬小麦进行研究分析。基于GEE 平台,获取Sentinel-2A 数据影像,构建云南省高原山地各地类的不同植被指数长时间序列的变化规律。
图4 不同土地利用类型植被NDVI 时序曲线Fig.4 Time series curves of vegetation index of different land use types
图5 不同土地利用类型植被RECI 时序曲线Fig.5 Time series curves of vegetation index of different land use types
图6 不同土地利用类型植被EVI 时序曲线Fig.6 Time series curves of vegetation index of different land use types
2.2 物候及光谱曲线特征
农作物的物候是反映作物受自然环境条件的影响产生的周期性的生长规律,有研究指出农作物的植被指数会随着其所处生长期的不同而产生一定的数值变化,通过对比不同植被指数对农作物特征呈现情况,选择最适宜的植被指数对农作物进行识别[34]。光谱数值随着作物生长期发生改变,在对农作物识别时通过对波段阈值的选择来识别。
在监督分类过程中可视化每个地物的每个波段的特征,有助于确认地物的可分离性,此类图表为光谱特征。分别选取了2020 年11 月20 日、2020 年12 月30 日和2021 年1 月29 日Sentinel-2A 遥感影像,并基于高清影像的判断及现场识别等方式,分别选取地物样本有冬小麦、水域、不透水层、林地和其他作物,获得各日期的光谱曲线特征,如图7 所示。
图7 作物生长关键期光谱曲线Fig.7 Spectral curve of critical crop growth period
在对研究区冬小麦作物的影像光谱特征曲线统计分析中,农作物的生长关键期冬小麦的光谱曲线数值在第8 波段(842 nm)上升明显,并且12 月的数值为3 500~4 000 nm,而到1 月该数值则会超过4 000 nm;第4 波段(665 nm)在关键期处于水平位,为500~1 000 nm,没有明显变化趋势;第2、3 波段(490 nm、560 nm)由11 月—次年1 月先增加后没有明显变化。根据这一特性,在样本选取时,对应的日期及波段值与这一特性相符,可以有效地提高样本选择精度。
2.3 纹理特征
图像的纹理特征可以呈现对应地物的表面性质及空间领域灰度值分布情况[35]。而影像的纹理特征是一种结构化的表现形式,在Sentinel-2 遥感影像中可选择红色波段、近红外波段和绿色波段对农作物有效识别。
3 结果与分析
为了寻找一种快速提取云南高原山地农作物耕地信息的方法,本研究使用植被指数、光谱曲线、物候特征和长时序植被指数曲线特征4 类特征研究对比,结合支持向量机(Support Vector Machine,SVM)算法进行识别分类试验,分析不同特征条件下的影响因素对多期植被指数模型的分类差异。
3.1 不同植被指数的种植面积提取结果
本研究以2020—2021 年的数据进行数据提取,采用Sentinel-2 高分辨率多光谱卫星数据,进行冬小麦信息的目视解译,使用多期植被合成的方法影像合成,基于规则在南涧县内选取229 个样本。
在对多期植被指数模型使用SVM 的监督分类后得到的分类结果如表3 所示,当年冬小麦耕地公布面积约2 694 hm2。
表3 不同植被指数3 期影像合成冬小麦提取结果Tab.3 Extraction results of three-stage image synthesis of winter wheat with different vegetation indexes
对比3 种不同植被指数的提取结果,多期植被NDVI模型提取结果优于另两种植被指数,对细碎的冬小麦分布地区识别的用户精度为93.28%,而植被EVI多时相融合模型和植被RECI多时相融合模型提取结果,无法满足实际要求,在河流和道路边界处存在错提现象,细碎地块的冬小麦受到周围环境及混合像元的干扰无法识别提取,图像像元存在同质化现象,因此造成农作物漏提现象的产生。对比3 者提取,结果表明,使用植被NDVI的多时相融合模型在SVM 监督分类下,该模型与云南省高原山地的冬小麦耕地信息有较高相关性,可以有效地对冬小麦面积进行预测。
3.2 不同时相组合的种植面积提取
表4 列出了基于本研究区内两种日期组合方式下,多期植被NDVI模型的提取结果。本研究中对比植被NDVI在使用2 期指数模型和3 期指数模型下分类的差异,以及这两种模型的提取结果。2021 年南涧县统计年鉴给出的冬小麦种植面积为2 694 hm2,3 期植被NDVI实际预测种植面积为2 726.8 hm2,Kappa 系数为0.91,2 期植被NDVI实际预测种植面积为3 170.1 hm2,Kappa 系数为0.89[26]。对比植被NDVI的两种合成期数在影像实际提取结果可以发现,3 期影像合成模型对冬小麦分类提取结果精度更高,2 期植被指数模型依然会存在一定的地物错提现象。
表4 不同合成期数提取结果Tab.4 Extraction results of different synthesis periods
对比植被NDVI的2 种日期组合方式下在南涧县的冬小麦面积预测结果表明,2 种多时相的组合方式均满足对耕地面积的提取,其中3 期的组合结果更优。
3.3 精度验证
在对冬小麦耕地信息提取结果的精度进行定量评定时,根据统计年鉴冬小麦种植面积数据对提取结果检验,随机选取一定比例的冬小麦图斑利用Google 地图及World Imagery Wayback 的高清历史影像来确认提取冬小麦的准确率,再使用混淆矩阵(Confusion Matrix)来分析误差,通过上述研究可知利用3 期的植被NDVI构建的多时相植被指数融合模型提取的冬小麦种植面积较为精准,并且图斑结果较为准确,但存在少量被其他作物与历史影像对比后确认为被错误识别提取,及部分漏提现象的产生如表5 所示。
表5 2020—2021 年南涧县样本点个数及正确分类个数Tab.5 Number of sample points and correct classification in Nanjian County from 2020 to 2021
分别选取167 个为冬小麦样本及33 个为非冬小麦样本,经检验其中153 个样本点正确,14 个样本点错误,分类精度91.6%。分析提取误差的原因主要是由于Sentinel-2 卫星数据为10 m 分辨率,在冬小麦区域边界地带存在混合像元,导致选择样本存在一定差异。此外,人工在选择冬小麦样本的标注过程中,样本标注不准确也对结果存在一定的影响。
4 讨论
受到云南省自然环境的影响,对高原地区作物的提取研究多是采用监督分类算法或植被NDVI加权指数(WNDVI)分类算法,在通过多时相的植被指数合成模型提取的研究较少[4]。恰当的多时相植被指数合成模型特征可以影响农作物提取效果及精度,在本研究的模型中涉及的农作物特征信息包含有光谱特征、影像纹理特征、空间关系特征及植被指数时序曲线特征参与到农作物信息的提取,其中光谱特征是提取农作物最主要的,再结合其他3 种特征可以有效地提高农作物提取精度[19]。在比较了3 种植被指数构建模型的影像提取精度,发现并非所有的植被指数模型都可以适用于云南省高原山地农作物的识别提取。因此,在选择多时相植被指数合成模型时候,需要在长时间序列下,结合光谱曲线的变化,以及指数变化等特征,选择适用于农作物变化规律的植被指数构建模型进行分类,以提高作物的识别精度。
本研究中,使用10 m 空间分辨率的Sentinel-2 卫星数据,构建时序指数模型,利用监督分类(支持向量机)算法,分别得到了植被NDVI总体分类精度93.97%(Kappa=0.91),植被EVI总体分类精度79.02%(Kappa=0.74),植被RECI总体分类精度84.82%(Kappa=0.73)。通过对3 种指数构建的模型对比高清历史影像可以发现,植被NDVI构建的模型,对冬小麦提取效果较好,生产者精度96.39%。植被EVI算法中加入了蓝波段,在观察冬小麦关键期内各波段变化情况可知蓝波段暂无明显变化,故而造成其他植被变成干扰影像。植被EVI受植被氮元素影响较明显,所以对生长期的植被都会敏感,因此错提了很多河流及道路两旁的其他生长中的植被。在对多时相植被NDVI模型提取结果进行随机抽样200 个样本点,其中冬小麦分类精度91.6%,满足对冬小麦种植面积的提取要求。在模型的实用性方面,该模型在对我国其他冬小麦产粮区精细化提取时,利用多时相的植被NDVI合成模型可较好地适用于我国大部分冬小麦产区的种植面积预测。总体来看,多时相的植被NDVI合成模型可以符合云南省高原山地农作物种植面积的预测。
在研究中,由于受到光学卫星分辨率限制,在多期植被指数合成得到的影像中,地类边界存在像元内地物混合现象,进而导致在选择样本的初期要通过不断重复筛选冬小麦样本以尽可能地提取准确的冬小麦样本,避免错提干扰地物。本研究通过固定冬小麦的单期植被指数阈值的方式,利用冬小麦每个生长期植被指数在一个阈值区间波段的特性,筛选混合像元内以冬小麦为主的样本,基于上述样本选取规则可用于对冬小麦种植面积的精准提取。
5 结束语
利用云南省南涧县2020—2021 年Sentinel-2 时序数据集,基于ENVI5 平台及GEE 平台提取植被指数、光谱曲线、农作物物候和长时序植被指数曲线,将其特征规则录入多期植被指数模型中,最后利用SVM 监督分类模型提取云南高原山地农作物耕地信息,获取研究区的耕地面积,得出以下研究结论。
(1)基于Sentinel-2 卫星影像的多期植被指数合成模型,分别对比植被NDVI、植被EVI和植被RECI构建的模型与耕地信息识别的相关性,其中多期NDVI指数融合模型,提取研究区冬小麦耕地信息的用户精度达到93.28%,Kappa 系数0.91,多期植被EVI合成模型的用户精度63.8%,Kappa 系数0.74,多期植被RECI合成模型的用户精度66.36%,Kappa 系数0.73。证明多期植被NDVI合成模型与冬小麦耕地信息具有较高正相关性,结果满足对农作物种植面积预测的要求。
(2)在不同数量的日期构建的多期植被NDVI合成模型与耕地信息提取结果的相关性研究中,分别对本研究区域内利用3 期(2020 年11 月、2020 年12 月、2021 年1 月)和2 期(2020 年11 月、2021 年1 月)构建的植被NDVI合成模型的总精度和Kappa 系数分别为93.97%、90.42%、0.91、0.89。结果表明,在对不同期数组合下,3 期植被指数构建的模型对提取结果改进,精度得到提升。此外也验证了,在部分影像缺失地区,利用2 期植被指数模型对耕地信息的提取结果依然符合要求。
(3)本研究模型对南涧县冬小麦耕地识别与提取,利用高清影像判读得到的样本点提取精度进行验证,167 个冬小麦样本中有153 为正确分类,提取的分类精度91.6%,提取的冬小麦预测面积2 726.8 hm2,本年度冬小麦实际统计面积2 694 hm2。通过对提取结果分析可知,受样本提取规则、混合像元以及同期作物的影响,多期植被指数指数模型对冬小麦耕地提取中,存在将道路、河流两侧的绿植错提、漏提细小地块。