APP下载

哈萨克斯坦北部小麦遥感估产方法研究

2022-04-06尹瀚民古丽加帕尔JeanineUMUHOZA

干旱区地理(汉文版) 2022年2期
关键词:塔纳库斯春小麦

尹瀚民, 古丽·加帕尔,3, 于 涛, Jeanine UMUHOZA, 李 旭

(1.中国科学院新疆生态与地理研究所荒漠与绿洲国家重点实验室,新疆 乌鲁木齐 830011;2.中国科学院大学,北京 100049;3.中国科学院中亚生态与环境研究中心,新疆 乌鲁木齐 830011)

哈萨克斯坦的面粉出口量位于世界第一,被称作中亚粮仓,其北部地区的北哈萨克斯坦州、阿克莫拉州和库斯塔纳州是世界重要的小麦和面粉输出地,小麦的种植结构比例达到86%以上,2010 年以来,其小麦和大麦产量居世界第12 位,出口量居世界第5 位[1]。在中亚的其他国家,由于经济作物占比较大,种植结构不合理且耕地面积有限,严重限制了各国的粮食生产能力,每年都需要向哈萨克斯坦进口大量小麦,才能满足国家粮食需求[1]。近年来,中亚各国的人口增长速度与粮食产量增产速度严重失衡,作为发展中国家,中亚各国经济发展水平本身较低,难以应付国际粮价上涨和国家本身购买力低下带来的一系列社会问题[2]。及时准确估算哈萨克斯坦北部春小麦产量,可为当地政府部门春小麦生产管理提供重要的参考价值,对维护区域粮食安全亦起着不可忽视的作用。

作物估产的方法可以归纳为传统作物估产和遥感作物估产两大类[3]。传统作物估产,一般采取区域人工调查手段,结合农学、气象学,采用统计学方法建立作物估产模式,该方法费时、费力且不利于动态时空监测[3]。现代遥感技术的发展,为区域粮食估产及动态监测提供了有效的手段[4-7]。遥感作物估产方法主要包括经验模型[8-10]、机器学习[11-12]和机理模型[13-14]三大类,其中,经验模型法是利用遥感卫星对作物冠层反射的电磁波信息,计算表征植被特征的多个植被指数,通过与作物的实际产量建立经验模型,寻找估算作物产量的最优植被指数,从而提高作物估产精度。例如Bolton等[15]利用MODIS产品计算2波段增强型植被指数(Enhanced vegetation index 2, EVI2)和归一化水体指数(Normalized difference water index,NDWI),并利用该指数估算了美国中部玉米和大豆产量,发现在玉米返青后的65~75 d 和大豆返青后的80 d 左右,植被指数与作物产量相关性最高。Leroux等[16]以非洲萨赫勒地区为研究区,利用MODIS 归一化植被指数(Normalized difference vegetation index, NDVI)、地表温度(Land surface temperature, LST)、作物模型SARRAH模拟的地表生物量和收获指数建立经验统计模型估算作物产量,结果发现组合后的指数在估算产量上优于单独基于NDVI 模型。郭锐[17]利用10 a 的MOD09A1和MOD16A2产品计算了增强型植被指数(Enhanced vegetation index,EVI)和作物水分胁迫指数(Crop water stress index, CWSI)估算了山东省和各市级尺度的冬小麦产量,其估算精度均不低于89.41%。此外,近些年来,机器学习模型在遥感作物估产方面得到广泛应用,其主要包括随机森林、支持向量机、神经网络等。安秦[18]在长春地区结合HJ-1A/B 和Landsat 8 2 种卫星影像数据计算了4 种植被指数,通过对比曲线统计、多元逐步回归、偏最小二乘回归和神经网络模型,发现神经网络建立的估产模型在稳定性和精度性方面更高。曾妍等[19]利用MODIS产品计算了条件温度植被指数(Vegetation temperature condition index, VTCI)和叶面积指数(Leaf area index,LAI),通过支持向量回归模型估算了关中平原冬小麦产量,模型决定系数达0.88。机理模型作物估产是依据作物的生理生长特征,考虑作物的光合和呼吸作用,并考虑作物生长的环境,例如气温、降水、土壤肥力等因素,模拟作物的生长过程,同时将遥感数据与作物模型有效结合,从而实现对作物产量的预测,例如WOFOST、APSIM、DSSAT、CASA 模型等。例如黄健熙等[20]对比了LAI和蒸散(Evapotranspiration,ET)在同化前和同化后融合到SWAP 作物模型中进行估算冬小麦产量,发现同化后的精度比同化前高出31%左右。同时马鸿元等[21]还以WOFOST为动态模型,采用集合卡尔曼滤波同化算法,研发了一种遥感LAI 与作物模型同化的区域冬小麦产量系统。尽管机理模型虽然功能强大,但所需参数较多,模型计算量大,对计算机能力要求高,本地参数耗时耗力,并且依赖于站点数据,因此在无站点数据区域难以推广[18]。

哈萨克斯坦北部地区缺乏气象观测站点数据和详细的土壤数据,因此难以利用作物生长模型进行春小麦产量估测。经验模型应用较为广泛,其主要是通过建立单一植被指数或者多植被指数的组合与作物实际产量构建线性或者非线性方程,比较其相关性,最终筛选出最佳的产量预测模型,但这种常规模型不一定能满足估测小麦产量的精度要求。机器学习相比常规模型,有其独特优势,例如善于处理高维变量和对变量间的线性和非线性关系有着极强的学习能力,以广泛应用于地理学的研究当中[22]。尽管部分小麦估产的研究中涉及了机器学习模型,但往往仅是一种机器学习模型,很少研究将多种机器学习模型与常规方法进行对比研究,且在哈萨克斯坦北部地区很少有关于春小麦产量的研究报道。本研究基于MODIS 遥感数据产品和作物产量统计数据,采用经验模型及机器学习法,利用线性回归、随机森林、神经网络和支持向量机模型,对比分析了10种植被指数估测春小麦产量的能力,评估春小麦最佳估产时间、最优植被指数及估产模型,以期为当地春小麦生产提供管理依据。

1 研究区概况

哈萨克斯坦北部区域包括北哈萨克斯坦州、库斯塔纳州和阿克莫拉州(图1),位置介于60°03′~74°16′E,48°09′~55°25′N[1]。该区域为温带大陆性气候,夏季降水集中,冬季寒冷漫长[23]。冬季的平均气温在-15~-20 ℃,最低可达-30 ℃,夏季平均气温18~25 ℃,最高可达30 ℃。北哈萨克斯坦州年平均降水量为407 mm,库斯塔纳州年平均降水量为353 mm,阿克莫拉州年平均降水量为381 mm。伊希姆河和托博尔河流经哈萨克斯坦北部。北哈萨克斯坦州有众多湖泊,都为淡水湖。主要的植被类型为草地、耕地、建筑用地、森林、裸地和水体,分别约占总面积的36%、50%、1%、1%、10%和2%。该地区土壤以黑色土、棕色土为主,土壤肥沃、地势平坦,是世界上重要的小麦出口输出地,由于该地区农田为雨养田,受降水影响大,导致产量极不稳定[24-25]。

图1 哈萨克斯坦北部地理位置及土地利用类型Fig.1 Location and types of land use in northern Kazakhstan

2 数据与方法

2.1 数据来源与处理

哈萨克斯坦北部耕作区矢量数据由中国科学院地球大数据科学工程(CASEarth)专项提供(http://data.casearth.cn/),数据生产者为中科院新疆生态与地理研究所遥感研究团队,该数据集以Landsat遥感影像为数据源,采用面向对象的遥感分类方法,应用影像分割、决策树分类、变化监测等关键技术解译获得,数据精度达到93%以上[26]。计算植被指数所使用的遥感产品是2007—2016 年每年6—8 月每8 d的MOD09A1和MOD15A2H数据集,其分辨率为500 m。小麦估产采用2007—2016年的植被净初级生产力MOD17A3HGF 产品进行间接验证[27]。利用Google Earth Engine(GEE)平 台,对MOD09A1、MOD15A2H 和MOD17A3HGF 产品进行预处理,提取优质像元,以减少云污染对数据质量的影响。

2.2 植被指数计算

选用在作物估产和估算生物量方面应用频率较高的10 种植被指数进行最优植被指数分析。哈萨克斯坦北部春小麦的播种日期自5月初开始,8月底到9月初进行春小麦收割。因此,利用GEE平台,下载了春小麦关键生长期6 月2 日—8 月30 日每8 d 的MOD15A2H叶面积指数产品,并利用MOD09A1产品计算了在此日期内每8 d的其余9种植被指数,对哈萨克斯坦北部三州春小麦进行动态监测。9种植被指数计算公式如表1所示。

表1 植被指数公式Tab.1 Vegetation index formulas

2.3 确定最优植被指数和最佳预测时间

通过利用哈萨克斯坦北部三州春小麦实际产量与哈萨克斯坦北部三州耕作区植被指数平均值进行线性拟合,利用决定系数(R2)和均方根误差(RMSE)作为选择最优植被指数和最佳预测时间的依据。

式中:xi、yi分别为冬小麦单产的预测值和实际值(kg·hm-2);N为年数。

2.4 春小麦估产模型

基于最佳的植被指数和预测时间,分别使用回归、随机森林、支持向量机和双向循环神经网络模型对哈萨克斯坦北部三州进行春小麦产量估测[38]。由于本文所使用的样本量较少,因此使用Bootstrap 抽样方法,Bootstrap是一种有放回的均匀抽样,它将数据集中的N个样本数据,有放回的随机抽取N个样本形成新的训练集,利用未抽到的样本作为验证数据集[39]。基于本文的样本数量,数据集循环抽样50次进行模型训练,优化机器学习下的各重要参数。各州选出的最佳植被指数和预测时间作为模型输入,模型输出为春小麦产量。由于本文所使用的是单变量,所以在随机森林模型中不对最佳变量个数进行训练,而对回归树的个数进行训练。支持向量机的核函数选择线性函数,主要对其代价函数进行训练。双向循环神经网络主要调整神经元个数,利用验证数据集的RMSE决定最佳的模型参数,RMSE越小,模型估算的春小麦产量精度越高。

3 结果与分析

3.1 哈萨克斯坦北部春小麦估产最优植被指数及最佳估产日期

基于多波段的MOD09A1 和叶面积指数MOD 16A2 产品每8 d 的光谱信息,计算哈萨克斯坦北部三州耕作区植被指数,利用一元线性回归模型拟合作物产量,期望找出最优植被指数和最佳估产日期。

图2a和表2显示,归一化多波段干旱指数(Normalized multi-band drought index,NMDI)与春小麦产量在三州的拟合效果表现较差。2007—2016年6月2 日—8 月30 日,北哈萨克斯坦州各植被指数与春小麦产量R2表现为先升高后降低,最优植被指数为7月12日左右的CIgreen,R2系数达到0.83,其P值小于0.001,RMSE为131.8 kg。其次是6月26日和7月12日的LAI,与春小麦产量R2都大于或等于0.80,P值都小于0.001,RMSE分别是143.0 kg和135.5 kg。在北哈萨克斯坦州,春小麦最早可以利用6月26日的LAI指数进行春小麦估产。

图2 哈萨克斯坦北部植被指数和春小麦单产决定系数Fig.2 Coefficient of determination between the vegetation index and the yield per unit of spring wheat in northern Kazakhstan

表2 哈萨克斯坦北部最优植被指数及最佳估产日期Tab.2 Optimal vegetation index and best estimated date of spring wheat yield in northern Kazakhstan

图2b和表2结果表明,除NMDI以外,6月26日以后其他植被指数与春小麦产量R2在阿克莫拉州开始迅速增加,8月21日之后R2系数普遍下降,总体来看,7 月4 日—8 月5 日植被指数与春小麦产量相关性较好,而6月18日以前各指数与春小麦产量相关性不佳。与春小麦单产拟合最好的植被指数是WDRVIgreen,最 佳 预 测 时 间 在8 月5 日 前 后,R2为0.80,P值小于0.001,RMSE 为137.5 kg。此外,在阿克莫拉州,春小麦估产最早可以在7月12日左右进行,宽动态范围植被指数(Wide dynamic range vegetation index, WDRVI)、LAI 和EVI2,R2都超过0.75,RMSE分别为147.6 kg、145.0 kg和143.9 kg。

从图2c 和表2 表明,库斯塔纳州在6 月10 日以前和8月13日以后,各指数对春小麦产量拟合性较差,敏感性低。6 月26 日—7 月28 日为春小麦产量预测最佳时期,7 月12 日各指数对春小麦产量的敏感性达到最高,大部分指数P值小于0.001。其中,WDRVIgreen与春小麦产量在7月12日相关性较强,R2为0.88,P值小于0.001,RMSE为123.6 kg。CIgreen、差值植被指数(Difference vegetation index,DVI)和优化土壤校正植被指数(Optimized soil adjusted vegetation index,OSAVI)与春小麦产量R2在7月12日都大于或等于0.81,P值小于0.001,RMSE 分别为157.5 kg、158.2 kg和150.7 kg。在库斯塔纳州,春小麦最早可以在6月26日前后利用LAI指数进行春小麦估产。

经对比分析,北哈萨克斯坦州春小麦产量预测最佳日期为7 月12 日,最优植被指数为CIgreen,阿克莫拉州春小麦产量预测最佳日期为8 月5 日,最优植被指数为WDRVIgreen,库斯塔纳州春小麦产量预测最佳日期为7月12日,最优植被指数为WDRVIgreen。

3.2 哈萨克斯坦北部耕作区春小麦估产最优模型及空间分布特征

利用线性回归、随机森林、支持向量机和神经网络模型对哈萨克斯坦北部三州耕作区进行春小麦产量估测,以期找出最佳的产量预测模型。图3采用ArcGIS 自然间断点进行分类,结果表明,在北哈萨克斯坦州利用线性回归、支持向量机和神经网络模型模拟出的产量在空间分布特征上相似性较高,随机森林模型模拟的春小麦高产区分布较为离散,聚集性不强,在西部和东南部低产区分布较多。总体而言,4 种模型模拟的春小麦产量在东南部地区相对较低,中北部地区较高。在阿克莫拉州,支持向量机模型在南部模拟的产量分布上出现破碎化特征,并且支持向量机模型估算的产量区域差异较小。除支持向量机模型外,其他3 种模型模拟的春小麦产量在阿克莫拉州的北部相较于其他区域产量较高,东部和南部地区春小麦产量较低,回归模型和随机森林模型模拟的产量在空间分布上相似性较高。在库斯塔纳州,4 种模型估算的春小麦产量空间分布特征具有较高的相似性且产量表现为北部较高,南部较低。同样支持向量机模型模拟的产值区域性差异较小。综合上述分析,尽管模型之间有所差别,但模拟的春小麦产量在空间分布特征上具有一致性,通过对比发现,随机森林模型和支持向量机模型模拟的春小麦产量在三州有不同程度的缺陷,回归模型和神经网络模型在估算哈萨克斯坦北部三州春小麦产量上有较好的表现。

图3 2007—2016年哈萨克斯坦北部多年平均估算春小麦产量Fig.3 Estimated annual average production of spring wheat yield in northern Kazakhstan from 2007 to 2016

3.3 春小麦估产精度分析

植被净初级生产力NPP 通常乘以作物收获指数来估算作物产量[27]。由于本研究春小麦产量统计数据有限,且主要用于模型输入参数,故为评价春小麦估产模型的优劣,研究分析不同模型模拟春小麦产量与NPP(MOD17A3HGF)之间的相关性,期望找出最佳产量估测模型(图4),并对各州NPP 与春小麦产量相关性统计结果进行分级(图5),具体分为微弱相关(0.0~0.3)、低度相关(0.3~0.5)、显著相关(0.5~0.8)和高度相关(0.8~1.0)。

图4 哈萨克斯坦北部估算春小麦产量空间验证Fig.4 Spatial validation of spring wheat yield estimation in northern Kazakhstan

图5 NPP与春小麦产量相关性分级Fig.5 Classification of the correlation between NPP and spring wheat yield

研究表明,在北哈萨克斯坦州,回归模型、支持向量机模型和神经网络模型相比随机森林模型能够更好的预测春小麦产量,其中表现最差的是随机森林模型,低度相关性区域占北哈萨克斯坦州耕作区近68%,显著相关区域占比仅8%。显著相关区主要分布在北哈萨克斯坦州西部和东南部地区,而表现为低度相关和微弱相关区域主要分布在北哈萨克斯坦州的北部。

除支持向量机模型外,其余3 种模型在阿克莫拉州都得到了很好的验证结果,尤其是回归模型和神经网络模型,大部分地区NPP与估算的春小麦产量相关性都在0.5以上。表现最佳的是神经网络模型,估测的产量与NPP显著相关和高度相关占比总和最高为94%,其次是回归模型为92%,再次是随机森林模型为77%。从空间分布来看,无论是高产区还是低产区,回归模型、神经网络模型和随机森林模型预测精度都较好,对于了解该地区高产和低产田的分布位置和产量,进而合理安排该地区的农业生产活动具有重要的参考价值。

在库斯塔纳州,回归模型、支持向量机模型和神经网络模型模拟的精度较高,随机森林模型模拟的结果不理想,其微弱相关占比为23%,主要分布在库斯塔纳州南部地区,而其他模型在库斯塔纳州南部地区表现相对较好,大部分区域相关性都在0.50 以上。而在库斯塔纳州的北部地区,4 种模型估测的春小麦产量与NPP相关性表现为低度相关,而根据春小麦产量统计结果来看,北部区域实际为库斯塔纳州的高产区,该种现象与北哈萨克斯坦州的北部估测产量验证精度较低具有一致性。

4 讨论

遥感作物估产主要是利用遥感影像建立表征作物因子与产量之间的模型体系,从而实现对作物产量预测,可使用单植被指数或者多植被指数组合,亦可与影响春小麦产量相关的气温、降水和土壤肥力等因子估算春小麦产量[40],但使用多因子估算春小麦产量不仅对样本数据量有要求,同时也要考虑多因子之间的共线性问题,在样本量较少的情况下,使用多因子组合不仅不会提高估产精度,而且会产生较大偏差。

通过利用机器学习模型和回归模型估算春小麦产量发现,各模型估算的春小麦高产区和低产区具有极大的相似性,4 种模型在北哈萨克斯坦州估测产量的能力普遍较差,尤其是在北哈萨克斯坦州的北部地区,该地区是春小麦高产区,同样的现象也发生在库斯塔纳州的北部,经过对降雨数据分析以及地面调查结果发现,该地区雨量较大,对MODIS 产品数据质量造成了影响,也有可能是由于验证数据MOD17A3HGF 产品在该区域出现误差,还有一个重要原因是由于北哈萨克斯坦州小麦的种植结构比例约在86%,而库斯塔纳州和阿克莫拉州小麦种植比例在93%以上,在北哈萨克斯坦州有大面积的大麦、荞麦和土豆种植,不能完全视为春小麦种植区,从而影响估产模型的精度。

从模型角度来分析,回归随机森林模型无法实现训练数据集范围外的预测,且由于本文数据样本量较小,在进行随机采样构建回归树时,会出现大量相似的回归树,并且高产和低产的样本有时不会被随机抽到,所以在估测产量时低产或高产的区域相比其他模型偏大或者偏小。支持向量机模型在寻求结构化风险最小的方式来矫正模型[41],并且最终决策函数只由少数的支持向量所决定,所以有可能将几个中度产值的样本数据建立超平面估算作物产量,导致估算的作物产量空间差异性较小。本文发现,在样本点较少的情况下,双向循环神经网络和回归模型更加可靠,回归模型不仅可以节省大量机器学习进行模型参数优化的时间,并且在模型的强健性上不输于机器学习模型,但回归模型的可移植性不高,从模型验证的整体情况来看,机器学习中的神经网络模型估算精度略优于其他3 种模型。由于缺乏地面实测产量对其进行验证,NPP 作为表征地上生物量的重要指标,尽管MOD17A3HGF产品在某些区域存在精度限制,但在地面实测数据缺乏的条件下,可以作为验证春小麦产量的重要数据源。

5 结论

(1)除NMDI指数外,植被指数与春小麦单产相关性较强的时间段主要集中在6 月26 日—8 月5 日之间,主要是因为该阶段哈萨克斯坦北部春小麦进入抽穗扬花到逐渐成熟时期,是春小麦产量形成的关键时期。春小麦估产最优植被指数分别是北哈萨克斯坦州7 月12 日CIgreen,阿克莫拉州为8 月5 日的WDRVIgreen,库斯塔纳州为7月12日的WDRVIgreen。

(2)从4种模型模拟的春小麦产量空间分布可知,模型模拟的产量虽有差距,但高产和低产的分布范围具有一致性,支持向量机模型在模拟产量时有可能造成产量区域差距较小,而随机森林模型容易出现高产区或者低产区偏大或者偏小的特点,回归模型和神经网络模型稳定性更高。

(3)NPP与不同模型估测的春小麦产量进行相关性分析,结果表明,在阿克莫拉州和库斯塔纳州,最佳春小麦估产模型为神经网络模型,其次为回归模型,支持向量机模型和随机森林模型精度较低。而在北哈萨克斯坦州,4 种模型的预测精度与其他二州相比相对较差,相对而言,双向循环神经网络模型表现最佳。

猜你喜欢

塔纳库斯春小麦
早春小麦田间管理抓哪些
库斯途
成长小说视野下的《安第斯山脉的秘密》
泰国抗议主要推手:塔纳通
绿色农产品春小麦主要虫害防治技术
克什克腾旗旱地优质春小麦高产栽培技术探讨
深藏不露
不可错过的克莱恩·蒙塔纳
卢齐欧·封塔纳名作拍出1.85亿元