基于Google Earth Engine和机器学习的耕地土壤有机质含量预测
2022-02-07龙慧灵杨贵军
郭 静,龙慧灵,何 津,梅 新,杨贵军
基于Google Earth Engine和机器学习的耕地土壤有机质含量预测
郭 静1,2,龙慧灵2※,何 津1,梅 新1,杨贵军2
(1. 湖北大学资源环境学院,武汉 430062;2. 农业农村部农业遥感机理与定量遥感重点实验室,北京市农林科学院信息技术研究中心,北京 100097)
土壤有机质含量是耕地质量定级的依据,是耕地质量评价的核心内容之一,因此,精准高效地获取土壤有机质含量非常重要。高分辨率遥感技术和谷歌地球引擎(Google Earth Engine,GEE)云计算平台的出现,为土壤有机质的高效反演提供了新的途径和方法。该研究以藁城区的Sentinel-2A MSI数据和Landsat8 OLI 数据为主要的数据源,结合Sentinel-1 SAR数据、ECMWF/ERA5气象数据和USGS/SRTMGL1_003高程数据,分别采用随机森林(Random Forest,RF)、梯度升级树(Gradient Boosting Decision Tree,GBDT)和支持向量机(Support Vector Machine,SVM)算法,在GEE平台对藁城耕地土壤有机质含量进行反演。结果表明:1)基于Sentinel-2A建立的模型(模型A*)在预测SOM含量方面优于基于Landsat8建立的模型(模型B*),GBDT算法下的Sentinel-2A的全变量模型取得了最佳结果(2=0.759,RMSE= 2.852 g/kg);2)考虑红边波段的Sentinel-2A数据建立的模型(A-1)比不考虑红边波段的模型(A-0),2提高了9.752%;;3)从不同的预测算法来看,GBDT算法能较好地适用于研究区的土壤有机质预测,GBDT算法、Sentinel-2A与GEE的结合是土壤有机质预测制图的一种有效方法。
土壤;有机质;数字土壤制图;GEE云平台;机器学习;耕地
0 引 言
土壤有机质(Soil Organic Matter,SOM)是土壤有机碳的载体,土壤固相物质的重要组成部分,在农业和土地管理中起着至关重要的作用,是评价土壤肥力质量的核心要素之一[1],是耕地质量的重要表现[2]。实现SOM高精度反演具有重大意义。尽管在建立SOM预测模型和空间分布图的绘制方面已经做了很多研究,但为特定区域选择合适的卫星数据源和预测算法具有不确定性,准确预测SOM含量仍然是一个挑战。
国内外不少学者对确定土壤有机质的空间分布进行研究,SOM含量的传统获取方法主要依赖于野外采集土壤样本与实验室化学方法测定[3]。然而,土壤调查采样耗费时间、人力物力,且为点状信息数据,很难获得大范围内土壤有机质空间分布情况。近几十年来,地统计学方法(如普通克里金法和协同克里金法)被广泛用于SOM含量预测[4-6],地统计学模型以区域化变量理论为基础,通过已知点的空间依赖性预测未知点的变量值[7]。然而,地统计学通常要求取样均匀且范围内足够密集,土壤样本要有代表性,以及符合二阶平稳的假设[8]。此外,地统计方法制作的土壤有机质空间分布图,不同含量斑块的梯度效应明显,在局部细节表达上仍不足。
遥感技术的快速发展和有效应用为SOM预测提供了新的途径和有利条件,在研究土壤光谱反射特征的基础上,通过实测地面少量数据,分析采样点遥感影像光谱反射率的变化,建立土壤属性反演模型,实现研究区域土壤属性的预测[9]。基于遥感技术反演SOM可以节省大量人力物力,为耕作管理提供有效技术支持,为精准农业的实施提供基本的数据支撑。国内外在多光谱卫星影像数据估算SOM含量方面有了很大发展,刘焕军等[10]通过分析波段反射率与 SOM关系,建立基于Landsat-TM遥感影像绿、红和近红外波段的 SOM 反演模型。Mirzaee等[11]利用Landsat 7 ETM+遥感影像数据评价了普通克里格、简单克里格和协同克里格等地统计学方法以及人工神经网络-简单克里格(Artificial Neural Network-Simple Kriging,ANNSK)和人工神经网络-普通克里格(Artificial Neural Network-Ordinary Kriging,ANNOK)等混合地质统计学方法预测SOM含量的能力。李莹莹等[12]利用国产卫星GF-1多光谱遥感影像建立人工神经网络模型预测SOM的含量。Luo等[13]利用多时相合成的Landsat8图像建立SOM预测的随机森林(Random Forest,RF)模型。Bouasris等[14]利用决策树(Decidion Tree,DT)、K-最邻近(K-Nearest Neighbor,K-NN)和人工神经网络(Artificial Neural Network,ANN)来预测SOM,探索了Landsat8在半干旱高度破碎化地区的预测潜力。Zhang等[15]利用Sentinel-2和MODIS全变量和共变量数据集,评估了随机森林、人工神经网络和支持向量回归的SOM预测性能。Yang等[16]结合多时相植被指数和地形、气候、土地利用类型辅助变量,采用多元线性回归、随机森林和支持向量回归的方法建立SOM预测模型。刘焕军等[17]基于Landsat 8和Sentinel-2A两期影像,建立BP神经网络的反演模型,进行土壤有机质含量遥感反演。之前的SOM反演研究,虽然使用了遥感数据及其指数作为SOM预测的有效变量,但在使用Sentinel-2A数据时,缺乏对红边波段的应用探索。因此,有必要了解红边波段在SOM预测中的能力。此外,大多数SOM预测是使用单一数据源执行的,相对来说,对多种先进的机器学习算法和传感器之间的比较研究较少,应进一步探索将不同机器学习算法与多种卫星图像相结合进行SOM的预测。
本文以河北省石家庄市藁城区为研究区,基于GEE云平台采用Sentinel-2A MSI和Landsat 8多光谱卫星拍摄的农闲时裸土期遥感影像为主要数据源,选择与SOM含量相关的遥感和环境变量进行辅助预测,比较不同机器学习算法的SOM预测性能,评估Sentinel-2A MSI数据与Landsat8 OLI在SOM预测方面的应用潜力,并绘制高精度的空间分布图。以期为研究土壤有机质高效反演提供依据。
1 材料和方法
1.1 研究区概况
藁城区是中国县域最大的强筋麦种植基地,是华北平原的主要产粮区,位于河北省石家庄市东部,地理位置介于37°51′N~38°18′44″N,114°38′45″E~114°58′47″E之间。地处太行山东麓河北平原中南部,属太行山洪积冲积山前倾斜平原,地势西北高东南低,平均高程55 m。暖温带半湿润大陆性季风气候,年降水量598~729 mm,年平均温度12.5 ℃,土壤以黏壤土、砂质黏壤土和砂质壤土为主。耕地以旱地和水浇地为主,主要种植作物为冬小麦和夏玉米,耕地总面积约393.4 km2。
1.2 土壤数据采集
2020年10月15日在研究区进行土壤采样,共采得土壤样品130个。取样小区的大小为3 m×3 m,采样深度为土壤表层的0~15 cm(有机质主要集中于耕作层0~15 cm的深度),在广场上布置9个1 m×1 m的网格,在每个网格的中心取一个土样,得到9个土样,将9个土样充分混合作为一个样本点的土样。同时,利用Trimble天宝GPSXM3000手持GPS定位仪(精度小于1 m)对广场中心点进行精确定位,记录中心点地理坐标。采得的土壤样品在实验室风干,剔除小石块、植物根须、动物残体等杂质,研磨过2 mm筛。采用四分法将部分2 mm细土继续研磨并过0.25 mm目的塑料筛,供有机质使用。土壤有机质含量测定采用重铬酸钾容量法:利用重铬酸钾硫酸溶液与土壤中的有机碳发生氧化还原反应,测量它们之间的定量关系,再用标准还原剂(硫酸亚铁)滴定剩余的重铬酸钾,获得土壤中有机质含量。
注:图中耕地来源于第三次全国国土调查发布的耕地地块图。
1.3 遥感数据获取与预处理
1.3.1 遥感影像获取
Sentinel-2A和Landsat 8图像被用作分析的主要遥感数据,均来自GEE数据库(https://code.earthengine. google.com/),Landsat 8卫星携带陆地成像仪(Operational Land Image,OLI),空间分辨率为30 m,重访周期为15 d[18]。Sentinel-2A有2颗卫星组成,携带多光谱成像仪(Multi-Spectral Instrument,MSI),空间分辨率为10、20和60 m,单颗星重访周期为10 d[19]。Landsat 8 OLI影像对应“LANDSAT/LC08/C01/T1_TOA”,成像时间为2020年10月13日,Sentinel-2A影像对应“COPERNICUS/ S2_SR”,成像时间为2020年10月19日。采用裸露土壤时期的遥感影像作为主要数据源,可以有效捕捉到裸露耕地的表面信息,减少干扰,从而让获得更真实的土壤表面反射率。文中所用到的耕地数据来源于第三次全国国土调查发布的耕地地块图。本研究从Landsat 8数据中选择了6个波段参与波段计算与建模,从Sentinel-2A数据中选择了10个波段参与波段计算与建模,并使用近邻重采样的方法对红边波段和短边红外波段进行重采样,将空间分辨率从20 m转换为10 m。表1显示了Sentinel-2A和Landsat 8影像的波段参数信息。
表1 Sentinel-2A和Landsat 8的数据波段信息
Sentinel-1A提供了来自5.405GH在(C波段)双极化C波段合成孔径雷达(SAR)仪器的数据,空间分辨率为10 m,在谷歌地球引擎(Google Earth Engine,GEE)平台上提供的Sentinel-1数据已将原数据转换成后向散射系数进行存储,利用Sentinel-1工具箱对SAR影像进行处理,即应用轨道文件校正、热噪声去除、辐射定标、地形校正以及条纹处理。本研究使用数据为干涉宽幅成像方式下的VV和VH两种极化模式影像,通过近邻重采样的方法将影像重采样到30 m,这样,就得到了两种分辨率(10 m和30 m)的数据,作为土壤有机质含量反演的输入变量。
1.3.2 遥感植被指数获取
在构建SOM预测模型时,构建光谱指数变量能有效减少光谱反射误差,有效提高模型精度。因此,以植被指数与SOM之间的相关性、基于基尼指数的重要性分析等为依据,从常用的15个植被指数中选取了对有机质含量变化明显的植被指数和对土壤质地敏感的土壤亮度指数作为自变量,包括:归一化植被指数(Normalized Difference Vegetation Index,NDVI)、红度指数(Red Index,RI)、增强植被指数(Enhanced Vegetable Index,EVI)、土壤调整总植被指数(Soil-Adjusted Total Vegetation Index,SATVI)、亮度指数(Brightness Index,BI)。光谱指数的计算和说明如表2所示。
表2 Sentinel-2A和Landsat 8数据的光谱指数信息
注:NIR,Red,Green,Blue和SWIRI分别表示近红外、红、绿、蓝和短波红外波段的反射率。
Note:NIR,Red,Green,BlueandSWIRIrepresent the reflectance of the near-infrared, red, green, blue and short wave infrared bands, respectively.
1.4 地形因素
地形变量提取自航天飞机雷达地形任务(Shuttle Radar Topography Mission,STRM)数字高程数据,从GEE数据库获得,空间分辨率为30 m。选择高程(Elevation)、坡度(Slope)、坡向(Aspect)作为地形变量,将其全部使用近邻重采样的方法得到10 m分辨率的数据,最后10 m和30 m分辨率的地形变量作为输入变量参与土壤有机质含量的反演。
1.5 气候因素
气候变量的年平均温度(Mean Annual Temperature,MAT)和年平均降水量(Mean Annual Precipitation,MAP),来源于ECMWF/ERA5气象数据,从GEE数据库获得,时间范围是2020年1月1日至12月31日,使用近邻重采样的方法对MAT和MAP数据(1km分辨率)进行重采样,分辨率分别为10 m和30 m。两种分辨率的气候变量作为模型输入变量参与土壤有机质含量的反演。
1.6 方 法
本文分别选用梯度升级树回归、随机森林回归和支持向量机回归方法对藁城SOM进行遥感估算。
1.6.1 梯度升级树(GBDT)回归
GBDT是Friedman[20]提出的一种集成学习Boosting算法,其训练过程为串联方式,弱学习器的训练是有顺序的,每个弱学习器都会在前一个学习器的基础上进行学习,GBDT通常使用决策树(Decision Tree)为基础弱分类器,它的主要思想是每一棵决策树都沿着已构建的残差减少的梯度方向建立,即每一个新树的建立都为了使之前的所有树残差向梯度方向上减少。该算法每次训练都可得到一棵决策树,将训练好的决策树进行迭代叠加得到强学习器[21]。GBDT算法因被用于各个专业领域的预测问题[22-24],但在土壤有机质预测方面的应用和研究还较少。在本研究中,GBDT算法的实现是在GEE云平台上完成的。经多次试验,具体参数设置为:ntree为180,shrinkage为0.07。
1.6.2 随机森林(RF)回归
RF是一种基于树的机器学习算法,由许多决策树或回归树组成,其中每个树都依赖于独立采样的随机向量的值,并且数据中所有树的分布相同[25]。由于随机森林算法构建的模型具有较好的适用性和鲁棒性,它已被广泛应用于各个领域的分类和回归问题中[26-28]。在GEE云平台上使用随机森林算法时,只需要设置两个参数就可以生成一个预测模型,一个是生成树的数量(ntree),一个是每个节点处用于分割节点的反演变量数(Mtry),设置更多的回归树可以提高预测结果的准确性,但可能导致过拟合。因此,经多次试验,将ntree设置为240,以避免过度拟合,同时保证准确性。Mtry被设置为默认值,即输入特征数据的平方根。其他参数保持默认。maxnodes默认null,minLeafPopulation默认1。
1.6.3 支持向量机(SVM)回归
支持向量机是Vapnik提出的一种基于统计学理论的新型的机器学习方法,其常用于小样本的非线性问题[29]。有许多关于使用支持向量机算法解决分类和回归问题的研究[30-32],其原理可理解为将线性不可分的数据扩展到多维空间中运用超平面进行划分,通过找到最小的结构化风险来增强模型泛化能力,从而实现在统计样本量较少的情况下也可以得到有效统计规律的目的[32]。在本研究中,SVM算法的实现是在GEE平台上完成的。对于SVM模型参数的设置,所使用的SVM的核函数为广泛认可的径向基函数。
1.7 模型建立与性能评估
为了评估和比较Sentinel-2A和Landsat 8数据预测SOM的能力,建立了Sentinel-2A和Landsat 8的变量模型(模型A*和模型B*),可变数据集由光谱波段、指数因子、Sentinel-1A后向散射系数、地形因子和气候因子组成。两个模型的变量数据集见表3。
为了评估模型的准确性,在GEE平台,使用FeatureCollection中的randomCollimns()随机生成的方法将土壤样本点数据随机分为两组:70%的样本数据被用来训练模型,其余30%被用来验证。使用决定系数(2)和均方根误差(Root Mean Square error,RMSE)对预测模型进行精度评价[22]。
表3 Sentinel-2A和Landsat 8的建模方法
2 结果与分析
2.1 样本描述性统计分析
样本点数据分别与遥感影像、三调耕地图叠加,剔除在影像上显示落在房屋和道路的样本点共4个,最终得到126个有效样本点。表4给出了本文用于SOM预测的训练和验证集的统计值。整个SOM数据集的范围为10.910~37.888 g/kg之间,平均值为24.945 g/kg,中位数为24.908 g/kg,标准偏差为5.979,变异系数为24.000%,属于中等变异程度。根据全国第二次土壤普查养分分级标准中有机质分级标准,SOM含量处于分级标准的二~四级,最大值和最小值之间差异显著。最终统计结果表明,整体数据集和训练及验证数据集有相似的统计特征。因此,训练和验证数据集中样本是整个SOM的代表,可以用来建立和验证一个准确的模型。
表4 整个SOM数据集、训练数据集和验证数据集的描述性统计
2.2 不同模型性能比较
为了比较不同变量组合对土壤有机质预测结果的影响,评估了3种机器学习算法(GBDT、RF和SVM)的预测性能。结果显示,在用Sentinel-2A(模型A)建立的模型中,采用GBDT算法的模型A-5具有最好的预测性能(2=0.759,RMSE=2.852 g/kg)。在用Landsat 8(模型B)建立的模型中,用RF算法建立的模型B-5具有最好的预测性能(2=0.688,RMSE=3.336 g/kg)。在GBDT、RF和SVM算法下,用Sentinel-2A建立的模型中,最高2分别为0.759、0.745和0.548,对应的均为A-5全变量模型,用Landsat 8建立的模型中较低2分别为0.657,0.688,0.538,分别对应模型B-4、B-5、B-3,说明Sentinel-1A后向散射系数、地形变量和气候变量这些辅助变量的加入,不同程度地提高了预测性能。在增加了红边波段的Sentinel-2A模型A-1中,相较于模型A-0(无红边波段),在GBDT、RF和SVM算法下,2分别提高了9.752%、5.015%和1.848%。
总的来说,在3种机器学习算法中,GBDT算法和RF算法提供了比SVM算法更好的预测结果,而GBDT算法比RF算法表现更好。在变量因子的组合方面,遥感数据的光谱波段、光谱指数、Sentinel-1A、地形变量和气候变量的组合可以提供更好的预测结果。有红边波段参与的模型比无红边的光谱波段模型有更好的预测精度。
2.3 土壤有机质空间制图
由表5可以看出,基于Sentinel-2A MSI数据的模型预测结果最好的是GBDT算法,基于Landsat8 OLI数据的模型预测结果最好的是RF算法,分别生成了研究区SOM空间分布图。通过比较图2a、2b,发现用Sentinel-2A和Landsat8数据绘制的SOM空间分布图总体趋势相似,SOM高值区域都在藁城南。基于Sentinel-2A数据的模型预测的藁城的SOM含量为13.56~36.27 g/kg,而基于Landsat8数据的模型预测的藁城SOM含量相对较低,SOM含量为14.95~33.13 g/kg。对由典型区域的土壤有机质空间分布图(图2c)的比较可以看出,Sentinel-2A的绘制结果比Landsat8的绘制结果细节更清晰,分辨率也更高,更容易观察SOM含量的空间分布。总的来说,基于Sentinel-2A数据的模型对SOM含量的空间分布进行了更好的预测,在细节和整体上都显示出SOM空间分布的更大差异。
表5 各模型对SOM的预测性能比较
图2 SOM预测结果图
3 讨 论
3.1 基于Landsat8和Sentinel-2A数据的模型比较
本研究中,Sentinel-2A和Landsat 8的共有波段(红、绿、蓝、近红外、短波红外1和短波红外2波段)分别用来建立SOM预测模型(模型A-0和模型B-1)。这种变量一致的比较方法可以有效地比较不用遥感数据之间的差异。当使用模型A-0和模型B-1的变量数据集输入模型时,前者的三种机器学习算法的模型性能取得了较高的2(0.646、0.678和0.541)和较低的RMSE值(3.437、3.346和3.968g/kg),而后者的取得了较低的2(0.420、0.524和0.487)和较高的RMSE值(4.596、4.005和4.231 g/kg),这可能是因为Sentinel-2A数据(10 m)比Landsat 8数据(30 m)的空间分辨率更高。在30m的空间分辨率下,可能包含更多的混合图像元素,这就降低了SOM预测的准确性。Xie等[33]在估算湿地土壤有机碳时也得到了类似的结果。在相同分辨率下,基于Sentinel-2A的模型A-1预测性能比模型A-0更好。这种差异可能是由于在模型A-1中包含了4个红边波段(B5、B6、B7、B8A),红边波段的加入提高了模型的预测精度,为SOM的反演提供了有效的光谱信息。Castaldi等[34]在加入红边波段预测土壤属性时也得出了类似的结果。总体来看,具有高空间分辨率和更多的光谱信息是预测SOM时的最优选择。
3.2 辅助变量的作用分析
在本研究中选择EVI、NDVI、SATVI、BI和RI作为指数因子,这些因子被认为是农业土壤SOM/SOC预测中的重要变量[35-36]。光谱波段和指数因子的组合,在Landsat 8模型B中精度得到有效提高,2最高提高了27.619%;而在Sentinel-2A模型A中,精度略微下降。显然,对于Sentinel-2A来说,指数因子的加入模糊了先前变量特征。将Sentinel-1A后向散射系数作为一个变量,与光谱波段和指数因子相结合时,得到比之前模型更好的预测精度。这与先前的研究结果一致[33]。SAR后向散射能更好地反映土壤属性,而且SAR数据的质量不受云、雪和日光的影响,是解释土壤属性空间变化的重要数据集[33]。一些研究表明,SOM含量的空间分布受到地形因素的显著影响[36]。在地形起伏明显的地块,遭受土壤侵蚀这一自然现象时,泥沙流失量大,而泥沙流失量越大,养分流失量越多,有机质流失量越多,进而影响SOM的空间分布[37]。本研究中地形因子与SOM的相关性不高,这是因为藁城区地形差异不大,造成地形因素对SOM预测影响程度有限,但不能忽略不计。随着地形因子的加入,在三种机器学习算法下模型精度确实得到提高。所以,在本研究中,坡度、坡向和高程这些地形因子同样为SOM含量的预测提供了有价值的信息。除了这些高分辨率的预测因子,本研究还加入了粗分辨率预测因子(MAP和MAT),全球气候变暖和极端天气频发,气候因素已是不容小觑的一个因子,气温和降水量通过温度和土壤湿度影响土壤有机碳和氮素的矿化量、矿化速率的方式,影响着有机物质的积累[38]。在许多土壤有机质驱动因子的研究中,年降雨量和年平均温度常被用作因子指标,来研究对SOM含量的驱动力,但在SOM的反演预测中却比较少见。在本研究中随着气候因子的加入,模型预测精度有得到一定程度的提高。因此,红边波段、指数因子、Sentinel-1A、地形因子和气候因子这些因子在预测SOM时的作用是不能忽视的。然而,本文训练模型所用的数据时间为10月农闲时,样区大小为3 m×3 m,在中国的其他地方,种植着不同类别的作物,物候期的差异导致农闲时采样时间也有所不同,采样密度也因人而异,由此带来的试验误差有待继续研究。此外,SOM的空间分布受多种因素的影响,如气候、地质、土壤类型、田间管理措施等,本文在进行SOM预测时,提出的辅助变量是有限的,对于气候差异的细节变化无法准确地把握,未来还需建立一个更全面、更合适的特征变量集,并结合其他的方法(如深度学习、集成学习),以提高SOM预测的准确性,实现更为精细的SOM空间制图。
4 结 论
土壤有机质是土壤的重要组成部分,其含量影响着土壤肥力和耕地质量,精准高效地估算土壤有机质对耕地质量评价具有重要意义。本文基于GEE平台分别采用了支持向量机模型、随机森林模型和梯度升级树模型,以Sentinel-2A和Landsat 8数据为主要数据源,通过对研究区域有机质含量的预测,探究了3种机器学习方法在土壤有机质反演能力的差异性比较。结果显示,试验数据具有较高的精度,并且各组数据在影像上具有较好的一致性,说明土壤有机质反演结果可靠。主要结论如下:
1)Sentinel-2多光谱传感仪器(MSI)数据驱动的建模策略与基于Landsat 8(OLI)数据的建模相比,产生了更好的结果,Sentinel-2全波段模型精度最高为2=0.712,RMSE = 3.189g/kg,而Landsat 8全波段模型精度最高为2= 0.524,RMSE=4.005g/kg,因为Sentinel-2A数据的空间和光谱分辨率更精细,Sentinel-2A MSI影像的多波段特性使其比Landsat8 OLI影像更有助于精确预测土壤有机质含量。
2)梯度升级树和随机森林算法均能实现耕地土壤有机质含量的精准预测,梯度升级树精度更高(2=0.759, RMSE=2.852)。
3)高分辨率的预测因子(红边波段、指数因子等)有助于有效提高SOM的预测精度。一些粗分辨率的预测因子(如:气候因子)对SOM预测影响有限。
[1] Marchetti A, Piccini C, Francaviglia R, et al. Spatial distribution of soil organic matter using geostatistics: A key indicator to assess soil degradation status in centralItaly[J]. Pedosphere, 2012, 22(2): 230-242.
[2] 张超,高璐璐,郧文聚,等. 遥感技术获取耕地质量评价指标的研究进展分析[J]. 农业机械学报,2022,53(1):1-13.
Zhang Chao, Gao Lulu, Yun Wenju, et al. Research progress on obtaining cultivated land quality evaluation indexes by remote sensing[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(1): 1-13. (in Chinese with English abstract)
[3] 陈奕云,齐天赐,黄颖菁,等. 土壤有机质含量可见-近红外光谱反演模型校正集优选方法[J]. 农业工程学报,2017,33(6):107-114.
Chen Yiyun, Qi Tianci, Huang Yingjing, et al. Optimization method of calibration dataset for VIS-NIR spectral inversion model of soil organic matter content[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(6): 107-114. (in Chinese with English abstract)
[4] 陈锋锐,秦奋,李熙,等. 基于多元地统计的土壤有机质含量空间格局反演[J]. 农业工程学报,2012,28(20):188-194.
Chen Fengrui, Qin Fen, Li Xi, et al. Inversion for spatial distribution of soil organic matter content based on multivariate geostatistics[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(20): 188-194. (in Chinese with English abstract)
[5] 杨顺华,张海涛,郭龙,等. 基于回归和地理加权回归Kriging的土壤有机质空间插值[J]. 应用生态学报,2015,26(6):1649-1656.
Yang Shunhua, Zhang Haitao, Guo Long, et al. Spatial interpolation of soil organic matter using regression Kriging and geographically weighted regression Kriging[J]. Chinese Journal of applied ecology, 2015, 26(6): 1649-1656. (in Chinese with English abstract)
[6] 谢梦姣,王洋,康营,等. 人工神经网络与普通克里金插值法对土壤属性空间预测精度影响研究[J]. 生态与农村环境学报,2021,37(7):934-942.
Xie Mengjiao, Wang Yang, Kang Ying, et al. Accuracy study of spatial predicting in soil sttributes based on interpolations by artificial neural network and ordinary kriging[J]. Journal of Ecology and Rural Environment, 2021, 37(7): 934-942. (in Chinese with English abstract)
[7] 刘艳芳,宋玉玲,郭龙,等. 结合高光谱信息的土壤有机碳密度地统计模型[J]. 农业工程学报,2017,33(2):183-191.
Liu Yanfang, Song Yuling, Guo Long, et al. Geostatistical model of soil organic carbon density combined with hyperspectral informance[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(2): 183-191. (in Chinese with English abstract)
[8] Webster R, Oliver M A, Geostatistics for Environmental Scientists[M]. USA: John Wiley & Sons: Hoboken, 2007.
[9] 吴才武,夏建新,段峥嵘. 土壤有机质预测性制图方法研究进展[J]. 土壤通报,2015,46(1):239-247.
Wu Caiwu, Xia Jianxin, Duan Zhengrong. Technologies of predictive mapping for soil organic matter[J]. Chinese Journal of Soil Science, 2015, 46(1): 239-247. (in Chinese with English abstract)
[10] 刘焕军,赵春江,王纪华,等. 黑土典型区土壤有机质遥感反演[J]. 农业工程学报,2011,27(8):211-215.
Liu Huanjun, Zhao Chunjiang, Wang Jihua, et al. Soil organic matter predicting with remote sensing image in typical blacksoil area of Northeast China[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(8): 211-215. (in Chinese with English abstract)
[11] Mirzaee S, Ghorbani-Dashtaki S, Mohammadi J, et al. Spatial variability of soil organic matter using remote sensing data[J]. Caneta, 2016, 145: 118-127.
[12] 李莹莹,赵正勇,杨旗,等. 基于GF-1遥感数据预测区域森林土壤有机质含量[J]. 土壤,2022,54(1):191-197.
Li Yingying, Zhao Zhengyong, Yang Qi, et al. Prediction of soil organic matter content based on artificial neural network model and GF-1 remote sensing data[J]. Soils, 2022, 54(1): 191-197. (in Chinese with English abstract)
[13] Luo C, Zhang X L, Meng X T, et al. Regional mapping of soil organic matter content using multitemporal synthetic Landsat 8 images in Google Earth Engine[J], Catena, 2022, 209: 105842.
[14] Bouasria A, Namr K I, Rahimi A, et al. Soil organic matter estimation by using Landsat-8 pansharpened image and machine learning[C]. 2020 Fourth International Conference on Intelligent Computing in Data Sciences (ICDS), 2020: 1-8.
[15] Zhang M W, Zhang M N, Yang H X, et al. Mapping regional soil organic matter based on sentinel-2A and MODIS imagery using machine learning algorithms and Google Earth Engine[J]. Remote Sensing , 2021, 13: 2934.
[16] Yang J T, Li X S, Wu B, et al. High spatial resolution topsoil organic matter content mapping across desertifified land in northern China[J]. Frontiers in Environmental Science, 2021, 9: 668912.
[17] 刘焕军,张美薇,杨昊轩,等. 多光谱遥感结合随机森林算法反演耕作土壤有机质含量[J]. 农业工程学报,2020,36(10):134-140.
Liu Huanjun, Zhang Meiwei, Yang Haoxuan, et al. Inversion of cultivated soil organic matter content combining multi-spectral remote sensing and random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(10): 134-140. (in Chinese with English abstract)
[18] Michael A, Wulder, Jeffrey G, et al. Opening the archive: How free data has enabled the science and monitoring promise of Landsat[J]. Remote Sensing of Environment, 2012, 122: 2-10.
[19] 龚燃. 哨兵-2A光学成像卫星发射升空[J]. 国际太空,2015(8):36-40.
Gong Ran. Satellites Sentinel-2A satellite launches[J]. Space International, 2015(8): 36-40. (in Chinese with English abstract)
[20] Friedman J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001, 5: 1189- 1232.
[21] 孙嘉悦. 基于集成学习的高分辨率遥感影像地表水体信息提取[D]. 长春:吉林大学,2020.
Sun Jiayue. Surface Water Information Extraction from High Resolution Remotely Sensed Image Based on Integrated Learning[D]. Changchun: Jilin University, 2020. (in Chinese with English abstract)
[22] 张薇,韦群,吴天傲,等. 基于GBDT算法的参考作物蒸散量模型在江苏省的预测[J]. 江苏农业学报,2020,36(5):1169-1180.
Zhang Wei, Wei Qun, Wu Tian’ao, et al. Prediction models of reference crop evapotranspiration based on gradient boosting decision tree(GBDT) algorithm in Jiangsu province[J]. Jiangsu Journal of Agricultural Science, 2020, 36(5): 1169 - 1180. (in Chinese with English abstract)
[23] Wu W M, Wang J X, Huang Y S, et al. A novel way to determine transient heat flux based on GBDT machine learning algorihm[J]. International Journal of Heat and Mass Transfer, 2021, 179: 121746.
[24] Dilli P, Hendrik B, Allard de Wit, et al. Machine learning for regional crop yield forecasting in Europe[J]. Field Crops Research, 2022, 276:108377.
[25] Breiman L. Random forests[J]. Mach. Learn., 2001, 45: 5-32.
[26] 王来刚,郑国清,郭燕,等. 融合多源时空数据的冬小麦产量预测模型研究[J]. 农业机械学报,2022,53(1):198-204,458.
Wang Laigang, Zhang Guoqing, Guo Yan, et al. Prediction of winter wheat yield based on fusing multi-source spatiotemporal data[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(1): 198-204,458. (in Chinese with English abstract)
[27] Omosalewa O, Onisimo M, John O, et al. Predicting soil organic carbon stocks under commercial forest plantations in KwaZulu-Natal province, South Africa using remotely sensed data[J]. GIScience & Remote Sensing, 2020,57(4) :450-463.
[28] 林志坚, 姚俊萌, 苏校平, 等.基于MODIS指数和随机森林的江西省早稻种植信息提取[J].农业工程学报,2022,38(11):197-205.
Lin Zhijian, Yao Junmeng, Su Xiaoping, et al. Extracting planting information of early rice using MODIS index and random forest in Jiangxi Province, China[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(11): 197-205. (in Chinese with English abstract)
[29] Vapink V N. Estimation of Dependences based on Empirical Data[M]. New York: Springer-Verlag, 1982.
[30] Zhang R, Sun D L, Li S M, et al. A stepwise cloud shadow detection approach combining geometry determination and SVM classification for MODIS data[J]. International Journal of Remote Sensing, 2013, 34(1): 211-226.
[31] 初勇志,刘成林,太万雪,等. 基于支持向量机(SVM)的不同咸化程度烃源岩总有机碳含量预测模型[J]. 石油实验地质, 2022, 44(4): 1-8.
Chu Yongzhi, Liu Chenglin, Tai Wanxue, et al. Prediction model of TOC contents in source rocks with different salinity degrees based on Support Vector Machine (SVM)[J]. Petroleum Geology and Experiment, 2022, 44(4): 1-8. (in Chinese with English abstract)
[32] Vapink V N. The Nature of Statistical Learning Theory[M]. New York: Springer-Verlag, 1995.
[33] Xie B Q, Ding J L, Ge X Y, et al. Estimation of soil organic carbon content in the Ebinur Lake wetland, Xinjiang, China, based on multisource remote sensing data and ensemble learning algorithms[J]. Sensors (Basel), 2022, 22(7): 2685.
[34] Castaldi F, Chabrillat S, Don A, et al. Soil organic carbon mapping using LUCAS topsoil database and Sentinel-2 data: an approach to reduce soil moisture and crop residue effects[J]. Remote Sensing. 2019; 11(18): 2121.
[35] Guo L, Fu P, Shi T Z, et al. Exploring influence factors in mapping soil organic carbon on low-relief agricultural lands using time series of remote sensing data[J]. Soil and Tillage Research, 2021, 210: 104982.
[36] 任丽,杨联安,王辉,等. 基于随机森林的苹果区土壤有机质空间预测[J]. 干旱区资源与环境,2018,32(8):141-146.
Ren Li, Yang Lian’an, Wang Hui, et al. Spatial prediction of soil organic matter in apple region based on random forest[J]. Journal of Arid Land Resources and Environment, 2018, 32(8): 141-146. (in Chinese with English abstract)
[37] 王永平,周子柯,滕昊蔚,等. 滇南小流域3种土地利用方式下土壤侵蚀及养分流失特征[J]. 水土保持研究,2021,28(1):11-18.
Wang Yongping, Zhou Zike, Teng Haowei, et al. Characteristics of soil erosion and nutrient losses in three land use patterns in the small watershed of southern Dianchi[J]. Research of Soil and Water Conservation, 2021, 28(1): 11-18. (in Chinese with English abstract)
[38] 李冬初,黄晶,马常宝,等. 中国稻田土壤有机质时空变化及其驱动因素[J]. 中国农业科学,2020,53(12):2410-2422.
Li Dongchu, Huang Jing, Ma Changbao, et al. Spatio-temporal variations of soil organic matter in paddy soil and its driving factors in China[J]. Science Agricultura Sinica, 2020, 53(12): 2410-2422. (in Chinese with English abstract)
Predicting soil organic matter contents in cultivated land using Google Earth Engine and machine learning
Guo Jing1,2, Long Huiling2※, He Jin1, Mei Xin1, Yang Guijun2
(1.,,430062,;2.,,,,100097,)
Soil Organic Matter (SOM) is the carrier of soil organic carbon in the crop system. This component of soil solid matter is one of the core elements to evaluate soil fertility quality in agriculture and land management. An accurate and efficient acquisition of SOM content can greatly contribute to the quality grading of cultivated land. High-resolution remote sensing and Google Earth Engine (GEE) can serve as the computing platform for the efficient inversion of SOM. Much effort has been made on the SOM prediction model and the spatial distribution map. However, it is still lacking in the appropriate satellite data sources and prediction algorithms to accurately predict the SOM content in specific regions. In this study, the accurate SOC content was predicted in the cultivated land using GEE and machine learning. The Sentinel-2A MSI and the Landsat8 OLI data were collected in the Gaocheng District, Shijiazhuang City, Hebei Province, China. The main data sources were also combined with the Sentinel-1 SAR, ECMWF/ERA5 meteorological, and USGS/SRTMGL1_003 elevation data. The variable feature sets of the spectral band were constructed, including the vegetable index (Normalized Difference Vegetation Index (NDVI);Red Index (RI);Enhanced Vegetable Index (EVI);Soil-Adjusted Total Vegetation Index (SATVI);Brightness Index (BI)), radar feature (Sentinel-1 VV, and Sentinel-1 VH), terrain feature (slope, aspect, and elevation), and climate feature (annual precipitation, and average annual temperature). Six and five models were constructed using the Sentinel-2 and Landsat8 variable datasets, respectively. Random Forest (RF), Gradient Boosting Decision Tree (GBDT), and Support Vector Machine (SVM) were utilized to predict the SOM on the GEE platform. The predictive performances of three machine learning methods were determined for a high-precision spatial distribution map for the SOM inversion. The accuracy of the prediction model was then evaluated using the determination coefficient (2) and the root mean square error (RMSE). The results show that: 1) the2and RMSE values of the model using the Sentinel-2A were better than those using the Landsat8. The Sentinel-2A model performed better than the Landsat8 model in the predicting SOM content. The best performance (2=0.759, RMSE=2.852 g/kg) was achieved in the omnivariate model of Sentinel-2A under the GBDT. 2) The maximum improvement of 9.752% was obtained in model A-1 with the red edge band, compared with model A-0. This difference was attributed to the inclusion of four red edge bands (B5, B6, B7, and B8A) in model A-1. The addition of red edge bands greatly improved the prediction accuracy of the model, particularly with the effective spectral information for the SOM inversion. 3) The red edge band, vegetable index, Sentinel-1A radar features, terrain factors, and climate variables greatly contributed to the prediction accuracy of SOM from the perspective of different variable feature combinations. 4) The GBDT was better applied to the SOM prediction in the study area. The resultant SOM map was used to accurately characterize the SOM spatial distribution. The test data was verified for high accuracy, each group of which was an excellent consistency in the image, indicating the reliable SOM inversion. Therefore, the Sentinel-2A MSI data presented outstanding advantages over the Landsat8 OLI, due to the higher spectral and spatial resolutions. The combination of GBDT, Sentinel-2A, and GEE can be an effective way to predict the SOM map. Each prediction factor can also provide valuable information for the prediction of SOM content.
soils; organic matter; digital soil mapping; Google Earth Engine; machine learning; cultivated land
10.11975/j.issn.1002-6819.2022.18.014
S127
A
1002-6819(2022)-18-0130-08
郭静,龙慧灵,何津,等. 基于Google Earth Engine和机器学习的耕地土壤有机质含量预测[J]. 农业工程学报,2022,38(18):130-137.doi:10.11975/j.issn.1002-6819.2022.18.014 http://www.tcsae.org
Guo Jing, Long Huiling, He Jin, et al. Predicting soil organic matter contents in cultivated land using Google Earth Engine and machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(18): 130-137. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.18.014 http://www.tcsae.org
2022-06-07
2022-09-01
科技创新2030重大项目(2021ZD0113603);2022年度北京市农林科学院科研创新平台建设项目(PT2022-24)
郭静,实习研究员,研究方向为遥感应用研究。Email:guoj9278@gmail.com
龙慧灵,博士,高级工程师,研究方向为遥感应用。Email:longhuiling53@163.com