基于机器学习和多光谱遥感的银川平原土壤盐分预测
2023-03-08魏慧敏贾科利张俊华
魏慧敏, 贾科利, 张 旭, 张俊华
(1.宁夏大学地理科学与规划学院,宁夏 银川 750021;2.宁夏大学生态环境学院西北土地退化与生态恢复国家重点实验室培育基地,宁夏 银川 750021)
土壤是人类进行社会生产生活的基本条件,土壤退化牵制着农业的发展,监测土壤性质是一个重要过程,对如何可持续利用起着重要作用。全球六大洲的土壤中均有盐渍化现象发生(除南极洲未有调查数据外),并以每年约1.5×104km2的速度增加[1]。盐分预测指的是将某些指标与其相对应的地表信息间构建关系模型,众多学者对盐渍化预测展开了相关研究[2-5]。徐红涛等[6]、姜红等[7]对新疆不同区域进行土壤盐渍化预测模型的构建,研究表明机器学习的方法使得模型的预测精度高于传统的回归法预测模型。马国林等[8]基于Sentinel-2A影像,使用XGBoost 选择有效变量后结合机器学习进行土壤盐分反演模型训练,模型预测效果明显提高,使得盐渍化制图精度得到提升。杨厚翔等[9]选取多个影响盐碱化的因子,借助BP网络模型对黑龙江省地区进行盐碱化危险度监测,整体准确度高于95%。刘全明等[10]利用微波雷达数据对盐分进行反演,所得BP 神经网络(BPNN)模型能够在短时间内进行大范围区域的盐分监测且优于多元线性回归模型和地理加权回归模型。杨练兵等[11]在BPNN 模型基础上使用遗传算法优化输入参数子集和隐含层神经元数量并对模型的初始权重进行优化,确定了适用于区域的反演模型,使得反演结果中土壤盐分含量的均质性最好。BPNN 模型的使用,提升了人们对于土壤盐渍化变化及预测的精度,丰富了盐渍化研究在时空方面的意义。
人工神经网络在预测方面已经有了较多的应用成果,章龙管等[12]将贝叶斯网络应用于施工风险管理中,结果证明该方法对于施工风险及发展趋势能够有效预测,可为现场施工防范管理提供理论指导。毕春光等[13]对玉米病害进行预警研究,证明贝叶斯神经网络(BNN)模型较BP 神经模型的精准度提升了5.49%。将BNN模型应用到土壤盐渍化预测中,探讨不同模型对土壤盐分的拟合效果,本文以银川平原为研究区,基于遥感指数和盐渍化影响因子,结合实测土壤盐分数据构建预测模型,选出最优模型,预测研究区不同土壤深度的盐分分布,为银川平原土壤监测和盐渍化防治提供理论支持。
1 研究区概况
银川平原(37.83°~39.38°N,104.28°~107.65°E)西、北、东三面被腾格里沙漠、乌兰布和沙漠、毛乌素沙漠环绕,南部与黄土高原接壤。银川平原属于温带干旱区,多年平均气温5~9 ℃,年平均降水量约200 mm,蒸降比约10:1,年日照时数2500~3100 h,年太阳辐射5800×106~6100×106J·m-2。银川平原主要是由冲洪积平原构成,地势西南高东北低。黄河贯穿银川平原,优越的地理位置使得平原能够充分发展水利灌溉,灌溉渠系众多,农牧业发达[14],主要作物有水稻、小麦、玉米。灌淤土和草甸土是主要的农业土壤,熟化程度较高。地下水矿化度为0~6 g·L-1,平原地区地下水埋深较浅,土壤盐分累积较重。
2 数据与方法
2.1 土壤样本采集与盐分测定
本文大致以5 km×5 km 的格网设置采样点(图1),于2021 年3 月7—28 日采样。采样时每个样点采用梅花形采样法,在采样点30 m×30 m 范围内采集0~20 cm 和20~40 cm 土壤混匀,运用四分法留约500 g土壤装进密封袋带回,并用GPS记录采样点的坐标信息及周围环境信息,共采集197 个样本点。采集的土壤样本剔除杂质后自然风干,研磨后过2 mm 筛子,以水土比5:1 配置提取液[15],每个样品配置3 组作为对照组,每个样点取3 组数值的平均值作为样点最终pH 和电导率,运用电导率法[16]计算土壤样本的含盐量。
图1 银川平原采样点分布Fig.1 Distribution of sampling points in Yinchuan Plain
式中:S为土壤含盐量(g·kg-1);EC 为测量所得土壤提取液电导率(S·m-1)。
对测量结果进行分析,删除异常样本点后获得166个样点供用。将样本的盐渍化程度分为5级[17],样本的统计性描述如表1 所示。0~20 cm 土壤样本中共有91 个盐渍化样本,约占总样本的54.82%。20~40 cm土壤样本共有65个盐渍化样本,约占总样本的39.16%。各层样本土壤含盐量总体变异系数均超过132%,变异性较强,表明样本离散程度较高,具有普适性。
表1 银川平原土壤样本统计Tab.1 Statistics of soil sample in Yinchuan Plain
将土壤样本按含盐量由低到高排序,依据模型训练集和结果验证集2:1 的比例等间隔选择110 个样本进行模型训练,56 个样本作为验证集用于模型验证[18]。
2.2 遥感影像获取与处理
研究选用的Landsat 8 OLI遥感影像来源于美国地质调查局官网(https://earthexplorer.usgs.gov/),行列号为129/033 和129/034,空间分辨率为30 m,成像时间为2021年3月17日,与采样时间同期。利用ENVI 5.3对所选的影像进行大气校正等预处理流程后,进行各类盐分指数的计算和提取[19],如表2所示。
表2 盐分指数计算公式Tab.2 Calculation formulas of salt indices
2.3 土壤盐渍化预测模型
2.3.1 盐渍化影响因子组参数选择依据已有学者对土壤盐渍化成因条件的相关研究[26-27],结合银川平原实际情况,选择8 个环境变量和3 个人为活动变量(表3)。其中,土壤pH 和含水率结果由采样点数据计算后进行Kriging 空间插值而得,设置输出的分辨率为30 m;地下水数据来源参考文献[17],将数据处理为30 m 分辨率的栅格数据;银川平原数字高程模型从地理空间数据云平台(http://www.gs-cloud.cn/)获取,空间分辨率为30 m;地表温度、增强植被指数和水体指数通过Landsat 8 OLI 影像在ENVI 5.3 软件中计算获得;土地利用数据从中国科学院资源环境科学与数据中心(http://www.resdc.cn/)获取,强度指数采用庄大方[28]利用分级方法,土地利用强度依据不同的土地类型分别确定为不同的值,未利用地、草地、林地、耕地、居民用地、水体分别赋值为1、2、2、3、4、1。
表3 土壤盐渍化影响因子Tab.3 Influence factors of soil salinization
2.3.2 数据处理为消除数据获取过程中人为或者自然因素导致数据不标准的问题,先将数据进行归一化处理以消除不同指标之间维度的影响。归一化公式为:
式中:Amax为样本数据的最大值;Amin为样本数据的最小值;A为预警因子数据集;A*为归一化后的数据。
2.3.3 预测模型构建
(1)支持向量机(SVM)
SVM模型基于结构风险最小原理,依靠有限的样本来检索全局最优解,拥有对未知点有较好的泛化效果的优点[29],规避小样本学习和局部极值出现的缺点。本文选用RBF(Radial basis function)为SVM 中核函数类型,惩罚参数(c)与核参量(g)由样本进行测试计算得到。
(2)BP神经网络(BPNN)
BPNN 模型基于反向传播误差的方式对数据集进行训练,达到误差最小化的目的[30]。该模型拥有较强的自适应和自学习能力,可精确逼近任意的非线性关系[31]。本文基于MATLAB 2020软件,将盐分指数和影响因子作为模型的输入数据,实测盐分数据作为输出数据,创建研究区土壤盐分的BPNN 预测模型。经多次训练,在参数一致的情况下,将模型的输出值和实际值进行拟合,以误差作为选择隐含层节点的标准,确定最佳训练效果的隐含层节点。模型训练目标的最小误差设置为0.00001,训练次数设置为1000次。
(3)贝叶斯神经网络(BNN)
BNN 模型通过为神经网络的权重分配引入随机性进行正则化,也相当于任意权重的多种神经网络的预测[32-33]。与传统BPNN 模型不同的是贝叶斯估计得到的是节点权重的后验分布概率P( )w|D,并不是固定的值,因此可以为神经网络的预测添加随机性。由给定数据输出预测值的分布,公式为:
式中:给定数据、预测值分别为m和n;w为每个节点的权重;D为训练集。下同。
所得到的预测值y是P( )w|D中的所有可能的预测值的期望。依据贝叶斯理论,样本数据决定P(D)。
根据参考文献[34],获得一个高斯先验的P(w):
式中:wj为网络的第j个权重为先验的第一个和第二个混合成分的方差,且σ1>σ2;N()为wj以均值为0评价的高斯密度。
依据所给的先验分布,运用贝叶斯定理得到后验概率,若某参数能够使后验概率达到最大化,则该参数为模型的最佳参数。BNN 模型能够克服过拟合及出现局部最小化的现象。
2.3.4 模型评价指标为量化土壤盐分预测模型的预测效果,本文选择决定系数(R2)和均方根误差(RMSE)2 个常用指标来进行综合评价。R2的值越高,RMSE的值越低,说明模型拟合效果越好。
3 结果与分析
3.1 银川平原土壤盐渍化空间分布特征分析
使用ArcGIS的空间分析工具对166个采样点的土壤含盐量进行插值,根据盐渍化程度划分为5 个等级,得到银川平原不同深度土壤含盐量的空间分布特征(图2)。由图2 可见,0~20 cm 重度盐渍化土壤及盐土主要分布在银川平原北部地区,南部地区盐渍化程度较轻。20~40 cm 主要以非盐渍化和轻度盐渍化土壤为主,银川平原西北部土壤盐渍化现象严重,部分区域土壤含盐量大于6 g·kg-1。整体上研究区0~20 cm和20~40 cm土壤盐渍化呈现出南低北高的趋势,重度盐渍化土壤和盐土主要分布在石嘴山地区。
图2 土壤盐分空间分布Fig.2 Spatial distribution of soil salinity
3.2 不同预测模型对比分析
3.2.1 相关性分析对盐渍化影响因子、盐分指数与实测土壤盐分进行相关性分析,所得结果如表4所示。由表4 可见,影响因子中,0~20 cm 土壤除土壤pH、土壤含水率、人口密度外,其余因子与含盐量具有较强的显著性;20~40 cm 土壤含盐量与土地利用强度、增强植被指数、水体指数、地表温度、地下水埋深、地下水矿化度在0.01 水平上具有极强的显著性。盐分指数中,0~20 cm 土壤含盐量与S1、S2、S3、S6、SI2、NDSI、SI-T 的相关性均通过0.05 检验。20~40 cm 土壤含盐量与S1、S2、S4、S5、SI3、NDSI、SI-T 的相关性均通过0.05 检验。故0~20 cm 土壤选择通过0.01 显著性水平检验的影响因子和盐分指数分别作为输入层参数进行建模,20~40 cm 土壤选择通过0.05 显著性水平检验的影响因子和盐分指数分别作为输入层参数进行建模。
表4 模型参数与土壤盐分的相关性Tab.4 Correlation between model parameters and soil salinity
3.2.2 模型构建与对比分析选择SVM、BPNN 和BNN 模型,以土壤含盐量为输出层,相关性强的影响因子和盐分指数为输入层数据,对0~20 cm和20~40 cm 土壤盐分含量进行模拟,结果如表5所示。以验证集样本对模型进行验证,结果如图3。由表5可见,0~20 cm土壤影响因子变量组的3个模型R2均大于0.76,其中BNN 模型建模效果最好,BPNN 模型次之,SVM 模型最差。由验证结果表明,BNN 模型的验证效果与SVM 模型和BPNN 模型相比结果最佳,其模拟值与实测值的R2值最大(图3)。盐分指数组的R2整体较低,但均通过0.01 显著性检验。其中,该分组中BNN 模型的验证集RSME 为最低,BPNN模型拟合误差最大。对比6 个模型的验证效果,发现基于影响因子组建立的BNN模型是0~20 cm土壤盐分预测最佳模型,故选择此模型对银川平原0~20 cm土壤盐分进行预测。
20~40 cm 土壤盐分预测模型中(表5),影响因子组模型验证集的RMSE 均大于2,BNN 模型的R2大于SVM 和BPNN 模型,BNN 模型的RMSE 小于SVM 和BPNN 模型,因此BNN 模型检验结果效果优于SVM 和BPNN 模型(图3)。盐分指数组验证集的R2相比于影响因子组有明显提升,盐分指数组BNN模型是3个模型中误差最小、拟合程度最佳的模型,可以将该模型用于研究区20~40 cm土壤盐分预测。
图3 土壤盐分与模型预测值的散点图Fig.3 Scatter plot of soil salinity and model predictions value
表5 基于不同变量组的机器学习模型Tab.5 Machine learning models based on different variable groups
3.3 银川平原土壤盐分预测
利用经过训练的BNN 模型对整个银川平原0~20 cm、20~40 cm 土壤进行盐分预测,而后按照盐渍化程度对结果划分等级,得到银川平原土壤盐分预测等级图(图4),由图4 可知,0~20 cm 土壤中盐土主要分布在银川平原北部的大武口区和平罗县,重度盐渍化和中度盐渍化土壤主要分布在盐土四周及平原东部地区,非盐渍化和轻度盐渍化土壤主要分布在平原南部地区。0~20 cm 土壤主要是以非盐渍化土壤为主,盐土分布于大武口区及平罗县西部地区,重度盐渍化土壤零星分布在银川平原内。根据像元计算得到,0~20 cm 土壤主要是以非盐渍化土壤为主,占银川平原总面积的33.29%,其次为轻度盐渍化土壤,面积占比为31.86%,中度盐渍化和重度盐渍化土壤面积占比分别为23.26%和8.07%,盐土面积占比(3.52%)不足5%。20~40 cm 土壤中非盐渍化土壤和轻度盐渍化土壤面积占比分别为50.54%和30.07%,中度盐渍化土壤面积占比为12.35%,重度盐渍化土壤和盐土面积占比(分别为4.89%、2.15%)均小于5%。
图4 土壤含盐量预测等级分布Fig.4 Grade distribution of soil salinity inversion
为进一步验证预测结果与实验室结果的一致性,将预测结果与实测盐分插值结果进行栅格对比,统计相同等级像元数据(表6)。由表6 可知,0~20 cm 和20~40 cm 土壤盐渍化预测所得的盐渍化程度与实测含盐量插值相同等级像元个数的相同率均大于73%,表明预测模型的结果与实测数据间具有较好的一致性,所选模型可达到检验要求并用于研究区的土壤盐渍化预测。
表6 实测插值与预测像元统计Tab.6 Measured interpolation and predictive pixel statistics
4 讨论
使用3种机器学习的方法建立了对于不同深度的土壤盐分预测模型,发现不同深度的土壤对同种变量在相同模型下的建模效果差异较大,对所有结果进行精度评价后,选择适用不同深度土壤的最佳模型进行土壤盐分预测。
本文对多个影响因子与实测值进行Pearson 相关性分析,发现敏感因子为地下水矿化度、地下水埋深、土地利用强度等多个因子,与杨思存等[35]、苏春利等[36]所得结论相符,后续可用于挖掘因素与土壤盐分的隐含信息。0~20 cm 土壤盐分与各影响因子的相关性明显高于20~40 cm 土壤,这与刘继龙等[37]研究结果一致,可能是土壤盐分受到外界影响程度随深度不同而改变,人们所进行的农业活动主要是在0~20 cm 土壤,对20~40 cm 土壤的干预性较小。
边慧芹等[38]、何宝忠等[39]对于不同地区的盐渍化进行研究,表明盐分指数在监测应用方面具有一定的优势,选择多种盐分指数与实测盐分进行相关性分析,选取相关性较高的盐分指数作为模型参数进行预测模型训练。本文采样时正值春季,气候干燥,蒸发强烈,土壤盐分随水分的蒸发而在地表集聚,使0~20 cm土壤含盐量高于20~40 cm土壤,造成盐分指数与两层土壤盐分的相关性差异。土壤是一个复杂的综合体,常规的线性回归模型难以达到较好的精度,机器学习能够较好地克服这个难题,许多研究者将机器学习用于预测盐分,所得模型精度高于线性模型[5,40-41],BNN 算法可运用较少的数据得到稳定的模型和各层参数的分布,达到较好的泛化目的,可为盐分预测提供新思路。本文基于2 个变量组,对3种不同机器学习方法进行建模比较,发现BNN 模型精度优于BPNN 模型和SVM 模型。且0~20 cm 土壤盐分预测整体效果优于20~40 cm 深度的模型效果,与杨宁等[42]所得结论基本一致。
本文通过对比不同深度和不同输入参数下多个模型的预测效果,选择最佳模型进行预测。同一地区不同季节不同年份的环境差异较大,春季银川平原土壤中的盐分不断向地表层汇聚,银川平原主要为耕地,农民在耕种前会对农田进行浸灌以此来降低农田土壤盐渍化程度,后续研究应该考虑不同季节的环境变化,选择多年多季节数据进行预测模型的训练及验证。两组输入参数对土壤盐渍化程度的预测精度不同,在下一步工作中将对影响因子与盐分指数进行组合参数,进行区域土壤盐分的预测模型训练选优,提高模型的预测精度。另一方面,不同地区土壤盐渍化驱动机制不同,本文所建立的预测模型能否运用到其他地区还需进行下一步的研究和验证。
5 结论
以银川平原为研究区,将盐渍化影响因子和盐分指数作为输入参数构建盐分预测模型,对土壤0~20 cm及20~40 cm土壤进行预测,得到以下结论:
(1)通过土壤盐分预测模型对比发现,BNN 模型进行土壤盐分预测效果最优,影响因子对0~20 cm土壤盐分预测的影响较大;盐分指数对20~40 cm土壤盐分预测的影响较大。对比分析所选算法的不同变量建模和验证效果,表明BNN 模型是效果最好的预测模型,神经网络的引入对模型的训练有一定的优势。
(2)根据预测结果可知,银川平原0~20 cm 土壤主要是以非盐渍化和轻度盐渍化为主,面积占比分别为33.29%、31.86%,重度盐渍化及盐土面积占比为11.59%。20~40 cm 土壤中非盐渍化和轻度盐渍化土壤面积占比分别为50.54%和30.07%,重度盐渍化及盐土面积占比为7.04%。20~40 cm 土壤盐渍化程度较0~20 cm土壤盐渍化轻。