基于机器学习算法的棉田土壤钾、钠离子量预测
2023-10-10唐茂淞张楠李国辉赵泽艺李明发王兴鹏
唐茂淞,张楠,李国辉,赵泽艺,李明发,王兴鹏,4*
基于机器学习算法的棉田土壤钾、钠离子量预测
唐茂淞1,2,张楠1,2,李国辉1,2,赵泽艺1,2,李明发3,王兴鹏1,2,4*
(1.塔里木大学 水利与建筑工程学院,新疆 阿拉尔 843300;2.塔里木大学 现代农业工程重点实验室,新疆 阿拉尔 843300;3.新疆生产建设兵团第一师水文水资源管理中心,新疆 阿拉尔 843300;4.农业农村部西北绿洲节水农业重点实验室,新疆 石河子 832000)
【目的】比较4种机器学习方法对南疆棉田土壤K+、Na+量的预测结果,确定一种预测准确度较高的机器学习模型作为可供参考的方法。【方法】采用支持向量回归(SVR)、随机森林回归(RFR)、K-最近邻回归(KNNR)和梯度提升回归树(GBRT)4种机器学习算法,2020年棉田土壤K+、Na+量数据训练模型,2021年实测数据进行测试验证。使用平均绝对误差()、均方根误差()和决定系数(2)对模型预测结果进行评估。【结果】4种模型(SVR、RFR、KNNR和GBRT)对测试样本K+量预测的分别为0.100、0.169、0.169 g/kg和0.167 g/kg;分别为0.119、0.218、0.218 g/kg和0.223 g/kg;2分别为0.687、0.437、0.430和0.395。对测试样本Na+量预测的分别为0.841、2.841、2.826 g/kg和2.856 g/kg;分别为1.154、3.658、3.630 g/kg和3.650 g/kg;2分别为0.838、0.299、0.219和0.200。将测试样本K+、Na+量分别按4个土层深度(0~10、10~20、20~30 cm和30~40 cm)进行预测时,SVR模型的误差值最小,其对K+量按照4个深度预测的分别为0.122、0.114、0.056 g/kg和0.106 g/kg,分别为0.135、0.135、0.069 g/kg和0.126 g/kg;对Na+量预测的分别为0.540、0.619、0.835 g/kg和1.371 g/kg,分别为0.636、0.748、1.198 g/kg和1.710 g/kg。【结论】SVR模型预测K+、Na+量的精度最高,可推荐作为南疆棉田土壤钾、钠离子量预测的一种方法。
南疆棉田;土壤盐分离子;机器学习;回归预测模型
0 引 言
【研究意义】降水稀少、蒸发强烈、气候干旱及土壤母质含盐量高是造成南疆土壤盐渍化严重的内在因素[1],而不合理的灌溉、施肥及过度开发则进一步加重了这一过程[2]。土壤中钾(K+)、钠(Na+)等离子量过高,将会阻滞作物对养分的吸收、抑制生长进而导致作物产量降低[3-6]。【研究进展】目前,使用机器学习算法对土壤理化指标进行预测已成为研究的热点[7-9]。研究表明,支持向量回归(Support Vector Regression, SVR)模型对土壤体积质量和孔隙度的预测能够使2分别达到0.867和0.743[10],对土壤含水率的预测效果也较为理想[11]。而基于灰狼优化算法的SVR校正模型对土壤镉量有着更高的预测精度[12]。利用随机森林回归(Random Forest Regression, RFR)模型对土壤有机质量的空间分布[13]、土壤pH值预测也能够取得较好结果[14];当采用遗传算法和贝叶斯优化算法分别对RFR进行改进后,在对土壤含盐量的反演过程中能够达到较佳结果[15]。借助K-最近邻回归(K-Nearest Neighbor Regression, KNNR)对土壤有机质量的空间分布进行预测[16],对土壤水热变化趋势的模拟精度较高[17]。利用梯度提升回归树(Gradient Boosting Regression Tree, GBRT)建立的土壤电导率的估算模型表现出较高的预测能力[18],GBRT也在对土壤水分[19]和土壤镍量[20]的高光谱反演模拟中具有优势。【切入点】南疆地区土壤次生盐渍化程度十分严重,离子毒害导致了棉花生产力下降趋势明显。为此,如何对上述土壤盐分离子量进行精确的估算,将会对预判土壤盐渍化程度及提出适宜的防治措施具有重要意义。【拟解决的关键问题】本研究基于不同的盐分处理,利用SVR、RFR、KNNR和GBRT机器学习预测模型对棉花不同生育阶段及不同土层深度的土壤K+、Na+量进行预测,以期为南疆棉田土壤盐分离子量预测提供一种新的方法。
1 材料与方法
1.1 试验区概况
试验区位于新疆生产建设兵团第一师水利灌溉试验站(40.32°N,81.17°E,海拔1 014 m),属暖温带极端大陆性干旱荒漠气候,冬季寒冷,夏季炎热,昼夜温差大,降水量小,蒸发量大。试验站多年平均气温11.3 ℃,年平均降水量46 mm,蒸发量1 877~2 559 mm,日照时间2 950 h,无霜期207 d,地下水埋深3.5~5.0 m,平均含盐量1.7 g/kg。试验站土壤质地为沙壤土,0~100 cm土壤平均体积质量为1.56 g/cm3,pH值为8.6。
1.2 试验设计
2020年棉花播种和收获日期分别为4月26日和10月27日,棉田设置了1 mS/cm(T1)、2 mS/cm(T2)和3 mS/cm(T3)3个盐分梯度。2021年棉花播种和收获日期分别为4月22日和11月8日,棉田设置了2 mS/cm(T4)、5 mS/cm(T5)和8 mS/cm(T6)3个盐分梯度。每个处理3次重复,棉花施肥、除草、打药、打顶等田间管理措施均与当地农田一致。
1.3 样品采集与测定
分别在棉花苗期、蕾期、花铃前期和花铃后期取土测定土壤盐分离子量,取样深度分别为0~10、10~20、20~30 cm和30~40 cm。土样自然风干后,以土水质量比为1∶5制备浸提液,采用火焰光度计法测定土壤K+、Na+量。
1.4 模型训练与验证
本文采用SVR、RFR、KNNR和GBRT这4种机器学习构建回归预测模型。训练样本为2020年实测的K+、Na+量,2种离子量各有144个训练数据(包括3次重复值),测试样本为2021年实测的K+、Na+量,2种离子量各有48个测试数据(包括3次重复均值)。模型分别以K+、Na+量为因变量,自变量为初始盐分梯度、土层深度和棉花生育期,分类变量量化标准如表1所示,通过R语言程序进行标准化消除自变量之间的量纲差异。使用、和2对模拟结果进行评估,其中,和越小,模型预测值越接近实测值,2越接近于1,模型拟合性能越好。
表1 分类变量量化标准
1.5 机器学习模型
1.5.1 支持向量回归(SVR)
SVR模型是一种广义线性模型,通过核函数进行线性回归处理[21],SVR作为一种最大似然方法,基于结构风险最小化原则可以克服过度拟合的问题[22]。SVR表达式如式(1)所示:
式中:()为回归函数;和为超平面的系数;∈R;n和*n为 样本支持向量;(n)为非线性核函数。
SVR的建模预测流程为:首先将低维特征空间映射到高维空间,再通过线性回归实现低维特征空间数据的预测。SVR作为一种监督学习算法,使用对称损失函数进行训练,具有出色的泛化能力和高预测精度。
1.5.2 随机森林回归(RFR)
RFR模型是一种典型的机器学习算法,由分类与回归树组成,以强大的非线性拟合能力避免了出现过拟合现象[23],结合加权平均原则对决策树的监测结果进行计算后得到最终监测结果[24]。RFR表达式如式(2)所示。
式中:为最终监测值;为因变量个数;ω()为每个因变量观测值的权重;Y为因变量的观测值。
RFR的建模预测流程为:对每棵树建立一个独立的决策树回归模型,最终预测结果为所有树的平均值。
1.5.3 K-最近邻回归(KNNR)
KNNR模型是一种非参数模型,基于距离度量找出训练集中与其最靠近的个训练样本,KNNR的欧式距离表达式如式(3)所示。
式中:为测试样本和指定训练样本之间的欧氏距离;为最近邻样本数量;x为第1个点的第维坐标,y为第2个点的第维坐标。
KNNR的建模预测流程为:首先确定距离计算方法,确定值大小,再从训练集中找到个与测试样本距离最接近的样本,最后使用个近邻的均值作为测试样本的预测值[25]。KNNR算法的缺点比较明显,其对近邻数的取值比较敏感,若值过小容易引发过拟合,若值过大可能会增大近似误差,且KNNR计算样本需要较长时间,特别当数据量很大时,可能会导致内存溢出。
1.5.4 梯度提升回归树(GBRT)
GBRT模型是一种函数空间优化算法,能适应复杂的非线性关系,GBRT在每一次迭代后产生一个精度不高的弱学习器,每个学习器之间不独立,最终将弱学习器集成可以实现较高的精度[26]。GBRT表达式如式(4)所示。
式中:m()为最终的模型;为弱学习器的数量;θ为减少过拟合的系数;f()为弱学习器。
GBRT的建模预测流程为:首先使用一个弱学习器输出预测结果,再使用第二个学习器去学习特征到残差的映射,将2个学习器的输出结果相加得到最终预测结果,经过多次迭代后,可得到最终预测结果。GBRT算法本质上是一个基于树的模型,它集成了由CART算法生成的几个弱学习器。GBRT方法属于集成学习的增强类别,对于增强学习算法,得分高的弱学习器将获得更高的权重。
1.6 数据处理
首先采用 Microsoft Excel 2019录入和整理试验数据,然后分别采用R语言tidyverse程序包、e1071程序包、randomForest程序包、caret程序包、h2o程序包和ggplot2程序包进行数据预处理、建立SVR模型、RFR模型、KNNR模型、GBRT模型和作图。
2 结果与分析
2.1 不同盐分处理的棉田土壤钾、钠离子量变化
不同盐分处理下棉花全生育期内0~40 cm土层K+、Na+量均值变化如图1所示。通过2 a的试验发现,K+量随着棉花生育期呈先增加后减少的趋势,蕾期和花铃前期的K+量要高于苗期和花铃后期。Na+量在2020年的试验中随着棉花生育期呈下降的趋势,在花铃后期达到最小,而在2021年的试验中,Na+量变化较为稳定,各生育阶段变化值较小,不同盐分处理对K+、Na+量影响明显。
图1 全生育期K+、Na+量变化
2.2 土壤盐分钾、钠离子量的统计特征
以2020、2021年棉田土壤K+、Na+量实测数据为总体样本。以2020年K+、Na+量为训练样本,2021年K+、Na+量为测试样本,不同离子量统计特征如图2所示。图中为样本数量,为平均值,为标准差,为变异系数。由图2可知,K+量样本集的变异系数范围为38.72%~50.82%,Na+量样本集的变异系数范围为48.8%~73.47%。由于变异系数均在10%~100%的区间内,样本集均属于中等变异。从箱线图可以看出,K+量总体样本和训练样本各出现1个异常值,Na+量总体样本和训练样本分别出现16个和3个异常值,但由于样本集中的异常值均为极个别情况下对土壤离子量的实测值,故无需对伪异常进行处理。
2.3 SVR模型的建立与验证
使用R程序对训练样本训练模型时,需修改svm()函数的参数,参数和分别为训练样本的自变量和因变量,参数type选择“eps-regression”建立回归预测,参数kernel选择“radial”使用高斯核。参数是进行非线性预测的超参数,超参数是惩罚因子,由于使用了高斯核则需要对和进行同步优化,使建立的模型精度达到最佳。使用试错法结合bootstrap采样进行超参数搜索,通过tune.controls()函数设置使用“bootstrap”采样的方法进行参数搜索,得到超参数和较优取值如表2所示。
图2 不同离子量的统计特征
表2 SVR模型的超参数调优
SVR模型对训练样本和测试样本的预测结果如表3所示。在训练样本中,SVR对Na+量取得的决定系数最大,2为0.900。在测试样本中,SVR对Na+量取得的决定系数最大,2为0.838。综合来看,SVR对Na+量的预测效果较好。
表3 SVR模型的预测结果
2.4 RFR模型的建立与验证
本研究使用R程序对数值型训练样本训练模型时,randomForest()函数会根据输入变量建立回归预测模型,参数和分别为训练样本的自变量和因变量,参数为训练样本数据,超参数表示生长树的数量。使用试错法结合tuneRF()函数寻找较优的超参数,随着ntreeTry参数取值递增,OBB Error模型误差先迅速降低,随后略微增加,在误差最小处确定超参数的值,得到超参数取值如表4所示。
表4 RFR模型的超参数调优
RFR模型对训练样本和测试样本的预测结果如表5所示。在训练样本中,RFR对Na+量取得的决定系数最大,2为0.838。在测试样本中,RFR对K+量取得的决定系数最大,2为0.437,但是对Na+量取得的决定系数较小,2为0.299。综合来看,RFR对K+量的预测效果较好。
表5 RFR模型的预测结果
2.5 KNNR模型的建立与验证
本研究使用R程序对训练样本训练模型时,需修改knnreg()函数的参数,参数和分别为训练样本的自变量和因变量,参数为训练样本数据,超参数的值表明近邻的个数。随着近邻的个数由0开始增加,模型的预测误差会快速减小,在近邻数取得某个值后误差会缓慢增大,由此可确定影响模型精度的最佳值,通过程序循环,根据不同值训练模型后比较值与误差的关系,得到超参数取值如表6所示。
表6 KNNR模型的超参数调优
KNNR模型对训练样本和测试样本的预测结果如表7所示。在训练样本中,KNNR对Na+量取得的决定系数最大,2为0.919。在测试样本中,KNNR对K+量取得的决定系数最大,2为0.430,但是对Na+量取得的决定系数较小,2为0.219。综合来看,KNNR对K+量的预测效果较好。
表7 KNNR模型的预测结果
2.6 GBRT模型的建立与验证
在研究使用R程序对训练样本训练模型时,需修改h2o.gbm()函数的参数,参数和分别为训练样本的自变量和因变量,参数_为训练样本数据,超参数和_分别表示树的个数和树的最大深度。通过试错法结合h2o.grid()函数进行超参数网格搜索,使用训练样本对GBRT参数调优,得到超参数和_取值如表8所示。
表8 GBRT模型的超参数调优
GBRT模型对训练样本和测试样本的预测结果如表9所示。在训练样本中,GBRT对K+量取得的决定系数最大,2为0.946。在测试样本中,GBRT对K+量取得的决定系数最大,2为0.395。综合来看,GBRT对K+量的预测效果较好。
表9 GBRT模型的预测结果
2.7 不同土层深度钾、钠离子量的模型预测精度对比
不同土层深度K+量的模型预测精度如表10和图3所示,将K+量预测误差进行对比时发现,SVR模型均取得最低误差,4个土层深度(0~10、10~20、20~30 cm和30~40 cm)的分别为0.122、0.114、0.056 g/kg和0.106 g/kg,分别为0.135、0.135、0.069 g/kg和0.126 g/kg,表现最优。不同土层深度Na+量的模型预测精度如表11和图4所示,将Na+量预测误差进行对比时发现,SVR模型均取得最低误差,4个土层深度的分别为0.540、0.619、0.835 g/kg和1.371 g/kg,分别为0.636、0.748、1.198 g/kg和1.710 g/kg,表现最优。因此,SVR模型对以深度分层的土壤K+、Na+量预测取得理想效果。
表10 不同土层深度K+量模型预测精度对比
图3 不同土层深度K+量预测值与实测值的关系
表11 不同土层深度Na+量模型预测精度对比
图4 不同土层深度Na+量预测值与实测值的关系
3 讨 论
机器学习算法在土壤理化性质预测中具有应用潜力,相关研究表明,通过机器学习算法可以建立可靠有效的模型[27-29]。本研究使用SVR、RFR、KNNR、GBRT模型对棉田土壤的K+、Na+量进行预测,结果表明,SVR模型对K+、Na+量整体测试样本的预测精度最佳,分别为0.100 g/kg和0.841 g/kg,为0.119 g/kg和1.154 g/kg,2分别达到0.687和0.838。
有研究表明,将不同试验处理[30]、不同土层深度[31]、不同生育期[32]的样本数据作为输入变量建立模型是可行的,这与本文的模型构建思路一致。SVR模型和RFR模型可以实现对土壤有机碳的空间分布预测[33],以及反向传播神经网络适用于土壤墒情预测[34],本文使用4种机器学习算法可以实现对不同土壤离子量的预测,SVR模型对钾钠离子的预测精度较高,而RFR、KNNR、GBRT模型的预测效果相对较差。由于本文仅使用2 a试验数据,其他模型可能存在样本数量的限制而表现的预测精度较低。因此,在后续的试验中,可连续多年在不同的棉田内采集样本数据,使机器学习回归预测模型在大量样本数据的训练下进一步提升预测精度。
本研究位于南疆棉花种植区,由于南疆独特的土壤理化性质导致土壤含盐量较高且棉田盐分空间变异性大,盐分离子对作物生长产生较为严重的影响。土壤母质含钾钠矿物比较多是土壤钾钠离子主要来源,施肥和灌溉也是影响土壤中钾钠离子量的主要因素之一,由于土壤浸提液中盐分一般以离子的形式存在,土壤电导率可以综合反映出土壤浸提液中各种阴阳离子量之和,也可以在一定程度上表征土壤的含盐量[35]。在对盐渍化土壤进行改良时,精准预测土壤盐分离子量,对制定适宜的改良措施具有重要的参考价值。本文通过对4种机器学习方法预测南疆棉田土壤K+、Na+量的结果进行比较分析,认为SVR模型能够较为准确地预测K+、Na+量。在实际应用时,可在棉花播前采集土样测定土壤K+、Na+量的本底值,再结合SVR模型即可预测出棉花不同生育期各土层的K+、Na+量。
4 结 论
1)K+量和Na+量受盐分影响明显,土壤盐分越高则K+量和Na+量越高,且在棉花生育期内, K+量随着棉花生育期呈先增加后减少的趋势,Na+量随着棉花生育期呈下降趋势。
2)在盐分本底值、棉花生育期及土层深度的多重影响下,建立的SVR模型对土壤K+、Na+量的预测精度最高,可作为南疆棉田土壤K+、Na+量预测的一种方法。
(作者声明本文无实际或潜在的利益冲突)
[1] 王兴鹏. 冬春灌对南疆土壤水盐动态和棉花生长的影响研究[D]. 北京: 中国农业科学院, 2018.
WANG Xingpeng. Effects of winter-spring irrigation on soil water-salt dynamics and cotton growth[D]. Beijing: Chinese Academy of Agricultural Sciences, 2018.
[2] 杨涛, 李生梅, 黄雅婕, 等. 海岛棉资源自然复合盐胁迫综合评价[J]. 核农学报, 2021, 35(7): 1 507-1 521.
YANG Tao, LI Shengmei, HUANG Yajie, et al. Comprehensive evaluation of natural compound salt stress of sea-island cotton resources[J]. Journal of Nuclear Agricultural Sciences, 2021, 35(7): 1 507-1 521.
[3] 屈忠义, 孙慧慧, 杨博, 等. 不同改良剂对盐碱地土壤微生物与加工番茄产量的影响[J]. 农业机械学报, 2021, 52(4): 311-318, 350.
QU Zhongyi, SUN Huihui, YANG Bo, et al. Effects of different amendments on soil microorganisms and yield of processing tomato in saline alkali soil[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 311-318, 350.
[4] 窦旭, 史海滨, 李瑞平, 等. 盐渍化土壤剖面盐分与养分分布特征及盐分迁移估算[J]. 农业机械学报, 2022, 53(1): 279-290, 330.
DOU Xu, SHI Haibin, LI Ruiping, et al. Distribution characteristics of salinity and nutrients in salinized soil profile and estimation of salt migration[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(1): 279-290, 330.
[5] 郑复乐, 姚荣江, 杨劲松, 等. 改良材料对微咸水滴灌农田土壤盐分分布与离子组成的影响[J]. 灌溉排水学报, 2020, 39(8): 60-71.
ZHENG Fule, YAO Rongjiang, YANG Jinsong, et al. The effects of soil amendment with different materials on soil salt distribution and its ion composition under brackish-water drip irrigation[J]. Journal of Irrigation and Drainage, 2020, 39(8): 60-71.
[6] 王航, 周青云, 张宝忠, 等. 不同灌水处理下滨海盐碱地土壤-玉米阳离子变化规律及相关关系研究[J]. 灌溉排水学报, 2021, 40(12): 36-43.
WANG Hang, ZHOU Qingyun, ZHANG Baozhong, et al. Irrigation affects the translocation of cations from soil to maize roots in saline-alkaline soil[J]. Journal of Irrigation and Drainage, 2021, 40(12): 36-43.
[7] 王铭鑫, 范超, 高秉博, 等. 融合半变异函数的空间随机森林插值方法[J].中国生态农业学报(中英文), 2022, 30(3): 451-457.
WANG Mingxin, FAN Chao, GAO Bingbo, et al. A spatial random forest interpolation method with semi-variogram[J]. Chinese Journal of Eco-Agriculture, 2022, 30(3): 451-457.
[8] 马国林, 丁建丽, 韩礼敬, 等. 基于变量优选与机器学习的干旱区湿地土壤盐渍化数字制图[J]. 农业工程学报, 2020, 36(19): 124-131.
MA Guolin, DING Jianli, HAN Lijing, et al. Digital mapping of soil salinization in arid area wetland based on variable optimized selection and machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(19): 124-131.
[9] 刘明杰, 徐卓揆, 郜允兵, 等. 基于机器学习的稀疏样本下的土壤有机质估算方法[J]. 地球信息科学学报, 2020, 22(9): 1 799-1 813.
LIU Mingjie, XU Zhuokui, GAO Yunbing, et al. Estimating soil organic matter based on machine learning under sparse sample[J]. Journal of Geo-information Science, 2020, 22(9): 1 799-1 813.
[10] 杨玮, 兰红, 李民赞, 等. 基于图像处理和SVR的土壤容重与土壤孔隙度预测[J]. 农业工程学报, 2021, 37(12): 144-151.
YANG Wei, LAN Hong, LI Minzan, et al. Predicting bulk density and porosity of soil using image processing and support vector regression[J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(12): 144-151.
[11] ACHIENG K O. Modelling of soil moisture retention curve using machine learning techniques: Artificial and deep neural networks vs support vector regression models[J]. Computers & Geosciences, 2019, 133: 104 320.
[12] 陈颖, 张灿, 肖春艳, 等. 基于GWO-SVR的土壤镉元素含量含水率校正预测模型研究[J]. 光学学报, 2020, 40(10): 180-187.
CHEN Ying, ZHANG Can, XIAO Chunyan, et al. Study on prediction model of soil cadmium content moisture content correction based on GWO-SVR[J]. Acta Optica Sinica, 2020, 40(10): 180-187.
[13] 尉芳, 刘京, 夏利恒, 等. 陕西渭北旱塬区农田土壤有机质空间预测方法[J]. 环境科学, 2022, 43(2): 1 097-1 107.
WEI Fang, LIU Jing, XIA Liheng, et al. Spatial prediction method of farmland soil organic matter in Weibei Dryland of Shaanxi Province[J]. Environmental Science, 2022, 43(2): 1 097-1 107.
[14] TZIACHRIS P, ASCHONITIS V, CHATZISTATHIS T, et al. Comparing machine learning models and hybrid geostatistical methods using environmental and soil covariates for soil pH prediction[J]. ISPRS International Journal of Geo-Information, 2020, 9(4): 276.
[15] 杨练兵, 陈春波, 郑宏伟, 等. 基于优化随机森林回归模型的土壤盐渍化反演[J]. 地球信息科学学报, 2021, 23(9): 1 662-1 674.
YANG Lianbing, CHEN Chunbo, ZHENG Hongwei, et al. Retrieval of soil salinity content based on random forests regression optimized by Bayesian optimization algorithm and genetic algorithm[J]. Journal of Geo-information Science, 2021, 23(9): 1 662-1 674.
[16] 胡贵贵, 杨粉莉, 杨联安, 等. 基于主成分和机器学习的土壤有机质含量空间预测建模[J]. 干旱区地理, 2021, 44(4): 1 114-1 124.
HU Guigui, YANG Fenli, YANG Lian’an, et al. Spatial prediction modeling of soil organic matter content based on principal components and machine learning[J]. Arid Land Geography, 2021, 44(4): 1 114-1 124.
[17] 刘宏超, 马俊杰, 李韧. 基于KNN机器学习方法对青藏高原唐古拉地区表层土壤水热状况的模拟[J]. 冰川冻土, 2021, 43(4): 1 243-1 252.
LIU Hongchao, MA Junjie, LI Ren. Simulation of the water-thermal features within the surface soil in Tanggula region, Qinghai-Tibet Plateau, by using KNN model[J]. Journal of Glaciology and Geocryology, 2021, 43(4): 1 243-1 252.
[18] 曹肖奕, 丁建丽, 葛翔宇, 等. 基于不同卫星光谱模拟的土壤电导率估算研究[J]. 干旱区地理, 2020, 43(1): 172-181.
CAO Xiaoyi, DING Jianli, GE Xiangyu, et al. Estimation of soil conductivity based on spectral simulation of different satellites[J]. Arid Land Geography, 2020, 43(1): 172-181.
[19] 田美玲, 葛翔宇, 丁建丽, 等. 耦合机器学习和机载高光谱数据的土壤含水量估算[J]. 激光与光电子学进展, 2020, 57(9): 232-241.
TIAN Meiling, GE Xiangyu, DING Jianli, et al. Coupled machine learning and unmanned aerial vehicle based hyperspectral data for soil moisture content estimation[J]. Laser & Optoelectronics Progress, 2020, 57(9): 232-241.
[20] 傅邦杰, 牛瑞卿, 王春胜. 丹江口库区土壤镍含量高光谱反演方法[J]. 遥感信息, 2021, 36(3): 44-49.
FU Bangjie, NIU Ruiqing, WANG Chunsheng. Soil nickel metal content estimation based on hyper-spectrum in Danjiangkou Reservoir area[J]. Remote Sensing Information, 2021, 36(3): 44-49.
[21] 任必武, 陈瀚阅, 张黎明, 等. 机器学习用于耕地土壤有机碳空间预测对比研究: 以亚热带复杂地貌区为例[J]. 中国生态农业学报(中英文), 2021, 29(6): 1 042-1 050.
REN Biwu, CHEN Hanyue, ZHANG Liming, et al. Comparison of machine learning for predicting and mapping soil organic carbon in cultivated land in a subtropical complex geomorphic region[J]. Chinese Journal of Eco-Agriculture, 2021, 29(6): 1 042-1 050.
[22] WANG Xinxin, HAN Jigang, WANG Xia, et al. Estimating soil organic matter content using sentinel-2 imagery by machine learning in Shanghai[J]. IEEE Access, 2021, 9: 78 215-78 225.
[23] 张万涛, 吉静怡, 李彬彬, 等. 黄土高原不同地貌区农田土壤有机质预测方法研究[J]. 植物营养与肥料学报, 2021, 27(4): 583-594.
ZHANG Wantao, JI Jingyi, LI Binbin, et al. Spatial prediction of soil organic matter of farmlands under different landforms in the Loess Plateau, China[J]. Journal of Plant Nutrition and Fertilizers, 2021, 27(4): 583-594.
[24] 段维纳, 竞霞, 刘良云, 等. 融合SIF和反射光谱的小麦条锈病遥感监测[J]. 光谱学与光谱分析, 2022, 42(3): 859-865.
DUAN Weina, JING Xia, LIU Liangyun, et al. Monitoring of wheat stripe rust based on integration of SIF and reflectance spectrum[J]. Spectroscopy and Spectral Analysis, 2022, 42(3): 859-865.
[25] ABEDI F, AMIRIAN-CHAKAN A, FARAJI M, et al. Salt dome related soil salinity in Southern Iran: Prediction and mapping with averaging machine learning models[J]. Land Degradation & Development, 2021, 32(3): 1 540-1 554.
[26] 金则澎, 毛峰, 程乾, 等. 梯度提升回归树在千岛湖水体CDOM反演中的应用[J]. 遥感信息, 2022, 37(1): 110-118.
JIN Zepeng, MAO Feng, CHENG Qian, et al. Application of gradient boosting regression tree in CDOM inversion of Qiandao Lake[J]. Remote Sensing Information, 2022, 37(1): 110-118.
[27] ZHOU Tao, GENG Yajun, JI Cheng, et al. Prediction of soil organic carbon and the C:N ratio on a national scale using machine learning and satellite data: A comparison between Sentinel-2, Sentinel-3 and Landsat-8 images[J]. Science of the Total Environment, 2021, 755: 142 661.
[28] WANG Zong, DU Zhengping, LI Xiaoyan, et al. Incorporation of high accuracy surface modeling into machine learning to improve soil organic matter mapping[J]. Ecological Indicators, 2021, 129: 107 975.
[29] TAGHIZADEH-MEHRJARDI R, SCHMIDT K, TOOMANIAN N, et al. Improving the spatial prediction of soil salinity in arid regions using wavelet transformation and support vector regression models[J]. Geoderma, 2021, 383: 114 793.
[30] 王兴鹏, 蒋富昌, 王洪博, 等. 基于AquaCrop模型的南疆无膜滴灌棉花灌溉制度优化[J]. 农业机械学报, 2021, 52(4): 293-301, 335.
WANG Xingpeng, JIANG Fuchang, WANG Hongbo, et al. Irrigation scheduling optimization of drip-irrigated without plastic film cotton in South Xinjiang based on AquaCrop model[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 293-301, 335.
[31] 牛晓倩, 贾小旭, 刘成功, 等. 关中平原农田土壤水力参数空间分异与模拟[J]. 水土保持学报, 2021, 35(1): 198-204.
NIU Xiaoqian, JIA Xiaoxu, LIU Chenggong, et al. Spatial variations and simulations of farmland soil hydraulic parameters in the Guanzhong Plain[J]. Journal of Soil and Water Conservation, 2021, 35(1): 198-204.
[32] 谭先明, 张佳伟, 王仲林, 等. 基于PLS的不同水氮条件下带状套作玉米产量预测[J]. 中国农业科学, 2022, 55(6): 1 127-1 138.
TAN Xianming, ZHANG Jiawei, WANG Zhonglin, et al. Prediction of maize yield in relay strip intercropping under different water and nitrogen conditions based on PLS[J]. Scientia Agricultura Sinica, 2022, 55(6): 1 127-1 138.
[33] MAHMOUDZADEH H, MATINFAR H R, TAGHIZADEH-MEHRJARDI R, et al. Spatial prediction of soil organic carbon using machine learning techniques in western Iran[J]. Geoderma Regional, 2020, 21: e00 260.
[34] 薛明, 韦波, 李娟, 等. 基于改进BP神经网络与支持向量机的土壤墒情预测方法研究[J]. 土壤通报, 2021, 52(4): 793-800.
XUE Ming, WEI Bo, LI Juan, et al. Forecast method of soil moisture based on improved BP neural network and support vector machine[J]. Chinese Journal of Soil Science, 2021, 52(4): 793-800.
[35] 刘国锋, 徐增洪, 么宗利, 等. 冲水灌溉对西北硫酸盐型土壤中盐分离子变化的影响研究[J]. 干旱区资源与环境, 2019, 33(3): 118-123.
LIU Guofeng, XU Zenghong, YAO Zongli, et al. Effects of irrigation on the salt ions in sulfate-type saline-alkali soil[J]. Journal of Arid Land Resources and Environment, 2019, 33(3): 118-123.
Predicting Soil K+and Na+Contents in Cotton Field Using Machine Learning Algorithm
TANG Maosong1,2, ZHANG Nan1,2, LI Guohui1,2, ZHAO Zeyi1,2, LI Mingfa3, WANG Xingpeng1,2,4*
(1. College of Water Resource and Architecture Engineering, Tarim University, Alaer 843300, China; 2. Laboratory of Modern Agricultural Engineering, Tarim University, Alaer 843300, China; 3. Hydrology and Water Resources Management Center of the First Division of Xinjiang Production and Construction Corps, Alaer 843300, China; 4. Key Laboratory of Northwest Oasis Water-saving Agriculture, Ministry of Agriculture and Rural Affairs, PR China, Shihezi 832000, China)
【Objective】The contents of K+and Na+in soil affect soil fertility and quality, and understanding their spatiotemporal changes and the factors influencing their changes is critical to improving soil management and alleviating soil alkalization. We propose a machine learning method to predict changes in K+and Na+content in soils.【Method】Taking data measured from a cotton field in Southern Xinjiang as an example, we compared four machine learning algorithms: support vector regression (SVR), random forest regression (RFR), K-nearest neighbor regression (KNNR), and gradient lifting regression tree (GBRT). All algorithms were first trained based on K+and Na+measured in 2020, and the trained models were then tested against the data measured in 2021. The accuracy and robustness of the models were evaluated using the mean absolute errors (), root mean square error (), and the determination coefficient (2).【Result】Theof SVR, RFR, KNNR and GBRT for predicting K+content was 0.100, 0.169, 0.169 and 0.167 g/kg, respectively; their associated RMSE was 0.119, 0.218, 0.218 g/kg and 0.223 g/kg, respectively, and their2was 0.687, 0.437, 0.430, and 0.395, respectively. For predicting Na+content, theof SVR, RFR, KNNR and GBRT was 0.841, 2.841, 2.826 g/kg, and 2.856 g/kg, respectively; and theirwas 1.154, 3.658, 3.630 g/kg, and 3.650 g/kg, respectively, and2was 0.838, 0.299, 0.219, and 0.200, respectively. SVR model is most accurate for predicting soil K+and Na+in the depths of 0~10, 10~20, 20~30 and 30~40 cm, with itsfor K+at the four depths being 0.122, 0.114, 0.056 g/kg and 0.106 g/kg, respectively, andbeing 0.135, 0.135, 0.069 g/kg and 0.126 g/kg, respectively. Theof SVR for predicting Na+at the four depths was 0.540, 0.619, 0.835 g/kg and 1.371 g/kg, respectively, and itswas 0.636, 0.748, 1.198 g/kg and 1.710 g/kg, respectively.【Conclusion】Among the four algorithms we compared, SVR is most accurate for predicting soil K+and Na+at depth from 0 to 40 cm, and it can be used to predict variation in K+and Na+in response to environmental change in the cotton fields in Southern Xinjiang.
South Xinjiang cotton field; soil salt ions; machine learning; regression prediction model
1672 - 3317(2023)09 - 0032 - 08
TP181
A
10.13522/j.cnki.ggps.2022405
唐茂淞, 张楠, 李国辉, 等. 基于机器学习算法的棉田土壤钾、钠离子量预测[J]. 灌溉排水学报, 2023, 42(9): 32-39.
TANG Maosong, ZHANG Nan, LI Guohui, et al. Predicting Soil K+and Na+Contents in Cotton Field Using Machine Learning Algorithm[J]. Journal of Irrigation and Drainage, 2023, 42(9): 32-39.
2022-07-20
2023-05-11
2023-09-13
“十四五”国家重点研发计划项目(2022YFD1900505);兵团重大科技项目(2021AA003);塔里木大学研究生科研创新项目(TDGRI202143)
唐茂淞(1997-),男。硕士研究生,主要从事灌溉排水理论与节水灌溉研究。E-mail: tms765951540@gmail.com
王兴鹏(1978-),男。教授,博士生导师,博士,主要从事旱区水资源高效利用及水环境保护研究。E-mail: 13999068354@163.com
@《灌溉排水学报》编辑部,开放获取CC BY-NC-ND协议
责任编辑:赵宇龙