基于电磁感应数据的电导率反演模型研究
2021-04-28吴家林白建铎王佳文纪文君
吴家林,彭 杰*,白建铎,王佳文,纪文君,王 楠
(1.塔里木大学 植物科学学院,新疆 阿拉尔 843300;2.中国农业大学 土地科学与技术学院, 北京 100083;3.浙江大学 环境与资源学院,杭州 310058)
0 引 言
【研究意义】土壤盐渍化是现今世界干旱地区的主要农业问题[1-3]。新疆地处西北干旱地区,2018年棉花种植面积已经占全国棉花种植面积的4/5,同时作为我国最大的盐土区,其盐渍土面积达1 100 万hm2[4-5]。南疆作为棉花的主产区,棉花产业长期受高蒸降比和灌溉排水不畅导致的土壤盐渍化以及次生盐渍化危害,土壤盐渍化已成为新疆棉花产量和品质提升及持续发展的重大限制条件和障碍因素。表层土壤盐渍化信息由于时空变异性强烈,不利于土壤盐渍化程度的客观诊断,从而很难为土壤盐渍化改良和精准灌溉提供可靠的支撑依据,而土壤剖面盐分信息相对于表层土壤盐分信息来讲,其时空变异性相对较弱,信息相对较稳定。掌握棉田土壤盐分空间变异性,前提是大面积、准确、及时地掌握棉田盐渍化土壤剖面的盐分空间分布特征信息。传统的土壤剖面盐渍化调查方法为野外定点采样结合室内分析测定,多以挖剖面、土钻钻孔等侵入式为主,且相关研究多局限于田间小尺度。在费时耗力和代表性差的双重影响下,难以满足目前针对区域尺度的农田土壤盐渍化管理所急需的大面积土壤剖面盐分信息获取的需求[6-9]。
【研究进展】电磁感应技术可非接触直接获取土壤剖面表观电导率信息,具有快速、代表性强和精度高等优点,适用于大面积土壤盐渍化的监测,已被广泛应用于土壤盐渍化的调查与研究中[10-12]。近年来,大地电导率仪在土壤属性(土壤盐分、有机质、土壤含水率、阳离子交换量等)监测方面发挥着重要作用[13-18]。杨劲松等[19]以黄河三角洲海涂区为研究对象,基于电磁感应数据并结合GIS 与地统计学确定了最佳的空间插值方式,分析了不同植被类型下土壤盐渍剖面分布特征。吴亚坤等[20]利用线性建模方法构建了不同季节及不同土层土壤含盐量的解译模型,从三维角度评估了不同季节土壤盐分变异特征。国内外学者同时期也进行了相关研究[21-27]。【切入点】以往基于电磁感应数据所建立的土壤盐分解译模型研究区域多以田间尺度为主,建模方法主要以线性模型居多。而不同条田的土壤盐分、土壤水分、阳离子交换量、土壤有机质以及土壤质地等均具有较大差异,造成模型参数难以统一。因此,基于田间尺度建立的电磁感应线性解译模型能否外延至区域尺度,有待于进一步研究。此外,将非线性建模方法应用于区域尺度构建基于表观电导率的土壤电导率反演模型的报道甚少。在区域尺度上,探明表观电导率与土壤电导率之间是否满足线性关系,不同线性建模方法能否适用于区域尺度的土壤电导率反演模型研究,以及非线性建模方法相较于线性建模方法在区域尺度上是否有更好的应用前景,是电磁感应技术应用于大面积农田土壤剖面盐分信息获取所需解决的关键问题。【拟解决的关键问题】利用新疆南疆阿拉尔垦区内30 个不同地点的棉田剖面表观电导率与土壤电导率数据,通过区域尺度模型与田间尺度模型的模型精度对比,不同线性模型和不同非线性模型在区域尺度下的模型精度对比,提出构建棉田土壤电导率反演模型的思路和方法,研究结果为EM38-MK2 在区域尺度棉田土壤盐渍化监测中提供理论参考,为发展精准农业提供新思路。
1 材料与方法
1.1 研究区概况
研究区为新疆南部阿拉尔垦区(图1),地理位置介于(80°30′—81°58′E,40°22′—40°57′N),全垦区东西相距281 km,南北相距180 km。平均海拔高度1 011 m,北部为冲积扇平原,南部为塔克拉玛干沙漠,地势北高南低,属典型暖温带极端大陆性干旱荒漠气候。且水土资源丰富,年均气温10.7 ℃,年日照2 556.3~2 991.8 h,无霜期220 d,年均蒸发量为1 988 mm,年均降水量50 mm,蒸降比约为40 倍。土壤质地类型主要为壤土、沙壤土以及沙土。土壤盐分主要由硫酸盐、亚硫酸盐和氯化盐构成。地下水矿化度0.6~6 g/L,地下水埋深1~3 m[28],土壤pH 值在7.26~9.23 之间变化。主要种植作物包括棉花、红枣、苹果和水稻等,其中棉花种植面积最大,约1.55×105hm2,土壤样品采集与表观电导率数据采集均在棉田中。受地形、强蒸发、降雨稀少以及高蒸降比、土地开垦、灌溉排盐系统不配套的影响,垦区内土壤盐渍化现象明显且盐渍化土壤分布广泛,致使农作物受到不同程度的盐渍化危害。
1.2 表观电导率数据和土壤样品采集
EM38-MK2 测量点和土样采集点如图2 所示,本研究使用加拿大GEONICS 公司生产的新式大地电导率仪EM38-MK2 采集土壤表观电导率数据(ECa,mS/m),采用美国犀牛钻机公司生产的Rhino S1 土壤采集系统采集土壤剖面样品。EM38-MK2 工作时提供2 种测定模式EMH 和EMV,每种模式可测定2 个不同深度土壤剖面的表观电导率,EMH 模式下的测定深度为0~0.375、0~0.750 m,表观电导率数据分别记录为EMH0.375和EMH0.75,EMV 模式下的测定深度为0~0.750 和0~1.500 m,表观电导率数据分别记录为EMV0.75和EMV1.5。
Rhino S1 土壤采集系统取样管长度为1 m,内置中空PVC 取芯管,取芯管直径36 mm,可完整保存土壤样品的原状性。田间作业时,单管取样时间约30~60 s。完成后取出取芯管获得深度为1 m 的完整土壤剖面样品,用密封橡皮塞分别将取芯管底部和上部密封(底红顶黑)以防止水分蒸发和盐分流失。
综合考虑垦区面积大小、土壤盐渍化程度、棉花种植集中度、交通道路状况等因素,在阿拉尔垦区内棉花种植区域选取30 个棉田布设样方,采集土壤表观电导率数据和土壤剖面样品。采样时间为2019年3月中下旬,如图1 所示,在研究区中选取30 个不同盐渍化程度棉田(面积均大于10 hm2),棉田内布设大小为100 m×100 m 的样方。
图1 研究区地理位置与调查样方分布 Fig.1 The geographical location of the study area and the distribution of survey samples
图2 EM38-MK2 测量点和土样采集点分布 Fig.2 Distribution of EM38-MK2 measuring points and soil sample collection points
如图2 所示,采集表观电导率数据时,为了解样方内表观电导率数据的阈值范围,便于采样点位的选取,采集6 条平行棉花种植方向和6 条垂直棉花种植方向的EMH 和EMV 模式下连续线状表观电导率数据,形状为网格状,数据间距约3 m。根据连续线状表观电导率数据采集时观测的阈值范围,样方内遵循代表性原则在连续线状表观电导率数据行走路线上采集18 个特征样点表观电导率数据,每个样点EMH 和EMV 模式各测定3 次,获取的表观电导率数据取平均值。并在18 个表观电导率数据测定位上使用Rhino S1 土壤采集系统采集18 管深度为0~1 m 的土壤剖面样本数据,30 个样方共采集540 组特征样点的表观电导率数据,每组包含4 种表观电导率数据,共计2 160 个样点表观电导率数据。采集540管土壤样品数据,用手持GPS 记录每个采样点的纬度和经度(误差精度小于8 m),每管土壤样品实验室处理为3 个深度(0~0.375、0~0.750、0~1.000 m),共计1 620 个土壤样品。在去除石子、植物根和地膜等残留物后将土壤样本置于牛皮纸上自然风干,取风干土样研磨过2 mm 筛备用,每个深度样本数据保留300 g 土壤,按土水比为(1∶1)比例制备滤液,测定其土壤电导率,用于构建电导率与表观电导率之间的反演模型。
1.3 建模方法及模型评价指标
本研究以Rhino S1 土壤采集系统采集、处理、测定的540 组土壤电导率和对应EM38-MK2 测定的540 组土壤表观电导率数据为样本总体,以3 个不同深度土壤剖面(0~0.375、0~0.750、0~1.000 m)电导率为因变量,4 种测定位下的土壤表观电导率(EMH0.375、EMH0.75、EMV0.75、EMV1.5)为自变量,建立研究区棉田不同深度土壤剖面(0~0.375、0~0.750、0~1.000 m))电导率的反演模型。
建模方法为多元线性回归(MLR)、主成分回归(PCR)、偏最小二乘回归(PLSR)、支持向量机(SVM)、随机森林(RF)、神经网络(NN)6 种。其中,RF 是一种构建神经网络,利用多棵决策树对样本数据进行训练、分类和预测的机器学习方法,各决策树单元间相互无关联且随机排列,有效降低了单一分类器的分析误差,其计算量大,但提升了分类准确度和模型预测精度,适用于大规模数据的高效处理[29]。NN 是基于大量样本经过反复训练的学习过程,能被赋予完成某项任务的具体功能,在拥有传统数学模型中能处理海量多维数据的优点的同时,还具有高度自由的非线性、泛化性等优良特性[30]。建模思路为区域尺度模型与田间尺度模型2 种,区域尺度模型是将30 个样方的表观电导率数据和土壤电导率数据汇总,建立统一的反演模型,田间尺度模型针对单一样方的表观电导率数据和土壤电导率数据建立单独的反演模型。
模型预测精度和稳定性的评价指标为决定系数(R2)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)、相对分析误差(RPD)。R2反映观测值与预测值间的相关性强度;RMSE检验模型的预测能力;MAPE检验模型的精度。相对于RPD而言,预测精度分为5 个等级,当RPD<1.5 时表明模型无法进行预测,当1.5<RPD<2 时表明模型可进行粗略估计,当2≤RPD<2.5 时表明模型有较好的预测能力,当2.5≤RPD<3.0时模型具有很好的预测能力,当RPD≥3.0时模型具有极好的预测能力[4]。R2和RPD大、RMSE和MAPE 小的模型,其预测能力好,稳定性高。
2 结果与分析
2.1 剖面土壤电导率统计特征
土壤剖面电导率统计特征见表1。由表1 可知,不同深度土壤剖面的电导率介于0.120~11.015 dS/m之间,变幅较大,最小值分布于0~0.375 m 土壤剖面中,最大值分布于0~0.750 m 土壤剖面中,其中,0~0.375 m 土壤剖面电导率范围为0.120~8.963 dS/m,0~0.750 m 土壤剖面的为0.185~11.015 dS/m,0~1.000 m 土壤剖面的为0.354~10.650 dS/m。不同深度土壤剖面的电导率平均值在2.080~3.769 dS/m,0~0.375 m 的电导率最低,0~0.750 m 的次之,0~1.000 m 的最高,具有随土壤剖面深度增加而增加的趋势,这是棉花冬季灌水将表层土壤盐分淋溶到深层土壤中的结果。从变异系数来看,各层土壤电导率的变异系数差异明显,0~0.375、0~0.750、0~1.500 m 土壤剖面变异系数分别为65.10%、57.00%、53.90%。通常情况下,变异系数小于10%为弱变异,变异系数10%~100%为中等变异,变异系数大于100%为强变异[31],不同土壤深度下土壤电导率均呈中等变异强度。
表1 剖面土壤电导率的统计特征值 Table 1 Statistical characteristic value of profile soil conductivity
2.2 基于线性建模方法的田间尺度模型精度
为验证线性建模方法在田间尺度模型中的可靠性,选用MLR、PLSR 和PCR 等线性建模方法建立田间尺度模型。以每个棉田样方采集的18 个土壤样本为总体,采用分层抽样的方法按2∶1 比例分为建模集与预测集,其中建模集12 组样本,预测集6 组样本,将30 个棉田总体样本数累加。
不同线性模型反演精度见表2。由表2 可知,在建模集中,3 种线性建模方法的不同深度土壤剖面模型精度差异较小,0~0.375 m 土壤深度MLR 模型精度低于PLSR 和PCR,R2为0.88,RMSE、MAPE分别为0.50 dS/m 和0.21,0~0.750 m 和0~1.000 m 土壤深度下,PLSR 和PCR 基本保持一致,0~0.750 m 的PLSR 模型精度最高,R2为0.95,RMSE、MAPE分别为0.41 dS/m 和0.12。在验证集中,3 种不同深度土壤剖面电导率反演模型的各指标相较于建模集模型精度均有一定程度下降,但不同建模方法R2在0.83以上,表明模型稳定不同模型预测集中RPD最高值为2.78,最低值为2.35,可见模型具有较好或很好的预测能力。不同深度土壤剖面电导率模型反演效果优劣排序依次为PLSR>PCR>MLR。在田间尺度模型中表观电导率与土壤电导率满足线性关系,所选用的3 种线性建模方法在区域尺度棉田中适用性较好。
表2 不同线性建模方法的田间尺度模型精度 Table 2 Field scale model accuracy of different linear modeling methods
2.3 基于线性建模方法的区域尺度模型精度
选取MLR、PLSR 和PCR3 种建模方法对土壤电导率进行预测并进行模型精度检验,将田间尺度模型的建模集与预测集分别汇总后得到区域尺度模型的建模集与预测集,其中建模集360 组土壤样本数据,预测集180 组土壤样本数据。表观电导率数据为自变量,土壤电导率为因变量,构建基于线性建模方法的区域尺度模型。
表3 不同线性建模方法的区域尺度模型精度 Table 3 Regional scale model accuracy of different linear modeling methods
不同线性建模方法的区域尺度模型精度评价结果如表3 所示,在建模集中,3 种建模方法的模型精度差异不明显,0~0.375 m 土壤深度PLSR 模型精度略优于MLR 和PCR,R2为0.35,RMSE、MAPE分别为1.08 dS/m 和0.57,0~0.750 m 和0~1.000 m 土壤深度下,PLSR 和PCR 模型精度基本保持一致,且均低于MLR,在0~0.750 m 的MLR 模型精度最高,R2为0.53,RMSE、MAPE分别为1.26 dS/m 和0.41。在验证集中,3 种模型的各指标相较于建模集均没有明显下降,表明模型比较稳定,MLR 模型的各项指标略优于PLSR 和PCR。MLR、PLSR 和PCR 建模方法的RPD均<1.5,说明3 种线性模型不具备对全区样本数据进行预测的能力。由于土壤中大多数溶解盐类均以离子状态存在,EM38-MK2 测定的表观电导率数据反映的是土壤空间范围内游离态电解质量,同一棉田样方中土壤质地和土壤含水率等影响表观电导率数据的因素变化基本稳定,田间尺度模型对样本有较好或很好的预测能力。区域尺度模型考虑到不同棉田样方的地域跨度较大,土壤质地、地下水位和土壤含水率等因素变化强烈,降低了区域尺度模型的精度,导致区域尺度模型的预测能力大幅下降。
2.4 基于非线性建模方法的区域尺度模型精度
选用RF、NN 和SVM3 种非线性建模方法构建基于表观电导率数据的土壤剖面电导率反演模型。结果如表4 所示,相较于MLR、PLSR 和PCR 线性建模方法,RF、NN 和PCR 区域尺度模型精度均有明显提高。在建模集中,3 种建模方法的精度差异较大,0~0.750 m深度RF 模型精度最高,R2为0.85,RMSE和MAPE分别为0.78 dS/m 和0.27,0~0.375 m 深度剖面的R2、RMSE和MAPE分别为0.80、0.61 dS/m 和0.33,为RF 模型中最低值。0~1.000 m 剖面的模型精度介于二者之间,略低于0~0.750 m 深度下模型精度。NN 和SVM 模型精度有不同程度的降低,但不同深度的模型精度变化趋势与RF 保持一致,具有随土壤剖面电导率增加而升高的趋势。综上所述,建模集中,RF 模型性能明显优于NN 和SVM 模型,反演效果优劣排序依次为RF 模型>NN 模型>SVM 模型。在验证集中,不同深度的RF 模型精度相较于建模集均没有明显差异,且RPD指标均>2.0,说明模型比较稳定,能在区域尺度下较好地对样本数据进行预测。NN 模型的R2高于SVM,RMSE和MAPE低于SVM。不同深度下NN 和SVM 的RPD指标均介于1.5~2.0 之间,R2指标介于0.54~0.72 之间,说明NN 和SVM 两模型均只能对样本数据进行粗略估计。综合考察各模型建模集与预测集的评价指标,3 种模型的预测性能和稳定性从高到低排序依次为RF 模型>NN 模型>SVM 模型,表明非线性建模方法可有效改善基于土壤剖面电导率的区域尺度模型的预测精度。
表4 不同非线性建模方法的区域尺度模型精度对比 Table 4 Comparison of regional scale model accuracy of different nonlinear modeling methods
图3 RF 模型不同样本数据量下的精度指标Fig.3 RF model accuracy index under different sample data sizes
2.5 基于RF 模型的不同样本数据量精度指标比较
区域尺度模型中应用效果最优的为RF 模型,为探究其能否在缩小数据量的条件下获得同样的模型精度,以期达到减少样本数据获取量,减少人力、物力以及时间成本的投入,对模型可靠性进行验证的目的,随机抽取总样本数量分别设置540、360、240、160 共4 个样本数据量梯度,总样本数据量为160 时,无法按照2∶1 的比例进行建模和预测,调整建模集数据量为107,预测集数据量为53。结果如图3 所示,从0~0.375 m 深度来看,540、360 和240样本数据量梯度下模型精度差异不大,R2均为0.80,RMSE在0.60~0.62 dS/m 波动,MAPE在0.33~0.35 之间,2.0<RPD<2.5,不同样本数据量下模型均有较好的预测能力。当样本数据量为160 时,R2从0.80 降低至0.77,RMSE和MAPE数值上升,1.50<RPD<2.0,说明模型对样本数据具有粗略估计的能力。
0~0.750 m 深度下,4 种不同数据量的RF 模型R2稳定,RMSE在0.78~0.85 dS/m 波动,MAPE在0.26~0.28,RPD保持在2.35~2.47 之间,表明样本数据量减少模型仍具有较好的预测能力。在0~1.000 m深度下,随样本数据量的减少R2由0.84 降低至0.81,RMSE和MAPE呈上升趋势,RPD由2.34降低为1.94,模型预测能力由较好预测等级降低至粗略估计等级。总体分析,样本数据量540、360、240 共3 个梯度时,RF 模型保留了原有对样本数据的预测能力。在样本数据量为160 时,模型精度有所下降,但能对样本数据进行粗略估计。4 个不同样本数据梯度中,RMSE、MAPE和RPD等精度评价指标出现随样本数据量的减少反而略微升高的现象,造成该现象的原因可能是在缩减样本数据时剔除了异常样本数据。
3 讨 论
本研究表明,采用线性建模方法时,区域尺度模型反演精度明显低于田间尺度模型,二者具有明显差异性,不同线性建模方法无法有效提高区域尺度模型的反演精度,且各线性模型的预测能力均较低。采用非线性建模方法时,区域尺度模型的模型反演精度显著提高,最佳模型预测能力提升至对样本数据有较好的预测能力。根据田间实地采样考察,实验室分析和EM38-MK2 工作原理,其原因可能有以下几点:①土壤含水率不同,表观电导率受土壤含水率影响[4,32],研究区棉田冬季和春季灌溉用水主要引于塔里木河和阿克苏河,灌溉顺序大致为由西向东,部分地区由于灌溉配套系统不完善和灌水量不足,不进行冬季和春季灌水或少灌,导致各棉田土壤含水率不同,造成了区域尺度模型和田间尺度模型的精度差异。②土壤质地类型不同,在土壤温度、土壤含水率相对一致的前提下,质地越轻,表观电导率读数越小。而全垦区内各棉田地域跨度较大,棉田土壤质地类型主要有壤土、沙壤土和沙土3 种,不同土壤质地类型对线性建模方法在区域尺度下模型的精度造成了影响。③土壤有机质不同,土壤中固体土粒由矿物质和有机质组成,而形成有机质腐殖质具有带电性,其在土壤中量的多少可引起大地电导率仪磁场的变化。在土壤质地和含水率相对一致的前提下,土壤有机质量的多少会造成表观电导率测定值的高低,二者正相关。不同棉田由于本身肥力和施用有机肥量各不相同,造成了线性模型无法对区域尺度的土壤电导率进行反演[33]。④建模方法不同,非线性建模方法相较于线性建模方法具有各决策树单元互无关联且随机排列,能有效降低区域尺度模型的分析误差,提高了模型的精度。综上,在同一棉田中,土壤含水率、土壤质地类型和土壤有机质相对保持一致,模型参数稳定,表观电导率和土壤电导率二者保持线性关系,线性建模方法在田间尺度高度适用,而不同棉田中,土壤含水率、土壤质地类型和土壤有机质量各不相同,导致土壤电导率反演模型参数不同,从而造成了在区域尺度下线性建模方法无法对样本进行预测,而非线性建模方法由于其本身具备的高度非线性可有效提高区域尺度土壤电导率反演模型精度。
如何有效筛选出能进一步提高区域尺度模型反演精度的建模方法,对利用EM38-MK2 获取区域尺度农田土壤盐渍化信息有重要意义。面对区域尺度更大,种植作物类型更复杂的土壤盐渍化信息获取的研究,还有待于进一步探索。
4 结 论
适用于田间尺度模型的MLR、PLSR 和PCR 线性建模方法无法对区域尺度模型的样本数据进行预测。在田间尺度模型中不同线性建模方法R2在0.88~0.95 之间,在区域尺度模型中不同线性建模方法R2降低至0.34~0.53 之间,无法对样本数据进行有效预测。将RF、NN 和SVM 等非线性建模方法应用于区域尺度模型中,相较于线性建模方法,区域尺度模型的模型精度明显提高,不同非线性建模方法的R2在0.60~0.85 之间,其中,NN 和SVM 建模方法只能对样本数据进行粗略估计,模型精度最高、预测能力最好的RF 模型在不同深度下均保持了对样本数据较好的预测能力。通过缩减RF 区域尺度模型的样本数量,验证了RF 区域尺度模型可大幅降低采集土壤剖面的样本数量,从而提高采样效率和降低采样成本。