基于手机图像颜色特征的支持向量机土壤含水量反演模型
2023-10-28张劲夫马雪健何宇琛闵雅欣
张劲夫,晋 华,马雪健,何宇琛,闵雅欣
(太原理工大学水利科学与工程学院,太原 030024)
0 引 言
土壤含水量是陆地和大气能量交换过程中的重要因子,直接影响着植被生长、农作物生产和区域生态环境稳定[1,2],快速、准确地获取土壤含水量是实现节水灌溉、水资源高效利用与农业可持续发展的关键环节[3,4]。常见的土壤含水量测量方法有烘干法、中子仪法和TDR 法等,但它们在实际应用中都存在一定的局限,如烘干法在采样时会破坏土体,耗时耗力且不适宜野外测量[5],中子仪法需要昂贵的仪器设备且存在潜在的辐射危害[6],TDR 法不仅成本高且测试精度受土壤饱和度的影响较大[7]。近年来,数字图像技术的日益成熟为土壤含水量的无损识别和预测提供了有力的技术支持。张荣标[8]、Zanetti[9]、刁万英[10]等利用数码相机获取不同含水量的土壤图像,并基于图像提取的灰度值、色调和亮度等特征参数构建了土壤含水量预测模型,结果表明所建模型可以较好地估测土壤含水量。
随着手机功能的逐步完善,手机相机以其便携性、普遍性、易操作性等优势正成为数字图像技术在农业应用中的重要手段[11,12]。另外,在利用土壤图像特征预测土壤含水量的建模技术中,多以线性回归模型[9,10,13]为主,而土壤图像特征与含水量间的非线性关系使得线性模型的精度有限[14]。支持向量机作为机器学习的经典算法,能够根据有限的样本信息,平衡模型的复杂性和学习能力,找到最优解[15],在处理高维数据集、小样本和非线性问题中表现出许多特有的优势[16]。
鉴于此,本文以粗砂、细砂、粉砂质壤土、壤质黏土和粉砂质黏土等5种土壤为研究对象,利用手机相机采集不同含水量土壤图像,分析RGB 颜色空间红(R)、绿(G)、蓝(B)灰度值,HSV 颜色空间色调(H)、饱和度(S)和亮度(V)值以及全色灰度值(DN)等7 种颜色特征参数与土壤含水量的关系,将相关性较大的特征参数进行组合作为输入项构建支持向量机土壤含水量反演模型,以期提供一种基于支持向量机技术的土壤含水量预测方法。
1 材料与方法
1.1 试验土壤及图像采集
试验土壤分为粗砂、细砂、粉砂质壤土、壤质黏土和粉砂质黏土[17],土壤特性如表1 所示。经去杂、研磨和烘干后装入125个直径5.5 cm、深3 cm 的铝盒,土样深度为2 cm。各铝盒加入不同质量的水(质量含水量分布在0~25%范围内),充分搅拌后密封静置24 h使水分在土壤中均匀扩散,共制成125个不同含水量的土壤样品,如图1所示。
表1 室内土壤样品特性Tab.1 Characteristics of indoor soil samples
图1 不同含水量的土壤图像Fig.1 Soil images with different water content
图像采集在室内进行,采集设备为华为nova 5z 手机,相机设置参数如表2所示。将装有土样的铝盒置于实验台上,用手机在距离土样表面高度50 cm 处拍照,并保持摄像头与土样表面平行。为了保证采集的图像不受光照强度的影响,在距离土样表面高度为2.5 m、角度为75°处添加日光灯恒定光源(功率为40 W),采集结束后利用烘干称重法获取不同铝盒中土样的质量含水量实测值。
表2 手机相机参数Tab.2 Mobile camera parameters
1.2 图像预处理及颜色特征参数提取
为了消除图像背景和样品容器边缘对土样造成的阴影影响,将采集的土壤样本图像在Photoshop 2015 软件中进行预处理,并选取中心区域的正方形区域裁剪图像[18,19]。对裁剪后的图像进行R、G、B、H、S、V 和DN 颜色特征参数提取。具体方法如下:
(1)提取RGB 颜色空间的红色灰度值(R)、绿色灰度值(G)和蓝色灰度值(B)的中值,以克服土壤样品表面微起伏阴影造成的偏差[19,20]。
(2)将RGB 颜色空间转变到HSV 颜色空间获得H、S 和V的中值[21]:
(3)将图像转换为全色图像获得全色灰度值(DN)的中值[18]:
1.3 支持向量机
支持向量机(Support vector machines,SVM)是建立在统计学习理论和结构风险最小化原理基础上的机器学习方法[22],它通过引入核函数,将原低维空间中非线性不可分的数据映射到高维特征空间[23],建立线性模型以求解非线性问题。SVM很大程度上克服了“离散值多”和“过学习”等问题[15,22]。对于样本数据(xi, yi),i=1,2,…,n,xi为输入变量,yi为对应的输出变量,n 为样本个数,φ(x)为样本数据转换到高维空间的非线性映射,则在高维空间的线性回归表达式为[24]:
式中:ω为权值向量;b为偏差。
ω和b可通过求解风险函数的最小值获得最优解:
式中:ε为损失系数;ξi、为松弛变量;C为惩罚因子。
采用拉格朗日乘子法以及核函数将问题转换为对偶形式进行求解[24],最终得到SVM回归方程:
式中:ai和ai*为拉格朗日乘子,K(xi, x)为核函数,常用的核函数有径向基核、线性核和多项式核等[23],本文选用应用广泛的径向基函数,其表达式为exp(-g‖x-xi‖2),惩罚因子C和核参数g是影响SVM性能的主要参数[15,25]。
K-CV 参数优化法是基于交叉验证(Cross Validation,CV)思想下的一种网格寻优方法,其原理是将原始数据分成K 组,每组数据分别做一次验证集,其余K-1组子集数据作为训练集,共可获得K个模型,将K个模型验证集的回归均方误差的均值作为回归性能判断指标[26]。该方法不仅可以有效避免收敛速度慢或者不收敛的情况[24],而且还可防止模型训练中过学习和欠学习的发生[26],故本文采用K-CV 法对模型参数进行优化。
2 结果与分析
2.1 颜色特征参数与土壤含水量的关系
2.1.1 R、G、B和DN与土壤含水量的关系分析
图2 为5 种土壤的颜色特征参数R、G、B 和DN 随含水量变化的关系图,可以看出对于同一种土壤,R>G>B,这是因为土壤反射的红色波长较多,其次是绿色和蓝色。随着含水量的增加,5 种土壤的R、G、B 灰度值和DN 灰度值均降低,这是由于土壤吸收的水分主要存储于土壤颗粒间的孔隙中,含水量的增加会使孔隙逐渐被水充满,水分对可见光的吸收增强使得土壤表面的反射和散射降低,从而使反射光强度减小,土壤表面亮度降低(即灰度值降低)[27]。此外,由于5种土壤颗粒组成和内部孔隙结构不同,各土壤的R、G、B 和DN随含水量的变化趋势存在差异。砂土的灰度值随含水量的增加先迅速降低,后趋于稳定,这是因为砂土中砂粒含量较高(达98%以上),水分增加优先充填砂粒间的大孔隙,使得土壤表面迅速变暗,当土壤的大孔隙被水充满后土壤表面亮度趋于稳定。粉砂质壤土的灰度值随含水量的增加先快速降低,后趋于稳定,这是由于粉砂质壤土中粉粒含量较高(达78%以上),土体疏松、绵软,内部毛管孔隙数量较多,含水量在0~10%时水分充填到土壤孔隙使土壤表面快速变暗,当毛管孔隙被水充满后土壤表面亮度趋于稳定。黏土的灰度值随含水量的增加先缓慢降低,后快速降低并趋于稳定,壤质黏土的灰度值最后还呈现上升趋势,这是因为黏土中粉粒和黏粒总含量较高(达56%和79%以上),对水的吸附能力较强,当含水量在0~5%时,水分被土壤颗粒吸附不能充填到土壤孔隙,所以土壤表面的亮度下降缓慢,当含水量大于5%时,水分开始充填土壤孔隙,使得土壤表面快速变暗,当土壤的孔隙被水充满后土壤表面亮度趋于稳定,壤质黏土的灰度值最后还呈现上升趋势是因为当含水量超过临界值20%,壤质黏土表面形成水膜,增加了土壤表面反射率使土壤表面亮度升高。
图2 R、G、B和DN随含水量变化的关系图Fig.2 Relationship of R、G、B and DN with water content
2.1.2 H、S和V与土壤含水量的关系分析
图3为5种土壤的颜色特征参数H、S和V随含水量变化的关系图,可以看出随着含水量的增加,色调(H)变化较小,饱和度(S)先增加后趋于稳定,亮度(V)逐渐降低。这是由于色调(H)是用于区别颜色种类的参数,土壤水分增加的过程中,土壤表面的颜色深度增加,而颜色种类基本不变,所以H 随含水量的增加变化较小;饱和度(S)是用于衡量颜色纯度的参数,S 值越高,图像越纯净[18],灰度值越小,故其与灰度值的变化趋势相反;亮度(V)是用于衡量颜色明暗程度的参数,故其与灰度值的变化趋势一致,即随着含水量的增加而降低。
图3 H、S和V随含水量变化的关系图Fig.3 Relationship of H、S and V with water content
2.1.3 颜色特征参数与土壤含水量的相关性分析
上述分析表明了7种颜色特征参数与土壤含水量之间存在不同的非线性关系,为进一步筛选建模所需参数,在IBM SPSS 26 软件中对7 种颜色特征参数与对应的土壤含水量分别进行相关性分析,相关系数计算结果如表3所示。
表3 颜色特征参数与土壤含水量的相关系数Tab.3 Correlation coefficient between color characteristic parameters and soil water content
由表3可知:不同颜色特征参数与土壤含水量之间存在不同的相关性,特征参数S 与土壤含水量之间呈现正相关关系,其余特征参数R、G、B、H、V、DN 与土壤含水量之间均呈现负相关关系。在RGB 颜色空间,相关性由大到小依次为R、G、B,在HSV 颜色空间,相关性由大到小依次为V、H、S,全色图像的特征参数DN 与含水量之间的相关性仅小于R 和V。选取相关性较大的颜色特征参数可以提高含水量反演的精度,同时为了减小反演模型的空间和时间复杂度,本文选取RGB颜色空间的R、HSV颜色空间的V和全色图像的DN数据等3个参数构建模型。
2.2 支持向量机土壤含水量模型反演结果与讨论
为保证模型的可靠性,随机选取每种土壤含水量实测数据的80%(20 个样本)为训练集,20%(5 个样本)为验证集,以R、V 和DN 为输入变量,土壤含水量为输出变量,通过在Matlab 软件中编程构建支持向量机土壤含水量反演模型,并对5 种土壤的含水量进行预测。同时对5 种不同类型的土壤进行交叉验证,随机选取全部土壤含水量实测数据的80%(100 个样本)为训练集,20%(25 个样本)为验证集,从而检验模型对不同土壤的预测效果。选取决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)评价模型精度,其中R2越接近1,RMSE 和MAE 越小,说明模型反演效果越好,精度越高[14,28]。
模型反演土壤含水量结果如图4 所示,评价指标如表4 所示。对特定土壤单独建模时,可以发现图中各点均匀地分布在1∶1 线附近,预测值与实测值基本一致,模型训练集的R2在0.957~0.982 之间,RMSE 在0.770%~1.317%之间,MAE 在0.495%~1.112%之间,验证集的R2在0.986~0.997 之间,RMSE在0.402%~0.911%之间,MAE 在0.339%~0.831%之间,各项评价指标均表现良好,表明模型的反演效果较好。同时可以看到模型预测不同质地土壤含水量的精度差别不大,其中壤质黏土和细砂土含水量的反演精度较高,R2分别为0.997 和0.994,RMSE分别为0.402%和0.523%,MAE分别为0.339%和0.407%;其次是粉砂质黏土和粉砂质壤土,R2均为0.991,RMSE 分别为0.895% 和0.911%, MAE分别为0.691% 和0.831%;对于粗砂土含水量的反演精度较低,R2为0.986,RMSE 和MAE 分别为0.843%和0.743%,结果表明支持向量机土壤含水量反演模型对5 种质地土壤含水量反演效果均较好。对5种不同土壤统一建模时,可以看出因土壤质地的影响导致模型的预测精度降低,训练集的R2为0.698,RMSE为3.468%,MAE 在为2.651%,验证集的R2为0.749,RMSE 为3.885%,MAE 为2.865%,表明本研究建立的模型更适用于特定土壤的含水量反演。
图4 模型反演土壤含水量结果Fig.4 The inversion results of soil water content by the model
表4 支持向量机土壤含水量反演模型评价指标Tab.4 Evaluation index of soil water content inversion model of support vector machine
表5为同类型研究提出的土壤含水量反演模型对比。刁万英等[10]以壤土、红壤和黑壤为研究对象,利用土壤图像信息S和V建立了不同密度表层土壤含水量反演的的估算模型,R2在0.60~0.96 之间,RMSE 在3.00%~8.00%之间。Santos 等[18]对于不同颗粒组成的黏土和砂壤土分别建立了以土壤图像特征参数为自变量的多元线性拟合模型预测土壤含水量,R2在0.73~0.90 之间,RMSE 在1.11%~3.29%之间。Persson[29]选择S 与V之间的简单线性回归模型来估算均匀细砂和4 种棕壤的含水量,R2在0.93~0.99之间,RMSE在1.10%~2.60%之间。相比于多元线性模型,本研究基于手机图像颜色特征参数R、V和DN构建的支持向量机土壤含水量反演模型预测5 种不同质地土壤的含水量的R2均大于0.98,更接近1,RMSE 和MAE 均小于0.92%,更接近0,说明本研究建立的土壤含水量反演模型预测值与实测值更接近,模型的预测精度和稳定性更高,展示了支持向量机在手机图像技术检测土壤含水量的应用优势。但是本文所建立的模型更适用于特定土壤质地的含水量反演,今后可以从建模技术等方面开展相关研究来增强模型对不同土壤的适用性。另外,在图像采集过程中,不同的手机及其参数设置会使图像信息出现差异,本文仅研究了nova 5z 手机及其相机参数,下一步将对不同的采集设备进行土壤含水量反演研究,从而提出图像数据的采集标准。
表5 同类型研究的土壤含水量反演模型对比Tab.5 Comparison of soil water content inversion models for the same type of research
3 结 论
(1)利用手机图像获取的7种颜色特征参数与土壤含水量之间存在不同的非线性关系,R、G、B、V、H和DN与土壤含水量为负相关关系,S 与土壤含水量为正相关关系,且R、V和DN与土壤含水量的相关性较大。
(2)以R、V和DN 等3个参数进行组合作为输入项并采用支持向量机方法构建的土壤含水量反演模型用于室内5种土壤的含水量预测时,R2在0.986~0.997 之间,RMSE 在0.402%~0.911%之间,MAE 在0.339%~0.831%之间,所建模型可实现对不同土壤的含水量反演。
(3)本研究构建的支持向量机反演模型预测土壤含水量的R2均大于0.98,RMSE 和MAE 均小于0.92%,优于同类型研究的多元线性反演模型预测土壤含水量的相应值,即所建模型表现出更高的预测精度和稳定性。本研究为获取土壤含水量提供了一种快速便捷的新方法,后续还需在图像采集设备和建模技术等方面展开研究以拓展模型的适用性。