基于支持向量机和近红外光谱特性的土壤质地分类
2017-11-07胡晓艳宋海燕
胡晓艳,宋海燕
(山西农业大学工学院,山西太谷030801)
基于支持向量机和近红外光谱特性的土壤质地分类
胡晓艳,宋海燕
(山西农业大学工学院,山西太谷030801)
为了分析不同质地土壤的近红外光谱特性,建立合适的土壤质地分类预测模型。研究以沙土、壤土和黏土3种不同类型土壤作为研究对象,采集了山西省内3个地区的土壤样本共156个,获取其近红外光谱数据,采用支持向量机(SVM)在1 001~2 500 nm波段内对不同质地土壤的吸光度值进行建模预测。结果表明,3种质地土壤具有不同的光谱反射特性;利用支持向量机建立的土壤分类预测模型,其测试集的预测正确率达到91.67%,说明SVM在土壤分类应用中的效果较好,可以利用SVM模型进行土壤属性预测。
质地;近红外;SVM
土壤含有丰富的营养物质,对农作物生长有很大影响。实时获取、了解土壤信息,对提高粮食产量和品质,实现农业可持续发展具有重要意义。与传统土壤类型识别方法(筛分、沉降)相比,近红外光谱分析技术具有易操作、快速、无污染等优势,成为近年来国内外土壤属性检测的热点方法之一。
近红外光谱主要反映有机物中氢基团在近红外光区倍频和合频的吸收[1],蕴含着丰富的信息。大量研究表明,采用近红外光谱技术可以很好地分析和预测土壤中的一些参数含量[2-4]。而土壤质地、粒度等物理属性的光谱吸收特性,一直被视为干扰土壤定量分析的因素[5-8]。为此,许多学者展开了一系列关于土壤质地、类型等对土壤成分预测影响的研究。宋海燕等[9-11]用近红外光谱技术进行不同质地土壤参数预测的研究,结果表明,土壤质地影响其参数预测精度,并指出分类建模可以提高预测精度。目前,采用近红外光谱技术对土壤质地分类的研究较少,尚未找到一种普遍适用的分类方法,因此,需要不断优化和发展土壤分类建模方法。
支持向量机(SVM)是VAPNIK等于1992年在统计学理论(statistic learning theory,STL)基础上提出的一种数据处理方法,由于其结构比较简单,有较好的泛化能力和全局最优化的优点,被广泛应用于数据分析、模式识别、分类和回归分析中[12-16]。
笔者尝试将SVM引入土壤质地分类分析,为近红外光谱在土壤分类研究领域的应用提供参考。
1 材料和方法
1.1 研究区概况
根据试验需要,研究区选在晋中、吕梁和晋北3个地区。受纬度、气候、地形等因素影响,山西省各个地区形成明显的地带性土壤类型,晋北位于山西的北端,纬度高,气候干燥寒冷,昼夜温差大,年均降水量400 mm,受其气候影响土壤质地粗、砂性大。晋中地区和吕梁地区,位于山西的中间位置,是湿润向干旱过渡区域,气候温暖,昼夜温差小,年均降水量450~600 mm,土壤质地呈弱黏化性的淡褐土。
1.2 样本采集及预处理
采集以上研究区5~15 cm深度土壤,共采集156个样本。将采集的土样用于实验室近红外光谱分析。由于土壤粒度、水分对土壤光谱特性影响较大,因此,在近红外光谱检测前,对采回的土样作如下预处理:将土样风干并编号;对风干后的土样经标准筛(2.5 mm)处理;把过筛土壤放入烤箱烘干。按各粒级土粒在土壤总质量中所占的百分数[17],将土壤样本分为51个沙土、51个壤土和54个黏土。
1.3 数据获取
采用ASD公司Field Spec3(波长范围350~2 500 nm)型光谱仪扫描土壤样本,测得其反射率光谱,每次操作前使用白板(100%反射率)进行校正。为了排除周围环境因素干扰,扫描过程均在室内暗箱中进行。测试时将土样分别放置于培养皿(12.5 cm)中,用直尺将土样表面抹平,减小土壤表层粗糙度对试验检测的影响。采集到的光谱曲线使用ViewSpec 5.0.19软件进行相关预处理,最后导出光谱的吸光度值,用于MATLAB(R2010b)实现数据分析和SVM建模。
1.4 支持向量机
支持向量机(SVM)是以结构风险最小化(SRM准则)为原则的分类器,能够对不同类样本进行划分[18],最终转化为一个二次规划问题,从理论上讲可以得到全局最优解。图1所示为二维平面内二分类情况,图中黑点和白点分别代表2类不同样本的训练集,H2是把2类样本准确分类的分类线,且距离H3和H1空隙最大,H2即为所求的最优分类线。H3,H1分别是过分类样本与H2平行的直线,都距分类线距离最近。H3和H1之间的距离是分类空隙(margin)。上述分类线应用到高维空间即为分类面,高维样本的分类原理与二分类相同。
核函数的选择与参数寻优选取对支持向量机模型的建立以及预测精度有很关键的影响,SVM在遇到低维空间不容易进行划分的向量集时,通常是要把它们通过映射转换到高维空间。选用恰当的核函数,能够得到高维空间的分类函数,从而解决计算复杂度的问题。不同的核函数会使SVM所建模型不同,也就导致SVM算法不同。但是,对核函数的选择,现在还没有一个准确的依据,这仍然是一个需要进一步研究解决的问题。迄今为止,常用的3种核函数有多项式核函数、径向基核函数(RBF核函数)、Sigmoid核函数[19]。大量的试验和研究证明,径向基核函数的适应性最广,在解决问题时不会出现太大偏差,所以,本研究选择径向基核函数。
径向基核函数表达式如下。
式中,x为自变量观测值,xi为自变量实测值,σ为核函数的宽度。
使用libsvm-3.1-[FarutoUltimate3.1Mcode]工具箱和MATLAB(R2010b)进行参数寻优、SVM模型类型选择以及样本分类预测。其中,libsvm软件包共实现了 C-SVC,one class-SVC,v-SVC,ε-SVR 和V-SVR共5种类型的SVM。这里通过对比分析选取C-SVC模型作为分类预测模型。
1.5 数据处理
由于试验中所测得的原始数据比较庞大,为了方便后面数据处理,本研究使用MATLAB软件进行数据归一化处理,将原始数据归一化到(0,1)。
为了便于判别土壤质地分类效果,这里把黏土、壤土和沙土3类土壤分别赋值数字标签1,2,3。
2 结果与分析
2.1 不同质地土壤的光谱特性
为了比较不同质地土壤的光谱特性变化趋势,本研究对3种质地土壤的平均吸光度谱进行了分析。
由图2可知,在可见光区(380~780 nm)3种质地土壤的光谱曲线重叠严重,无法从光谱曲线中分辨出土壤类型。在近红外区,尤其是从1 000 nm开始,不同质地土壤的吸光度值明显不同,其中,以沙土的吸光值最大,黏土次之,壤土最小。此外,3种质地土壤的吸光度在整个波段范围具有相同的变化趋势,都在 1 400,1 660,1 900,2 200 nm附近出现吸收峰,其中,在1 400,1 900,2 200 nm波段的吸收峰分别是由分层间水(H2O)、羟基(-OH)、与羟基组合的Al-OH和Mg-OH引起的,1 660 nm波段是由土壤有机质引起的[20],其吸收峰的高度和宽度随土壤质地的不同有所变化,可用于土壤SVM分类预测分析。
2.2 SVM模型建立
本研究选择波长范围在1 001~2 500 nm所测得的吸光度值建模,3类土壤样本数据分别组成51×1 500矩阵、51×1 500矩阵和54×1 500矩阵作为输入数据。将原始数据导入MATLAB,创建训练集以及测试集,训练集样本类型的选取直接影响SVM建模的精度,考虑到单一类型土壤建模不能覆盖全部信息,本研究随机选取3种质地混合样本120个作为训练集,其中,黏土、壤土和沙土各40个;36个样本作为测试集,其中,黏土、壤土和沙土各40个;36个样本作为测试集,其中,包括14个黏土、11个壤土和11个沙土,利用svmpredict进行测试集仿真预测,所得测试集预测结果如表1所示。
表1 测试集预测结果对比
从表1可以看出,只有样本6,35,36出现预测错误,其余样本吻合度一致,测试集的预测正确率达到91.67%。表明SVM应用在土壤分类预测准确性较高,可以利用SVM模型进行土壤属性预测。为了直观地观察结果,这里给出测试集预测结果直观图(图 3)。
3 讨论
本研究利用SVM对所采集的土壤光谱数据进行不同质地土壤的分类预测。在预测过程中,为了提高预测准确度,已经在原始数据处理以及样本选取上做了相关优化工作,所得预测结果中仍然存在一些样本误差。但从大部分样本预测效果来看,已经充分证明了SVM方法在土壤分类预测方面的优势和可行性。本研究的样本仅取自部分地区土壤进行分析,所建预测模型受一定范围的局限,今后可以大范围采集土样验证以上结论,对支持向量机在土壤分类应用做进一步探索和研究,发挥其在实际分类问题中的潜力。
[1]严衍禄,赵龙莲,韩东海,等.近红外光谱分析基础与应用[M].北京:中国轻工业出版社,2005:1-3.
[2]刘雪梅.近红外漫反射光谱检测土壤有机质和速效N的研究[J].中国农机化学报,2013(2):202-206.
[3]杨超.基于近红外光谱技术的土壤全氮和有机质含量估测研究[D].哈尔滨:东北林业大学,2013.
[4]黄富荣,潘涛,张甘霖,等.应用近红外漫反射光谱快速测定土壤锌含量[J].光学精密工程,2010(3):586-592.
[5]武红旗,范燕敏,何晶,等.不同粒径土壤的反射光谱对荒漠土壤有机质含量的响应[J].草地学报,2014(2):266-270.
[6]杨雪红.土壤粒径对土壤光谱特征的影响 [J].科技信息,2010(25):390-391,154.
[7]安晓飞,李民赞,郑立华,等.土壤水分对近红外光谱实时检测土壤全氮的影响研究[J].光谱学与光谱分析,2013(3):677-681.
[8]翟清云,张娟娟,熊淑萍,等.基于不同土壤质地的小麦叶片氮含量高光谱差异及监测模型构建 [J].中国农业科学,2013,46(13):2655-2667.
[9]宋海燕,秦刚,韩小平,等.基于可见光谱的不同质地土壤有机质快速测定[J].农业机械学报,2012,43(7):69-72.
[10]张娟娟,田永超,朱艳,等.不同类型土壤的光谱特征及其有机质含量预测[J].中国农业科学,2009,42(9):3154-3163.
[11]张雪莲,李晓娜,武菊英,等.不同类型土壤总氮的近红外光谱技术测定研究[J].光谱学与光谱分析,2010(4):906-910.
[12]常甜甜.支持向量机学习算法若干问题的研究[D].西安:西安电子科技大学,2010.
[13]郑立华,李民赞,安晓飞,等.基于近红外光谱和支持向量机的土壤参数预测[J].农业工程学报,2010(S2):81-87.
[14]刘江华,陈佳品,程君实.基于Gabor小波特征抽取和支持向量机的人脸识别[J].计算机工程与应用,2003,23(3):81-83.
[15]盛庆凯.基于支持向量机的土壤养分制图研究[D].重庆:西南大学,2013.
[16]赵汝东,王殿武,陈延华,等.应用支持向量机方法对北京平原粮田区土壤养分肥力的评价研究 [J].土壤通报,2009(3):513-517.
[17]黄昌勇.土壤学[M].北京:中国农业出版社,2000:77.
[18]张学工.关于统计学习理论与支持向量机 [J].自动化学报,2000,26(1):33-39.
[19]杨海燕.支持向量机参数优化方法及其应用[D].南宁:广西民族大学,2010.
[20]王世芳,程旭,宋海燕.水分对土壤有机质检测影响的光谱特性分析及抗水分干扰模型建立 [J].光谱学与光谱分析,2016(10):3249-3253.
Soil Texture Classification Based on Support Vector Machine and Near Infrared Spectral Characteristics
HUXiaoyan,SONG Haiyan
(College of Engineering,Shanxi Agricultural University,Taigu 030801,China)
Toanalyze the near infrared spectral characteristics of different texture soils,a suitable prediction model was established.In this study,3 types of soil were studied,including sand,loam and clay,the 156 soil samples were collected from 3 regions in Shanxi province and the data of the near infrared spectra were obtained.Support vector machine(SVM)was used to model and predict the absorbance value of different texture soils in the 1 001-2 500 nm band.The results showed that three kinds of soil texture had different spectral reflectance characteristics.Soil classification prediction model by using support vector machine,predict accuracy of the test set reached 91.67%,indicating good effect in the application of SVM in soil classification,soil properties can be predicted by the SVM model.
texture;near infrared;SVM
S152.3
A
1002-2481(2017)10-1643-04
10.3969/j.issn.1002-2481.2017.10.17
2017-05-10
国家自然科学基金项目(41201294);山西省科技攻关项目(20130313010-6)
胡晓艳(1990-),女,山西朔州人,在读硕士,研究方向:生物环境测控技术与装备。宋海燕为通信作者。