APP下载

基于NIRS与支持向量机的落叶松木材密度预测

2015-12-16张亚朝李耀翔

森林工程 2015年5期
关键词:落叶松光谱向量

李 颖,张亚朝,李耀翔

(东北林业大学工程技术学院,哈尔滨150040)

现代近红外光谱(Near Infrared Spectroscopy,NIR)分析技术是近年来分析化学领域中迅猛发展的一门高新分析技术,在分析化学领域被誉为分析“巨人”[1]。

近红外区域按ASTM(American Society for Testing and Materials美国材料与试验协会)定义是指波长在780~2526nm范围内的电磁波,是人们最早发现的非可见光区域。由于物质在该谱区的倍频和合频吸收信号弱,谱带重叠,解析复杂,受当时的技术水平限制,近红外光谱“沉睡”了近一个半世纪[2-3]。20世纪80年代后期,随着计算机技术的迅速发展,带动了分析仪器的数字化和化学计量学的发展,通过化学计量学方法在解决光谱信息提取和背景干扰方面取得的良好效果,加之近红外光谱在测样技术上所独有的特点,使人们重新认识了近红外光谱的价值,并已广泛应用于农林、食品、石油、纺织和烟草等领域[5]。

现有的木材密度近红外预测方法中,对近红外光谱数据通常采用各种多元校正技术进行定量分析,应用较多的有多元线性回归、主成分回归(Principal Component Regression,PCR)和偏最小二乘法(Partial Least Square,PLS)等方法[6-7]。

支持向量机(Support Vector Machine,SVM)方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息,在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳方案,以期获得最好的推广能力[8]。SVM在建模过程中,对近红外光谱的预处理要求不是很严格,主要是将光谱信息提取,以文本格式导出,而且对于参数的选择,可以通过编写程序进行参数寻优的方法获得最适合的参数[9]。这就大大减少了光谱信息的丢失,提高了参数的准确性,最终使模型具有更好的泛化性。

1 基本原理

支持向量机的基本原理是通过某种事先选择的非线性映射将输入向量映射到一个高位特征空间,在这个特征空间中构造最优分类超平面。

如图1所示,显然图中的数据集很容易被线性分类,但是图b中的数据集就无法线性分类,此时,可以将图b中的数据集映射到一个二维空间(如图c所示),这样就很容易将其线性分类。以此类推,对于一个原始的输入空间,找到一个合适的函数映射(X→Φ(X)),将其映射到高维特征空间,从而对数据集进行线性分类(如图d所示)。

图1 支持向量机分类原理示意图Fig.1 Schematic diagram of support vector machine classification

2 数据采集

制备117个落叶松待测样本,其中3/4作为训练样本,1/4作为测试样本。对样本进行密度实值的测量,然后用美国ASD公司生产的波长为350~2500nm的LabSpec近红外光谱仪对样本进行相应的光谱采集(如图2所示)。对采集的光谱进行平滑和一阶导数预处理,以消除样品表面不均匀和光谱平移及背景噪声带来的误差(如图3所示)。

图2 近红外原始光谱Fig.2 Raw NIRS

图3 预处理后光谱Fig.3 NIRS After pretreatment

针对117个样品,在350~2500nm全波段光谱中选择11个比较显著的振动吸收峰,用于回归建模。再用数据处理软件,将光谱数据以文本格式导出。

3 数据处理

3.1 数据处理环境

用于SVM分析的软件有很多,比如:BSVM、CSVM、GiniSVM、LS-SVM以及M-SVM等。本文采用的是LibSVM。

LibSVM是台湾大学林智仁(Lin Chin-Jen)教授等开发的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包。提供了多种软件的语言接口。本文中使用的是具有C++语言接口的在matlab环境下运行的LibSVM-mat。

3.2 数据CV分类与归一化

对于整体数据,将样本的密度实值作为Y,对应的所选取的11个吸收峰的吸收率作为X,采用CV(Cross Validation)统计分析方法中的Hold-Out Method,即将117个样本随机分为训练集(约为总样本数的3/4)和测试集(约为总样本数的1/4),这就避免了在划分训练集和测试集时,人为因素对训练以及测试准确率的影响,从而使训练和测试结果更客观。

划分好训练集和测试集后,要对数据进行归一化。归一化的具体作用是归纳统一样本的统计分布性,可以使后面数据的处理更加方便,其次是保证程序运行时收敛加快。

3.3 核函数及参数寻优

一般默认使用RBF函数作为核函数,在选定核函数后,要对相应的参数进行调节,即所谓的参数寻优。所涉及到的参数主要有参数c(惩罚参数,与e-SVR的设置有关)和参数g(针对RBF核数中gamma的设置),如果手动对这两个参数进行设置,工作量不但巨大,而且准确率会很低,最终的回归拟合结果也不会太理想。

图4和图5就是利用LibSVM工具箱在Matlab环境下参数寻优的结果图。

3.4 回归拟合

确定核函数及其相关参数后,便可以在matlab环境下对数据进行支持向量机回归拟合,回归拟合结果如图6所示。

其中图6的上半部分和下半部分分别是训练数据和测试数据的回归拟合图。

图4 SVR参数选择结果等高线图Fig.4 Contour map for SVR parameter selection results

图5 SVR参数选择结果3D视图(Best c=0.10882 g=1.7411 CVmse=0.0030764)Fig.5 3D view for SVR parameter selection results

图6 支持向量机回归拟合结果Fig.6 Results on Regression fitting by SVM

4 实验结果

用落叶松的近红外光谱数据建立的测定密度的模型,对训练集的回归拟合结果,R2达到了0.85,均方差为6.46×10-4;对测试集的回归拟合,R2为0.85,均方差为4.45×10-4,表1是对测试集的回归拟合数据,其中,相对误差最大为4.8336%,最小为 -4.6564%,其绝对值均小于5%,预测结果较好。

表1 采用支持向量回归建立模型对密度的预测结果Tab.1 Results on density prediction by support vector regression

5 结论

在支持向量机的理论基础上,对117个落叶松样本进行了近红外光谱的采集,在matlab环境下,利用LibSVM工具箱,以径向基函数为核函数,采用非启发式参数寻优的方法进行参数优化,最终建立了木材密度预测模型。分析表明,该模型对训练集和测试集的回归拟合,其决定系数都达到了0.85 以上。

结果表明,基于近红外光谱的支持向量机回归方法可以用于落叶松木材密度的预测。

[1]张小超,吴静珠,徐 云.近代外光谱分析技术及其在现代农业中的应用[M].北京:电子工业出版社,2012.

[2] Nkansah K.Rapid characterization of biomass:The use of near infrared and fluorescence spectroscopy as process analytical technology(PAT)method[M].WEST VIRGINIA UNIVERSITY,2009.

[3] Chen H,Tan C,Wu T,et al.Discrimination between authentic and adulterated liquors by near-infrared spectroscopy and ensemble classification[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2014(130):245-249.

[4] Barton I I.FE Theory and principles of near infrared spectroscopy[J].Spectroscopy Europe,2002(14):12-18.

[5]张 鹏,李耀翔.近红外光谱分析技术在木材机械性能检测中的研究进展[J].森林工程,2014,30(3):68-70.

[6]郝斯琪,宋博骐,李 湃,等.基于近红外光谱与 BP神经网络预测落叶松木屑的含水率[J].森林工程,2012,28(4):9-11.

[7] Kainerstorfer J M,Sassaroli A,Hallacoglu B,et al.Practical steps for applying a new dynamic model to near-infrared spectroscopy measurements of hemodynamic oscillations and transient changes:implications for cerebrovascular and functional brain studies[J].Academic radiology,2014,21(2):185-196.

[8]丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10.

[9] Deng N,Tian Y,Zhang C.Support vector machines:optimization based theory,algorithms,and extensions[M].CRC Press,2012.

猜你喜欢

落叶松光谱向量
基于三维Saab变换的高光谱图像压缩方法
向量的分解
落叶松病虫害防治措施探讨
山西落叶松杂交良种逾10万亩
聚焦“向量与三角”创新题
长白落叶松离体再生体系的建立
神奇的落叶松提取物
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
星载近红外高光谱CO2遥感进展