基于iPLS的玉米近红外光谱数据处理方法研究
2011-03-16迟亮张贺龙车英邸旭
迟亮,张贺龙,车英,邸旭
(长春理工大学 光电工程学院,长春 130022)
近红外光谱分析技术是近年来发展迅猛的高新分析技术[1]。与传统分析技术相比,近红外光谱分析技术通过对样品的一次近红外光谱简单测量,即可在几秒至几分钟之内同时测定一个样品的几种至十几种性质数据或浓度数据。而且被测样品用量很小、无破坏、无污染,具有高效、快速、成本低等特点[2]。
小波变换具有低熵性、多分辨率、去相关性和选基灵活的特点,使其成为特征提取和低通滤波功能的综合,相当于对信号同时进行低通和高通滤波,其低频系数主要反映信号的信息,而高频系数主要反映噪声和信号细节的信息。对非平稳含噪信号进行多层小波分析,并对每层高频分解系数进行闭值处理后再重构,可有效地达到滤除噪声和保留信号高频信息的目的[3]。
本文以整粒玉米的NIR漫反射光谱为例,经过离散小波变换后,选取了适当的小波细节系数进行光谱的重构,将重构的光谱进行 iPLS建模,通过RMSEC和RMSEP进行比较分析,数据量小,精度高,预测模型好。
1 小波分析
连续小波变换:
而离散化小波变换系数则可表示为:
本文所用的间隔偏最小二乘方法(iPLS)是一种波长筛选法的改进,该法主要用于筛选建模的波长区域,其改进的算法步骤如下:
(1)对原始光谱进行离散小波变换。
(2)对小麦样品的全光谱数据建立的偏最小二乘模型。
(3)将整个波长区域划分为m个等宽的子区间,在每个子区间上进行偏最小二乘法回归,也就可以得到m个局部回归模型。
(4)然后,用交互验证的均方根误差 RMSECV值衡量各模型的精度,通过比较,取精度最高的局部模型所在的子区间为第一入选区间。
(5)接下来,将余下的(m 1)个子区间逐一与第一入选子区间联合并进行偏最小二乘建模,得到(m 1)个联合模型,我们选取其中RMSECV值最低的模型所在的区间为第二入选区间。重复上面的步骤,直到建立所需要的合并区间。
(6)考察第(5)步中每次联合模型的RMSECV值,其中RMSECV最小者所对应的区间组合即为最佳组合区间[5-7]。在这个区间上所建立的iPLS模型预测能力最强。
2 实验与结果分析
2.1 样品及光谱测定
图1 玉米样品的吸收光谱图Fig.1 Absorption spectrum of corn sample
其中决定系数定义为:
原始信号与去噪后的估计信号之间的均方根误差定义为:
2.2 实验方法
首先,选用db4小波为母小波,分解尺度为9,对玉米样品的近红外光谱进行小波分解,在这里,频率较低的系数(Ca9、Cd9、Cd8),主要为光谱的强背景信息;而频率较高的系数(Cd1、Cd2、Cd3),主要为光谱噪音,这六个系数对玉米的蛋白质分析贡献较小,并且其分离偏差高于标准方法的再现性。相反的,中间的细节系数(Cd4~ Cd7)主要包括原始光谱中的有效特征信息,这样的信息对蛋白质的分析贡献较大,分析精度较高,分析偏差小于再现性。在这里,对Cd4~Cd7的小波细节系数进行随机组合构成校正集光谱阵,用PLS建立校正模型,最佳主因子数由交互验证法所得的预测残差平方和确定。而得到 Cd4、Cd5、Cd7小波细节系数组合为最佳组合,其中 RMSEC=0.0886,RMSEP=0.1217,模型精度高,预测能力强。
其次,对玉米样品全光谱进行PLS建模和全光谱的进行iPLS建模(其中按波长区域分70份),求出校正集对应的绝对系数R2和校正集均方根误差RMSEC,并根据模型求出验证集的R2和RMSEP。
最后,对小麦样品的 Cd4、Cd5、Cd7小波细节系数组合重构光谱进行 iPLS建模(其中按波长区域分70份),求出校正集对应的绝对系数R2和校正集均方根误差 RMSEC,并根据模型求出验证集的R2和RMSEP。
2.3 结果分析
在全光谱范围内,当校正集光谱数据区间取第23、24、22、28、29、35、26、56、18、57 这 10个区间构成的联合区间时,所得到的模型最好,其绝对系数 R2=0.9467、RMSEC=0.0778;由 Cd4、Cd5、Cd7合并的重构光谱区域取第48、67、25、51、28、13、23、27、36、29、35、43、57、18、37这15个区间构成的联合区间时建模时,所得到的模型非常的好,其校正集绝对系数R2=0.9602校正集均方根误差为RMSEC=0.0594,根据模型,求得的验证集模型也非常的好,所以这15个区间组合建立的模型是最好,在模型的精度上有很大的提高。其结果如表1所示。
表1 玉米光谱PLS和iPLS建模后的结果Tab.1 The results of corn spectra by PLS and iPLS model
其结果表明,经过离散小波变换后,选取适当的小波细节系数区间合并后重构,再对其进行间隔偏最小二乘(iPLS)建模,不论其校正集还是验证集模型的预测能力都好于全光谱偏最小二乘(PLS)建模和间隔偏最小二乘(iPLS)建模,且模型得到了很大的简化、数据运算量有所减少。合并后的小波细节系数重构光谱由15个小波细节系数区间构成时,其验证集的绝对系数R2和均方根误差RMSEP分别为0.9057和 0.1035。
图2 iPLS模型预测值与测量值的相关性Fig.2 Correlation between observed and predicted values with iPLS model
3 结论
经过离散小波变换后,光谱噪声和背景信息可以快速有效的被消除,我们又对适当的小波细节系数进行合并,然后对其重构光谱,而重构光谱建立的iPLS模型的精度更高、预测能力更强,这种光谱数据的处理方法,在将来处理复杂样品体系的光谱分析中将发挥更重要的作用。
[1]陆婉珍,袁洪福,徐广通,等.现代近红外光谱分析技术[M].北京:中国石化出版社,2000.
[2]Wu W,Walczak B,Penninckx W,et al.Feature reduction by Fourier transform in pattern recognition of NIR data[J].Analytica Chimica Acta,1996,331(1-2):75-83.
[3]Osborne B,Fearn T.Practical NIR Spectroscopy with Applications in Food and Beverage Analysis(2nd Edition)[M].New York:John Wiley&Sons,Inc,1993:23-25.
[4]邵学广,庞春艳,孙莉.小波变换与分析化学信号处理[J].化学进展,2000,12(3):233-240.
[5]邹小波,赵杰文,夏蓉.苹果糖度近红外光谱小波去噪和iPLS 建模[J].农业机械学报,2006,37(6):79-82.
[6]雷猛,冯新泸.基于近红外光谱技术的内燃机油鉴别研究[J].分析测试学报,2009,28(5):529.
[7]芦永军.近红外光谱分析技术及其在人参成份分析中的应用研究[D].吉林:中国科学院博士论文,2004.
[8]张贺龙,邸旭,石晓光,等.基于小麦近红外漫反射光谱的小波阈值去噪方法研究[J].长春理工大学学报:自然科学版,2010,33(4):46-49.