APP下载

多组分溶液近红外光谱检测算法研究

2015-04-22李绍稳

关键词:光谱建模矩阵

金 秀 李绍稳

(安徽农业大学信息与计算机学院, 合肥 230036)



多组分溶液近红外光谱检测算法研究

金 秀 李绍稳

(安徽农业大学信息与计算机学院, 合肥 230036)

利用下一代红外光谱检测仪MEMS-FTIR,在基于近红外波段1 000 — 2 100 nm区域对多组分糖溶液进行检测,通过开源平台的R语言对实验中的近红外光谱数据进行数据分析和PLS算法研究,为下一代快速、便携式、移动平台光谱数据分析奠定基础。本次研究主要使用具有开源性质的R语言和近红外光谱PLS算法, PLS算法可以显著提高近红外光谱回归模型的有效性。在建立回归模型后,对模型的RMSEP系数和R2系数进行分析和比较,结果表明建立的多组分糖浓度的PLS回归模型拟合程度较高。

FTIR; 近红外线; PLS算法; 回归模型; R language

现代的近红外光谱研究开始于农业产品的分析。美国从20世纪50年代就开始利用可见光透射和反射技术测定鸡蛋、蔬菜等农产品的品质[1]。近红外光谱主要研究O — H,C — H,N — H等含氢基团原子间振动的倍频与合频信息。随着计量化学和计算机技术的发展,近红外光谱分析作为一种无损的,快速的分析方法,被广泛的应用于实际检测中。新一代的微机电光谱分析仪(MEMS-FTIR)更具有体积小、成本低、速度快且便于携带等优点。MEMS-FTIR不仅可被利用在材料检测,气体分析等多种专业领域的检测中,而且因为自身的优点,还可被普及到日常生活中[2]。

在光谱数据分析中,近红外光谱的定量分析是化学计量学在光谱领域与计算机领域相结合的一个典型代表,其主要步骤为:先对样本进行收集、分析,然后进行光谱采集、筛选,最后通过计算机和数学算法的分析,建立优质的定量回归模型。通过这个回归模型可以预测同类物质中主要成分的近似浓度,所以在定量分析中,模型的优劣非常重要。影响回归模型效果的2个主要方面是:(1)样本的精确度和范围,其通常利用常规的化学方法进行控制;(2)回归模型的算法。回归模型的算法也在不断地更新,从最初的多元线性回归(MLR)到现在的主成分回归(PCR)和偏最小二乘法(PLS),而PLS算法作为应用最多的算法,在定量分析中具有很好的效果。

偏最小二乘法(PLS)是在20世纪70年代的经济学研究中被提出的,它的特点是在小样本下对多自变量进行回归建模。2001年高惠璇用具体例子对最小二乘法、主成分回归和偏最小二乘法进行比较分析,并使用SAS软件实现PLS建模[3];2006年王惠文等人一起,对PLS算法进行详细的解说和扩展,提出了回归系数的显著性检验方法[4]。在本次实验中,使用R语言对光谱数据进行处理、分析和PLS建模。R语言是一个开放性的强大的统计分析语言,它除了本身带有的软件包以外,现在还含有接近5 000个资源包,基本上涵盖了所有可以实现的算法,而所有的这些程序包都是免费使用的。现在各大开源社区中,R语言的资源还在不断地增加。使用R语言对光谱数据进行PLS建模,可以得到理想的数据模型,并根据R语言提供的图形库进行可视化分析。

本次研究以蔗糖、果糖、葡萄糖这3种常见的糖分来配置不同浓度比例的溶液,通过MEMS-FTIR仪器中1 000~2 100 nm光谱带进行光谱实验。在筛选和不断地重复比对后选出每个样本中的有效光谱,然后将光谱数据导入到R语言中,对光谱数据进行分析、处理和建模,最后得到PLS回归模型。模型的评价主要通过RMSEP系数和R2系数进行。

1 仪器、样本与编程环境

生产厂家:Hamamatsu Photonics。

实验仪器:MEMS-FTIR。

光谱检测范围:1.15~2.05 m。

波长分辨率:12 nm。

扫描速率:5 ms。

样本:使用蔗糖、果糖、葡萄糖等3种制药溶剂进行配置,总共配置19个样本,每个样本检测3组光谱,共57组光谱。采用KS(Kennard-Stone)方法对样品集进行划分,首先计算出每个样本的平均光谱,然后将平均光谱与每条光谱进行对比和选择,选出具有特征的19条光谱线进行PLS回归建模,光谱图如图1所示。

编程环境:R 3.1.2和RStudio。R3.1.2是R语言中比较稳定的版本,资源库中的PLS包可以在3.1.2环境中使用。在光谱数据处理过程中,由于数据源的文档是xml和txt类型,所以在实验初期首先通过程序进行简单的文件转换,将文件转换为csv类型,然后通过csv文件再将数据导入到R环境中,数据通过R矩阵、数据框的操作,截取出波长为1 300~2 000 nm的光谱数据后,开始建模分析[5]。

图1 糖溶液浓度和光谱图

2 算法与模型

2.1 PLS算法

偏最小二乘回归法(PLS)能够在小样本下进行多变量X对多变量Y的回归建模,PLS与PCR相比,不仅仅对光谱矩阵X进行分解、处理,而且对浓度矩阵Y也进行同样的处理。PLS算法就是在这样的思想下提出的多元因子回归方法[6-7]。

PLS算法首先对光谱矩阵X和浓度矩阵Y进行分解,其模型为:

X=UP+E

Y=TQ+F

式中:P—X在得分矩阵U和T下的载荷;

Q—Y在得分矩阵U和T下的载荷;

E—X的拟合残差矩阵;

F—Y的拟合残差矩阵。

认定模型的评价标准十分重要,定量校正模型的部分评价参数有:(1)交互验证的校正标准偏差SECV;(2)预测标准偏差SEP或RMSEP;(3)校正结果的决定系数R2。

在模型建立过程中,SECV一般是越小越好,但如果选择过于拟合,也会导致决定系数和SECV过小。在模型建立完成后,可以用验证集RMSEP验证模型的准确性,RMSEP是越小模型越准确;模型的决定系数R2也被用于验证模型的效果,R2越接近1说明模型的效果越好。

2.2 回归模型

本实验中利用R语言中的程序库计算PLS模型,通过语言库中的函数可以得到模型的基本系数SECV和TRAINING。调整后系数SE-ADJCV通过图2可以发现在主成分为7的时候有一个很大的下降趋势,因此在选择主成分时,不能选取过多的主成分,线性关系模型可能过度拟合;而如果主成分选择比较少,又不能很好地体现出模型的优化程度,所以本次模型选取主成份为7是相对较优的数据。

当确定好主成分后,需要依照主成分的数据重新建立新的PLS模型,在R语言中的程序语句为:plsr(Y~X,data=datasample,ncomp=7,validation=“CV”)。Y为蔗糖、果糖、葡萄糖的浓度矩阵集合;X为1 000~2 100nm光谱吸收矩阵;ncomp为主成份数;validation=“CV”表明建立回归模型中使用了交互验证方法;函数plsr表明整个模型的算法为PLS算法。

图2 在不同主成分下的SECV数值图

3 结果与分析

在回归模型建立后评价模型的优劣。在R语言中使用R2函数可以检测出R2系数:

计算结果表明R2的系数在主成分为7时有一个很大的提高,基本上接近1。

图3 在不同主成分下的RMSEP系数图

最后将光谱模型的预测集合和实际集合放置到图中进行对比,X轴为实际测量值,Y轴为预测值,可以发现预测值和实际值基本上归一到了y=x的直线上(图4)。因此在主成分为7的前提下,PLS模型具有很好的效果,在R语言平台中使用predict函数进行预测集合和实际集合对比。

图4 预测集合和实际集合的拟合曲线图

4 结 语

本次研究使用最新一代的红外线检测装置MEMS-FTIR来得到多组分糖溶液的近红外吸收值,并且对吸收值进行定量分析。在使用MEMS-FTIR的实验中获得近红外光谱数据后,利用R语言成功地使用PLS算法建立回归模型,通过分析模型的精度发现,R语言能高效率地检测MEMS-FTIR中的光谱数据,并快速地得到定量分析结果。本次实验模型提取了7个主成分,模型的RMSEP系数表明本次实验的PLS模型预测拟合效果较好。

[1] Henry M C. Infrared Spectroscopy for Food Quality Analysis and Control [M]. Elsevier Inc, 2009:37-40.

[2] Griffiths P R, Haseth J. Fourier Transform Infrared Spectrometry [M].[s.l.] Wiley, 2007:297-302.

[3] 高惠璇.实用统计方法与SAS系统[M].北京:北京大学出版社,2001:15-30.

[4] 王惠文,张志慧,Tenenhaus M.成分数据的多元回归建模方法研究[J]. 管理科学学报,2006,9(4):27-32.

[5] 齐琛,方秋莲. 偏最小二乘建模在R软件中的实现及实证分析[J].数学理论与应用,2013,33(2):103-111.

[6] Pereira A F C, Pontes M J C. NIR Spectrometric Determination of Quality Parameters in Vegetable Oils Using iPLS and Variable Selection [J]. Food Research International, 2008,41(4):341-348.

[7] 王惠文,吴载斌,孟洁.偏最小二乘回归的线性与非线性方法[M].北京:国防工业出版社,2006:120-124.

[8] Giangiacomo R. Study of Water-sugar Interactions at Increasing Sugar Concentration by NIR Spectroscopy [J]. Food Chemistry, 2006,96(3):371-379.

[9] Wu Z Z, Xu E B. Rapid Determination of Process Variables of Chinese Rice Wine Using FT-NIR Spectroscopy and Efficient Wavelengths Selection Methods [J]. Food Analysis Methods, 2014(2):1-12.

Research on the Detection Algorithm of Multi-component Solution Near Infrared Spectrum

JINXiuLIShaowen

(School of Computer Science, Anhui Agriculture University, Hefei 23001, China)

This paper uses the next generation NIR spectrometer (MEMS-FTIR) to detect the multi-component sugar concentration, based on the near-infrared wavelength from 1000 nm to 2100 nm. R language and PLS algorithm are applied to the NIR spectrum experiment to make regression modeling and data analysis; thus the experiment sets a foundation for the next generation of rapid, portable, multi-platform spectral data analysis. In the process of regression modeling and data analysis, the paper uses the R language which is open-source and the NIR PLS algorithm, and the PLS algorithm could significantly improve the effectiveness of NIR regression modeling. After regression modeling, the model of RMSEP and R2 coefficient are analyzed and compared, and the result of analysis shows that the PLS regression model of multi-component sugar solution has the better fitting effect.

FTIR; NIR; PLS algorithm; regression model; R language

2015-05-24

国家自然科学基金项目农业领域(茶学) “云本体建模理论与方法研究”(31271615)

金秀(1983 — ),男,安徽人,讲师,研究方向为农作物光谱信息学。

TP391.44

A

1673-1980(2015)05-0080-04

猜你喜欢

光谱建模矩阵
基于三维Saab变换的高光谱图像压缩方法
高光谱遥感成像技术的发展与展望
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
初等行变换与初等列变换并用求逆矩阵
星载近红外高光谱CO2遥感进展
矩阵
矩阵
矩阵