APP下载

基于改进连续投影算法的光谱定量模型优化

2013-08-22孙旭东

关键词:小波葡萄酒光谱

郝 勇,孙旭东,王 豪

(1.华东交通大学机电工程学院,江西 南昌 330013;2.宁波出入境检验检疫局,浙江 宁波 315012)

可见/近红外光谱(visible-near-infrared spectroscopy,VIS/NIRS)由于其分析效率高、速度快、成本低、非破坏性和易于在线分析等特点被广泛应用于复杂样品的定性和定量分析[1-4].然而,VIS/NIRS 不仅反映物质的化学组成和含量,同时也包含了由被测物的温度、表面纹理、密度以及内部组分分布不均匀等因素引起的光谱响应.因此,在光谱分析中,有效信息的提取、分析模型的建立和简化非常重要[5-6].

小波变换(wavelet transform,WT)具有“时频优势”,可以同时反映光谱信号的时间(波长)和频率信息,被广泛用于光谱信号分析.离散小波变换可以将信号通过不同的小波滤波器卷积为不同的高频和低频组分,高频组分对应为噪声信息,低频组分对应为背景信息.通过对高频噪声信息的滤除,可以实现有效信息的提取[7].

连续投影算法(successive projections algorithm,SPA)能够有效地消除光谱中众多变量间的共线性影响,使向量间的共线性达到最小,降低模型的复杂度,在光谱变量选取中得到广泛应用.然而,对于样本量较少的样品集,利用该方法对其光谱进行变量选取时,由于建模样品代表性不足,导致最终选择的波长虽然消除了校正集样品波长间的共线性,然而在外部验证时,常会由于选择的建模变量不合适而使得预测结果不理想[8-9].因此,本研究引入蒙特卡罗(monte carlo,MC)方法,对SPA进行改进(modified successive projections algorithm,MSPA),通过选取不同的校正样本进行多次平行运算,对每次选取的变量求并集,并集包含的变量即为最终选择的变量,从而解决小样本数据集变量选择的问题.

为了改善SPA方法在光谱特征变量提取中的有效性,充分简化分析模型,分别以葡萄酒和苹果样品作为研究对象,采用MSPA对其原始的VIS/NIRS和WT光谱中的酒精度和可溶性固形物(soluble solids content,SSC)信息进行提取,并建立相应的PLS模型,以探讨一种既可以提高光谱分析精度,又可以实现模型化简的光谱计量方法.

1 材料与方法

1.1 试验样品

收集来源于意大利、法国、澳大利亚、罗马尼亚等国的103个葡萄酒样品,包括红葡萄酒、白葡萄酒、起泡葡萄酒等.根据GB/T 5009.4—2003标准对样品的酒精度数据进行测定,样品的酒精体积分数为11.30%~14.50%.

苹果样品来源于江西南昌某农贸市场,共采集120个冰糖心苹果作为试验样品.样品置于25℃,60%湿度的实验室内,待样品温度达到室温后,进行动态光谱的采集.采集光谱后,将样品切块分成3份,分别放入榨汁机榨汁过滤后,用折射式糖度计(PR-101α,日本)进行糖度的测量,3次测量值取平均作为 SSC的真实值,样品的 SSC含量范围为8.50% ~14.10%.

选用 KS(Kennard-Stone)[10]算法分别将2 组样品按照2∶1的比例划分为校正集和验证集.2组样品分析指标的统计信息如表1所示.

表1 2组样品数据的统计信息

1.2 光谱采集仪器及参数

MPA傅里叶变换近红外光谱仪(德国Bruker公司)用于啤酒样品透射光谱的采集.以蒸馏水为参比,将葡萄酒液体样品注入2 mm的圆柱形样品管中,光谱采用64次扫描,分辨率为8 cm-1,光谱采集范围为12000~4000 cm-1.每个样品光谱测试2次,平均光谱作为最终建模光谱.

苹果近红外光谱在线检测装置如图1所示.

图1 苹果近红外光谱在线检测装置图

输送线的速度约为5个·秒-1(每秒过5个苹果),由变频器和异步电动机控制.卤钨灯发射的光经直径为40 mm的圆柱套筒,以约50 mm的光斑照射至苹果样品表面.光纤探头与垂直方向的角度约为30°,至输送线的距离约为120 mm.由光电接近开关和PLC共同控制触发电源开/闭,来触发CCD微型光谱仪采集苹果样品的漫反射光谱.以聚四氟乙烯材质的白板(6.5 mm厚度)为标准参比,在采集苹果样品光谱前先采集参比和暗电流光谱;苹果样品在输送线上随机放置,每个苹果样品重复采集3次光谱,取平均光谱作为每个苹果样品的最终光谱;CCD微型光谱仪参数设置(苹果样品、参比和暗电流的积分时间均为30 ms)、光谱采集和存储利用自行编写软件完成[11].

1.3 模型的评价指标

采用偏最小二乘回归(PLS)建立光谱模型,模型的评价指标包括预测均方根误差(root mean square error of prediction,RMSEP)、预测相关系数(correlation coefficient of prediction,Rv)和akaike信息标准(AIC).采用Matlab R2010a进行数据处理和模型构建.其中RMSEP值越小,Rv值越大,模型的预测能力越好,AIC[12]的定义为

AIC=nln RMSEP+2p,

式中:n是样本数;p为样本的特征数,即建模的变量数.AIC值越小,表明模型越精简.

2 结果与分析

2.1 小波变换参数优化

在利用小波变换对光谱进行信息提取时,小波基的选取、分解尺度的选择以及保留的建模小波系数的数目是3个重要参数.根据文献报道和前期计算[13-14],文中选择的小波基为“symmlet”,分解尺度为6.

为了确定保留的最佳小波系数数目,分别保留不同数目的葡萄酒和苹果小波变换光谱的小波系数进行建模,模型的RMSEP随保留小波系数数目的变化如图2所示.

图2 2组数据模型的RMSEP随保留的小波系数数目的变化

从图中可知,对于葡萄酒样品(图2a),保留35个小波系数得到了最好的预测结果;对于苹果样品(图2b),保留55个小波系数得到了最好的预测结果.

2.2 改进的连续投影算法参数确定

对于小样本数据,SPA常会选出具有局部最优解的变量,无法代表样本的真实特征,因此需要对该算法进行改进.随机从校正样本中选取1/2的样品进行SPA运算,对多次平行运算的结果进行求并运算,并集即为选取的变量.模型的RMSEP随平行运算次数的变化如图3所示.

图3 2组数据模型的预测均方根误差随平行运算次数的变化

从图3中可知,对于葡萄酒和苹果的原始光谱和小波变换光谱模型,其RMSEP值随平行运算次数而变化,当平行运算达某一数值时,RMSEP不再随平行运算次数的增加而变化.对于葡萄酒样品,原始光谱模型的RMSEP值在运算次数达到25次时趋于稳定,小波变换光谱模型的RMSEP值在运算次数达到20次时趋于稳定;对于苹果的原始和小波变换光谱模型,当运算次数达到20次以后,模型的RMSEP值都趋于稳定.为了计算简便,本研究的平行运算次数统一选用25.

2.3 简化模型构建

为了对模型进行综合评价,分别对葡萄酒和苹果的原始和小波变换光谱采用MSPA方法进行变量筛选和建模分析.模型的RMSEP,Rv,AIC以及建模的变量数如表2所示.

表2 不同PLS模型的预测结果

对于酒精度模型,WT-MSPA-PLS方法得到了最小的RMSEP,AIC值由4085.60降低为-1.06,建模变量由2073减小为34;对于SSC模型,虽然WTMSPA-PLS方法的RMSEP比WT-PLS方法略有增大,然而模型的AIC值由1047.20降低为57.43,建模变量由535减小为41,模型得到了极大的简化.

对于2组样品,虽然WT-PLS方法和WT-MSPAPLS方法最终选择的变量数较为接近,然而在WT-PLS方法中,需要建立一系列的PLS模型来考察模型的RMSEP随保留小波系数的变化关系;而WT-MSPA-PLS方法则仅需对小波变换后的光谱采用MSPA方法进行特征选取,操作较为简单.2组样品的原始和小波变换光谱及其选择的建模变量示意如图4,5所示.

图4 葡萄酒的原始和小波变换光谱及其选择的建模变量示意图

图5 苹果的原始和小波变换光谱及其选择的建模变量示意图

图4,5中黑色粗横线段表示建模所选变量.从图中可以清楚地看到2组样品光谱经WT-MSPAPLS方法都极大地压缩了建模变量.

3 结论

小波变换结合MSPA方法用于葡萄酒和苹果光谱分析模型的优化.试验结果表明:原始光谱经小波变换后,可以实现信号和噪声的分离,通过保留特定数目的小波系数,实现光谱信息的提取和模型的简化;采用MSPA方法可以进一步提取建模变量,实现模型的精简;WT-MSPA-PLS有望成为一种既可以提高光谱模型的分析精度又可以降低模型复杂度的较好的组合方法.

References)

[1]刘 卉,郭文川,岳 绒.猕猴桃硬度近红外漫反射光谱无损检测[J].农业机械学报,2011,42(3):145-149.Liu Hui,Guo Wenchuan,Yue Rong.Non-destructive detection of kiwifruit firmness based on near-infrared diffused spectroscopy[J].Transactions of the Chinese Society for Agricultural Machinery,2011,42(3):145 - 149.(in Chinese)

[2]石吉勇,邹小波,赵杰文,等.黄瓜叶片叶绿素含量近红外光谱无损检测[J].农业机械学报,2011,42(5):178-182.Shi Jiyong,Zou Xiaobo,Zhao Jiewen,et al.NIR spectra in non-invasive measurement of cucumber leaf chlorophylls content[J].Transactions of the Chinese Society for Agricultural Machinery,2011,42(5):178 - 182.(in Chinese)

[3]Gaydou V,Kister J,Dupuy N.Evaluation of multiblock NIR/MIR PLS predictive models to detect adulteration of diesel/biodiesel blends by vegetal oil[J].Chemometrics and Intelligent Laboratory Systems,2011,106(2):190 -197.

[4]Yan Hui,Han Bangxing,Wu Qiongying,et al.Rapid detection of Rosa laevigata polysaccharide content by nearinfrared spectroscopy[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2011,79(1):179-184.

[5]Shen Fei,Ying Yibing,Li Bobin,et al.Prediction of sugars and acids in Chinese rice wine by mid-infrared spectroscopy[J].Food Research International,2011,44(5):1521-1527.

[6]Sinelli N,Casiraghi E,Barzaghi S,et al.Near infrared(NIR)spectroscopy as a tool for monitoring blueberry osmo-air dehydration process[J].Food Research International,2011,44(5):1427 -1433.

[7]Liu Zhichao,Cai Wensheng,Shao Xueguang.A weighted multiscale regression for multivariate calibration of near infrared spectra[J].Analyst,2009,134:261 -266.

[8]Mario Cesar Ugulino Araujo,Teresa Cristina Bezerra Saldanha,Roberto Kawakami Harrop Galvao,et al.The successive projections algorithm for variable selection for variable selection in spectroscopic multicomponent analysis[J].Chemometrics and Intelligent Laboratory Systems,2011,57(2):65 -73.

[9]Sofacles Figueredo Carreiro Soares,Roberto Kawakami Harrop Galvao,Mario Cesar Ugulino Araujo,et al.A modification of the successive projections algorithm for spectral variable selection in the presence of unknown interferents[J].Analytica Chimica Acta,2011,689(1):22-28.

[10]Roberto Kawakami Harrop Galvao,Mario Cesar Ugulino Araujo,Gledson Emidion Jose Coelho Pontes,et al.A method for calibration and validation subset partitioning[J].Talanta,2005,67(4):736 -740.

[11]孙旭东,郝 勇,高荣杰,等.脐橙糖度近红外光谱在线检测数学模型优化研究[J].光谱学与光谱分析,2011,31(5):1230 -1235.Sun Xudong,Hao Yong,Gao Rongjie,et al.Research on optimization of model for detecting sugar content of navel orange by online near infrared spectroscopy[J].Spectroscopy and Spectral Analysis,2011,31(5):1230 - 1235.(in Chinese)

[12]Viscarra Rossel R A,Behrens T.Using data mining to model and interpret soil diffuse reflectance spectra[J].Geoderma,2010,158:46 -54.

[13]马 毅,汪西原,雍 慧.小波变换去噪应用于鲜枣糖度近红外光谱检测的研究[J].计算机与应用化学,2011,28(3):303 -306.Ma Yi,Wang Xiyuan,Yong Hui.Study on fresh jujube sugar content using near infrared spectroscopy based on wavelet transform denoising[J].Computers and Applied Chemistry,2011,28(3):303 -306.(in Chinese)

[14]Wu Di,Chen Xiaojin,Shi Pinyan,et al.Determination of alpha-linolenic acid and linoleic acid in edible oils using near-infrared spectroscopy improved by wavelet transform and uninformative variable elimination[J].Analytica Chimica Acta,2009,634(2):166 -171.

猜你喜欢

小波葡萄酒光谱
基于三维Saab变换的高光谱图像压缩方法
基于多小波变换和奇异值分解的声发射信号降噪方法
构造Daubechies小波的一些注记
高光谱遥感成像技术的发展与展望
基于MATLAB的小波降噪研究
葡萄酒的产区品牌
十款葡萄酒与十块石头
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断
法国葡萄酒何以誉满天下
星载近红外高光谱CO2遥感进展