APP下载

黄酒糖度近红外光谱降维算法的研究

2015-03-23蒋巧勇张文君

中国计量大学学报 2015年1期
关键词:糖度降维黄酒

蒋巧勇,吕 进,张文君,薛 磊

(中国计量学院 计量测试工程学院,浙江 杭州 310018)

黄酒糖度近红外光谱降维算法的研究

蒋巧勇,吕 进,张文君,薛 磊

(中国计量学院 计量测试工程学院,浙江 杭州 310018)

选取PCA、PLS线性降维算法,LLE、LTSA、ISOMAP、FastICA非线性降维算法对光谱数据降维并建立PLS预测模型.结果表明,线性降维算法中建模效果最好的为PCA算法;非线性降维算法中建模效果最差为FastICA算法;在黄酒近红外光谱降维中非线性降维算法优于线性降维算法.选取ISOMAP-PLS和BP非线性模型对光谱数据进行建模.结果表明,ISOMAP-PLS预测效果优于BP预测效果从而验证非线性降维算法结合PLS建模的可行性.

黄酒糖度;近红外光谱;非线性降维;BP模型

黄酒糖度是黄酒品质评定的重要指标,常规的检测方法采用GB/T13662中铁氰化钾滴定法.但该方法费时、费力、操作繁琐、复杂、人为导致的误差较大.现代近红外(NIR)光谱分析技术以其高效、快速、低成本、无污染、非破坏性和易于实现在线检测等特点,在农业和食品等行业得到广泛的重视和应用[1-3].国内黄酒行业也开始将其应用于黄酒成分测量[4-6].

在近红外光谱测量中,近红外光谱在非单色光、杂散光、温度等各种因素影响下,使得光谱与真值偏离了Lambert-Beer定律.因此近红外测出来的光谱数据具有线性和非线性关系,由于测量仪器分辨率很高,所获得光谱数据量大,而参与建模时又希望通过少量的数据能够准确的反映光谱与真值之间的关系.而降维是一种有效消除干扰信息并提取光谱数据中有用信息的方法,使建立的模型能够更快、更准确地反映出待测样品的真值,从而提高模型的预测能力.降维算法有很多,通过不同降维算法所得到的数据建立的模型结果相差很大,故不同物质成分的光谱需采用不同的降维算法进行建模才能得到最好的预测结果[7].在近红外酒类检测领域中:蒋诗泉[8]采用PCA对黄酒数据进行降维处理建立非线性的LS-SVM定性模型,当主成分数为6时判别正确率达到100%;方利民[9]采用快速独立主成分(FastICA)对红酒数据进行降维建立ICA-NNR模型,其效果均优于PCR和PCA-NNR定量模型.但他们建模时对样品降维均采用单一的降维算法,并没有探讨该降维算法是否能反映该样品光谱数据内在的真实结构.因此,本文阐述了几种常见的线性降维算法和近年来在近红外领域新涌现的非线性降维算法;对比分析了这几种降维算法结合偏最小二乘定量模型预测黄酒糖度的效果,从而找出对黄酒糖度预测模型效果最好的降维算法;并将得出的最好的预测效果跟常见的BP神经网络非线性建模后的预测效果相比较,结果表明降维算法结合PLS建立的预测建模在预测准确性上优于BP神经网络.

1 算法原理

1.1 线性降维算法

1)PCA以方差的大小来衡量有效信息的多少,认为方差越大有效信息越多,反之则越少.PCA通过线性变换保留方差大、含信息多的分量,从而降低数据的维数.该算法概念简单高效,但主成分的选取主观性太强,使得模型不够稳健.

2)PLS[10]就是对光谱矩阵和浓度矩阵Y同时进行PCA分解,使高维数据投影到低维空间.该PLS算法的预测结果都优于一般的线性模型,且对连续光谱分析有明显的优势但不能正确预测具有非线性关系的数据.

1.2 非线性降维算法

1)局部线性嵌入(LLE)的主要思想是利用样本空间中局部的线性来逼近全局的非线性,可保持样本固有的几何性质,并具有平移、旋转不变性等优良特性[11].但该算法对样本中的噪声和领域参数比较敏感.该算法步骤如下:①根据距离的大小,计算每个样本点Xi的k个近邻点,1≤i≤n.②由每个样本点的近邻点计算出该样本的局部重建权值矩阵W;③由该样本的局部重建权值矩阵W计算出该样本的输出值Y.

2)局部切空间排列(LTSA)[12]算法通过找出每个数据点的邻近点,用邻域中低维切空间的坐标近似表示局部的非线性几何特征;再通过变换矩阵将各数据点邻域切空间的局部坐标映射到统一的全局坐标上;最后经过一系列数学推导,将求解整体嵌入坐标问题转换为求解矩阵的特征值问题,从而实现高维数据降维.不足之处是对近邻点个数选择依赖性强、不适应处理稀疏数据高曲率数据.

3)等距映射(ISOMAP)[13]算法首先使用最近邻图中的最短路径得到近似的测地线距离,并用该距离代替欧式距离输入到MDS中,进而发现嵌入在高维空间的低维坐标.由此克服了MDS不能反映流形样本点之间的非线性关系的缺点,且能够容易的判断流形的本征维数.但该算法对邻域大小和噪声都比较敏感,从而使该算法具有较差的鲁棒性.

4)快速独立分量分析(FastICA)[14]是一种快速寻优迭代算法,与普通的神经网络算法不同的是这种算法采用了批处理的方式,即在每一步迭代中有大量的样本数据参与运算.采用该算法降维所获得数据具有相关性.比PCA获得的数据更苛刻.

2 材料与方法

2.1 主要实验仪器与材料

美国Nicolet公司的Nexus870傅里叶变换红外光谱仪及其透射附件、InGaAs探测器、1 mm光程石英比色皿、matlab分析软件.实验样品来源于浙江绍兴黄酒检测中心的133个黄酒样品.采用spxy算法挑选样品集与预测集.

2.2 样品光谱测定

将冷藏于5 ℃冰箱内的黄酒取出,待其在室温下充分稳定后,逐个编号并进行光谱扫描.仪器测定条件为:以空气为参比,选用光程为1 mm的石英比色皿,谱范围为800~2 500 nm,分辨率为8 cm-1.每个样品用DT81261移液枪取样2次,扫描次数为32,取其平均光谱.所得光谱图如图1,横坐标λ为波长,纵坐标A为吸光度,黄酒糖度的特征波段主要体现于1 400~1 480 nm、1 520~1 800 nm及2 070~2 350 nm[6].

图1 黄酒样品近红外光谱图Figure 1 Spectral of rice wines

2.3 模型参数评价与数据处理

近红外数学模型的优劣主要通过测量偏差、相关性作为判断标准.测量偏差主要通过标准差来衡量,相关性主要通过决定系数来衡量:

(1)

(2)

首先将所得光谱数据进行PCA、PLS、LLE、LTSA、FastICA、ISOMAP算法降维后用PLS对降维后的光谱矩阵和黄酒糖度的含量建立回归模型,比较其预测效果;接着最好的预测效果跟采用常见的BP神经网络非线性建模后的预测效果相比较.

3 结果与讨论

3.1 平滑处理消除噪声

本文采用常见的移动平均平滑预处理方法消除噪声,该方法对高斯白噪声有良好的消除作用.在该法中,平滑窗口宽度的取值十分重要,窗口太小,平滑去噪效果不佳;窗口太大,会平滑掉一些有用信息,造成光谱失真.因此需要选择合适的窗口宽度,才能建模效果达到最好.建模后采用“留一”交互验证法对模型进行评价,模型的评价指标为决定系数(R2)以及交叉检验标准差(RMSECV).模型的决定系数越高,检验标准差越小,模型的预测精度越高.实验证明当窗口宽度为25时,R2为0.93,RMSECV为1.95,模型预测效果最佳.

表1 不同窗宽度平滑预处理后建模效果

Table 1 Effect of the smoothing pretreatment with different window width

窗口度5152535455565决定系数0.860.880.930.920.900.830.82交叉检验标准差2.432.401.952.012.072.552.91

3.2 降维算法对模型预测结果的影响

表2 不同降维算法结合PLS模型的效果

表2可以看出黄酒光谱数据经不同降维算法降维后所建立的PLS预测模型效果存在较大差异.线性降维算法中黄酒糖度建模效果最好的为PCA算法,其预测效果R2为0.509、RMSEP为2.23;非线性降维算法中黄酒糖度建模效果最差为FastICA算法,其预测效果:R2为0.654、RMSEP为2.43.从而可以得出黄酒光谱经非线性降维算法后建立的PLS糖度模型效果优于经线性降维算法降维后的糖度模型;非线性降维算法更能反映出黄酒光谱数据内在的真实结构.采用ISOMAP降维后建立的PLS黄酒糖度模型预测效果在6种降维算法中效果最佳,效果如图2.横坐标S1表示糖度真值,纵坐标S2表示糖度测量值.

图2 ISOMAP-PLS建立的糖度模型回归图Figure 2 Correlationship between the predicted values and the referenced value of sugar by ISOMAP-PLS model

3.3 ISOMAP-PLS模型的可行性

在酒类检测领域,非线性建模较为常见见[15-16],且相比较于线性建模,非线性建模能较好的提高预测效果.为了ISOMAP-PLS模型的可行性,将ISOMAP-PLS所建模型的预测效果跟非线性建模中较为常用的BP神经网络所建模型的预测效果作比较.由表3可知,BP神经网络所建模型的预测效果R2为0.613,RMSEP为2.65.采用ISOMAP-PLS所建模型效果均优于非线性BPT建模,且克服了BP神经网络模型的不稳定性,使得所建模型更稳健.

表3 ISOMAP-PLS与BP在预测集上的比较

Table 3 Comparison of ISOMAP-PLS model result in prediction set Compared with BP

算法决定系数预测标准差等距映射0.8711.92BP神经网络0.6132.65

4 结 语

本文以黄酒糖度为研究对象,采用6种降维算法与PLS模型相结合的方法,选择了最佳的降维参数,建立了预测模型,并将最优的预测模型效果与BP模型的预测效果做比较.实验表明:使用非线性降维比线性降维更能够提取黄酒NIR光谱中的有用信息以及黄酒数据的内在结构.使用ISOMAP-PLS模型建模比BP模型建模更能准确地预测黄酒糖度.本文探索出较为适合黄酒糖度建模的降维算法以及模型,为建立稳健的黄酒糖度近红外快速检测模型提供了有效的降维算法,这对黄酒糖度的快速在线检测来说具有参考价值.

[1] 李君霞,张洪亮,严衍禄,等.水稻蛋白质近红外定量模型的创建及在育种中的应用[J].中国农业科学,2006,39(4):836-841. LI Junxia, ZHANG Hongliang, YAN Yanlu, et al. Establishment of math models of NIRS analysis for protein contents in seed and it’s application in rice breeding[J]. Scientia Agricultura Sinica,2006,39(4):836-841.

[2] 陆婉珍.现代近红外光谱分析技术[M].北京:中国石化出版社,2007:60-62.

[3] 徐慧荣.基于可见/近红外光谱的水果糖度检测模型优化及应用研究[D].杭州:浙江大学,2010. XU Huirong. Development and application of optimal model for nondestructive evaluation of fruits sugar content using visible/near infrared spectroscopy[D]. Hangzhou: Zhejiang University,2010.

[4] 于海燕.黄酒品质和酒龄的近红外光谱分析方法研究[D].杭州:浙江大学,2007. YU Haiyan. Methods for quality and wine age determination of Chinese rice wine based on near infrared spectroscopy[D]. Hangzhou: Zhejiang University,2007.

[5] 牛晓颖.基于傅里叶变换近红外光谱的绍兴黄酒风味成分定量分析及其酒龄鉴别的研究[D].杭州:浙江大学,2009. NIU Xiaoying. Flavor components quantitative evaluation and age discrimination of Shaoxing rice wine based on fourier transform near infrared spectroscopy[D]. Hangzhou: Zhejiang University,2009.

[6] 胡小邦,吕进,刘辉军,等.基于近红外透射光谱的黄酒酒精度、酸度检测模型研究[J].光电工程,2010,37(10):122-127. HU Xiaobang, LYU Jin, LIU Huijun, et al. Quantitative model of alcohol and acid in Chinese rice wine based on near-infrared transmission spectroscopy[J]. Opto Electronic Engineering,2010,37(10):122-127.

[7] 杨辉华,覃锋.NIR光谱的Isomap-PLS非线性建模方法[J].光谱学与光谱分析,2009,29(2):322-326. YANG Huihua,QIN Feng. Isomap-PLS nonlinear modeling method for near infrared spectroscopy[J]. Spectroscopy and Spectral Analysis,2009,29(2):322-326.

[8] 蒋诗泉,周兴才,蒋诗平.基于PCA和LS-SVM的傅里叶变换近红外光谱的黄酒酒龄的鉴别模型[J].光谱实验室,2012,29(2):806-811. JIANG Shiquan, ZHOU Xingcai, JIANG Shiping. Discriminative model for FTNIS analysis on age of Shaoxing rice wine based on PCA and LS-SVM[J]. Chinese Journal of Spectroscopy Laboratory,2012,29(2):806-811.

[9] 方利民,林敏.基于FastICA和神经网络的红酒主要品质参数红外检测[J].光谱学与光谱分析,2009,29(8):2083-2086. FANG Liming, LI Min. Detection of the main quality indicationrs in red wine with infrared spectroscopy based on FastICA and neural network[J]. Spectroscopy and Spectral Analysis,2009,29(8):2083-2086.

[10] GELADI P, KOWALSKI B R. Partial least-squares regression: a tutorial[J]. Analytica Chimica Acta,1986,185:1-17.

[11] ZHANG Z, ZHA H. Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J]. Journal of Shanghai University,2004,8(4):406-424.

[12] 杨安平,陈松乔,胡鹏,等.基于几何距离摄动的局部切空间排列算法[J].计算机工程与应用,2011,47(29):168-170. YANG Anping,CHEN Songqiao,HU Peng, et al. LTSA algorithm based on geometric distance perturbation[J]. Computer Engineering and Applications,2011,47(29):168-170.

[13] TENENBAUM J B, SILVA V D, LANGFORD J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290:2319-2322.

[14] CHEN J, WANG X Z.Jouma1 of chemical infomation and computer[J].Sciences,2001,41:986-992.

[15] 冯尚坤,徐海菊.基于BP神经网络的啤酒酒精度近红外光谱快速检测[J].红外技术,2008,30(1):58-60. FENG Shangkun,XU Haiju. Study on content of beer alcohol with near infrared spectroscopy based on back propagation neural network[J]. Infrared Technology,2008,30(1):58-60.

[16] 王莉,何勇,刘飞,等.应用光谱技术和支持向量机分析方法快速检测啤酒糖度和pH值[J].红外与毫米波学报,2008,27(1):51-55. WANG Li, HE Yong, LIU Fei, et al. Rapid detection of sugar content and pH in beer by using spectroscopy technique combined with support vector machines[J]. Journal of Infrared and Millim Waves,2008,27(1):51-55.

Research of dimension reduction algorithm via near-infrared spectra of rice wine sugar

JIANG Qiaoyong, LYU Jin, ZHANG Wenjun, XUE Lei

(College of Metrology and Measurement Engineering, China Jiliang University, Hangzhou 310018, China)

We selected the linear method of PCA, PLS and the nonlinear methods of LLE, LTSA, ISOMAP and FastICA to reduce the dimension of the rice wine near-infrared spectra and built a PLS model. We found that the best model prediction effect was PCA algorithm in all of the linear dimension reduction, while the worst model prediction effect was FastICA algorithm in all of the non-linear dimension reduction methods.The nonlinear dimension reduction algorithm was superior to the linear dimension reduction algorithm. We selected the ISOMAP-PLS model and the BP nonlinear model to build models. The results indicate that the ISOMAP-PLS model is superior to the BP model which validats that the nonlinear dimension reduction algorithm combined with the PLS model is feasible.

sugar of rice wine; near infrared spectroscopy; nonlinear dimension reduction; BP model

1004-1540(2015)01-0050-05

10.3969/j.issn.1004-1540.2015.01.009

2014-09-19 《中国计量学院学报》网址:zgjl.cbpt.cnki.net

浙江省公益项目(No.2012C21010).

O657.33

A

猜你喜欢

糖度降维黄酒
‘蜜红’‘白玉龙’火龙果果实糖度分布规律分析
糖度高、类型多、瓜味足 “炫彩”系列小西瓜 亩产值3.5万元
混动成为降维打击的实力 东风风神皓极
李全锁:打造黄酒品牌 回馈父老乡亲
黄酒小记
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
黄酒小记
甜菜块根糖度检测使用重复检测进行质量控制的方法
一种改进的稀疏保持投影算法在高光谱数据降维中的应用