APP下载

FT-IR结合SIMCA法识别糯米产地

2012-10-28张文海姬中伟艾斯卡尔艾拉提

食品科学 2012年8期
关键词:光谱法糯米识别率

张文海,姬中伟,艾斯卡尔·艾拉提,毛 健,*

(1.江南大学食品学院,江苏 无锡 214122;2.江南大学 食品科学与技术国家重点实验室,江苏 无锡 214122)

FT-IR结合SIMCA法识别糯米产地

张文海1,2,姬中伟1,艾斯卡尔·艾拉提1,毛 健1,*

(1.江南大学食品学院,江苏 无锡 214122;2.江南大学 食品科学与技术国家重点实验室,江苏 无锡 214122)

利用傅里叶变换红外光谱法结合软独立模式分类法,在3000~2800cm-1和1760~1700cm-1波长范围内,经Savitzky-Golay平滑、基线校正和标准矢量归一化预处理,利用留一交互验证法建立主成分分析模型,以识别率和拒绝率为指标对7个产地的糯米进行识别。结果显示,在α=0.05显著水平下,陕西省汉中市糯米的识别率为80%,湖北省武穴市和浙江省杭州市糯米的拒绝率分别为83%和97%,其余产地糯米的识别率和拒绝率均为100%,表明傅里叶变换红外光谱法结合软独立模式分类法可成为快速识别糯米产地的有效方法。

糯米;傅里叶变换红外光谱法;软独立模式分类法;产地识别

近年来,黄酒行业发展迅速,使得对酿造黄酒用主原料——糯米的需求增加。然而,在黄酒传统产区,糯米产量相对不足,故需从其他产区购进糯米以满足生产。不同产区的糯米在化学组成、物理特性以及微生物种群等方面存在差异,而且对应着不同的酿造工艺,所酿黄酒的品质也不尽相同[1-2],因此有必要对各产区的糯米进行快速、准确的识别,以确定最佳的黄酒酿造工艺。

傅里叶变换红外光谱法(fourier transform infrared spectroscopy,FT-IR)是一种主要研究物质分子中代表性官能团振动及转动光谱能够在分子水平上表征研究对象特点并进行分析的方法[3-4]。由于FT-IR法具有制样简单、检测快速且重复性好、对样品没有损坏、信息量大等优点,所以倍受研究人员青睐,在蔬菜农药残留快速检测[5],小麦和红豆的储存年份鉴别[6]等食品领域已得到了广泛的应用。然而要充分利用FT-IR法的信息,克服传统光谱分析方法的局限性、复杂性和主观性,还需要结合化学计量学方法,对光谱进行全面、深入的分析以获得更有效的信息。目前,利用光谱法结合化学计量学对中药材品质、农产品产地等的研究取得了良好效果[7-10]。本研究利用FT-IR光谱法对不同产地糯米的模式识别方法进行研究,以期为快速鉴别糯米产地提供一种有效方法。

1 材料与方法

1.1 材料

实验用糯米来自湖北省孝感市、湖北省武穴市、浙江省杭州市、安徽省芜湖市、安徽省蚌埠市、陕西省汉中市、泰国顶上7个不同地区共210个样品,样品按产地编号为HX、HW、ZH、AW、AB、SH、TD。所有样品经食品粉碎机粉碎并过200目筛,再按四分法随机称取10g粉末,于60℃烘干,待水分平衡后用于红外采集。

1.2 仪器与参数设置

Nicolet Nexus 470傅里叶变换红外光谱仪 美国Thermo Electron公司。

主要仪器参数:最小分辨率:0.5cm-1;光源:EverG10TMMid-Infrared Source;附件:Smart Diffuse Reflection;检测器:氘代硫酸三苷肽/KBr检测器。采样参数:环境湿度:40%;扫描范围:4000~400cm-1;扫描次数:32次;分辨率:4cm-1。

1.3 漫反射红外光谱法样品制备

准确称量糯米粉末与KBr粉末(过200目筛),按照1:9的质量比混匀,装于样品池,以同样粉碎度的KBr粉末为背景进行红外光谱采集,共计210张光谱,随机选取175张光谱作为训练集,其余光谱组成预测集。1.4 分析方法

模式识别,又称作模式分类,是对表征事物或现象各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是一种将样本进行聚类的过程,是数学、信息科学和计算机科学的综合利用[11]。目前所采用的方法主要有因子分析、判别分析(如线性学习机)、K最近邻法、支持向量机、软独立模式分类法(soft independent modeling of class analogy,SIMCA)、神经网络、聚类分析及最小生成树等[12],本研究选用SIMCA进行分析。

SIMCA是一种有监督的模式识别方法,其识别思想是对训练集中每一类已知样本分别进行主成分分析(principal component analysis,PCA)并建立数学模型,然后将未知样品与已建立的模型进行拟合,确定未知样品属于哪一类或不属于任何一类。SIMCA包括两个主要步骤:建立每一类样本的PCA回归模型;利用模型对未知样本进行拟合,确定其分类[12]。

PCA是SIMCA分析的核心,PCA能够把多维空间数据复杂的相互关系向低维空间进行投影得到简化,通过降维将有用的信息整理到几个主成分之中并剔除噪音、误差等无用信息,另外,主成分之间相互正交,能够克服原变量多重相关性造成的信息重叠,有助于最大限度地提取有用的信息,建立优秀的数学模型[11,13]。

在数据分析时,PCA将光谱矩阵Am×p分解成式子(1)中的Tm×f和Pf×p两个较小矩阵的外积与残差矩阵E的和[3]:

式中:Am×p为光谱矩阵;Tm×f为得分矩阵;Pf×p为载荷矩阵;E为“残差”,维数与Am×p相同;m为样品数目,p为光谱变量数目,f为主成分数目。PCA分析中得分即是主成分矩阵(新变量),载荷则是主成分与光谱矩阵的相关系数矩阵,二矩阵的外积正好得到与光谱矩阵相同的维数,再加上残差矩阵E 就能还原光谱矩阵。PCA 分析时采用的是非线性迭代偏最小二乘算法(nonlinear iterative partial least squares,NIPALS)。

在PCA分析基础上建立SIMCA模型后,对未知样品进行预测,利用识别率和拒绝率考察糯米不同产地的预测效果,其中识别率即是指被考察未知样品落在正确类模型区域内的比率,见式(2),而拒绝率是指被考察类模型对其他不属于该类的未知样品的拒绝程度,即不属于该类的样品落在该类模型区域外的几率,见式(3)[14]。本研究的所有数据分析均基于Unscrambler 9.7的软件平台。

2 结果与分析

175个样品用于训练,建立数学模型,35个样品用于预测。不同研究对象的数据具有不同特点,为得到良好的判别模型和预测效果需要对原始的光谱数据进行一系列必要的处理,如特征波长的选择、数据预处理等。

2.1 特征波长的选择分析

通过对光谱的初步分析,去除低波数不稳定信息峰和水峰后,得到3000~500cm-1的红外光谱图,如图1所示。

图1 不同产地糯米的红外光谱Fig.1 FT-IR spectra of glutinous rice from different origins

从图1可知,研究对象主要含淀粉、蛋白质和脂肪类物质,特征吸收集中在3000~2800cm-1和1800~1000cm-1两段波长范围,吸光度集中在0.3~0.7之间,在光谱学的线性分析范围内,说明样品粉末与KBr稀释比例适中。对特征吸收范围的数据进行矩阵分析见图2。

图2 糯米的吸光度矩阵分布Fig.2 Matrix plot for the absorbance of glutinous rice

吸光度矩阵分布图显示了不同产地糯米在特征吸收波段内的吸光度分布,表明不同产地的糯米在特征吸收波段内存在一定差异,结合图1、2,分别选取3000~2800、1760~1700、1670~1150cm-1三个范围的数据进行PCA分析,结果表明3000~2800cm-1+1760~1700cm-1的效果较好,因此选用3000~2800cm-1+1760~1700cm-1区间的数据进行建模。

2.2 数据的预处理

利用漫反射红外光谱法采集到的原始数据不仅包括样品的信息,还包括各种噪音,如仪器高频噪音、基线漂移和样品粒度不均匀导致光散射等干扰。为了尽量消除干扰信息的影响,在分析之前都要对光谱数据进行预处理,主要方法有平滑、基线校正、标准矢量归一化(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correct,MSC)[15]和求导等手段。

本研究采用窗口移动平均法、窗口移动多项式最小二乘拟合法(Savitzky-Golay多项式法)、中位数法和高斯滤波器平滑法分别对光谱数据进行平滑处理,比较发现Savitzky-Golay多项式法的9点平滑效果最好;利用Baseline offset方法对光谱数据进行基线校正。

表1 不同数据处理方法PCA的模型间距Table 1 PCA model distance based on different spectral pre-treatments

经平滑和基线校正后的数据分别进行SNV、MSC、一阶求导和二阶求导处理,建立模型,以浙江省杭州市的糯米(ZH)为参照,得到如表1的模型间距。

从表1可看出,经过不同的处理后ZH与其他6个产地糯米的模型间距有较大差异,在SIMCA分析中不同类的模型间相对差值要大于3,两类模型才具备显著的差异性,具备良好的预测能力。表1中四种处理方法效果最好的是SNV法,不仅ZH与其他产地糯米的模型间距大于3,而且任意不同的模型间距都大于3,而其他3中处理方法的模型间距都存在小于3的情况,故本研究最终采用SNV方法处理数据。

2.3 主成分数的确定和回归模型的建立

不同产地糯米的光谱数据经特征波长选取和预处理后,利用NIPLAS算法和留一交互验证方法进行PCA分析[16],得到见图3,主成分数(PCs)与校正集均方根误差(root mean square error of calibration,RMSEC)和交互验证均方根误差(root mean square error of cross validation,RMSECV)之间的关系。

图3 PCA模型的均方根误差Fig.3 Root mean square error of PCA model

从图3可看出,当主成分数为3时均方根误差已经很低,且自PC3以后均方根误差值降低放缓,直至PC10,表明PC3以后的数据信息基本是误差,因此可得最佳主成分数为3;另外图中RMSECV与RMSEC差异很小,表明利用留一交互验证方法对PCA进行验证能得到稳定的模型。

图4 全部糯米的PCA模型得分图Fig.4 PCA model scores of all glutinous rice samples

不同产地糯米PC3的得分图见图4,可以明显看出不同产地糯米在三维空间中分别具有相对独立的分布空间,其中泰国顶上香糯米与其他6种糯米距离最远,这与泰国糯米的产地密切相关,而其他6种产自国内的糯米距离较近;国内糯米中湖北孝感市、武穴市和安徽蚌埠市、芜湖市分别处于同一省区,在得分图上分布在相同“象限”,而陕西汉中市由于地处西北部,相对其他5个省市较远,在图中主要分布于得分图的顶端,总的来说,不同产地糯米能良好区分,同时分布位置与地缘远近呈一定正相关性趋势。确定主成分后,对不同产地的7种糯米分别建立PCA模型,得到RMSEC和RMSECV见表2。

表2 PCA模型的RMSEC和RMSECVTable 2 RMSEC and RMSECV of PCA models

表2给出了建立不同产地糯米PCA模型的主成分数、RMSEC以及RMSECV。表4中所有糯米的PC3,均方根误差值都小于2.0×10-5,可以看作是误差,不计入主成分计算,同时每个主成分下的RMSECV比RMSEC的值略大,但差异都很小,充分说明PCA模型是优秀的模型,故选择PC3为不同产地糯米建立SIMCA模型。

2.4 未知样品的预测

表3 未知糯米样品的识别率和拒绝率Table 3 Recognition rates and rejection rates of unknown glutinous rice samples

利用建立的SIMCA模型预测未知样品,利用式2和式3计算得到α=0.05时的预测结果见表3。表中显示除SH糯米的识别率为80%外,其余6产地糯米的识别率都达到100%;除HW和ZH的拒绝率分别为83%和97%外,其余5个产地糯米的拒绝率均达到100%。效果良好。

3 结 论

本研究利用FT-IR对7种糯米进行了产地识别,借助特征波长的有效选择、Savitzky-Golay多项式平滑法、基线校正及SNV等方法对原始光谱进行了预处理,结合基于PCA分析的SIMCA模式识别方法对7种糯米分别建模,能有效识别所考察的糯米,仅SH一种糯米识别率为80%,HW、ZH两种糯米的拒绝率分别为83%和97%,其余的识别率和拒绝率均达到100%,充分表明FT-IR结合SIMCA法识别糯米产地是可行的。与仅凭人工感官识别方法或化学组成分析方法进行判断相比,本文提出的识别方法具有安全、稳定性好、准确率高、适用范围广和易实现自动化等优点,为快速识别糯米产地的方法研究提供了新的思路。

[1] 凌志勇. 重视原料研究和基地建设确保绍兴黄酒品质[J]. 酿酒科技, 2009(6): 107-108.

[2] 汪建国. 试论我国黄酒风味的成因与发展[J]. 中国酿造, 2008(22): 7-12.

[3] 李庆波, 杨丽敏, 凌晓峰, 等. SIMCA法在中红外癌症检测技术中的应用[J]. 光谱学与光谱分析, 2004, 24(4): 414-417.

[4] 陈玲, 黄嫣然, 李晓玺, 等. 红外光谱在研究改性淀粉结晶结构中的应用[J]. 中国农业科学, 2007, 40(12): 2821-2826.

[5] 李文秀, 徐可欣, 汪臙, 等. 蔬菜农药残留检测的红外光谱法研究[J].光谱学与光谱分析, 2004, 24(10): 1202-1204..

[6] 刘飞, 李挺, 刘刚. 不同储藏年份小麦和红豆的红外光谱研究[J]. 光散射学报, 2010, 22(2): 186-189.

[7] 刘沭华, 张学工, 周群, 等. 模式识别和红外光谱法相结合鉴定中药材产地[J]. 光谱学与光谱分析, 2005, 25(6): 878-881.

[8] 邬文锦, 王红武, 陈绍江, 等. 基于近红外光谱的商品玉米品种快速鉴别方法[J]. 光谱学与光谱分析, 2010, 30(5): 1248-1251.

[9] De LUCA M, TEROUZI W, IOELE G, et al. Derivative FTIR spectroscopy for cluster analysis and classification of morocco olive oils[J]. Food Chemistry, 2011, 124: 1113-1118.

[10] 苏谦, 邬文锦, 王红武, 等. 基于近红外光谱和仿生模式识别玉米品种快速鉴别方法[J]. 光谱学与光谱分析, 2009, 29(9): 2413-2416.

[11] 杜一平, 潘铁英, 张玉兰. 化学计量学应用[M]. 北京: 化学工业出版社, 2008.

[12] 刘树深, 易忠胜. 基础化学计量学[M]. 北京: 科学出版社, 1999.

[13] 邵学广, 蔡文生. 化学计量学[M]. 徐筱杰, 译. 北京: 科学出版社, 2003.

[14] 张宁, 张德权, 李淑荣, 等. 近红外光谱结合SIMCA法溯源羊肉产地的初步研究[J]. 农业工程学报, 2008, 24(12): 309-312.

[15] WOLD S. Data analysis for chemists, applications to QSAR and chemical product design david livingstone[J]. Chemometrics and Intelligent Laboratory Systems, 1997, 38(1): 101-102.

[16] DUDA R O. Pattern classifcation[M]. 2nd. NY USA: John Wiley and Sons, 2000.

Identification of Geographical Origin of Glutinous Rice by FT-IR Spectroscopy Combined with SIMCA Method

ZHANG Wen-hai1,2,JI Zhong-wei1,AISIKAER Ai-lati1,MAO Jian1,*

(1. School of Food Science and Technology, Jiangnan University, Wuxi 214122, China;
2. State Key Laboratory of Food Science and Technology, Jiangnan University, Wuxi 214122, China)

Fourier transform infrared spectroscopy (FT-IR) combined with soft independent modeling of class analogy (SIMCA) method was applied for tracing the geographical origin of glutinous rice. PCA (principal component analysis) models were built by the method of cross-validation based on such pre-treatments as nine-point Savitzky-Golay smoothing, baseline correction and Standard Normal Variate (SNV) normalization in the region of 3000-2800 cm-1and 1760-1700 cm-1. Identification of glutinous rice from seven origins was performed by identification rate and rejection rate. Under the significance level of α=0.05, the identification rates of predicted samples were 100% except for the glutinous rice (80%) from Hanzhong, Shaanxi province; the rejection rates were 100% except for glutinous rice from Wuxue, Hubei province (83%) and Hangzhou, Zhejiang province (97%). Thus, the combination of FT-IR and SIMCA is an effective and efficient strategy for identifying the geographic original of glutinous rice.

glutinous rice;FT-IR;SIMCA;geographical origin identification

TS207.3

A

1002-6630(2012)08-0225-04

2011-10-28

张文海(1987—),男,硕士研究生,研究方向为食品工程。E-mail:zwh860802@126.com

*通信作者:毛健(1970—),男,教授,博士,研究方向为食品生物技术。E-mali:biomao@263.com

猜你喜欢

光谱法糯米识别率
艾草与糯米的相遇——青团
冬食糯米滋养温补
白果仁糯米粥 有助于改善尿失禁
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
胃热失眠,喝点百合糯米茶
提升高速公路MTC二次抓拍车牌识别率方案研究
直读光谱法测定热作模具钢中硫的不确定度评定
红外光谱法研究TPU/SEBS的相容性
高速公路机电日常维护中车牌识别率分析系统的应用