基于傅里叶变换近红外光谱法鉴别五常大米
2018-04-20钱丽丽宋雪健张东杰鹿保鑫迟晓星赵海燕
钱丽丽,宋雪健,张东杰,*,左 锋,鹿保鑫,迟晓星,赵海燕
产地鉴别有利于实施名优特产品产地保护,保护地区名牌和特色产品。五常大米因其独特的地理气候使得大米品质好、口感佳,其销售价格在市场上有着绝对优势[1],致使五常大米掺假情况时有发生,严重损害了企业和消费者的利益,因此开发五常大米原产地保护技术尤为重要。稻谷中有机成分的含量及组成特征与其生长环境中的水、土壤或气候等相关。由于受生长环境差异的影响,不同产地来源的农产品中,其有机成分的含量和组成可能存在差异,因此可作为原产地鉴别指标之一。目前,矿物元素指纹分析技术[2-3]、电子鼻指纹图谱技术[4-5]、电子舌指纹图谱技术[6-7]、DNA指纹图谱技术[8-9]、模糊模式识别技术[10]、近红外光谱技术[11-13]和中红外光谱技术[14-15]被用于判别农产品的产地来源。
近红外光谱技术结合化学计量学手段应用于食品产地鉴别方面,欧盟研究的较多,我国在此方面的研究相对较少。张萍等[16]采用近红外光谱技术研究了食用油掺假问题,通过主成分分析成功区分了3 种食用油(芝麻油、大豆油、花生油)和掺杂了其他油脂的芝麻油;陈全胜等[17]采用近红外光谱结合模式识别方法,建立了4 类茶叶识别模型,识别率均在80%以上;Sinelli等[18]通过传统感官评价方法并结合傅里叶变换近红外光谱技术(Fourier transform near infrared spectroscopy,FTNIS)对112 组初榨橄榄油进行了产地溯源研究,发现采用线性判别分析和模式识别分类法对初榨橄榄油产地的判别正确率分别为71.6%、100%;在大米的近红外光谱技术研究中,更多学者集中在大米的品质检测方面[19-20],对于产地鉴别研究并不多见。夏立娅等[23]以响水和非响水大米为研究对象,利用近红外光谱法结合凝聚层次聚类和Fisher’s判别方法对响水大米进行产地鉴别,确定了特征波段为7 700~6 700 cm-1与5 700~4 300 cm-1。Davrieux等[24]采用近红外光谱方法对香米和非香米进行了指纹图谱分析和鉴别。以上研究可以看出,近红外光谱技术在不同农产品产地鉴别中已有相关研究。而采用FTNIS法结合化学计量学对大米中有机成分整体指纹进行分析研究鲜见报道。黄方田等[25]采用傅里叶变换红外光谱法对云南不同产地大米进行鉴别研究;傅里叶变换红外光谱法对粳米、糯米和籼米进行模式识别研究也具有可行性[26];国外学者采用傅里叶变换近红外漫反射光谱法,结合主成分分析-概率神经网络的手段,对枇杷产地进行识别,结果发现模型的正确识别率达97%,能有效地将2 个产地的枇杷区分开[27]。
本实验采用FTNIS法进行大米样品光谱的预处理,结合鉴别分析、聚类分析及定量分析建立五常大米产地判别模型,为五常地理标志大米产地保护研究提供一定的理论支撑。
1 材料与方法
1.1 材料
随机选取2015年黑龙江省五常地区地理标志五常大米70 份样品,非五常大米121 份从黑龙江省的水稻主产区(建三江、查哈阳、响水、方正等地区稻田)随机采集获得,共计191 份样本,每份样本采集2 kg并记录采样信息,所有大米样品均为当地主栽粳米,样品详细信息如表1所示。
表1 样品信息Table 1 Information about collected samples
1.2 仪器与设备
FC2K砻谷机 日本大竹制作所;VP-32实验碾米机日本山本公司;FW100高速万能粉碎机 天津泰斯特仪器有限公司;TENSORII型FTNIS仪 德国布鲁克(北京)科技有限公司。
1.3 方法
1.3.1 仪器参数
漫反射镀金积分球,InGaAs检测器,软件基础:近红外谱图采集及谱图处理基于OPUS7.5软件平台,分辨率:8 cm-1。扫描次数:64 次。环境温度为室温(25±1)℃,相对湿度为20%~30%。光谱波段范围:12 000~4 000 cm-1。
1.3.2 样品前处理及光谱的采集
将水稻进行晾晒、脱粒、挑选、砻谷和碾米、制粉等统一加工后,制成米粉,并过100 目筛,待测。每份水稻砻谷2 次。碾米时进样量设置为3,白度为3,碾米3 次。
将FTNIS预热30 min,打开OPUS7.5软件、检查信号、保存峰位,扫描背景单通道光谱每间隔1 h扫描一次背景,消除外界信息干扰保证光谱的稳定性以减少实验误差。将样品粉末倒入玻璃杯中,用压样器压实(保证样品厚度一致),测量样品单通道采集样品光谱。
1.3.3 材料选取
分别随机选择两类全部样品量的2/3作为训练集样品用于模型的建立,1/3作为验证集样品集用于模型的验证。详细信息见表2。
表2 训练集与预测集样品Table 2 Training and prediction sets
1.3.4 五常大米产地溯源模型的建立
1.3.4.1 定性分析溯源模型的建立
利用OPUS7.5软件内置定性分析方法(鉴别分析和聚类分析),进行定性分析模型的建立,采用矢量归一化、一阶导数+平滑、一阶导数+矢量归一化+平滑、二阶导数+平滑、二阶导数+矢量归一化+平滑方式对建模原始光谱进行预处理,其中平滑点数为5、9、13、17、21、25 点(下同),筛选出差异明显的波段,对光谱采用因子化法进行计算处理,最终建立定性分析模型。利用建立好的鉴别分析模型和聚类分析模型分别对预测集样品进行产地判别鉴定。
定性分析采用因子化法进行计算,因子化法光谱距离(D)按公式(1)进行计算:
式中:a为原始光谱;b为重建光谱;Tia为第i张原始光谱图的得分值;Tib为第i张重建光谱图的得分值。
需要将谱图先表示为所谓因子谱的线性组合,如公式(2)所示:
式中:a为原始光谱;f为各种因子谱;T为重建原始光谱a时每张因子谱的得分值,该值越大表明该因子谱对原始光谱的贡献越大。
对于鉴别分析需要通过比较选择性S值来最终确定最优预处理方式并建立鉴别分析模型,S值按照公式(3)进行计算。S值表征样品之间的距离,当S值小于1时,表示两类样品“相交”,样品未被分开;当S值为1时,表示两类样品“相切”;当S值大于1时,表示两类样品“相离”,样品被分开,故S值越大于1,模型的效果越好。
式中:D表示两类大米的平均光谱距离;DT1表示五常大米光谱模型半径;DT2表示非五常大米光谱模型半径。
对于聚类分析而言,两类光谱的距离越大证明其差异越大,分类效果越好。采用加权平均距离法进行计算,如公式(4)所示:
式中:p为五常大米,q为非五常大米,p与q被聚为一个新目标r,i为一个目标矢量值;np为五常大米的谱图数目,nq为非五常大米的谱图数目;D(r,i)为新目标(r)与目标(i)的距离,D(p,i)为p与i的光谱距离,D(q,i)为q与i的光谱距离。
1.3.4.2 定量分析溯源模型的建立及验证
利用OPUS7.5软件建立定量测定方法,利用0、1表示五常大米和非五常大米的组分值,以预测值在真实值±0.5之间表明样品产地判别正确率[28]。波段选择及预处理方式则是通过系统优化自动选择最优组合。同样光谱的预处理方式有消除常数偏移量、减去一条直线、矢量归一化、最小-最大归一化、多元散射矫正、内部标准、一阶导数+平滑、二阶导数+平滑、一阶导数+减去一条直线+平滑、一阶导数+矢量归一化+平滑、一阶导数+MSC+平滑,定量分析计算方法为偏最小二乘法(partial least squares,PLS),采用留1交叉检验的方式进行建模。利用建立好的定量分析模型对预测集样品进行产地判别鉴定。PLS法是用一个线性模型来描述独立变量Y与预测变量组X之间的关系,如公式(5)所示:
式中:b0为截距;b1~bp为回归系数;Y为大米样品所赋组分值的真值;X为大米样品组分值的预测值。
2 结果与分析
2.1 不同波段及预处理方法的选择对定性分析建模效果的影响
图1 大米样品近红外原始光谱图Fig. 1 Original near infrared spectra of rice samples
由图1可知,在I区即波段7 500~9 000 cm-1处为C—H的二级倍频伸缩振动,其中8 321 cm-1附近的吸收峰脂肪烃中甲基(—CH)基团引起的;在II区即5 500~7 500 cm-1处是C—H第二组合频区,在6 846cm-1附近的吸收峰是因—CH2二级振动所引起的,因与样品中氨基酸种类及含量有关,所以较I区信息稍强些;在III区即4 000~5 500 cm-1处是C—H第一组合频谱区,是表征蛋白质及淀粉物质中的N—H、C—H、O—H及C=O键振动的主要区间,其中5 173 cm-1处的吸收峰与其有关[29]。对光谱进行预处理可以消除在光谱采集过程中的无关信息,如电噪声、杂散光等,能较好地解决模型的传递问题,从而提高模型的准确性[30]。
原始光谱经过预处理后,在波数范围为5 000~5 500 cm-1、7 000~7 500 cm-1处差异明显,体现出波段特性,故选5 000~5 500 cm-1、7 000~7 500 cm-1、5 000~5 500 cm-1和7 000~7 500 cm-1波数区域进行建模分析,结果如表3所示。根据S值的大小来衡量模型的质量,结果发现,在波段为5 000~5 500 cm-1、预处理方式为二阶导数+5点平滑时,五常大米和非五常大米样品均被唯一鉴别,且S值为1.287,数值最大,在其他条件下虽然有被唯一鉴别的情况出现,但是S值相对较低,即两类样品“距离”较近,建立的模型容易出现误判的情况,鉴别率低。故在波段为5 000~5 500 cm-1,选取二阶导数+5点平滑建立鉴别分析模型。所得2D得分图如图2所示。
表3 不同波段下预处理方法对鉴别分析模型效果的影响Table 3 Effects of pretreatment methods at different bands on qualitative analysis model
图2 不同地区大米样品的因子化法2D得分散点图Fig. 2 2D score plot of factor analysis method for rice samples collected from different regions
根据水稻的自身属性,用数学方法按照相似性或者差异性指标来确定样品之间的亲疏关系,并进行聚类分析。由表4可知,在波段为5 000~5 500 cm-1,预处理方法为二阶导数+矢量归一化+5 点平滑对原始光谱进行处理后分类且两类大米之间的光谱距离为0.087。不同大米样品的聚类分析结果如图3所示。综合以上结果,故选二阶导数+矢量归一化+5 点平滑建立聚类分析模型。
表4 不同波段下预处理方式对聚类分析模型效果的影响Table 4 Effects of pretreatment methods at different bands on clustering analysis model
图3 不同地域大米样品的聚类分析结果Fig. 3 Cluster analysis of rice samples from different regions
2.2 定性分析模型的验证
利用OPUS7.5软件,调入建立鉴别分析方法即波段为5 000~5 500 cm-1,预处理方式为二阶导数+5点平滑,对预测集样品进行鉴别,结果表明,五常地域的大米鉴别正确率为100%,非五常地域的大米鉴别正确率为97.50%。
调入聚类分析方法即波段为5 000~5 500 cm-1,预处理方法为二阶导数+矢量归一化+5点平滑,对预测集样品进行聚类分析,结果表明,五常地域的大米判别正确率为100%,非五常地域的大米判别正确率为100%,见表5。
表5 定性分析模型对预测集大米样品的判定结果Table 5 Results of qualitative analysis for prediction set
2.3 不同波段及预处理方法的选择对定量分析建模效果的影响
采用PLS法依据样品光谱波段的差异对差异波段范围、预处理方式的选择及维数的确立,按交互验证均方根误差(root mean square error of cross validation,RMSECV)升序排列进行优化处理。R2为定向系数,数值越接近100%则表示预测含量值愈接近真值,对于交叉检验,RMSECV值可以作为模型质量的判据,数值越小越好。由图4和图5可知,经过筛选、排除异常点等处理后,筛选出最优组合波段为9 400.9~6 098 cm-1与5 450.6~4 249.8 cm-1组合,预处理方式为二阶导数+17 点平滑时,维数为9,R2为99.05%,RMSECV值为0.038 3,故选此建立定量分析模型。
图4 地区预测值与参考值相关图Fig. 4 Correlation between predicted value and reference value
图5 RMSECV与维数的关系图Fig. 5 Plot of RMSECV as a function of dimensionality
2.4 定量分析模型的验证结果
利用OPUS7.5软件,调入定量分析模型,波段为9 400.9~6 098 cm-1与5 450.6~4 249.8 cm-1组合,预处理方式为二阶导数+17 点平滑时,对预测样品进行定量分析。由表6可知,五常地区的大米判别正确率为95.83%,非五常地区的大米判别正确率为95.00%。
表6 定量分析模型对预测集大米样品的判定结果Table 6 Results of quantitative analysis for prediction set
3 结 论
选取五常地区大米和非五常地区大米共计191 份样品进行五常大米的产地鉴别研究,运用因子化法在波段为5 000~5 500 cm-1采用二阶导数+5 点平滑的预处理方式建立鉴别分析模型较好,其S值为1.287。并对预测样品进行鉴别分析,结果表明,五常地区大米的鉴别正确率为100%,非五常地区的大米鉴别正确率为97.50%。在波段为5 000~5 500cm-1,预处理方法为二阶导数+矢量归一化+5 点平滑建立聚类分析模型较好,其加权平均光谱距离为0.087,并对预测样品进行聚类分析,结果表明,五常地区的大米判别正确率为100%,非五常地区的大米判别正确率为100%,同时利用特征波段进行聚类分析的精确度高于全波段的聚类分析,与夏立娅等[13]研究结果相类似。利用PLS法在波段为9 400.9~6 098 cm-1与5 450.6~4 249.8 cm-1组合,预处理方式为二阶导数+17 点平滑建立的定量分析模型较好,其R2为99.05%,RMSECV值为0.038 3,并对预测样品进行判别分析,结果表明,五常地区的大米判别正确率为95.83%,非五常地区的大米判别正确率为95.00%。综上可知,FTNIS法结合因子化法和PLS法所建立的定性分析模型和定量分析模型可以用于五常大米的快速鉴别,定性判别分析方法预测效果要优于定量判别分析方法。
参考文献:
[1] 许庆武. 地方特色大米产业创新发展研究[D]. 武汉: 武汉理工大学,2012.
[2] 张玥, 王朝辉, 张亚婷, 等. 基于主成分分析和判别分析的大米产地溯源[J]. 中国粮油学报, 2016, 31(4): 1-5. DOI:10.3969/j.issn.1003-0174.2016.04.001.
[3] 赵海燕, 郭波莉, 张波, 等. 小麦产地矿物元素指纹溯源技术研究[J]. 中国农业科学, 2010, 43(18): 3817-3823. DOI:10.3864/j.issn.0578-1752.2010.18.016.
[4] 张红梅, 王俊. 电子鼻传感器阵列优化及其在小麦储藏年限检测中的应用[J]. 农业工程学报, 2006, 22(12): 164-167. DOI:10.3321/j.issn:1002-6819.2006.12.034.
[5] 钱丽丽, 吕海峰, 鹿保鑫, 等. 地理标志大米的仿生电子鼻分类识别[J]. 中国粮油学报, 2016, 31(8): 131-137. DOI:10.3969/j.issn.1003-0174.2016.08.024.
[6] ERNEST T. 傅里叶近红外光谱技术和电子舌技术结合模式识别方法的可可豆定性定量分析[D]. 镇江: 江苏大学, 2014.
[7] 许芳, 陈轩. 电子舌技术对不同产地红茶的滋味识别[J]. 湖北农业科学, 2016(9): 2373-2376. DOI:10.14088/j.cnki.issn0439-8114.2016.09.057.
[8] 冯雪, 柳艳霞, 贺泽英, 等. 稻米代谢组学分析方法的建立及在产地溯源中的应用[J]. 分析测试学报, 2016, 35(5): 514-519.DOI:10.3969/j.issn.1004-4957.2016.05.003.
[9] 吴婷, 魏珊, 米丽华, 等. 不同产地连翘的DNA指纹图谱构建与聚类分析[J]. 中草药, 2016, 47(5): 816-820. DOI:10.7501/j.issn.0253-2670.2016.05.022.
[10] 宋明娟, 朱思宇, 杨丽, 等. 大米产地的模糊模式识别[J]. 模糊系统与数学, 2015, 29(4): 186-190. DOI:1001-7402(2015)04-0186-05.
[11] 程权, 杨方, 王丹红, 等. 近红外光谱技术对闽南乌龙茶品种的识别研究[J]. 光谱学与光谱分析, 2014(3): 656-659. DOI:10.3964/j.is sn.1000-0593(2014)03-0656-04.
[12] 杨海龙, 臧恒昌, 胡甜, 等. 近红外漫反射光谱法对不同产地山楂的定性鉴别和定量分析[J]. 药物分析杂志, 2014, 34(3): 396-401.DOI:0254-1793(2014)03-0396-06.
[13] 傅霞萍, 应义斌. 基于NIR和Raman光谱的果蔬质量检测研究进展与展望[J]. 农业机械学报, 2013, 44(8): 148-164. DOI:10.6041/j.issn.1000-1298.2013.08.026.
[14] 胡燕, 齐桂年. 我国不同产地黑茶的FTIR指纹图谱分析[J]. 核农学报, 2014(4): 684-691. DOI:10.11869/j.issn.100-8551.2014.04.0684.
[15] 刘明地, 李仲, 吴启勋, 等. 青海枸杞的红外光谱鉴别及相似度分析[J]. 计算机与应用化学, 2014, 31(12): 1553-1556. DOI:10.11719/com.app.chem20141231.
[16] 张萍, 闫继红, 朱志华, 等. 近红外光谱技术在食品品质鉴别中的应用研究[J]. 现代科学仪器, 2006(1): 60-62. DOI:10.3969/j.issn.1003-8892.2006.01.020.
[17] 陈全胜, 赵杰文, 张海东, 等. SIMCA模式识别方法在近红外光谱识别茶叶中的应用[J]. 食品科学, 2006, 27(4): 186-189. DOI:10.3321/j.issn:1002-6630.2006.04.044.
[18] SINELLI N. Application of near (NIR) infrared and mid (MIR)infrared spectroscopy as a rapid tool to classify extra virgin olive oil on the basis of fruity attribute intensity[J]. Food Research International,2010, 43(1): 369-375. DOI:10.1016/j.foodres.2009.10.008.
[19] 刘建学, 吴守一, 方如明. 近红外光谱法快速检测大米蛋白质含量[J]. 农业机械学报, 2001, 32(3): 68-70. DOI:10.3969/j.issn.1000-1298.2001.03.020.
[20] 刘建学, 吴守一, 方如明. 基于近红外光谱的神经网络预测大米直链淀粉含量[J]. 农业机械学报, 2001, 32(2): 55-57. DOI:10.3969/j.issn.1000-1298.2001.02.017.
[21] 张巧杰, 张军. 基于小波变换的大米直链淀粉波长选择方法[J]. 农业机械学报, 2010, 41(2): 138-142. DOI:10.3969/j.issn.1000-1298.2010.02.028.
[22] 陈坤杰, 夏建春. 光谱分析检测大米加工精度等级[J]. 农业机械学报, 2008, 39(1): 187-190.
[23] 夏立娅, 申世刚, 刘峥颢, 等. 基于近红外光谱和模式识别技术鉴别大米产地的研究[J]. 光谱学与光谱分析, 2013, 33(1): 102-105.DOI:10.3964/j.issn.1000-0593(2013)01-0102-04.
[24] DAVRIEUX F, OUADRHIRI Y, PONS B, et al. Discrimination between aromatic and non-aromatic rice by near infrared spectroscopy:a preliminary study[C]//Proceedings of the 12th International Conference, Auckland, New zeal, 2007.
[25] 黄方田, 欧全宏, 刘刚, 等. 云南不同产地大米的傅里叶变换红外光谱研究[J]. 光谱学与光谱分析, 2016, 36(10): 48-49. DOI:1000-0593(2016)10-0048-02.
[26] 黄桂东, 毛健, 姬中伟, 等. 黄酒酿造用大米品种的模式识别研究[J].食品科学, 2013, 34(16): 284-288. DOI:10.7506/spkx1002-6630-201316058.
[27] FU X, YING Y, ZHOU Y, et al. Application of probabilistic neural networks in qualitative analysis of near infrared spectra: determination of producing area and variety of loquats[J]. Analytica Chimical Acta,2007, 598(1): 27-33. DOI:10.1016/j.aca.2007.07.032.
[28] 钱丽丽, 冷候喜, 宋雪健, 等. 基于PLS-DA判别法对黑龙江大米产地溯源的研究[J]. 食品工业, 2017(1): 171-174.
[29] 杰尔·沃克曼, 洛伊斯·文依. 近红外光谱解析实用指南[M]. 褚小立, 许育鹏, 田高友, 译. 北京: 化学工业出版社, 2009: 119-120.
[30] 胡昌勤. 近红外光谱法快速分析药品[M]. 北京: 化学工业出版社, 2010.