光谱测定南疆鲜冬枣Vc含量方法的研究
2016-01-27石鲁珍张景川白铁成
石鲁珍 张景川 蒋 霞 陈 杰 白铁成
(1 塔里木大学信息工程学院, 新疆 阿拉尔 843300)(2 塔里木盆地生物资源保护利用重点实验室, 新疆 阿拉尔 843300)(3 塔里木大学机械电气化工程学院, 新疆 阿拉尔 843300)
光谱测定南疆鲜冬枣Vc含量方法的研究
石鲁珍1,2张景川3蒋 霞1陈 杰1白铁成1
(1 塔里木大学信息工程学院, 新疆 阿拉尔 843300)(2 塔里木盆地生物资源保护利用重点实验室, 新疆 阿拉尔 843300)(3 塔里木大学机械电气化工程学院, 新疆 阿拉尔 843300)
摘要本研究尝试利用近红外光谱技术测量冬枣的Vc含量,用连续投影算法(SPA)在校正模型中选择有效的近红外光谱波长变量,然后用筛选出的变量建立偏最小二乘(PLS)模型。该模型的预测标准偏差(RMSEP)为0. 249 3,预测相关系数(RP)为0. 919 7,并将SPA筛选的变量建立的PLS模型与全光谱建立PLS模型结果进行比较。结果表明,SPA优选出全光谱1 557个变量中的24个变量,建立的PLS模型预测效果要好于全光谱建立的PLS模型,SPA能够有效地选取待测成分的特征波长,在冬枣Vc无损检测方面提供理论基础。
关键词近红外光谱; PLS; SPA; Vc
Testing Research on Fresh Jujube Vc in South Xinjiang by NIRS
冬枣又名冻枣、苹果枣,以其成熟晚而得名。冬枣皮薄质脆,酸甜适口,且富含多种氨基酸和维生素,其中Vc含量达 300~500 mg/100g,被誉为“活的维生素丸”[1],已被列入保健食品行列[2,3,4]。随着人们对冬枣营养价值及保健功效的认识,加之其独特的风味,冬枣深受消费者青睐,已成为水果中的精品,发展前景巨大,市场空间广阔。
传统红枣维生素C含量的检测是用化学方法。化学方法既要破坏红枣结构的完整性,又要使用有毒的化学药品,费时、费工,而且不能实时跟踪红枣维生素C含量的变化。近红外(NIR)光谱是一个快速无损的技术,可以实时检测物质成分含量,在某种程度上优于一些耗时的化学分析。近红外光谱的结构信息和组成信息都十分丰富,非常适用于含氢有机化合物(如农产品)的物化参数测量。如红枣的糖度和水分[5,6]、苹果的糖度[7]、脐橙的糖度[8]等。偏最小二乘法( partial least square, PLS )可有效地从复杂信息中提取相关信息,并建立可靠的模型, 如果选择具有较好代表性的校正集,可以提高预测模型的预测能力。目前,较常用的选择校正样本的方法有Kennard Stone(KS)[9]和sample set partitioning based on joint x-y distances(SPXY)[10]等方法。
在利用NIR结合偏最小二乘法(PLS)建模过程中,发现虽然PLS方法的抗干扰能力较强,并可在全光谱范围建立校正模型,但是随着对PLS研究的深入,发现用经过筛选的特征变量或者特征谱区建立的定量校正模型[11]有可能更好。连续投影算法(SPA)[12]是在数据矩阵中寻找一个变量组,该变量组含有的冗余信息最低,并使该变量组中变量之间的共线性达到最小。连续投影算法只用少数几列的原始数据信息就可以总结出绝大部分样本的光谱信息,有力地减少了重叠信息。SPA除了可以用来选择光谱变量,而且还可以用来确定主成分分析所得的最佳主成分数[13]。本文利用SPXY来划分冬枣校正集样本,应用连续投影算法(SPA)优化冬枣Vc的近红外光谱无损检测模型,并优选出冬枣Vc近红外特征波长。
1材料与方法
1.1试验材料与仪器
试验所用冬枣于2014年10月采集于新疆阿拉尔市,挑选出没有霉烂、破损的完好冬枣150颗,去除表面灰尘并做好标记,放入冷库冷藏保鲜。
1.2光谱采集仪器及方法
红枣近红外光谱采集的光谱仪是美国生产的Antaris Ⅱ FT-NIR型。该光谱仪无需另外提供采样背景,以仪器内部空气为背景,测量波长范围4 000~10 000 cm-1,1 557点的采样点数,设定每张光谱扫描32次,设定8 cm-1的分辨率,仪器使用的检测器为InGaAs。采集光谱条件:采集光谱前,先将红枣放入温度在19℃-23℃间,相对湿度在20%-25%之间的室内4h;测样方式:开机预热30分钟后,用近红外光谱仪对红枣的可区别3个部位分别扫描32次,取3次采集光谱的平均值。
1.3光谱数据处理
图1a为冬枣样品的原始近红外光谱。该光谱图反映了维生素C含量在近红外区各个波数上的吸收强度。原始光谱是通过近红外光谱仪来获取的,它包含背景信息和除样品外的噪声信息。为了获得可靠、精确和稳定的模型,对模型校正集光谱进行预处理是很有必要的。目前光谱预处理方法很多,例如均值中心化,标准化,平滑,求导,标准正态变量变换(SNV),多元散射校正(MSC),傅立叶变化和其他一些新的方法。本研究试图比较3种经典的光谱预处理方法,分别是均值中心化, MSC和导数。均值中心化是用来增强样品光谱之间的差异,从而提高模型的稳健性和预测能力。MSC主要是消除因颗粒分布不均匀及颗粒大小造成的散射,基线和其他背景干扰可通过导数光谱有效地消除,分辨出重叠峰,从而提高分辨率和灵敏度。
通过比较3种光谱预处理,MSC预处理方法好于其他的方法。因此本研究采用MSC预处理方法。图1b为光谱经过MSC处理。由经过MSC处理提取的反射光谱建立维生素C含量预测模型,在预测模型标准偏差和相关系数方面都优于其它方法。
(a) (b)
1.4冬枣Vc标准测定方法
冬枣的Vc标准测量方法采用2,4-二硝基苯肼法,按国标(GB/T 5009.86-2003)执行。
1.5软件
所有的算法应用在Matlab 2009b (Mathworks,USA)上。Result软件(Antaris II,赛默飞世尔科技,美国)用于近红外光谱数据采集。
2结果与分析
2.1校正模型
校正集样品的分布特点会直接影响校正模型的校正结果,采样样品密集的地方可能出现过拟合,而采样样品较少的地方则会拟合不足。这里用 SPXY(sample set partitioning based on joint x-y distances)[10]法对样品进行选择。SPXY是用来选择校正样本的方法,是有Galvao等人在KS方法[9]的基础上提出的。SPXY法将光谱变量和浓度变量同时加入样品间距离计算公式,其距离按公式(1)计算:
(1)
式中,dx(i,j)是以光谱为特征参数计算的样本之间的距离;dy(i,j)是以浓度为特征参数计算的样本之间的距离。为使样本在光谱空间和浓度空间具有相同的权重,分别除以它们各自的最大值进行标准化处理。
表1 校正集和验证集样品Vc参考测量值
利用SPXY法划分100个红枣样本作为校正集和50个样本作为验证集。通过校正集参数建立冬枣Vc近红外光谱模型,通过验证集参数验证所建模型的准确性和可靠性。校正集和验证集的参数统计结果表1所示,从表1中可以看出校正集样品浓度范围大于验证集样品浓度范围,说明校正集样品划分是合理的。
在校正模型中,采用留一交互验证法来建立校正模型。留一交互验证法是这样的:在样本集的n个样品中,(n-1)个样品用来建立校正模型,剩余的一个样品与校正模型的预测值进行比对。样品集中的每个样品都会与校正模型的预测值进行比对一次。交互验证均方根误差(RMSECV)是按照公式(2)计算的:
(2)
yi,actual为第i样品参考方法的测量值,yi,predicted为留i样品所建校正模型的预测值,n为校正集的总样品数。最优模型是选择通过全谱最低的RMSECV。
最后,最优的模型是通过独立的样品验证集验证的。预测均方根误差(RMSEP)和相关系数r在预测集中通过公式(2)和(3)计算的。
(3)
yi,actual,为第i样品参考方法的测量值,yi,predicted为预测模型对验证集第i样品的光谱预测值,m为验证集的总样品数。
(4)
2.2近红外变量区间筛选
在采用近红外光谱技术预测冬枣的Vc研究中,冬枣的近红外光谱中可能有一个或若干个与Vc信息相关的区间,通过区间筛选法,可简化建模过程,提高预测模型的预测精度。
连续投影算法(successive projections algorithm,SPA)[14]是前向循环选择算法,它从某个波长开始,每次循环都计算它在未选入波长上的投影,并将投影向量最大的波长收入到波长组合中。每一个新收入的波长,都具有与前一个线性关系最小的特点。
校正集的光谱矩阵X(n×m)给出需要选择的波长数h,SPA算法如下:
Step 1: 在光谱矩阵中任选一列向量xj,作为第一次迭代(p=1)的初始向量,记为;xk(0)=j,{j∈1,…,m}
Step 2:把光谱矩阵中没有入选的其余列向量位置的集合记为s,s={j,1≤j≤m,j{k(0),…,k(p-1)}};
Step 3:分别计算剩余列向量xj(j∈s)与当前所选向量xk(p-1)的投影:
Step 4:提取最大投影值的波长点变量序号:k(p)=arg[max(‖Pxj‖)],j∈s;
Step 5:令xj=Pxj,j∈s;
Step 6: p=p+1,如果p 最后选用的波长变量为{k(p),p=0,…,h-1}。 对每一初始k(0)进行一次循环计算,再进行偏最小二乘法(PLS)交互验证分析,选择出最小RMSECV所对应的k(p)。 通过连续投影算法进行光谱变量选择,相应于冬枣Vc的校正模型,以50作为提取光谱特征波长的最大值,分别选取1~50个特征光谱波长与冬枣Vc的标准测量方法获取的结果(Vc含量)建立PLS模型,以PLS模型中的最低交互验证均方根误差(RMSECV)作为最优模型,图2(a)为冬枣近红外光谱中选用不同变量数的最低RMSECV值,方框为最终选用建立模型的变量数。当采用24个变量时,可得到最低的RMSECV值0. 220 97,对应的PLS模型为最佳模型。图2(b)为所选择的相应变量波数分别为8 388. 83cm-1, 4 003. 497 cm-1,5 781. 543 cm-1,6 961. 765 cm-1,4 844. 308 cm-1,8 496. 824 cm-1,4 153. 917 cm-1,5 337. 996 cm-1,9 812. 038 cm-1,5 299. 426 cm-1,8 427. 399 cm-1,7 779. 435 cm-1,8 701. 241 cm-1,4 713. 172 cm-1,7 899 cm-1,8 651. 102 cm-1,8 180. 556 cm-1,6 869. 198 cm-1,8 550. 821 cm-1,8 300. 12 cm-1,4 952. 302 cm-1,4 747. 885 cm-1,4 674. 603 cm-1,4 547. 324 cm-1。 (a)选用不同变量PLS模型的RMSECV值 (b)参加建模的近红外光谱波长 2.3结果验证与分析 将SPA所选择的变量建立偏最小二乘(PLS)模型,图3是PLS模型验证集中NIR的预测值与实际测量值之间的相关性散点图,数字代表验证集样品序号。 采用SPA筛选的变量与全光谱建立PLS模型结果比较如表2所示。通过SPA筛选的变量建立的PLS模型与全光谱变量建立的PLS模型相比较,前者的预测相关系数rp大,预测标准偏差RMESP=0. 249 3,小于全光谱变量PLS模型的预测相关系数。说明通过SPA选取的较少波长变量建立的模型,其预测精度比全光谱变量建立的PLS模型的预测精度要高,且SPA所筛选出的波长能够正确反映待测组分(Vc)信息,优选出的波长间的共线性影响不影响预测,可以不予考虑。再者,用SPA筛选的变量建立预测模型的时间比用全光谱变量建立预测模型的时间要短得多。 图3 SPA选择的变量PLS模型验证集中冬枣Vc参考值与NIR预测值对比图 方法波数/cm-1变量数最佳主成分rcRMSECVrpRMSEP全光谱4000~100001557130.92480.26570.90890.2641SPA8388.83,4003.497,5781.543,6961.765,4844.308,8496.824,4153.917,5337.996,9812.038,5299.426,8427.399,7779.435,8701.241,4713.172,7899,8651.102,8180.556,6869.198,8550.821,8300.12,4952.302,4747.885,4674.603,4547.3242490.93340.220970.91970.2493 3结论 本文利用NIR法测定冬枣的Vc含量,利用SPXY方法划分校正集,实验结果表明SPXY法可以很好地选择有代表性的校正样本;利用连续投影(SPA)进行波长变量选择,最终从1 557个变量中选择出24个变量,光谱变量之间的共线性影响降到最低,大大简化了模型的复杂度,可以有效地优选出特征光谱变量缩短校正时间,并且提高了冬枣Vc近红外模型预测精度,是一种有效的光谱变量选择方法,近红外光谱技术可以对新疆冬枣Vc进行无损检测。 参考文献 [1]于洪长,高新一.珍稀果品—沾化冬枣[J].植物杂志,1998(3):8-9. [2]刘孟军,彭建营,刘新云,等.鲜枣贮藏及酒制过程中营养成分的变化[J].河北农业大学学报,1996,19(1):36-39. [3]刘孟军,王永蕙.枣和酸14种园艺植物 cAMp 含量的研究[J].河北农业大学学报,1991,14(4):20-23. [4]Chyul J C,Kiyomichi H.Cyclic adenosine monophosphate in fruits of Ziziphus jujuba[J]. Phytochemistry,1980(19):24-47. [5]彭云发,彭海根,詹映,等.近红外光谱对南疆红枣水分无损检测的研究[J].食品科技,2013(11):260-263. [6]詹映,彭云发,彭海根,等.近红外光谱在南疆红枣糖度无损检测中的应用[J].农机化研究,2014(06):179-183. [7]Jhs S N,Garg R.Non-destructive prediction of quality of intact apple using near infrared spectroscopy[J].Journal of Food Science and Technology,2010,47(2):207-213. [8]Yande L,Xudong S,Jianmin Z, Linear and nonlinear multivariate regressions for determinationsugar content of intact Gannan navel orange by Vis-NIR diffusereflectance spectroscopy[J]. Mathematical and Computer Modelling 2010, 51:1438-1443. [9]Kennard R W,Stone L A.Computer aided design of experiments[J].Technometrics,1969,11:137-148. [10]Galváo RKH, Araújo MCU, José GE, et al. A method for calibration and validation subset partitioning[J]. Talanta ,2005,67(4):736-740. [11]褚小立,袁洪福,陆婉珍.近红外分析中光谱预处理及波长选择方法进展与应用[J].化学进展,2004,16(4):528-542. [12]Arau jo M C U, Saldanha T C B, Galva o R K H, et al. The successive projections algorithm for variable selection in spectroscopic multicomponent analysis [J]. Chemometrics and intelligent laboratory systems, 2001, 57: 65-73. [13]吴迪,金春华,何勇.基于连续投影算法的光谱主成分组合优化方法研究[J].光谱学与光谱分析,2009,29(10):2734-2737. [14]付坦. 冬枣冰温保鲜技术的研究[D].天津商业大学,2013 Shi Luzhen1,2Zhang Jingchuan3Jiang Xia1Chen Jie1Bei Tiecheng1 (1 College of Information Engineering, Tarim University, Alar, Xinjiang 843300) (2 Xinjiang Production& Construction Corps Key Laboratory of Protection and Utilization of Biological Resources in Tarim Basin, Alar, Xinjiang 843300) (3 College of Mechanic and Electrical Engineering, Tarim University, Alar, Xinjiang 843300) AbstractThe study attempts to detect fresh jujube Vc content by NIRS, Choose effective NIR wavelength variable in adjusted model by continuous projection algorithm (SPA), then establish partial least squares(PLS) model based on selected variables. The standard deviation of the predicted value(RMSEP) was 0. 249 3, the correlation coefficient (RP) of the predicted value was 0. 919 7, comparative the model based on the variables SPA screening with the model basted on the full spectrum. The results show, 24 variables were preferred from 1 557 full spectrum variables on SPA screening, the predicted value of PLS model established with the 24 variables is better than the predicted value of PLS model established with full-spectrum, the characteristic wavelength can be elected effectively by SPA, this provide a theoretical basis for non-destructive testing in Winter jujube Vc. Key wordsNIRS; least squares(PLS); continuous projection algorithm (SPA); Vc 中图分类号:TP391.41 文献标识码:ADOI:10.3969/j.issn.1009-0568.2015.04.015 文章编号:1009-0568(2015)04-0093-06 作者简介:石鲁珍(1972-),女,讲师,硕士,研究方向:微波技术与光谱应用研究。E-mail:shiluzhen08@yeah.net 基金项目:塔里木大学校长基金硕士项目(TDZKSS201413)。 收稿日期:2015-04-06