红松籽中脂肪的近红外光谱快速检测研究
2019-08-10仇逊超张麟
仇逊超 张麟
摘要:采用近红外光谱分析方法对红松籽脂肪进行定量分析,建立红松籽脂肪的快速检测方法,利用多种预处理方法优化模型,同时采用间隔偏最小二乘法、反向间隔偏最小二乘法、无信息变量消除法实现特征波段的选取。结果表明,红松籽样本光谱经矢量归一化预处理后建立的模型最佳;波段优选能够提高模型质量,其中反向间隔偏最小二乘法的筛选结果最优,其红松籽脂肪模型校正集相关系数为0.889 2,验证集均方根误差为0.765 1。由此可知,经过优化后,模型的预测性能较好,实现了红松籽脂肪快速、无损检测。
关键词:近红外光谱;红松籽;脂肪;预处理方法;波段筛选;数学模型;定量无损检测
中图分类号: TS255.6 文献标志码: A 文章编号:1002-1302(2019)03-0159-05
近红外光谱分析方法是通过分析有机化学物质在近红外光谱区的光学响应特征,以实现对物质定量或定性快速测定的现代光谱技术,由于其穿透性强,因此可以完成对带壳物质内部品质的定量、定性测定[1-2];经过对待测样本的近红外光谱数据的一次获取,在短短的几分钟内就能够实现多项性能指标的检测;在光谱测量的过程中无需对待测样本进行任何预处理,是无损、无消耗的绿色分析方法。近红外光谱分析方法在农副产品的脂肪测定中已得到了广泛良好的应用[3-5],其中在带壳坚果方面,贾昌路等利用近红外技术对带壳的5个南疆核桃品种的光谱数据进行了获取,比较了不同品种的光谱差异,并根据吸光度的差异成功地对核桃的品质和品种进行了鉴别[6]。刘洁等分别构建了带壳板栗水分、蛋白质定量分析的近红外数学模型,研究结果表明其水分、蛋白质模型验证集均方根误差分别为2.27%、0.38[7-8]。笔者的前期研究也证实了采用近红外光谱分析方法可以实现对带壳红松籽内部蛋白质[9]和水分[10]的定量检测。但是还未见运用近红外光谱技术对带壳红松籽中的脂肪进行测定分析的相关研究。
红松籽中的脂肪含量较高,其中大部分为亚油酸和不饱和脂肪酸,亚油酸在经过人体的消化吸收后可以转化为二十碳五烯酸(eicosapentaenoic acid,简称EPA)和二十二碳六烯酸(docosahexaenoic acid,简称DHA),能够促进脑部和视网膜的发育,对视力退化以及老年痴呆等疾病有一定的预防作用,而不饱和脂肪酸对降低血脂、血压和预防心血管疾病有一定的功效,此外,红松籽中的脂肪还可以润滑大肠,有通便的作用,其缓泻而不伤身,非常适合体弱、年老、孕妇等人群服用[11]。脂肪含量还对红松籽的贮藏品质有一定的影响,油脂酸败会缩短红松籽的贮藏寿命。传统的红松籽脂肪提取方法是基于索氏提取法的破坏性化学分析方法,该方法步骤繁琐、检测时间较长,并且须要使用大量的挥发性溶剂,对测试人员的健康会产生危害并易污染环境。
本研究利用便携式近红外光谱仪,在900~1 700 nm波长范围内测定带壳红松籽中的脂肪。通过偏最小二乘法(partial least squares,简称PLS)建立带壳红松籽中的脂肪定量分析模型,并分别比较矢量归一化(vector normalization,简称VN)、一阶导数(first derivative,简称1-Der)、二阶导数(second derivative,简称2-Der)、多元散射校正(multiplication scatter correction,简称MSC)、变量标准化校正(standard normalized variate,简称SNV)等多种预处理方法对红松籽脂肪建模精度的影响,在此基础上分别利用间隔偏最小二乘法(interval partial least squares,简称iPLS)、反向间隔偏最小二乘法(backward interval partial least squares,简称BiPLS)、无信息变量消除法(uninformative variable elimination,简称UVE),实现对光谱特征波段的选取,经过对比分析确定相对较好的预处理方法、相对较优的波段选取方法及适合建模的波段范围,从而构建出质量较好的带壳红松籽脂肪近红外数学模型,以期实现带壳红松籽中脂肪的快速、准确定量无损检测。
1 材料与方法
1.1 试验材料
生的红松籽样本由位于黑龙江省伊春市的凉水国家级自然保护区提供,试验前对红松籽样本进行清洗、擦拭,并依照红松籽的相关储藏要求,将全部样本贮存于温度为-1~2 ℃、相对湿度为50%~60%的条件下。为了满足近红外光谱扫描的要求,获取红松籽样本光谱信息前,先提前24 h将样本放置于实验室中,以保证其温度和湿度与实验室的条件相一致。选取5 168粒红松籽样本,从中挑选出134份样本用于后续的检测研究,并按照3 ∶ 1的比例对样本进行校正集与验证集的划分。须要说明的是,校正集样本用以实现模型的构建;验证集样本用以实现对模型的校验。
1.2 试验仪器
光谱仪器为德国INSION公司的NIR-NT-spectrometer-OEM-system(图1),适用光谱波长范围为 900~1 700 nm,入口光纤为300/330 μm,探测器阵列是InGaAs阵列,光谱分辨率小于16 nm,体积为67 mm×36 mm×22 mm,该光谱仪器尺寸小、无可移动器件、操作简单、便携、价格低廉、在复杂环境下也可良好工作,且不受剧烈振动的影响。光源为卤素光源,其工作电压为24 V。通过Y型光纤实现光谱仪与卤素灯光源的连接,光纤的另一端连接探头,光谱仪与个人计算机(personal computer,简称PC)之间利用通用串行总线(universal serial bus,简称USB)实现连接。
1.3 试验方法
1.3.1 红松籽光谱数据的获取方法 获取带壳红松籽样本近红外光谱信息的过程中,实验室温度须维持在26 ℃左右,扫描工作开始前,先打开卤素灯光源与近红外光谱仪进行 15 min 的預热,使之稳定;扫描标准镀金漫反射背景体作为稍后试验的背景参比;采用漫反射方式进行扫描,设置平均扫描次数为3次,光谱仪积分时间为30 ms;在获取光谱信息的过程中,将红松籽样本至于探头正上方,以确保光源对样本的垂直照射,红松籽样本通过重新摆放连续扫描4次,以完成对样本的共计12次扫描,获取红松籽样本光谱信息的检测示意图如图2所示,试验过程中,探头与红松籽的距离保持在 3 mm 左右。
1.3.2 红松籽脂肪的化学测定方法 红松籽样本中脂肪的化学测定利用食品安全国家标准GB/T 5009.6—2003《食品中脂肪的测定》中的第一法——索氏抽提法实现。
1.3.3 光谱预处理 采用矢量归一化、一阶导数、二阶导数、多元散射校正、变量标准化校正等预处理方法对原始带壳红松籽样本的光谱信息进行处理,以去除噪声信息、附加散射变化、光程变动等对原始光谱信息的影响。利用偏最小二乘回归建立多个带壳红松籽中脂肪的近红外数学模型,通过比较各模型校正集相关系数(correlation coefficient of calibration,简称RC)、验证集相关系数(correlation coefficient of predication,简称RP)、校正集均方根误差(root mean square error of calibration,简称RMSEC)、验证集均方根误差(root mean square error of predication,简称RMSEP)等评价参数,从而确定光谱预处理的最佳方法。最优参数的评价标准是均方根误差越小,越接近于0越好,相关系数越大,越接近于1越好[12]。
1.3.4 光谱特征波段选取 全波段光谱所含信息量大,存在较多的冗余数据,容易造成较长的处理时间、建模运算量大,对产品的在线快速分析不利,并且某些波段的信噪比较低,对模型建立产生干扰与影响[13-14]。分别利用间隔偏最小二乘法[15]、反向间隔偏最小二乘法[16]、无信息变量消除法[17]对经过最佳预处理的光谱建模,进行光谱波段的选取,以期降低数据冗余度,加快处理速度,提高模型精度。
2 结果与分析
2.1 校正集与验证集的划分
利用基于样本欧式距离的Kennard-Stone(K-S)算法[18]完成校正集与验证集的划分,划分结果如表1所示,其中,总体红松籽样本的脂肪分布在60%~71%之间,范围较广,表征的红松籽中的脂肪信息较全面,可以较理想地作为构建红松籽中脂肪近红外模型的样本;验证集红松籽样本的脂肪分布在60.40%~68.14%之间,其分布范围小于校正集红松籽样本的脂肪分布范围(60.04%~70.93%),表明校正集红松籽样本所建立的脂肪近红外模型能较好地适用于验证集红松籽样本。
2.2 红松籽近红外光谱数据分析
图3为带壳红松籽样本原始近红外光谱信息,采样间隔是6.83 nm,波长范围是906.9~1 699.18 nm。由图3可知,由于受到近红外光谱区自身吸收强度弱、灵敏度低等的影响,使得原始近红外光谱呈现出了较为复杂的重叠信息,但是从整体的光谱曲线来看其重复性较好,形态具有相似性和一定的规律性。脂肪是由脂肪酸与甘油构成的三酰甘油酯,构成元素为C、H、O,其结构长链中的主要基团为烃基。图3中950 nm附近的微弱波峰是C—H键伸缩振动的三倍频[19],根据文献[20]可知,1 180 nm附近的波峰是C—H键二级倍频吸收,1 660 nm附近的较小波峰是C—H键一级倍频吸收。根据文献[21]可知,脂肪C—H键倍频吸收的特征谱带在950~1 020、1 070~1 440、1 520~1 680 nm之间。因此本研究选择的波长区域涵盖了脂肪的特征吸收谱带,说明带壳红松籽样本的光谱数据可以反映其脂肪的相关信息。
2.3 光谱预处理对比结果与分析
对光谱数据求导可以消除背景与基线干扰,但预处理效果会受求导窗口宽度的影响,因此,在进行求导预处理前,要先确定出模型的最佳求导窗口宽度。根据模型的交叉验证均方根误差(root mean square error of cross validation,简称RMSECV)来确定最佳求导窗口宽度,评价标准为RMSECV越小越好。由图4可知,1-Der、2-Der窗口宽度均取5时对带壳红松籽样本的光谱进行预处理,构建的脂肪PLS模型的RMSECV最小。
利用Matlab7.10.0软件平台,对原始带壳红松籽样本的光谱进行多种不同预处理,并分别建立其脂肪PLS模型。由表2可知,采用多种预处理方法对带壳红松籽样本的原始近红外光谱信息进行处理后,各模型质量均得到了提高,说明采用合理的预处理方法可以提升模型的稳健性和预测精确度,其中,SNV、MSC对带壳红松籽光谱进行预处理后,效果提升并不明显,表明带壳红松籽样本非特异性表面散射的影响所致使的光谱差异并不明显,且SNV构建的模型略优于MSC构建的模型,这是因为MSC是基于一组样本的光谱矩阵进行预处理,而SNV是基于光谱矩阵进行预处理,即对每条光谱数据进行分别处理而造成的结果;经求导预处理后模型的质量得到了提升,表明经求导处理后有效地实现了特征信息的提取,且经2-Der预处理后建立的模型质量略高于1-Der建立的模型,表明在经2-Der预处理后背景与基线的影响被更有效地消除了。利用矢量归一化的预处理方法对带壳红松籽光谱进行处理,构建的模型质量最优,其Rc为0.856 8,RMSEC、RMSEP分别为0.752 5、0.816 7。红松籽光谱数据的波段筛选工作在最佳预处理结果的基础上进行更深入的研究。
2.4 特征波段选取的对比结果与分析
分割数取值的大小直接影响到iPLS、BiPLS的建模质量,分割数取值较大时,运算量大,建模过程复杂,不能有效减少变量数量;分割数取值较小时,容易造成含有较好信息量的区间被剔除。由图5可知,iPLS分割数取10、BiLPS分割数取15时,经波段筛选后,构建的带壳红松籽脂肪模型最佳。
图6为带壳红松籽光谱经归一化处理后,在分割数取10的条件下iPLS波段的筛选结果,其中,直线为全光谱波长范围下经过归一化预处理方法后构建模型的RMSECV,直线以下的波段区间为筛选保留的区间,相应的波段组合区间为1、2、5、11、12,对应的波长范围是906.90~1 036.67、1 180.10~1 241.57、1 589.90~1 699.18 nm。图7为带壳红松籽光谱经归一化处理后,在分割数取15的条件下BiPLS波段的筛选结果,其中,红色背景部分的光谱为筛选保留下的波段,相应的波段组合区间为1、3、7、8,对应的波长范圍是90690~1 002.52、1 111.80~1 207.42、1 521.60~1 699.18 nm。
UVE变量筛选方法是基于对PLS回归系数的稳定性分析,由图8可知,其中虚曲线是波长变量稳定性分布情况,实曲线是引入的噪声变量稳定性分布情况,2条虚直线分别为阈值的上限、下限,在虚直线内的波长变量被剔除。图9为原始带壳红松籽样本光谱经归一化处理后的UVE波段筛选结果,优选波长范围为906.90~1 282.55、1 323.53~1 494.28、1 542.09~1 548.92、1 624.05~1 699.18 nm。
分别在全波段、特征波段范围下建立带壳红松籽中脂肪的PLS模型,根据比较各模型的相关系数与均方根误差,从而确定特征波段的筛选方法。由表3可知,经波段筛选后模型的各项指标均得到了改善,在均方根误差有所降低的同时,相关系数也得到了提高,表明波段优选对提高模型質量是有所助益的;其中BiPLS-PLS建立的模型质量最佳,这是由于经BiPLS优选保留的波段范围分别与脂肪C—H键的倍频和基频相对应,脂肪属性中最重要的吸收谱带得到了保留,而多数无关的冗余信息被剔除了;iPLS虽然消除了多数冗余信息,但由于将各分割波段区间单独考虑,没有考虑它们之间的联系,导致波段选择不够准确;UVE波段筛选方法保留的变量数量最多,存在的冗余数据也最多,因此构建的UVE-PLS模型的预测精确性最差。在BiPLS优选的波段范围内,建立的带壳红松籽中脂肪的PLS模型Rc达0.889 2,RMSEP为0765 1。由此可知,对带壳红松籽样本进行脂肪PLS建模分析的过程中,利用BiPLS方法进行波段选取是更为合适的,可以优选出更为合理、数量更少的波长变量。
2.5 模型验证
将验证集30份带壳红松籽样本的光谱数据带入经最佳预处理方法及BiPLS优化的模型中进行脂肪的校验。用平均偏差绝对值(Mabs)来描述预测结果的准确性,则平均偏差绝对值的计算公式为Mabs=∑ni=1|Yi-Xi|n,其中,Yi和Xi分别表示验证集第i份样本的测定值和预测值,n表示验证集样本数量。由图10可知,验证集带壳红松籽脂肪预测值均分别围绕其测定值进行较为均匀的上下波动,经过计算,预测值与测定值的平均偏差绝对值 Mabs为0.65%,表明建立的带壳红松籽脂肪模型的预测结果较准确。
3 结论
本研究采用便携式近红外光谱仪NIR-NT-spectrometer-OEM-system对带壳红松籽中的脂肪进行了无损定量检测。根据对比各模型校正集相关系数、验证集相关系数、校正集均方根误差、验证集均方根误差等进而确定最佳的预处理方法、最优的波段筛选方法及适合建模的波段范围。研究结果表明,选用合理的预处理方法对原始带壳红松籽光谱数据进行处理,可以提高模型的质量,其中,经归一化预处理后构建的带壳红松籽脂肪PLS模型最佳;iPLS、BiPLS、UVE波段筛选方法均可以在不同程度上减少建模波长变量数量,进而减少计算时间、提升模型质量,并且经BiPLS优选波段后建立的模型质量最优,大量冗余信息得到了剔除的同时,脂肪成分中C-H等功能基团的倍频吸收特征波段得到了保留,实现了优选波段的目的,其保留的建模波长范围为906.90~1 002.52、1 111.80~1 207.42、1 521.60~1 699.18 nm,建立的带壳红松籽脂肪PLS模型Rc达0.889 2,RMSEP为 0.765 1,验证集预测平均偏差绝对值为0.65%。由此可见,本研究构建的带壳红松籽中脂肪近红外模型的预测效果较为理想,为带壳红松籽中脂肪的快速、准确测定提供了一个新的思路与方法,也为近红外模型的优化提供了参考。
参考文献:
[1]分析测试百科. 意大利将近红外光谱技术用于榛子筛选[Z/OL]. (2015-11-20)[2018-05-29]. http://www.antpedia.com/news/99/n-1289399.html.
[2]钱 曼,黄文倩,王庆艳,等. 西瓜检测部位差异对近红外光谱可溶性固形物预测模型的影响[J]. 光谱学与光谱分析,2016,36(6):1700-1705.
[3]王加华,张晓伟,王 军,等. 基于便携式近红外技术的生鲜乳品质现场评价[J]. 光谱学与光谱分析,2014,34(10):2679-2684.
[4]Aernouts B,Polishin E,Lammertyn J,et al. Application of near infrared reflectance(NIR) spectroscopy to identify the quality of milk[J]. Journal of Dairy Science,2011,94(11):5315.
[5]孙晓明,卢 凌,张佳程,等. 牛肉化学成分的近红外光谱检测方法的研究[J]. 光谱学与光谱分析,2011,31(2):379-383.
[6]贾昌路,高 山,张 宏,等. 近红外技术对南疆核桃品种的鉴定及品质比较[J]. 湖北农业科学,2016,55(10):2559-2563,2676.
[7]刘 洁,李小昱,王 为,等. 基于近红外光谱的板栗蛋白质检测方法研究[C]//中国农业工程学会2011年学术年会论文集,2011.
[8]刘 洁,李小昱,李培武,等. 基于近红外光谱的板栗水分检测方法[J]. 农业工程学报,2010,26(2):338-341.
[9]仇逊超,曹 军. 近红外光谱波段优化在东北松子蛋白质定量检测中的应用[J]. 现代食品科技,2016,32(11):303-309.
[10]仇逊超,曹 军. 便携式近红外光谱仪检测红松籽中的水分含量[J]. 东北林业大学学报,2016,44(12):15-20.
[11]于俊林,车喜泉,常纪庆. 松仁的化学成分及功效[J]. 人参研究,2001,13(1):25-27.
[12]张华秀,李晓宁,范 伟,等. 近红外光谱结合CARS变量筛选方法用于液态奶中蛋白质与脂肪含量的测定[J]. 分析测试学报,2010,29(5):430-434.
[13]张 初,刘 飞,孔汶汶,等. 利用近红外高光谱图像技术快速鉴别西瓜种子品种[J]. 农业工程学报,2013,29(20):270-277.
[14]蔣 霞,张 晓,白铁成,等. 近红外光谱技术结合PLS和SPA检测鲜冬枣表面农药残留量的方法[J]. 江苏农业科学,2018,46(2):146-149.
[15]Chen H Z,Pan T,Chen J M,et al. Waveband selection for NIR spectroscopy analysis of soil organic matter based on SG smoothing and MWPLS methods[J]. Chemometrics and Intelligent Laboratory Systems,2011,107(1):139-146.
[16]Park B,Abbott J A,Lee K,et al. Near-infrared diffuse reflectance for quantitative and qualitative measurement of soluble solids and firmness of delicious and Gala apples[J]. Transactions of the ASAE,2003,46(6):1721-1731.
[17]He K X,Cheng H,Du W L,et al. Online updating of NIR model and its industrial application via adaptive wavelength selection and local regression strategy[J]. Chemometrics and Intelligent Laboratory Systems,2014,134(8):79-88.
[18]Macho S,Rius A,Callao M P,et al. Monitoring ethylene content in heterophasic co-polymers by near-infrared spectroscopy standardization of the calibration model[J]. Analytica Chimica Acta,2001,445(2):213-220.
[19]李晓云,王加华,黄亚伟,等. 便携式近红外仪检测牛奶中脂肪、蛋白质及干物质含量[J]. 光谱学与光谱分析,2011,3(3):665-668.
[20]王培培,张德权,陈 丽,等. 近红外光谱法预测羊肉化学成分的研究[J]. 核农学报,2012,26(3):500-504.
[21]张中卫,温志渝,曾甜玲,等. 微型近红外光纤光谱仪用于奶粉中蛋白质脂肪的定量检测研究[J]. 光谱学与光谱分析,2013,33(7):1796-1800.牛德芳,王 波,殷 玲,等. 油菜蜂花粉及其蜂粮的挥发性成分研究[J]. 江苏农业科学,2019,47(3):164-169.