稻谷脂肪近红外光谱特征筛选及检测模型构建
2018-03-16李路黄汉英李毅赵思明杨素仙
李路,黄汉英*,李毅,赵思明,杨素仙
1(华中农业大学 工学院,湖北 武汉,430070) 2(华中农业大学 食品科技学院,湖北 武汉,430070)
脂肪含量是评价稻谷品质的重要指标[1]。而其传统测定方法存在过程繁琐、条件不易控制、药品消耗大、费时费力等不足。近红外光谱分析技术以其检测过程简单迅速、耗材少、无损、分析重现性好、成本低等优点,在粮食、蔬果、肉制品等方面的检测中得到了广泛的应用[2-4]。
目前国内外学者利用近红外分析技术做了一些食品检测方面的研究,BAGCHI等[5]、SUN等[6]和XIE等[7]建立了稻米中蛋白质及淀粉含量的检测模型。SIRISOMBOON等[8]研究了稻谷中黄曲霉素的近红外检测方法。张中卫等[9]、郭中华等[10]和赵明富等[11]建立了牛奶中脂肪和蛋白质含量的数学模型。林家永等[12]对不同品种和储存期限的大米水分、脂肪酸值进行检测。上述研究所建立的数学模型对食品主要营养成分的检测都能取得较好的精度,检测结果的决定系数R2大多在0.8以上,但是模型的建立思路主要集中在2个方面:(1)根据食品营养成分中特殊化学基团所对应的近红外光谱特征波长建立模型,具有模型简单,物理意义明确的优点,但检测结果不稳定,精度不高;(2)利用近红外光谱全波长建立模型,具有适应性广,精度理想的优点,但模型复杂,计算量较大。
本文针对模型性能与复杂度的矛盾关系,采用竞争性自适应重加权采样(competitive adaptive reweighted sampling,CARS)[13]方法,在稻谷近红外光谱的全波段,筛选出适量的特征波长,然后采用多元线性回归法建立稻谷脂肪含量的检测模型,在保证较好模型性能的前提下尽量减小计算量,为快速检测稻谷主要营养成分提供新的方法。
1 材料与方法
1.1 试验材料
试验材料包含A4A/R326、巨风A/R257、广占S/R166、中9A/R591、冈红1A/R15等46个品种的稻谷,由黄冈农科院提供,产自海南省。袋装封存于阴凉处,收获至试验在2个月内完成。将部分品种按质量1∶1的比例两两混合,得到44个混合样本,共计90个稻谷样本。
1.2 试验设备与样本光谱采集
近红外光谱仪:漫反射式Supnir-2720近红外光谱仪,杭州聚光科技股份有限公司。其测定范围为1 000~1 799 nm,光谱采样间隔为1 nm,光谱分辨率为10 nm。为减小误差,每个样本扫描3次。稻谷籽粒置于样本盘内,且装满、压实,逐一扫描。
1.3 稻谷脂肪含量测定
按照GB/T 5511—2008《粮油检验 粮食中粗脂肪含量测定》中的索氏抽提法[14]测定稻谷的脂肪含量,取3次测定的平均值。
1.4 数据处理方法
1.4.1 样本集划分
运用Kennard-Stone方法[15]对90个稻谷样本进行分组,80%为校正集,20%为验证集,分别用于模型的建立与验证。Kennard-Stone方法基于变量之间的欧氏距离,在样本光谱的特征空间中均匀选取样本,依次选取欧氏距离最远的点,进入校正集,留下马氏距离居中的点在验证集之中[16]。这样可使光谱差异较大的样本全部进入校正集,从而在一定程度上避免了校正集样本分布的不均匀。
1.4.2 近红外光谱预处理
预处理能将光谱的有效信息放大,且将光谱压缩在相同的范围进行比较,消除了基线漂移、样品不均匀、光散射、光程变化等对光谱的影响。选择合适的预处理方法,对提高模型的检测能力和精度十分重要。本文运用归一化、一阶导、二阶导等预处理方法中的一种或多种的组合对稻谷近红外光谱做预处理。然后根据不同预处理方法所建立模型的性能指标来确定最终的光谱预处理方案。
1.4.2.1 归一化
在建立近红外定量模型前,为了将光谱的有效信息放大,常采用归一化来进行预处理,使光谱数据的方差为1,均值为0,将光谱数据放在相同的范围进行比较[17]。本文运用Z-score归一化进行预处理试验。
1.4.2.2 一阶导
导数法可消除基线偏移、背景干扰出现的谱线重叠,呈现变化明显的波峰波谷,提供比原始光谱更清晰的光谱轮廓变化[18]。
1.4.2.3 二阶导
原始光谱经过二阶导数处理后,会变得很尖锐,有利于更好的确定波峰和波谷的位置,可使各吸收峰变得更容易区分。二阶导数可以消除基线的线性倾斜[19]。
1.4.3 特征波长筛选
稻谷脂肪的近红外光谱波长点数为800个,而样本数是90个,利用此数据进行回归分析,共线性非常严重。利用CARS方法[20]对特征波长进行筛选可简化模型,并提高模型的检测能力。
1.4.4 建模
为了降低模型的运算量,便于后续研究中在线快速检测系统的开发,使用多元线性回归方法建立基于近红外光谱分析技术的稻谷脂肪含量检测模型,以模型的决定系数(R2)、定标标准差(RMSEC)、相对偏差来评价模型的稳定性、检测能力和优劣。当R2越趋近于1,RMSEC和相对偏差的值越趋近于0,则模型的稳定性和检测能力越好,在实际中的检测越准确。同时,在建模的过程中通过显著性指标进一步对特征波长进行优选,使模型进一步简化。
2 结果与分析
2.1 样本近红外光谱
图1为90个稻谷样本的近红外光谱图。可见,不同样本的近红外光谱在总体趋势上是一致的。但由于物质成分含量的微小差异,不同样本的吸光度略有不同。
图1 90个稻谷样本的原始近红外光谱图Fig.1 Original Near-infrared spectra of ninety rice samples
2.2 样本集划分结果
采用Kennard-Stone法选取校正集与验证集,结果见表1。验证集的范围包含在校正集内,分组合理。
表1 Kennard-Stone 分组结果Table1 Results of Kennard-Stone
2.3 样本预处理
4种预处理方法后的结果如图2和表2所示。由表2可知,运用一阶导处理后所建模型的决定系数最大、定标标准差最小,因此选用一阶导为最佳的预处理方法。
图2 经过4种预处理后的光谱图Fig.2 Spectra after 4 preprocessing methods
序号预处理方法R2RMSEC1归一化0.94800.23572一阶导0.95890.22363二阶导0.64520.30204一阶导+归一化0.83450.2956
2.4 特征波长筛选
对光谱进行预处理后,采用CARS方法对稻谷脂肪的特征波长进行多次筛选,其筛选过程如图3所示。图3-a为筛选过程中选出变量的变化趋势,随着运行次数的增加,保留的变量数越来越少,且由快到慢呈指数函数递减。图3-b为波长变量筛选过程中交叉验证均方差RMSECV的变化趋势,在1~53次采样过程中,RMSECV呈现递减趋势,表明筛选过程中剔除了与样本性质无关的变量,此时对应的变量数为34,53次后开始递增,说明筛选过程中开始剔除了与稻谷脂肪含量相关的变量,从而导致RMSECV值增大,可见在第53次时,已将无关变量全部剔除,最后保留波长数34个。图3-c中“*”所对应的点即为RMSECV最低点,图3-c中各线表示随着运行次数增加各波长变量回归系数的变化趋势。特征波长筛选时蒙特卡罗采样次数为100,挑选出的34个特征波长见图4。
图3 稻谷脂肪特征波长筛选图Fig.3 Key wavelengths selection of fat in rice
2.5 稻谷脂肪数学模型的建立
运用多元线性回归方法,以34个特征波长建立稻谷脂肪含量的检测模型,将显著性不高的特征波长剔除,优选特征波长,最终得到30个特征波长,回归系数及显著性见表3。检测模型的具体形式为:
图4 稻谷脂肪特征波长的分布情况(o表示特征波长)Fig.4 Distribution of key wavelengths (shown by “o”) for fat in rice
y=b+∑aixi
(1)
式中:y,稻谷脂肪含量;b,回归常数项;ai,各特征波长的回归系数;xi,特征波长的吸光值经过一阶导数处理后的数值;i=1 000, 1 001, … , 1 799,波长所对应的纳米数。
表3为稻谷脂肪检测模型的参数及其显著性。可见,在x1 343、x1 489和x1 583处,回归系数的绝对值最大,说明这些特征波长对模型的影响最大,t值相对较大,说明对模型的影响较显著。其中,1 343 nm反映了C—H基团的第二组合频和O—H基团的伸缩振动的二级倍频吸收带,1 489 nm反映了O—H基团的伸缩振动的二级倍频,1 583 nm反映了O—H基团的伸缩振动的一级倍频吸收带。检测模型的决定系数R2为0.958 9,定标标准差RMSEC为0.223 6,相对偏差为5.53%,说明模型具有较好的稳定性和准确性。
表3 稻谷脂肪检测模型的参数及其显著性Table 3 Parameters and significances of fat prediction model
利用上述回归方程预测18个验证集的脂肪含量,偏差的绝对值最大为0.716 1,最小为0.003 2,模型验证的决定系数R2为0.825 0,校验标准差RMSEP为0.339 8,相对偏差为8.55%,说明所建模型具有较好的检测能力。
3 结论
本文首先采集了90个稻谷样本的漫反射近红外光谱,使用Kennard-Stone法选取了校正集与验证集。然后对比了归一化、一阶导、二阶导、一阶导+归一化等4种预处理方法对模型性能的影响,使用CARS法确定了与稻谷脂肪含量检测相关的近红外特征波长。最后利用多元线性回归理论对特征波长进行优选,并建立了基于近红外光谱分析技术的稻谷脂肪含量的检测模型。结果表明,稻谷红外光谱的最佳预处理方法为一阶导,与稻谷脂肪含量检测相关的近红外特征波长为30个,其中最典型的特征波长为:1 343、1 489和1 583 nm。检测模型的决定系数R2为0.958 9,定标标准差RMSEC为0.223 6,相对偏差为5.53%。将检测模型用于验证集,偏差的绝对值最大为0.716 1,最小为0.003 2,模型验证的决定系数R2为0.825 0,校验标准差RMSEP为0.339 8,相对偏差为8.55%,说明所建模型具有较好的稳定性和检测能力。
[1] 黄丽, 柏芸, 韩文芳, 等. 稻米质量对食品安全的影响[J]. 中国粮油学报, 2013, 28(4): 113-117.
[2] MILICA M P, JASNA S M. Near infrared spectroscopy-advanced analytical tool in wheat breeding, trade, and processing [J]. Food and Bioprocess Technology, 2013, 6: 330-352.
[3] 陈辰, 鲁晓翔, 张鹏, 等. 玫瑰香葡萄贮藏期间糖酸品质的近红外检测[J]. 食品与发酵工业, 2015, 41(6): 175-180.
[4] 涂斌, 陈志, 彭博, 等. 基于多源光谱特征融合技术的花生油掺伪检测[J]. 食品与发酵工业, 2014, 42(4): 169-173.
[5] BAGCHI T B, SHARMA S G, CHATTOPADHYAY K. Development of NIRS models to predict protein and amylose content of brown rice and proximate compositions of rice bran [J]. Food Chemistry, 2016, 191(1): 20-27.
[6] SUN Cheng-xiao, YU Yong-hong, DUAN Bing-wu, et al. Rapid prediction of rice quality characteristics by near-infrared reflectance spectroscopy for breeding programs [J]. Cereal Chemistry, 2014, 91(3): 270-275.
[7] XIE L H, TANG S Q, CHEN N, et al. Optimisation of near-infrared reflectance model in measuring protein and amylose content of rice flour [J]. Food Chemistry, 2014, 142: 92-100.
[8] SIRISOMBOON C D, PUTTHANG R, SIRISOMBOON P. Application of near infrared spectroscopy to detect aflatoxigenic fungal contamination in rice [J]. Food Control, 2013, 33(1): 207-214.
[9] 张中卫, 温志渝, 曾甜玲, 等. 微型近红外光纤光谱仪用于奶粉中蛋白质脂肪的定量检测研究[J]. 谱学与光谱分析, 2013, 33(7): 1 796-1 800.
[10] 郭中华, 王磊, 金灵, 等. 基于近红外透射光谱的乳制品蛋白质、脂肪含量检测[J]. 光电子·激光, 2013(6): 1 163-1 168.
[11] 赵明富, 施玉佳, 罗彬彬, 等. 基于近红外透射光谱的牛奶中脂肪和蛋白质含量检测[J]. 激光杂志, 2014(1): 44-45.
[12] 林家永, 范维燕, 薛雅琳, 等. 稻米储藏品质近红外光谱快速判定技术及仪器研发[J]. 中国粮油学报, 2011, 26(7): 113-118.
[13] LI Hong-dong, LIANG Yi-zeng, XU Qing-song, et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta, 2009, 648(1): 77-84.
[14] GB 5009.5—2010. 食品安全国家标准: 食品中蛋白质的测定[S].
[15] 陈鑫. 基于智能算法的近红外光谱分析预测模型建立方法研究[D]. 无锡:江南大学, 2013.
[16] 张华秀, 李晓宁, 范伟, 等. 近红外光谱结合CARS变量筛选方法用于液态奶中蛋白质与脂肪含量的测定[J]. 分析测试学报, 2010, 29(5): 430-434.
[17] 王艳阳, 魏永霞. 基于Z比分数的参考作物腾发量计算方法优选[J]. 节水灌溉, 2015, 29(3): 52-54.
[18] 宋丽华. 花生籽仁蛋白质含量近红外光谱模型的建立及育种应用[D]. 保定:河北农业大学, 2011.
[19] 白雁, 余振喜, 孙素琴, 等. 近红外漫反射光谱技术测定牛膝中蜕皮甾酮[J]. 中草药, 2005, 36(9): 115-118.
[20] 刘星, 单杨, 李高阳. CARS结合PLS-LDA法识别奶牛饲料中土霉素的可行性研究[J]. 包装与食品机械, 2012, 30(4): 1-4.