油桐籽不同年份和含油率差异对其含油率NIR检测模型影响的研究
2019-07-17李水芳付红军文瑞芝
马 强 李水芳 付红军 王 琼 文瑞芝
(中南林业科技大学理学院1,长沙 410004)(中南林业科技大学食品科学和工程学院2,长沙 410004)
油桐(Verniciafordii)为大戟科油桐属植物,是我国具有代表性的经济林树种和特有的工业油料树种。油桐在我国秦岭、淮河以南的16个省(市、区)都有分布或栽培[1]。油桐籽含油率测定在其品质分析、良种选育等方面有广泛应用。目前测定油桐籽含油率的方法是有机溶剂萃取的索氏抽提法[2-3],该法耗时、需消耗化学试剂、测定成本较高。
近红外光谱(near infrared spectroscopy, NIR)技术具有简便、快速、易于操作、绿色环保等优点。研究表明该技术能快速测定油菜、玉米、大豆、棉籽、花生等草本油料植物种子含油率[4-8]。有关木本油料植物种子含油率的测定,原姣姣等[9]和奚如春等[10]都对油茶籽含油率的NIR检测进行了研究。前期,李水芳等[11]对单一年份油桐籽含油率的NIR检测进行了研究。本研究以不同年份和不同含油率范围样本为实验对象,研究年份和含油率差异对油桐籽含油率NIR检测模型的影响及如何减少这种影响,为在实际中建立准确可靠的油桐籽含油率NIR检测模型提供参考,也为其他油料植物种子含油率NIR检测模型的建立提供借鉴。
1 材料和方法
1.1 油桐籽样本
95个和107个油桐籽样本分别于2014年11月24日和2015年11月23日采集于湖南省永顺县青坪镇中南林业科技大学油桐实验基地——国家油桐种质资源保存库。2014年为贫产年,挂果率低,但单果体积大,桐籽含油率普遍较高;2015年为丰产年,挂果率高,但单果体积小,桐籽含油率普遍较2014年低。油桐果去皮留籽,桐籽去壳留仁,稍加锤碎,在70 ℃恒温箱中烘干,装入布袋中锤碎,过20目筛后置于干燥器内备用。
1.2 NIR光谱数据采集
在约20 ℃室温下,将样品装入仪器配备的样品杯中,用Antaris Ⅱ型傅里叶变换近红外光谱仪(配有积分球漫反射采集系统,InGaAs检测器及TQ软件)采集和保存光谱。采集条件为:光谱范围10 000~4 000 cm-1,扫描次数64次,分辨率8 cm-1,4倍增益,数据采集格式为Log(1/R),以内置背景为参考,背景频率为每次扫描前采集。每个样本平行3次扫描,取平均光谱。
1.3 含油率测定
采集完光谱的样本,以石油醚(分析纯,30~60 ℃)为溶剂,索氏抽提法提取油脂。称取约10 g样本(精确到0.01 g,记为m0),放入烘过后的滤纸筒中,用脱脂棉线捆扎好,称取其质量(精确到0.01 g,记为m1),然后放于装有石油醚的索氏抽提装置中浸泡过夜,第2天抽提10 h左右,直到将2滴抽提液滴到玻璃片上,待溶剂挥发后,玻璃片上无油脂残留为止,随后,将抽提完油脂的滤纸包取出,放到70 ℃烘箱中烘干,称重(精确到0.01 g,记为m2)。样本含油率(ω)按式(1)计算:
(1)
每个样本平行2次测定(2次测定的相对误差不大于2.0%,否则重测),取平均值。
1.4 光谱预处理、模型构建及模型评价指标
对原始光谱进行预处理能消除无关信息及噪声、增加样本光谱之间的差异,提高模型的稳健性和预测能力,实现模型的优化。分别采用一阶导数(1stder)、二阶导数(2ndder)、多元散射校正(MSC)、标准正态化(SNV)、均值中心化(MC)、Savitzky-Golay平滑(S-G)及其组合等方法对原始光谱进行预处理。
偏最小二乘(partial least squares,PLS)算法对光谱阵和数值阵同时进行分解,并考虑二者的相互关系,加强对应计算关系,从而保证获得最佳的校正模型,是光谱多元校正分析中应用最为广泛的校正方法[12]。本研究以PLS算法构建模型。
以校正模型内部10折交叉验证的相关系数(Rcv)、均方根误差(RMSECV)、相对标准偏差(RSDcv)、校正集的相关系数(Rc)、均方根误差(RMSEC)、相对标准偏差(RSDc)及验证集外部验证的相关系数(Rp)、均方根误差(RMSEP)、相对标准偏差(RSDp)为指标评价模型。相关系数越接近1,均方根误差和相对标准偏差越小,表明模型的校正精度和预测精度越好。而小的均方根误差和相对标准偏差比大的相关系数更重要。
1.5 特征波长的筛选
油桐籽NIR由1 557个数据点构成,波长点数远多于样本个数,光谱共线性严重,有效的变量筛选不仅可以简化模型,更主要的是可以剔除不相关或共线性变量,从而提高模型的预测能力和稳健性。采用竞争性自适应重加权(CARS)算法进行变量筛选和光谱数据的压缩、去噪和特征提取。CARS法[13]是一种有效筛选变量的迭代方法,在每一次迭代中,模仿达尔文进化理论中“适者生存”的原则,相继采用2种策略进行变量消除:首先利用预定义的指数衰减函数强制去掉一部分竞争力相对较弱(指PLS模型回归系数的绝对值相对较小)的变量;然后通过自适应重加权采样技术继续对剩余变量进行带有一定随机性的筛选,按概率继续去掉一部分不重要的变量。迭代完成后,利用交叉检验选出模型RMSECV最低的变量子集。
2 结果与讨论
2.1 样本集的划分及油桐籽的近红外光谱
由于2014年样本含油率普遍较高,而2015年相对较低,致使2014年的95个样本含油率范围小于2015年107个样本的含油率范围。若用2014年的校正集建模预测2015年的验证集样本或混合年份的验证集样本,则验证集含油率数据会落在校正集含油率范围之外,模型不适于对验证集的预测。因此,从2015年的107个样本中取含油率范围与2014年接近的79个样本组成另外一个2015年的样本集。为了对不同年份、不同含油率样本进行研究,我们将样本划分为5个集:样本集1由2014年的95个样本组成;样本集2由2015年的79个样本组成;样本集3由2015年的107个样本组成;样本集4由2014年的95个样本和2015年的79个样本组成;样本集5由2014年的95个样本和2015年的107个样本组成。对每个样本集,取2/3作校证集,1/3作验证集。各样本集划分出的校正集和验证集的含油率化学测定值的统计结果如表1所示。
表1 油桐籽含油率化学测定值统计结果
由表1可知,对每个样本集,验证集含油率范围都在校正集含油率范围内,因此,校正集所建模型适于对其验证集进行预测;对样本集1、2和4,各自验证集的含油率范围都在其他2个样本集校正集的含油率范围内,因此,用各自校正集所建模型都适于对其他2个样本集的验证集进行预测。
图1为2014年95个样本和2015年107个样本的平均光谱。可以看出二者有相同位置的吸收峰。
图1 油桐籽样本的的近红外光谱图
2.2 单一年份和混合年份样本含油率NIR检测模型的预测性能
分别用样本集1、2和4的校正集建立含油率NIR检测模型,并分别对3个样本集的验证集进行预测,以比较单一年份和混合年份样本所建模型的预测能力。各模型对验证集的预测结果见表2。从表2可知:①对单一年份样本,其校正集建立的模型对自身验证集的预测结果最好,对混合年份验证集的预测结果次之,而对另一单一年份验证集的预测结果最差;②对混合年份样本,其校正集建立的混合年份模型无论是对单一年份还是混合年份的验证集,预测结果都较好;③混合年份模型对单一年份验证集的预测结果与单一年份模型对自身验证集的预测结果接近,甚至略好。因此,建立油桐籽含油率NIR检测模型时,为了使模型有更好的适应性,应收集不同年份的样本建立混合年份的检测模型。这一结果,与Garcia-Alvarez等[14]对不同年份蜂蜜样本中的果糖和葡萄糖含量进行NIR建模分析时的结果类似。
表2 模型对验证集的预测结果
2.3 不同含油率范围检测模型的预测性能
为了比较不同含油率范围样本所建模型的预测性能,我们分别使用2015年的两个样本集2和3及混合年份的两个样本集4和5进行分析,用校正集建立模型,并对各自的验证集进行预测。各样本集校正集10折交互检验、校正模型内部检验及验证集外部预测的结果见表3。
表3 不同含油率范围模型的预测结果
样本集2和3同为2015年样本,集3的含油率范围34.6%~63.4%,标准偏差6.04,而集2的含油率范围47.6%~61.4%,标准偏差3.56,集3的含油率范围和标准偏差都明显高于集2。虽然集3校正模型的3个相关系数(Rcv、Rc、Rp)都比集2校正模型对应的3个相关系数更接近1,但均方根误差(RMSECV、RMSEC、RMSEP)和相对标准偏差(RSDcv、RSDc、RSDp)却比集2对应的均方根误差和相对标准偏差明显要大,因此,集2校正模型预测精度比集3更高。比较集2和3各自的3个相关系数Rcv、Rc和Rp,集3的3个相关系数彼此更接近,因此,集3的模型更稳定。同样,样本集4和5也存在相似的情况。因此,样本含油率范围对所建模型的预测性能有影响:含油率范围大,尽管真实值与预测值的相关系数有所提高,但均方根误差和相对标准偏差都有所升高,所以模型的预测精度下降,而稳定性更好。
2.4 油桐籽含油率模型的构建
用CARS法筛选变量时,每次运行CARS算法的最优采样次数会不相同,选择的变量数也有所不同,模型交互检验的RMSECV也略有不同。对混合年份样本集5,尝试运行10次CARS算法,选择RMSECV最小的一次,此时,筛选出的变量为30个。它们对应的波数范围为:4 089~4 100、4 320、4 902~4 922、5 650~5 658、5 708~5 712、5 751~5 766、5 843~5 851、7 023~7 031、7 046~7 054 cm-1。波数粗略解析为[12,15]:4 089~4 100、4 320 cm-1在亚甲基C—H键的组合频区(4 082~4 367 cm-1);4 902~4 922 cm-1在甲基和亚甲基C—H键的第一组合频区(4 160~5 000 cm-1);5 650~5 658、5 708~5 712、5 751~5 766、5 843~5 851 cm-1在甲基和亚甲基C—H键的一级倍频区(5 550~6 020 cm-1);7 023~7 031、7 046~7 054 cm-1在甲基和亚甲基C—H键伸缩振动的一级倍频加变形振动的组合频区(6 900~7 090 cm-1)。
用筛选出的30个变量建立混合年份样本集5的含油率PLS定量校正模型,然后对其验证集进行预测,结果见图2。由图2可知,由66个混合年份样本组成的验证集的RP为0.929,RMSEP为1.765,RSDP为3.31%,与表3中使用全部1 557个变量建模的预测结果相比,建模用变量数大大减少,模型得到了简化,而预测精度略有提升。
图2 验证集化学测定值与近红外预测值的相关关系图
3 结论
单一年份油桐籽样本的NIR含油率检测模型对本年份样本的预测精度好,而对其他单一年份样本的预测精度明显下降,而混合年份油桐籽样本的含油率NIR检测模型对各年份样本都能实现较准确预测;相同年份不同含油率范围的油桐籽样本所建NIR检测模型的预测结果存在差异,含油率范围大,模型的预测精度略有下降,但模型更稳定。所以建立油桐籽含油率NIR检测模型时,应收集不同年份的含油率范围广泛的样本,所建模型既具有较好的预测精度,又具有更好的适应性和稳定性。对混合年份样本,使用偏最小二乘(PLS)法建模,并结合竞争性自适应重加权(CARS)法筛选变量,不仅模型得到了简化,而且预测精度比使用全部1 557个变量建模略有提高。CARS结合PLS法建立的模型,实现了近红外光谱技术对油桐籽含油率的较准确预测:验证集的Rp为0.929,RMSEP为1.765,RSDp为3.31%。