应用便携式近红外光谱仪研究苹果糖度的快速分析模型
2018-12-06刘翠玲周子彦
雷 鹰, 刘翠玲, 周子彦
(北京工商大学 计算机与信息工程学院, 北京 100048)
苹果味道鲜美,营养丰富。我国是苹果出口第一大国,但是苹果的品质不高,主要表现在甜度不够,只能走“低端”市场。要提高我国苹果的质量,需要建立一个完善的糖度分级系统,实现对苹果糖度的快速无损检测[1]。
利用传统方法进行糖度检测,往往需要破坏试验样本,且操作复杂,不符合无损快速的要求。利用近红外光谱(near-infrared spectroscopy, NIRS)分析技术可实现在不对样品进行复杂预处理的情况下快速、无损、准确的检测[2-6]。曹霞等[7]利用红外漫反射技术建立了芒果糖度模型。章海亮等[8]利用偏最小二乘法(PLS)分别对苹果糖度进行在线和离线检测模型的构建,得出结论:离线模型的预测精度更高。Wang等[9]对比漫反射和漫透射分析法建立酸枣的可溶性固体含量模型,得出结论:漫反射建模效果更佳。
综合已有研究报道发现,利用近红外光谱技术进行苹果糖度模型的建立是可行的,但由于实验样品的局限性,使得建立的模型不具有普遍性,同时也存在模型指标单一和光谱仪器不便携带的不足。
考虑到不同种类不同大小苹果的化学成分相近[10-11],文章选用不同种类、不同大小的苹果作为实验样本,利用便携式光谱仪器进行数据采集,K- S算法[12-13]划分样本,对样本数据分别进行求导、平滑、标准归一、多元散射预处理[14-16]操作,采用偏最小二乘法和间隔最小二乘法(iPLS)[17-18]建立苹果糖度的通用模型,从而实现苹果糖度的快速、无损的现场检测。
1 材料与方法
1.1 苹果样品
为使模型更具稳健性,选取不同产地,不同大小,放置不同时间的苹果作为样本。就近选取市场上不同品种的苹果100个,包括黄元帅、红富士、花牛、栖霞红富士。对苹果先洗净擦拭,去除污渍对光谱获取的影响,再进行编号,并在苹果赤道附近的3点做标记(间隔约120°)。将苹果放于室内12 h以上,目的是使苹果整体温度达到与环境温度一致,消除温度带来的误差。
1.2 近红外光谱采集
光谱仪器选用北京凯胜天成科技有限公司生产的AMBERⅡ型便携式近红外光谱仪,如图1。其核心光谱分析模块为美国德州仪器公司生产的DLP NIRscan Nano近红外光谱分析的便携式评估模块。该模块内部安装2个透镜端宽带钨丝灯作为光源,使用DLP2010NIR数字微镜器件作为分光仪器,采用单点1毫米探测器,所测量的波长为900~1 700 nm,信噪比大于6 000∶1,可使用USB和电池供电。
对苹果样品赤道附近的3点进行近红外光谱采集,采集的光谱数据保存为csv格式。为了减小误差,使用Omnic软件取这3点光谱数据的平均值作为原始光谱。光谱采集条件:扫描99%反射白板获得的光谱作为参比数据,积分球漫反射,扫描范围为900~1 700 nm,扫描次数15次,波长点个数为605个。每隔30个样品需要扫描白板,重新设置参照。
图1 AMBERⅡ型便携式近红外光谱仪Fig.1 AMBERⅡportable near-infrared spectrometer
1.3 糖度测定
糖度的获取采用日本Atago PAL- 1型数显糖度计测定。用水果刀削取赤道附近标记处的果肉,厚度控制在5 mm左右,用双层纱布挤滤出汁液2滴用于检测,显示结果为温度自动补偿为20 ℃的可溶性固形物含量值(%Brix),并取3次测量的平均值作为近红外光谱在线检测苹果样本可溶性固形物的标准值。
1.4 模型的评价参数
定量校正模型质量的衡量指标有4个重要参数:校正模型和预测模型的相关系数,校正集和预测集的均方根误差。
模型的相关系数(R)越接近1,交互验证校正标准偏差(RMSECV)越小,模型质量越好,模型回归的越好;校正集的均方根误差(RMSEC)越小,模型回归的越好;模型预测性能用预测集的均方根误差(RMSEP)来表示,RMSEP越小,模型预测能力越好[19]。
本文使用TQ analyst建立模型,使用相对残差值(%Difference)作为衡量整个模型建立的指标,%Difference越接近100,模型的综合指标就越优。
2 结果与分析
2.1 近红外光谱采集结果
对苹果样品赤道附近的3点进行近红外光谱采集,最终获得原始光谱100条作为样本,如图2。
图2 苹果原始近红外光谱Fig.2 Apple primitive near-infrared spectrum
2.2 糖度测定结果
糖度测定结果见图3。由图3可知,苹果糖度样本的采集大致满足正态分布。
图3 苹果糖度与样品数量的关系Fig.3 Relationship between apple sugar and sample quantity
2.3 校正样品集的划分
经过K- S算法计算,确定样品划分比例为4∶1,将样本划分为校正集和预测集。预测集有20个数据,按照编号为4、6、12、25、30、33、37、43、46、54、58、63、66、70、72、81、86、92、95和99。首先选取全波段(1 238~656 cm-1)进行模型的建立,大概预估样品集划分的准确性。
26,46,82号样本的相对偏差均大于1,属于问题参数,可将其设置为ignore类型的样本参数,不参与模型的建立(见表1)。进行修改之后模型得到优化,表现为%Difference由65.4提高到74.3,预测集的R由0.635 4提高到0.802 4。
表1 问题样本的相对误差情况
最终得到校正集有78个样本,预测集有19个样本,分别为4、6、12、25、30、33、37、43、54、58、63、66、70、72、81、86、92、95和99。糖度统计如表2。
表2 各样本集的糖度统计结果
2.4 谱区的优化
优化谱区,可以减小计算量,去除其他区间的光谱干扰,利用重要信息区间的光谱信息就可以很好地代表糖度信息。
对原始光谱采用一阶求导、S- G卷积平滑和多元散射校正(MSC)预处理,利用PLS和iPLS进行最佳谱区选择。
1)选择有效全光谱区间。全区谱图1 238~1 200 cm-1这部分的光谱差异很大,可能是苹果颜色及种类差异而引起的变化,所以在全光谱的选择中,使用1 200~660 cm-1谱区,见图4。
2)将1 200~660 cm-1谱区均分为11等分的小区间。从1开始标号,并分别对每个局部小区间进行PLS回归建模,记录模型参数%Difference和RMSECV。该11个区间的RMSECV值均大于全谱区的RMSECV值0.793,见表3。表明测量苹果糖度的模型按照PLS全区建模的效果较优。
图4 一阶求导和S- G处理后的全谱区光谱Fig.4 First derivatived and S- G processed full spectral spectrum
区间σ/cm-1%DifferenceRMSECV01200~66082.10.79311200~115058.81.0621150~110069.51.1131100~105071.41.0241050~100070.01.0551000~95070.81.106950~90071.80.9567900~85071.21.098850~80066.50.9589800~750631.1310750~70053.81.0511700~66061.21.04
3)针对全谱区范围进行优化。最终得到优化区间(1 198~670 cm-1)的%Difference值为85.3,RMSECV值为0.765。
2.5 不同预处理方式下苹果糖度模型的比较
为了使苹果糖度模型的预测性更高,需要选出较为合适的预处理方法组合,本实验主要针对求导及标准归一化(SNV)处理和MSC的选择,提出了9种预处理组合,见表4。经过一阶求导和S- G卷积平滑后的苹果糖度模型都比较稳定,校正集和预测集的相关系数都能达到0.9以上。尤其是再经过SNV处理后的模型表现出的综合指标更优,%Difference达到最高85.6,预测集的相关系数为0.918 9,RMSEC和RMSEP的值分别为0.423和0.237。优化模型的相关指标见图5~图7。最后利用优化苹果糖度模型对20枚苹果的糖度预测如表5,平均误差±0.2%Brix,满足现场检测应用要求。
表4 不同预处理方法得到的PLS模型指标
图5 糖度优化模型的预测结果Fig.5 Predictive results of best model
图6 糖度优化模型的真实值与计算值的相关性Fig.6 Correlation between true and calculated values of best model
图7 糖度优化模型的真实值与计算值的误差分布Fig.7 Error distribution between true and calculated values of best model
表5 20枚苹果的糖度测量值与预测值
3 结 论
利用OMNIC和TQ analyst软件对得到的数据进行处理,包括求平均值,剔除问题参数,合理的光谱预处理和求取最佳波段。在此基础上利用PLS线性回归最终得到优化的苹果糖度光谱模型:使用一阶求导的导数处理、S- G卷积平滑处理和标准归一化预处理后得到的模型最稳定,校正集和预测集的相关系数都达到0.9以上,分别为0.922 3和0.918 9。RMSEC为0.423,RMSEP为0.237。
实验不足之处在于样本的选取均来自就近的市场,导致样本糖度范围较小,使建立得到的糖度模型仅可对11.2~16.3%Brix范围内的苹果进行预测。如果实验样本的数量更多,糖度范围更广,则模型的预测性将越强。