木本粮油林果品质的近红外光谱及成像无损检测研究进展
2022-02-22李兴鹏姜洪喆蒋雪松顾海洋周宏平
李兴鹏,姜洪喆,蒋雪松,顾海洋,周宏平
(南京林业大学 机械电子工程学院,江苏 南京,210037)
近年来,我国林业产业发展迅速,2019年行业产值达7.56万亿,其中,全国经济林面积超过4亿公顷、产能达2亿t、产值在2万亿元以上[1],其产生的经济效益在打赢脱贫攻坚战、促进乡村振兴等方面起到了积极的作用。其中木本粮油类经济林果具有营养价值高、多样化特色明显等特点,未来市场前景广阔。当前,果农过分追求退耕还林的规模及林果产量,忽视了林果品质把控,相应的品质检测标准与方法也有待完善,这既不利于同类产品的国内竞争,也不利于出口贸易。常见的木本粮油类林果主要包括板栗、核桃、油茶、油桐、榛子、腰果等,此类林果果壳厚而硬,如果选择传统的人工感官品质评价和化学试验测定,需逐一去除果壳,去壳对林果造成破坏的同时也增加了检测的劳动强度。此外,人工品质评价受主观经验影响,导致效率低、精度差;化学试验检测步骤繁琐、耗时长,同时需要大量挥发性溶剂,危害检测人员健康[2]。相较于传统检测,近红外光谱及高光谱成像技术在粮油类林果品质检测领域具有快速、无损、安全和便于实现在线检测的优点,在品质快检中具有优势。
1 检测原理
1.1 近红外光谱检测技术
近红外光谱区介于可见光区与中红外光区之间,波长范围为780~2 526 nm,为人们最早认识的非可见光区域,该谱区包含的光谱信息主要是含氢基团振动的倍频与合频特征信息。有机分子一般都包含C—H、O—H、N—H、S—H等化学键,通过合频与倍频振动的不同组合形成的振动信息构成了有机分子含氢基团的主要结构信息[3]。同时,不同谱区近红外光的反射与透射特性不同,这使近红外光谱技术可以采用透射、漫透射、漫反射等多种测量方式获取光谱,通过这些方式的结合使近红外光谱承载被测样本的有机化合物结构和组成等相关信息,再结合化学计量学和机器学习建模等分析方法,可以实现品质安全指标的定性分类和定量预测。从20世纪50年代末诞生至今,近红外光谱技术日趋成熟,现阶段已被广泛应用于农业、食品、石化和制药等领域[4]。
1.2 高光谱成像技术
高光谱成像技术是20世纪80年代从遥感图像技术发展而来,它将光学、电子学、图像处理、计算机等学科的技术融合在一起,是将传统的二维图像信息和光谱信息有机融合的一项新兴技术[5]。高光谱图像数据是三维的,由连续光谱波段处的光学图像数据组成数据块。因此,高光谱图像数据不仅包括样品的二维空间信息(x,y),还具有随波长分布的每个像素点的光谱信息(λ),最终由光谱技术与成像技术二者融合形成立方体数据(x,y,λ),如图1所示。
图1 高光谱成像技术立方体示意图Fig.1 Schematic diagram of hyperspectral imaging technology
2 木本粮油林果品质现状
林果的品质包括外部品质、内部品质和安全品质[6]。外部品质主要依据颜色、形状、尺寸、纹理等物理特征和外部缺陷进行评估[7],内部品质主要取决于营养组分和成熟度,安全品质主要通过对各种病害、品质劣变、细菌感染和农药残留进行检测评估[8]。目前我国木本粮油类林果处于高产期,果农过分追求退耕还林的规模效应,商人追求利益最大化,导致市场品质良莠不齐,区域品质参差不一,如核桃生产中出现“采青”现象,在核桃未充分成熟时青采,瘪仁、果仁风味变淡现象突出;2014年经多家卫视报道的“坚果漂白”事件,黑商贩用二氧化硫漂白加香,霉变林果光鲜上市;2019年的“坚果走私案”,走私团伙从世界各地甚至疫区国家收购廉价粮油林果,在销售环节将发霉林果简单处理后继续售卖。这些不法行为严重危害消费者的健康和利益,阻碍行业的良性发展。面对如此严峻的食品安全形势,加大宣传力度、完善法律法规的同时,研究新型检测方法是从源头上控制林果品质的当务之急。
目前已有NICOLA等[9]、于宏威等[2]、彭彦昆等[10]等综述了近红外和高光谱技术在浆果、蔬菜、肉、谷物方面品质检测的应用进展,但对木本粮油类林果品质快检缺乏全面的认识。本文以木本粮油林果为对象,从营养物质含量预测、产地溯源与品种鉴别、霉变与缺陷判别三类林果品质检测常见指标进行论述。
3 研究进展
3.1 营养物质含量预测
木本粮油类林果富含水、粗脂肪、蛋白质、总糖、膳食纤维等营养物质,为满足国民营养精细化、标准化的品质需求,需对其营养含量进行检测。传统的营养物质检测以化学分析测定居多,但实验具有破坏性、步骤繁琐、耗时长的劣势,并且用到的试剂危害检测人员健康,如索式提取法测定粗脂肪的抽提试剂无水乙醚,酶水解法测定淀粉的防腐试剂甲苯等;而近红外和高光谱成像技术具有绿色、安全等优势,已经在林果检测中得到广泛应用。YI等[11]选择范围在570~1 840 nm波段内的可见近红外反射光谱对核桃营养成分进行了预测,其中水、蛋白质、脂肪的决定系数(R2)分别为0.952、0.977和0.990,预测均方根误差(root mean square error of prediction, RMSEP)分别为0.058、0.182和0.191,相对分析误差(relative percent deviation,RPD)分别为4.14、5.55 和8.64。虽然NICOLA等[9]、RITTHIRUANGDEJ等[12]对RPD的评判标准有争议,但学术界的共识是若R2>0.95、RPD>4,可以认为校正模型建模非常成功[13]。蒋大鹏等[14]用凯氏定氮法测出松子样品中的蛋白质含量,并根据蛋白质含量水平将松子划分为四等,基于近红外光谱与支持向量机进行分类建模,运用Grid Search搜索径向基函数中最优径向基gamma和惩罚系数c,获得支持向量机模型的精确率和召回率分别为82.3%、85.2%,相关研究结果总结见表1。
表1 近红外光谱用于木本粮油类林果营养组分预测的相关研究Table 1 Study on prediction of nutritional components of woody grain and oil fruits by near infrared spectroscopy
当林果的其他品质指标与营养含量有相关性时,也可利用近红外光谱进行间接检测,如成熟度高的板栗淀粉含量高,水分较少;成熟度低的板栗养分积累少,水分含量高[23-24]。周轩明[25]利用近红外光谱技术,对不同成熟度板栗的水分、淀粉和脂肪进行定量分析,最终得出以水和淀粉为指标用近红外技术检测板栗成熟度是可行的。
在进行营养含量的预测时,多数情况下样品的营养物质在空间上表现为不均匀的分布特性,使用近红外的光谱仪仅仅能够以聚焦的镜头扫描样品或者获得整个样品的平均特性,这种光谱和空间信息不可兼得的局限性促使高光谱成像技术应运而生。章林忠等[26]和丁玲玲[27]采集了波段为908~1 735 nm的板栗高光谱图像,选取6个分辨率高且大小为50×50=2 500 像素的区域作为感兴趣区域(region of interest,ROI),采用MSC+二阶导数+SG平滑校正方法处理,预测总糖和淀粉含量相关系数在0.9以上,且RMSEP在0~0.3,预测结果的可信度较高。但相关学者在林果检测方面并没有充分发挥高光谱成像技术高分辨、多维度的优势,鲜有利用伪色彩图像技术进行含量空间分布可视化的尝试,仅有油茶籽含油率预测值的可视化研究(图2)[28],而在肥桃成熟度[29]、红枣水分[30]、大米蛋白质[31]等检测领域已经实现分布可视化的应用。
图2 油茶籽含油率分布可视化[28]Fig.2 Visualization of oil content distribution of camellia oleifera seed[28]
3.2 产地溯源和品种鉴别
木本粮油类林果产地或品种不同,组分含量也不同,如南方板栗果肉偏粳富含淀粉,北方板栗果肉偏糯富含糖和蛋白质,只有加以区分才能“因材施教”,实现物尽其用。此外林果品种或产地不同,价格也高低不等,这为掺杂提供了经济诱因。目前应用的溯源和鉴别技术主要有稳定同位素比率质谱[32]、电感耦合等离子质谱[33]、原子光谱、核磁共振、毛细管电泳、电子鼻等。近红外和高光谱成像技术凭借其快速、无损、便捷等优势成为产地溯源和品种鉴别中一个重要的分支。
MANFREDI等[34]利用便携式红外光谱仪结合多元统计分析对榛子品种进行分类,比较了偏最小二乘和向后消去偏最小二乘(backward elimination partial least square,BE-PLS)2种不同的光谱降维方法,其中向后消去偏最小二乘线性判别(backward elimination partial least square discriminant analysis, BE-PLS-DA)分类模型的交叉验证准确率最高,达98.18%。MOSCETTI等[35]利用k-最近邻、簇类独立软模式(soft independent modeling of class analogy,SIMCA)、偏最小二乘判别分析(partial least square discriminant analysis,PLS-DA)和支持向量机判别分析(support vector machine discriminant analysis,SVM-DA)来鉴别意大利榛子,其中SVM-DA和PLS-DA的识别效果较好,分类准确率大于95%。CARVALHO等[36]将遗传算法(genetic algorithm,GA)与线性判别分析(linear discriminant analysis,LDA)结合对不同品种夏威夷果进行分类,其中Keaudo品种在平滑和多元散射校正预处理下所建模型的敏感性和特异性分别为91.67%和95.56%,说明该模型可以正确分类夏威夷果。ARNDT等[37]收集了17年到19年的212份核桃样本,采用50 545种不同的预处理组合对数据进行优化,然后利用LDA进行嵌套交叉验证,获得的7种核桃总识别精度为(77%±1.60)%的结果。丁玲玲[27]利用高光谱成像技术对泰栗一号、沂蒙短枝和舒城小栗3种板栗进行定性分析,判别分析的识别正确率为96.7%。
综上所述,近红外和高光谱成像技术分类准确率较高,可用于产地的溯源和品种的鉴别。为提高分类模型的准确性和鲁棒性,上述学者研究重点集中于模式识别方法的选取,但林果属于天然样品,样品大小不一,表面凹凸不平,需考虑其颗粒度、粗糙度、厚度、松紧度等对准确性的影响。ARNDT等[38]指出研磨后的杏仁样品产地分类准确性更好,但林果的终端产品在保证分类准确的前提下还需保证其完整度,因此,样本制备方式的优劣尤为关键,这决定了近红外或高光谱定性分析技术能否实际应用于林果品质的在线检测,有望成为下一阶段的研究重点。
3.3 霉变和缺陷判别
林果在采收、运输、加工、贮存、销售等环节均易受到霉菌侵染,而木本粮油林果属于高脂肪类食物,如果发生霉变和酸败,还会产生不良的气味和味道,降低营养价值的同时还带来了生物毒素风险,如黄曲霉素致癌、赫曲霉素致畸等。目前,已有学者运用机器视觉对核桃[39-41]、板栗[42]等表面霉变缺陷进行识别,但对霉变引起的内部成分变化进行准确识别还需利用近红外或高光谱技术。
蒋大鹏[43]利用高斯核函数模型进行霉变松子的分类,同时提高了近红外漫反射模型与化学成分间的相关性,分类准确率已经达到了95.8%。马晓晨[44]比较主成分判别分析、SIMCA和LDA对霉变板栗分类建模精度的影响;HU等[45]同样比较了3种分类方法的精度,得出LDA的分类精度最优,校正集和验证集预测准确度分别为100%和96.37%。周竹等[46]将GA与最小二乘支持向量机相结合对霉变板栗进行分类,优选后的模型分类精度达93.56%。FENG等[47]和袁康培等[48]通过设置合理的阈值提取整个板栗为ROI,结合人工神经网络,分类精度高达99.43%。KALKAN等[49]利用局部判别基提取12个光谱特征,对感染黄曲霉素的榛子进行剔除,分类后的黄曲霉毒素水平从608 ppb下降到0.84 ppb。
在进行霉变定性分类时,大部分学者通过有监督的模式识别进行定性分析,因为林果属于自然产物,生物构成复杂,组间差异不明显,导致近红外光谱特征复杂、重叠,只有通过有监督方式的特征提取才能得到更有针对和有效的信息。
此外虫蛀果和脂质氧化果等均属缺陷果,为保证林果品质的一致性均需借助近红外或高光谱成像技术予以剔除。MOSCETTI等[50]采用InGaAs阵列的“手持式”光谱仪采集虫蛀板栗果尖、果径及果壳凸侧部位的光谱,利用受试者工作特征曲线下方的面积值评估出的特征波长为1 582、1 900和1 964 nm,分类的假阴性率、假阳性率和总错误率分别为16.81%、0%和8.41%,满足虫蛀果剔除的边界值。
粮油类林果中的不饱和脂肪酸受到氧气、温度和光等因素影响生成脂肪酸和甘油,游离脂肪酸再经过断裂、分解和氧化过程形成初级氧化产物过氧化物,过氧化氢可分解为醛类、醇类、酮类等次生产物,这些次生代谢物通常是挥发性物质[51],会导致粮油类林果产生异味,影响林果贮藏期与货架期的品质,因此,需对脂质氧化程度进行检测。PANNICO等[52]选取k232(232 nm处的比消光系数)作为评价榛子脂质氧化程度的变量,采集的近红外光谱预测k232的决定系数为0.85。CANNEDDU等[53]采用近红外光谱成功预测澳洲坚果脂质氧化的过氧化值和酸度指数,其R2分别为0.72、0.8,RMSEP分别为3.45 meq/kg、0.14%。以上研究数据表明近红外光谱技术在评估林果脂质氧化方面具有良好的潜力。相比之下,国内以林果为对象,利用光谱技术检测其脂质氧化的研究尚属空白,检测对象多集中于肉制品[54]和食用油[55],将近红外或高光谱技术应用于林果的脂质氧化评估有望成为未来的研究热点。
4 前景与展望
近红外和高光谱技术在林果方面的研究主要集中在浆果,已经形成了相应的体系并建成了便捷光谱仪以及在线检测装置,而粮油类林果的相关研究较少,多数研究集中于板栗与核桃,拓宽粮油类林果的研究类目并完善其近红外光谱数据库是未来的研究趋势。
现有的大部分研究仍然集中于近红外光谱,高光谱成像技术的应用较少。一方面高光谱成像设备费用高昂,门槛较高,另一方面高光谱成像采集的数据量大,图谱解析时间较长。今后研究重点可以集中在特征波段的选取、建模算法效率的考量以及低成本高光谱检测设备的研发。
当前有部分学者结合高光谱成像技术来研究木本粮油类林果,但没有充分利用高光谱成像技术,仅利用阈值分割裁剪出样品光谱区域取其平均光谱,没有利用空间像素坐标实现可视化。未来需扩大林果样本测试空间的广度,减小样本组织分布不均匀的影响,并利用伪图像编码技术实现品质分布可视化,以期提高品质检测的可靠性和直观性。
目前研究所建的定性或定量校正模型缺乏传递性,如环境温度变化、样品形态改变、仪器老化、附件更换等均会导致模型预测出现偏差,不利于模型重复利用和共享。解决以上模型通用性的问题,在建模时首先需要考虑样品的代表性,其次,选取一些基于模型的新迁移学习算法或基于特征的新学习算法等,通过同型号仪器的不同批次样品或同批次样品的不同型号仪器之间的比较研究,评估模型传递的效果。