利用近红外光线无损检测水果糖度的研究
2021-02-11姜北晨郝志勇
姜北晨 郝志勇
(辽宁工程技术大学机械学院,辽宁 阜新 123000)
水果是人们日常生活中重要的食物。水果质量是人们在消费过程中关注的重点。对于水果品质的检验分为外在检测和内在检测。外部检测包括颜色、大小和缺陷,内部检测包括味道、甜度和水分。
外部质量可以通过肉眼观察,而对于内部质量检测来说,通常通过有损检测和无损检测来检测内部质量。有损检测技术可以准确确认果实的内在品质,但会破坏果实,即经过检测后水果就不能食用了。不同的无损性技术(例如声学、核磁共振和近红外光谱(NIRS))均为在无损条件下测定水果品质的有效途径。该文主要探讨近红外光谱(NIRS)的实验表现和实用价值。
1 近红外光检测水果糖度理论基础
水果糖分在近红外光谱波段的光下有特殊的吸收光谱[1],并可以通过仪器接收相应的光电信号。我国是苹果种植大国[2],对苹果质量的甄选分级可以提高我国产出果品的国际竞争力。
1.1 近红外光谱
近红外光是指波长介于可见光和中红外光之间的电磁波。美国材料试验协会(ASTM)将近红外光谱区定义为780 nm~2 526 nm,并将近红外波段分为2 个部分:近红外短波(780 nm~1 100 nm)和近红外长波(1 100 nm~2 526 nm)[3]。
在近红外区域的吸收带内,测量信息主要是分子内部含氢基团(OH-、NH-以及CH-官能团)的倍频吸收及其伸缩振动、晚期振动合频的吸收信息[4]。
1.2 近红外光谱特征
近红外光谱属于红外光谱,该谱区的信息主要由几种基频的倍频以及组合频率共同构成,具有以下特点:1) 近红外光谱是记录分子振动基频的倍频和合频的光谱区,被采集的信息主要为OH-、NH-和CH-官能团的倍频吸收,及其伸缩振动、弯曲振动合频的吸收信息。现代近红外光谱是把光谱测量技术、化学计量学和计算机技术融为一体的间接分析技术,一般会建立校正模型,以实现定性或定量分析未知样本的目标。2) 信息量大。近红外光谱区域除了具有不同程度的倍频吸收外,还包括多种组合频率干扰,因此光谱波段复杂。3) 信息强度弱。近红外区域吸收强度低,该特性会影响近红外分析的检出限。4) 谱峰重叠。因为分子吸收倍频的形式很多,特别是结合频率。所以不同分子或同一分子的基团会在同一光谱区域内产生倍频吸收。近红外区域的光谱带宽较大、光谱波段重叠严重,因此,传统的光谱分析方法难以对其进行分析。红外吸收带的波长位置和吸收带的强度反映了分子结构的特征,可以用来识别未知物质的结构组成或确定其化学基团。吸收带的吸收强度与分子组成或化学基团的含量有关,可用于定量分析和纯度鉴定。但由于上述近红外特性,因此在近红外检测的应用中,检测对象主要是仅包括H 基团的有机物,例如农产品、食品等。在光谱分析中,必须利用化学计量学对信息进行提取和发掘。由于红外光谱分析的强特性,因此可以对液体和固体进行检测,且具有用量少、分析速度快以及对样品无损伤等特点。该方法和其他许多分析方法一样,都可以对物品进行定性、定量分析。
1.3 近红外光谱的常规分析
传统的近红外光谱分析技术包括透射光谱和漫反射光谱。
其中,近红外漫反射光谱(NIRDRS)是根据反射光强与入射光强的比例关系来获取物质在近红外区域的吸收光谱。
近红外透射光谱(NITS)是根据透射光强与入射光强的比例关系来获取物质在近红外区域的吸收光谱。一般来说,越均匀、越透明的液体就会使用透射光谱学。漫反射模式一般用于长波近红外区域,透射模式也可用于短波近红外区域。
近红外分析具有以下7 个优点:1) 试验简单。2) 测试速度快,测试过程可在1 min 内完成。3) 测试效率提高,对测试人员没有专业要求,单人即可完成多项化学指标测试。4) 检测过程无污染,检测成本低。5) 随着模型中优秀数据的积累,模型逐渐优化且可重现。6) 适合的样品的范围较大,可通过相应的样品测量装置直接测量样品,且光谱测量方便。7) 近红外光在普通光纤中具有良好的传输特性,便于在线分析。
近红外光谱也存在以下2 个缺点:1) 近红外区域吸收和灵敏度低。2) 因为每个模型建模和分析后只能适应一定的时间和空间范围,所以要持续维护模型,用户的技术水平会影响模型的使用[5]。
近红外光谱的理论基础:比尔-朗伯吸收定律(Bill Lambert’s Law)[6]为近红外光谱的定量分析奠定了基础(样品组分的浓度与仪器测量得到的光谱响应值之间存在一定的相关性),如公式(1)所示。
Aλ=ελcl(1)
式中:Aλ为样品在特定波长(或频率)处的吸光度;ελ为样品各组分在特定波长处的吸收率;l为光程,即光通过样品的行程;c为样品组分的浓度。
比尔-朗伯吸收定律可以表示为对于一定波长的单色光,物质的吸光度Aλ与光程l、浓度c成正比,比例常数为吸收率,吸收率与浓度单位有关。当使用摩尔浓度单位时,ελ的比例常数称为摩尔吸收率。吸光度与样品的性质和波长λ有关。单波长点的吸光度信息小,可用于已知成分的定量分析。由每个波长点的吸光度组成的光谱具有大量的信息,如公式(2)所示。
Aλ=∑Kλci(2)
式中:c为样品组分(即吸光成分)的浓度;K为吸收系数。
Aλ是一个多元函数,可以通过所识别的ελ得到A-c(即样品在特定波长(或频率)处的吸光度与样品组分的浓度)的线性关系,即定量分析的工作曲线;确定的l与c、A-λ之间的关系是组分的一维吸收光谱,可用于定性分析。
影响Bill 法律偏差的主要因素有2 个:1) 非单色光。理论上,比尔定律只适用于单色光,但在实践中不可能得到真正的单色光,只能得到波长范围较窄的光谱带。因此,对于非单波长的入射光,A和c确实可以是线性的,从而产生比尔定律的偏差。2) 杂散光。已经证明杂散光是引起比尔定律偏离的主要因素,因为吸收材料中包括许多粒子,所以这些粒子会使入射光散射,随着浓度的增加,这些散射光的强度将进一步增强,从而降低透射光的强度,并造成偏差。仪器本身的光学系统(光栅)会产生杂散光,从而降低分析测试的吸光度,进而产生偏差。
1.4 传输谱
虽然短波近红外区域的信息量和信息量远小于长波近红外区域,但是该光谱区域的一些关键器件(例如光源和探测器)相对便宜且容易获得,适合开发价格低廉的专用便携式仪器。因此,对这段光谱区域的研究和应用也成为热点。当吸收800 nm~1 100 nm 的短波近红外光时,样品的吸收相对较弱。近红外光可以直接穿透某些固定样品,以获取样品的深层信息。因此,一些固体样品也适用于短波近红外波段的透射分析,特别是苹果、梨等大尺寸样品。但也存在以下3 个问题:1) 只能测量光辐照的部分。2) 内部信息仅在果皮附近,难以获取深部信息。3) 内部漫反射光会受表面反射光的影响。因此,该技术对水果的测定仅限于对薄果皮的测定,例如桃、梨以及苹果等,而对果皮较厚的柑橘的测定会存在较大的误差。
2 试验
该试验分为破坏性试验和非破坏性试验。
2.1 准备
以陕西富士苹果为实验样本(10 个苹果,试验为每日测量)。实验前对每个苹果进行编号,在苹果赤道上均匀取10个圆作为采样点,并对采样点进行编号。
2.2 非破坏性试验
无损检测技术尚不成熟,该试验采用ATAGO 公司设计的无损测糖仪和实验室研制的测糖仪进行检测。ATAGO 开发的测糖仪是苹果专用测糖仪,不能用于其他水果,应用范围有限、检测误差大且售价较高。
实验室研制的测糖仪在理论上适用于大多数水果,应用潜力很大。但是仍需要进一步试验,并对试验数据进行分析。
试验步骤如下:1) 将苹果样品放置在实验室开发的测糖仪上,将采样点指向测糖仪的接收器,同时按下示波器和测糖仪的开关。将测得的扩散近红外吸收信号传输到计算机上显示,并记录数据供后续分析。2) 将苹果样品放在ATAGO探测器上,采样点对准ATAGO 探测器的接收器,连续监测5 次,并记录数据。3) 重复以上步骤,每个苹果记录10 个采样点的数据。
2.3 有损性试验
有损试验采用成熟的技术,将其作为真值,为有损数据提供对比和参考。该试验采用3 种有损探测器(ATAGO 公司的仪器(电子仪器)、陆恒生物公司的仪器(电子仪器)以及光学仪器。)进行测试,可以进一步提高实验数据的真实性和可靠性。
试验步骤如下:1) 在试验台上将苹果切开,在取样点2、5、8 和10 取果肉榨汁。2) 在3 个探测器上测试取样点2、5、8 和10 的果汁是否含糖,并记录数据,包括在2 个电子仪器上显示的温度。3) 重复以上步骤,每个苹果选取4个采样点记录相关数据。
3 建模
3.1 线性回归
3.1.1 线性回归原理
线性回归利用线性回归方程的最小二乘函数来模拟1个或多个自变量与因变量之间的关系。这个函数是1 个或多个模型参数的线性组合,称为回归系数。该试验选取多元线性回归进行建模和拟合[7]。在该试验中,给出变量y(破坏性实验测得的糖含量)和一些变量x1~x12(实验室研制的设备采集到的光电信号),这些变量可能与y有关,线性回归分析可以量化y与xj(j=1,2,3...,12)的相关性强度,评估与y无关的xj,识别xj的哪些子集包括关于y的冗余信息。
拟合的基本模型如公式(3)所示。
y=n1x1+n2x2+…+n12x12+b(3)
式中:nj为该拟合的主要目标参数xj的系数;b为常数项,即曲线截距。
3.1.2 数据集构造
该模型利用实际试验中获得的数据构建1 个数据集,该数据集分为训练集和测试集。
首先,将模型拟合到训练集上。在实践中,训练集通常是由1 个输入向量(标量)和1 个输出向量(标量)组成的数据对。输出向量(标量)称为目标或标量。其次,在训练过程中,利用当前模型对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较结果,学习算法更新模型的参数。模型拟合的过程包括特征选择和参数估计。最后,使用测试集为最终模型提供1 个相对精确的评价。在该建模过程中,使用2021 年1—3 月收集的实验数据。
1 月和2 月陕西苹果数据为第一组,3 月陕西苹果数据为第二组。将3 个月的陕西苹果数据合并为第三组,将1—3 月的其他苹果数据合并为第四组。每组的训练集与测试集的比率为1:1。
3.1.3 数据分析标准
均方根误差(RMSE)[8]是测量值之间差值的常用度量方法,其值通常是模型预测的量或观测到的估计量。均方根偏差表示预测值与观测值差的样本标准差。计算样本时通常将其称为预测误差。
均方根偏移量主要用来汇总预测中误差的大小,通常是在不同的时间,用1 个值来表示其预测能力。RMSE 的绝对值越小,模型误差越小。
统计上使用决定系数(表示为R2或r2)[9]来衡量自变量解释部分在因变量的变异量中所占的比例,从而判断回归模型中y与x的相关性。
R2的取值范围一般为0~1。该值越接近1,相关性越高,0.25 可以认为是相关的。
3.1.4 分析平台
建模可以通过安装scikit-klrearn、pandas、matplotlib、Numpy 以及seaborn 等Python 平台来完成。
3.2 拟合结果
拟合结果见表1。
表1 各组实验数据
3.3 分析结果
一般来说,当R2≥0.25 时,可以认为数据是相关的。从3 组数据的分析结果来看,除第四组数据外,该拟合得到的R2均大于0.25,可以判断数据是相关的。虽然目前还没有可靠的模型,但是仍然初步证实了红外光与苹果糖含量之间存在联系,为今后进一步试验探索奠定了基础。
R2降低的原因:1) 实验设备仍需要进行改进和升级。通过实验室自制设备选取的12 波长近红外光,根据建模结果推测,所选取的部分波长与果糖含量的相关性很小,因此会产生干扰。在未来的试验中,需要筛选近红外光波长,通过试验筛选出与果糖含量相关性较高的波长。2) 实验设备本身的工程结构也需要升级,例如还需要进一步对遮阳部分进行加工。3) 苹果类型的选择。该试验前三组实验样品品种均为陕西富士苹果,种类相对单一。因此,要使用品种差异较大的苹果,但由于品种间差异较大,因此第四组数据并不理想。在以后的试验中,还需要进一步探索试验样本的选择方法。
4 结论
近红外光谱技术已成为很有潜力的无损检测和监测水果品质的技术。该技术与化学计量学技术相结合,具有多种优点,可作为破坏性分析的替代方法。因此,通过该技术可以根据检测参数挑选水果。设备以果实的糖含量为检测指标,用近红外光在不同波长光源,在检测过程中,建立了定量的数学模型,利用多元线性回归方法分析了光谱数据的拟合和果实糖浓度,以判断果实品质。
该试验虽然未能构建成熟的模型,但是在一定程度上完成了基本的检测,提供了基本的判断指标,基本满足试验目标。通过试验和数据分析,初步验证了近红外光检测果糖的可行性,并证明了近红外光光谱与果糖浓度之间的相关性。通过该试验,在一定程度上可以帮助科学家改进检测设备,例如提高精度、减轻重量,从而实现面向消费者的、轻便的检测设备。但是,该试验也暴露了一些问题:1) 试验数据容易受到试验条件的影响(例如室内光线),即使是同一品种的苹果,其品质也不同,这意味有太多的变量会影响试验中的数据结果,不仅影响试验数据的收集,而且也会给分析造成了很大的障碍。2) 需要进一步升级检测设备。该试验对光电信号采集环境的要求较高。因此,提高光电采集过程中器件的紧密度是该试验的重要内容。