不同产地稻米的二维相关近红外光谱鉴别
2023-11-26戴元丰代作晓郭光智王迎超
戴元丰,代作晓,郭光智,王迎超
(1 中国科学院上海技术物理研究所 上海200083 2 太仓光电技术研究所 江苏苏州215411 3 中国科学院大学 北京 100049)
中国是世界上主要的水稻生产国之一,全国稻米种植区域广、种类多,土壤、环境和水质等差异形成地域因素会导致稻米的品质发生变化[1]。具有鲜明地理标识的稻米产品因特有的口感和营养价值,进而具有更高的商业价值[2]。在这种条件下,一些商家为了谋取更高的利益,用相近产地的稻米代替地域品牌稻米,严重侵犯了消费者的利益[3]。正确鉴别稻米产地有重要意义。
目前,感官评价、形态性状指数、杂交亲和性鉴定、同工酶基因定量、DNA 分子标记、氯酸钾耐受性、运动细胞硅体形态性状、双峰结节鉴定等传统方法常用于水稻品种分类[4-8]。这些传统方法均需要一定的软、硬件条件支撑,操作繁琐,耗时费力。光谱法为一种快速无损鉴别的手段,在食品科学领域得到越来越广泛的应用[9]。近红外光(NIR)是介于可见光(Vis)与中红外(MIR)之间的电磁辐射波,它可以反映有机分子中含氢基团X-H(例如:X 可以为C,O,N 等)振动的各级倍频和合频的吸收情况[10]。高地[11]使用近红外光谱技术结合偏最小二乘判别分析(PLS-DA)建立模型,对松原地区5 种稻米进行分类判别。钱丽丽等[12]使用近红外光谱技术,利用因子化法建立的定性分析模型及聚类分析模型对建三江稻米及五常稻米进行判别分析。林莹[13]利用近红外光谱技术对辉南县火山岩稻米的真实性进行聚类分析。然而,上述应用大多是将样品磨粉处理后再进行光谱分析,且需要复杂的建模过程,无法满足无损、在线检测的需求。
广义二维相关光谱由Noda 于1993 年提出,已经成为一种强大而通用的工具,用于解释由外部扰动(如时间、温度、压力、浓度和成分)引起的细微光谱变化[14-15]。因在针对复杂生物体系检测上的优势,二维相关光谱在食品分析领域也得到广泛的应用。Zhang等[16]采用二维红外相关光谱分析不同含糖量红酒的主要成分和不同厂家干红葡萄酒的挥发性残渣,实现了对不同红酒的鉴别。Sohng等[17]提出一种以温度变化为外扰二维相关近红外光谱分析策略,对掺假橄榄油进行分析,提高了鉴别的准确性。杨仁杰等[18]以牛奶中掺杂物的浓度为外扰,提出一种基于欧式距离的二维相关红外谱判别方法,实现了对掺假牛奶的鉴别。
目前,针对稻米产地鉴别的二维相关光谱的研究很少。本文提出一种基于欧氏距离的二维相关近红外光谱判别方法,以温度作为外扰,针对5个产地的稻米样品进行鉴别。通过建立不同类别样品的标准二维相关图谱,将待测样品的二维相关图谱分别与标准图谱求取欧氏距离,依据距离最小归属一类的判别准则,实现对稻米产地的无损、快速鉴别。
1 材料与方法
1.1 样品与仪器
为了更好地评判鉴别方法的有效性,在样品选择上选取了5 个产地的粳米样品,分别来自黑龙江省、吉林省、宁夏回族自治区、上海市以及江苏省。每类样品各10 份,每份质量为15 g,放置于深10 mm 的样品池中。样品光谱采集在室温下(18.0±1)℃进行,环境相对湿度约为22%±2%。稻米样品的具体信息如表1 所示。
表1 稻米样品信息Table 1 Details of rice samples
光谱采集使用德国INSION 公司的NIR NT/H 微型光谱仪,光谱采集区间为906~1 859 nm,分辨率为8 nm。采用漫反射采集方式,配备Y 型光纤,光源选用闻奕光电的HL3000 卤素灯光源。使用恒温加热平台对样品池进行温度控制,在30~60 ℃之间每隔5 ℃采集动态近红外光谱。光谱采集时探头距离样品表面约3.5 cm,在该距离下经过测试可以得到重复性较好的光谱曲线。设置积分时间为500 ms,经过16 次采集取平均值获得一条光谱数据。
1.2 二维相关近红外光谱
动态近红外光谱是指样品因外扰作用而处于不同状态时的光谱减去某一参考光谱之后的结果,动态光谱y(v,t)可以表示为:
式中,x(v,t)为样品在外扰为t 时变量v 处的光谱强度,而x(v)则为整个外扰过程所得到的样品光谱中变量v 处的光谱强度平均值[19]。
同步相关光谱代表两个变量v1、v2处光谱强度随外扰而产生变化的相似性[20]。二维相关近红外同步谱可以表示为:
式中,Φ(v1,v2)为(v1,v2)处相关强度,A 为动态光谱矩阵,m 为矩阵行数,在本文中m=7。
同步相关谱对角线上的峰称为自动锋,其强度代表了该变量处光谱强度的变化程度[21]。非对角线上的峰称为交叉峰,峰值有正负之分,代表了在外扰作用下两个变量处光谱强度的变化是正相关还是负相关[22]。
1.3 判别方法
首先对样品进行划分,每类稻米随机选择6份作为校正集,而剩余4 份样品作为预测集。经过光谱采集和二维相关计算得到各样品的二维相关谱后,求取校正集样品二维谱的平均值作为该种类稻米的标准二维相关谱。预测集各个样品的二维相关谱分别与5 个求得的标准二维相关谱求取欧式距离,将预测集样品归入与其距离最小的标准谱对应的稻米类别。具体计算公式如下:
式中,A、B 分别为要求取欧氏距离的两个目标矩阵,aij与bij分别为两个矩阵的元素,最终可以得到两个矩阵的欧式距离D(A,B)。
2 结果与分析
2.1 同步二维相关近红外谱
仪器在完成背景测量和标准漫反射白板参考光谱测量后,可以采集到样品的漫反射吸收谱。在不同温度下采集到的同一样品的光谱曲线会发生变化,经过基线校正后,某样品的7 条在不同温度条件下的光谱如图1 所示,光谱已经进行了基线校正预处理。随着温度的不断升高,光谱在整体趋势上呈现下降的趋势,这一点在峰值位置尤其明显。这是由于稻米所含化学物质受到温度外扰所引起的图谱变化。以平均光谱作为参考光谱,可以得到如图2 所示的动态光谱。从动态光谱中可以更加清晰地看出在1 205,1 405,1 650 nm 附近处的下降趋势尤其明显。根据相关研究报道,近红外光谱在1 205 nm 附近的吸收峰是由于-CH3的-CH 键二级倍频振动造成的,而1 405 nm 附近的吸收峰与直链淀粉分子中O-H 基团的反对称和对称振动的一级倍频有关[23-24]。
图2 动态光谱示例Fig.2 Examples of dynamic spectra
使用Matlab 进行相关计算,对校正集样品的二维相关谱求取平均后,图3a~3e 分别为以等高线形式展现的5 种样品的标准二维相关谱,颜色越深代表数值越小,颜色越明亮代表数值越大。从图中可以看出,不同类别的同步二维相关谱十分相似,副对角线上自动峰的位置也与一维光谱中峰值的位置对应,并且可以通过交叉峰来看出不同峰值间受温度外扰影响下变化的关联性,可以得到更多一维光谱中无法获得的有用信息。图3b、3c、3e 在(1 405,1 650)及其沿着副对角线对称位置附近皆可以观察到明显的交叉峰存在,而其余两种样品的标准二维相关谱在该位置的交叉峰并不明显,说明不同样品虽然整体类似,但其内部物质含量仍存在细微差别,在受到外扰影响后得以更好地体现。
图3 不同类别样品的标准二维相关谱Fig.3 Standard two-dimensional correlation spectra of different types of samples
2.2 判别结果
分别计算了测试集中各个样品的二维相关近红外谱与5 种样品各自的标准二维相关谱之间的欧氏距离,并且根据距离最小值进行了类别归属的判断,表2 展示了具体的结果。从表中可以看出,整体上除了样品2-2 被误分类至类别5 之外,其余所有测试集样品皆被正确分类,整体判别准确率为95%。值得注意的是,除了同类样品之外,所有其余待测样品与第3 类样品的标准二维相关谱的欧式距离都是最大的,说明第3 类样品与其余所有样品的差异最大。通过表1 可以看出,第3类样品产地为宁夏回族自治区,其气候与地质条件与其余4 处差别最大。针对样品2-2,其与各个标准相关谱的距离与同类别的其它测试集样品存在较大差异,而且并没有像其它样品一样显现出与第3 类样品的显著差异。通过回溯试验记录,发现在进行该样品光谱采集时升温阶段的等待间隔存在较大误差,在动态光谱采集过程中导致样品的温度没有均匀上升,从而无法得到标准的二维相关光谱,最终造成误判。
表2 判别结果Table 2 Discrimination results
为了更好地体现每种样品的判别效果,定义一个区分度参数:
式中,di为第i 个测试集样品与同类别标准二维相关谱的欧氏距离,d'min代表该样品与其余类别的标准二维相关谱欧氏距离中的最小值,disi则为第i 个测试集样品的区分度参数,该参数数值越大,代表此样品的区分度越高。
按照公式(4)来计算每类测试集样品的区分度,以整体评判该判别方式对各类别样品的整体判别效果。为了避免因为不良样品所造成的影响,在此环节去除掉样品2-2 的结果。经过计算,5 类样品的平均区分度参数分别为:0.31521,1.25654,2.3535,0.15369,0.4547。由此可以看出,该判别方式对第3 类样品的区分度最高,其次则是第2 类样品,这两种样品的平均区分度参数均大于1。其余3 种样品的平均区分度较低,尤其是第4 类样品的区分度最差。
2.3 其它常用判别方法比较
采用了其它两种常用建模方法进行了判别尝试。在同样的样品集划分情况下,对30 ℃和60 ℃条线下采集的样品光谱进行偏最小二乘判别分析和支持向量机分类尝试。偏最小二乘判别分析(PLS-DA)是一种线性分类方法,它结合了PLS 回归的特性和分类技术的鉴别能力[25]。它可以减少变量间多重共线性的影响,提高模型的判别性能[26]。支持向量机(SVM)是一种监督学习算法,用于解决模式识别中的数据分类问题。它能解决高维问题,具有泛化误差小、易于解释、计算复杂度低等优点[27]。当低维输入空间中的线性边界不足以区分两类时,SVM 算法在高维空间中建立一个超平面或一系列超平面进行分类[28]。本研究选取线性核函数作为支持向量机的核函数,采用网格搜索法确定参数C 为7 742.645。
混淆矩阵可以直观地显示分类结果。矩阵的行和列分别代表试验类和预测类,矩阵的元素mij是属于i 类且被分类为j 类的样本数。因此,对角线元素表示正确分类的样本数,而其它元素则为被错误分类的样本数[29]。
具体的分类结果如图4 所示,其中(a)、(b)分别为30,60 ℃时PLS-DA 模型的判别结果,在2种温度条件下的一维光谱数据构造的模型判别准确率皆为75%,明显低于二维相关判别方法得到的结果。该判别方法可以比较好地区分1、2 两类样品,但对于其余类别样品的判别效果不佳。图4c、4d 为30,60 ℃时SVM 模型的判别结果,准确率分别为70%和65%,不能对第1 类样品外的其余样品进行很好地区分。
图4 PLS-DA 和SVM 模型的分类结果Fig.4 Discrimination results of PLS-DA and SVM models
3 结论
本文针对不同产地的稻米样品无损鉴别问题,借助二维相关近红外光谱的技术开展了研究。对待测样品进行类别和数据集划分后,进行了二维相关分析,并提出了一种通过设定标准二维相关谱的新方法,依据欧氏距离最近归属同类的准则,对测试集样品进行了判别分析。最终得到的结果显示,该方法可以达到95%的整体判别准确率,并且针对第2、3 类样品的判别效果尤其突出。为了更好地比较二维相关方法和常用的化学计量分析方法的判别效果,还使用PLS-DA 和SVM 两种策略进行了尝试。经过实际测试,两种判别方法在同样的数据条件下,正确率最高也仅为75%,明显低于二维相关方法。因此,使用二维相关近红外光谱进行稻米样品的无损判别是一种有效的手段,它在不损伤样品的情况下可以进行准确的判别分析,而且不需要复杂的建模过程,能够为稻米的在线检测提供参考。