基于高光谱技术的有机鸡蛋与普通鸡蛋鉴别

2022-04-06马羚凯祝诗平苗宇杰蒋友列卓佳鑫

光谱学与光谱分析 2022年4期

马羚凯，祝诗平，苗宇杰，魏枭，李松，蒋友列，卓佳鑫

西南大学工程技术学院，重庆 400716

引言

当前全球有机食品行业飞速发展，消费者对有机食品的需求量与日俱增[1]。考虑到食品质量安全等问题，人们更愿意去购买有机食品。我国作为农业大国，有机农业虽处于规范快速发展阶段[2]，但随着人们开始更加重视食品安全问题以及国家对于有机食品管理与认证相关政策出台，中国有机食品消费量将会得到显著提高。有机食品种类繁多，包括有机蔬菜、有机鸡蛋等。其中有机鸡蛋的生产对环境、饲料、蛋鸡福利等提出了更高的要求[3-4]，相比于普通饲料养殖生产的鸡蛋，有机鸡蛋由于生产条件严格苛刻价格也更高，部分不法商贩以普通鸡蛋冒充有机鸡蛋以谋取暴利。因此，迫切需要一种稳定可靠的方法对市面上存在的有机鸡蛋与普通鸡蛋进行鉴别。目前，市场上针对有机鸡蛋与普通鸡蛋的鉴别方法主要是通过感官观察鸡蛋的大小和颜色，或者通过破坏蛋壳后观察鸡蛋内部蛋壳和蛋清。由于鸡蛋蛋壳颜色受生产季节、饲料营养、动物疾病等多方面影响[5]，所以通过鸡蛋外观进行鉴别准确率并不可靠。有研究通过破坏性检测的方法发现，与普通鸡蛋相比有机鸡蛋在蛋黄比例、蛋黄色泽和哈氏单位上有更好的质量。 Giannenas, Borges等[6-7]研究指出有机鸡蛋与普通鸡蛋中一些宏观或微量元素存在差异，并建立了鉴别模型。 Bologa等[8]对有机鸡蛋和普通鸡蛋的重金属含量进行分析，得出结论有机鸡蛋的重金属含量低于普通鸡蛋，同时蛋清中的重金属含量也低于蛋黄。 Rogers等[9]指出通过稳定同位素对有机鸡蛋和普通鸡蛋鉴别的有效性，并给出了荷兰与新西兰的有机鸡蛋的稳定氮同位素最小百分比标准以评估其真实性。 Ruth[10]等通过分析类胡萝卜素对笼养鸡蛋、散养鸡蛋、有机蛋的识别正确率分别达到84%，100%和100%。 Ackermann等[11]指出饲料对鸡蛋蛋黄脂肪含量影响较大，通过核磁共振光谱建立有机鸡蛋和普通鸡蛋鉴别模型，对有机鸡蛋的正确鉴别率约93%。 Puertas等[12]提取了有机鸡蛋和普通鸡蛋的蛋黄脂质，通过对UV-VIS-NIR光谱数据进行QDA判别分析，鉴别的准确率达到100%。上述研究均是通过破坏鸡蛋样本提取内部物质进行分析，对于如何无损鉴别有机鸡蛋的相关研究较少。

高光谱成像作为一种无损鉴别技术已广泛运用于地质矿产、水质监测、农业研究、植被覆盖等领域，其具有将样本的光谱信息与空间信息相结合的优点，在对农产品内部品质检测等方面已经有许多的应用。 Mahesh等[13]对高光谱技术用于农产品分类和品质评估等方面的运用进行了评价，指出其存在的局限性。 Zhang[14]和潘庆磊[15]等运用高光谱技术对早期鸡蛋新鲜度、内部气泡、蛋黄形态等进行了无损检测。通过文献分析可知，有机鸡蛋在维生素、矿物质含量等内部成分上均有别于普通鸡蛋，两者在透射光谱值响应上会存在差别。通过高光谱技术有可能实现有机鸡蛋与普通鸡蛋的无损鉴别，本研究通过高光谱成像技术建立有机鸡蛋与普通鸡蛋的无损鉴别模型。

1 实验部分

1.1 试验材料

有机鸡蛋分别购于重庆市万源禽蛋食品有限公司、池州市长山生态农业旅游开发有限公司、青阳县森泉农业发展有限公司、芜湖市菩提树商贸有限公司、安徽省景湖农业股份有限公司各120枚，以上公司均持有有效期内的有机产品认证证书。分别从本地各农贸市场、超市等五个不同摊位各购买120枚普通鸡蛋，共购得有机鸡蛋和普通鸡蛋各600枚。用清水擦洗鸡蛋表面污渍并晾干后将鸡蛋样品放置于卤素灯光源上观察，剔除因运输导致表面出现裂纹或表面具有顽固性残留物质的鸡蛋样品，存放至生产日期后第五天进行高光谱数据采集。最终从各个品牌或来源的鸡蛋样本中各随机取出100枚完整鸡蛋，共1 000枚鸡蛋完成数据采集。

1.2 高光谱成像系统

高光谱成像系统的实物图与架构图分别如图1(a)和(b)所示。主要硬件包括由高光谱相机(Raptor EM285CL)、光谱仪(Imspector V10E，测量波长范围364～1 025 nm，光谱分辨率2.8 nm)、可变焦镜头、150 W卤素可调灯光源、线性光导管、步进马达移动平台和计算机等，除计算机外整套装置放置在黑箱内。安装在计算机上的主要软件包括由五铃光学提供的图像采集软件Spctral-image，图像分析软件HIS Analyzer。

图1 实验室高光谱系统(a)：系统实物图；(b)：系统架构图Fig.1 Hyperspectral system in laboratory(a)： Physical image of system； (b)： Architecture drawing of system

1.3 数据采集与校正

由于鸡蛋具有良好的光透性，且为获取鸡蛋内部物质的光谱信息，试验采用透射的架构对样本进行成像。为保证所采集的数据具有代表性，所有鸡蛋样品均在相同的条件下横向放置进行成像。经预试验，最终确定高光谱成像系统相机曝光时间为48 ms，镜头到样本的工作距离为0.34 m，移动平台速度为1.12 mm·sec-1，所有鸡蛋样品采集正反不同两面的数据，共测得2 000个高光谱数据。在图像分析软件HISAnalyzer中分别对每个鸡蛋的高光谱图像数据进行黑白板校正，校正公式如式(1)

(1)

式(1)中，R为校正后的透射率图像，R0为原始高光谱图像，RD为盖上镜头得到的黑板图像，RW为使光源完全不受遮挡进入镜头得到的白板图像。黑白校正用来消除相机暗电流的影响，同时将原始高光谱图像的光谱值转换为透射率。

1.4 数据处理

使用ENVI 5.3软件对采集到的鸡蛋高光谱数据进行初步处理。图2(a)为采用鸡蛋高光谱数据中651，550和449 nm三个波段合成的RGB真彩色图像。因为横向放置的鸡蛋蛋黄总是飘浮在蛋清上方且集中在鸡蛋短轴与长轴的交点处，为了分别研究鸡蛋蛋清区域与蛋黄区域的高光谱数据对鸡蛋类别鉴别的影响，对图像进行线性拉伸变换，如图2(b)所示。根据线性拉伸的图像人工手动分别在沿鸡蛋长轴方向上的蛋清和蛋黄区域内选取出28×28大小像素点的ROI (region of interest) 区域，如图2(c)红色方块区域所示。将选取出的ROI区域数据导入到MATLAB 2019b中进行均值化处理，得到所有鸡蛋样本蛋清与蛋黄的ROI区域两组高光谱数据。

图2 样本高光谱成像图(a)：原始高光谱图像；(b)：线性拉伸后的图像； (c)：选取的感兴趣区域Fig.2 Hyperspectral image of sample(a)： Raw hyperspectral image；(b)： Linear stretched image； (c)： The selected region of interest

1.5 分类模型

1.5.1 偏最小二乘判别分析

偏最小二乘判别分析(partial least squares discriminant analysis, PLS-DA)是一种结合了化学计量学中最常用的多元线性回归(multiple linear regression, MLR)与主成分分析(principal components analyse, PCA)用于定性分析的方法[16]，有效地避免了光谱变量之间因为存在的多重共线性而导致求得的回归系数不稳定的问题。通过对光谱自变量和因变量数据矩阵进行PCA变换，将原始光谱数据中大量信息集中在前几个主成分中，并且各个主成分之间相互独立，既解决了多重共线性问题又消除了原始数据中大量噪音信息。

1.5.2 支持向量机

支持向量机(support vector machine, SVM)是一种有监督式的模式识别方法。将原始光谱数据映射到一个高维特征空间，构建一个最佳分类超平面，使各类样本的支持向量到此超平面的距离最大化。 SVM可以用于线性和非线性的多元分析问题，采用线性方程组代替二次规划求解出支持向量。通过选择合适的核函数，在实现非线性映射的同时保证建模的速度和效率[17]，本试验采用径向基核函数(radial basis function, RBF)。

1.6 降维算法

高光谱数据往往具有上百甚至上千个波长点，在提供关于样品丰富信息的同时也给计算机存储、传输和数据处理带来了难题[18]。从高光谱数据中提取出其光谱维信息来建模时，如果使用全波段光谱信息建立模型，会因为数据中存在的无信息变量而给模型带来各种负面影响[19]。通过降维算法从全波长范围内挑选出对分类结果更有意义的波长变量，消除冗余波长，既能提升模型的预测准确率和建模计算效率，也可以减弱模型过拟合，提升模型的泛化能力。

1.6.1 连续投影算法

连续投影算法(successive projections algorithm, SPA)是用于多元校正分析中关于变量选择的前向选择算法，可以在向量空间中使用简单的操作来最小化变量之间的共线性[20]。从全波段的光谱数据中选择出一个波段子集，不仅可以用来降低数据维度，有效缩短建模所需时间和复杂度，而且通过对波段数据的筛选，同时还可能去除大量噪声波段和冗余信息，从而使模型鉴别准确率上升。

1.6.2 竞争性自适应重加权算法

竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)已在多元校正模型中广泛采用[22]。 CARS基于回归系数的绝对值越大则变量越重要的原理，将蒙特卡罗采样技术运用于样本空间，建立大量子模型，保证了用于建模的随机选取的样本数量严格相同。每次迭代中，通过指数递减函数(exponentially decreasing function, EDF)和自适应重加权采样(adaptive reweighted sampling, ARS)去除回归系数均值较小的变量实现降维目的。

2 结果与讨论

2.1 样本透射光谱曲线

图3(a)和(b)分别是样本在蛋清与蛋黄的ROI的高光谱透射率曲线。可以看到有机鸡蛋和普通鸡蛋有相似的曲线形状，难以通过光谱曲线直接区分样本。图3(c)和(d)分别是样本的蛋清和蛋黄ROI区域像素点在364～1 025 nm波长范围内的平均透射率光谱曲线。可以看出，蛋黄区域的平均透射率值低于蛋清区域，且在多数波段处，有机鸡蛋的平均透射率值低于普通鸡蛋。在蛋清区域的495～921 nm和蛋黄区域的510～939 nm波长范围内样本有透射光谱响应，在光谱曲线的两端，两种类别鸡蛋的平均透射光谱响应值均较弱，因此认为在这些波长并不能对鉴别提供有用信息。本试验采用蛋清区域的495～921 nm和蛋黄区域的510～939 nm波长范围数据作为原始数据分别进行建模分析。

2.2 基于高光谱数据的鉴别模型建立

从各个品牌鸡蛋中随机取50枚鸡蛋的光谱数据和标签数据作为训练集，剩下50枚鸡蛋相应的数据作为预测集，分别以鸡蛋样本蛋清与蛋黄ROI区域的平均原始高光谱数据作为模型输入变量，根据模型输出，当且仅当来自同一样品鸡蛋的数据具有相同输出值时，才判定鉴定结果正确。结果如表1所示。在建立PLSDA模型之前对输入光谱数据进行标准化处理，对蛋清区域数据的PLS-DA建模，模型训练集的准确率为99.2%，在预测集的准确率为92.4%。对蛋黄区域数据的PLS-DA建模，模型训练集的准确率为98.4%，预测集的准确率为92.6%。通过对输入的光谱数据进行归一化操作后建立SVM鉴别模型，采用RBF核函数，SVM模型的惩罚系数c与gamma系数采用交叉验证和网格搜索的方式进行优化设置。从表1可以看到，对蛋清区域数据的SVM建模，最优惩罚系数c为212，gamma系数为2-3，模型在训练集的准确率为100%，预测集的准确率为93.8%。对蛋黄区域数据的SVM建模，最优惩罚系数为222，gamma系数为2-12，模型训练集的准确率为97.8%，预测集的准确率为93.6%。可以看到PLS-DA与SVM模型在预测集的表现相近，后续试验对蛋黄区域数据做进一步分析。

图4(a)为样本蛋黄数据通过50次蒙特卡罗采样(monte carlo sampling, MC)依次降低光谱数据的波段数目曲线，图4(b)显示了随着参与建模的波段数目减少，采用留一法(leave-one-out, LOO)PLS模型的交叉验证误差变化曲线。可以看到随着参与建模的波段数目减少，PLS模型的交叉验证均方根误差(root mean square error of crossvalidation, RMSECV) 在开始时有缓慢减小的趋势，说明数据中存在大量冗余信息，剔除它们不仅没有降低模型准确率，而且可以大量减少高光谱数据量。当采样次数从17次开始，以后每次采样后建模，模型在训练集的RMSECV逐步上升，说明携带有对模型预测准确率有用的信息的波段被剔除，降低了建模准确率。此现象说明了对数据中存在大量冗余信息，可以对数据进行降维处理。

分别使用SPA和CARS对蛋黄区域数据进行降维，降维结果如图5所示，在随机选取的某个样本光谱曲线上标记出了两种降维算法计算后得到的波长。其中SPA共选择出23个波长，在图中以方块标记。 CARS共选择出44个波长，在图中以小叉标记。使用降维后的数据建立鉴别模型，结果如表2所示。可以看到，使用SPA选出的23个波长建立的SVM鉴别模型在预测集的准确率达到最高的94.2%。使用CARS选出的44个波长建立的PLS-DA鉴别模型较使用原始数据建立的对应模型的准确率有所提高，但建立的SVM模型的鉴别准确率却有所降低。 SPA不仅比CARS更有效地将样本原始蛋黄区域数据降维到仅含23个波长点的信息，同时也使SVM模型的准确率稍有上升。相较于用原始数据建模的结果，两种降维方法对数据进行降维后再建模虽并没有对模型的预测性能有很大的提升，但是对数据中存在的大量冗余信息进行了筛除，符合图4(b)中曲线。

图3 所有样本在不同ROI中的光谱曲线与平均光谱曲线(a)：所有样本的蛋清ROI的光谱曲线；(b)：所有样本的蛋黄ROI的光谱曲线； (c)：所有样本的蛋清ROI的平均光谱曲线；(d)：所有样本的蛋黄ROI的平均光谱曲线Fig.3 The spectral curves and average spectral curves of all samples in different ROI(a)： The spectral curves of all samples in albumen ROI；(b)： The spectral curves of all samples in yolk ROI； (c)： The average spectral curves of all samples in albumen ROI；(d)： The average spectral curves of all samples in yolk ROI

表1 不同ROI区域的原始高光谱数据构建的模型的鸡蛋类别的鉴别结果Table 1 The identification results of category of eggs using original hyperspectral data of different ROI

3 结论

(1)通过采集五个品牌有机鸡蛋和五种不同来源的普通鸡蛋的高光谱透射数据，提取鸡蛋蛋清区域和蛋黄区域的光谱曲线，构建了基于高光谱技术的有机鸡蛋和普通鸡蛋的无损鉴别模型。其中使用蛋黄区域510～939 nm的高光谱数据建立的PLS-DA和SVM模型的鉴别准确率均与使用蛋清区域495～921 nm的高光谱数据建立的模型的鉴别准确率相近，此后采用蛋黄区域数据进一步分析。通过SPA和CARS

图4 参与建模的波段数量对模型准确率的影响(a)：波段数目变化趋势；(b)：模型RMSECV变化趋势Fig.4 The effect of the number of bands used in modeling on model accuracy(a)： The changing trend of number of bands；(b)： The changing trend of RMSECV of model

图5 分别通过SPA和CARS选取出的波段Fig.5 The selected bands through SPAand CARS respectively

对蛋黄区域数据降维后建模，其中SPA-SVM鉴别模型的鉴别准确率达到最高的94.2%。结果表明使用高光谱技术对有机鸡蛋和普通鸡蛋的鉴别具有可行性，同时通过获取特定的波长信息建模可以有效地节省数据存储和处理时间。

(2)实验使用的高光谱数据对有机鸡蛋和普通鸡蛋的鉴别虽有一定的效果，但是仅采用了五个品牌的有机鸡蛋和五个不同地点购买的普通鸡蛋，可能会导致模型仅对在试验所用的几个品牌的鸡蛋有较好的鉴别拟合效果。后期实验拟增加鸡蛋来源渠道，从国内外的有机厂商购入各种品牌的有机鸡蛋或普通鸡蛋，提升模型的泛化能力。

表2 降维后的蛋黄ROI区域数据构建的鸡蛋样本类别模型的鉴别结果Table 2 The identification results of category of eggs usingdimension hyperspectral data in yolk ROI

(3)为探究蛋鸡的饲养地域和品种对实验结果的影响，试验最开始采用了产于重庆市万源禽蛋食品有限公司的有机鸡蛋与普通鸡蛋。两者均产自重庆市合川区，产蛋蛋鸡品种均为罗曼白鸡。通过PLS-DA多次对数据建模发现鉴别的平均准确率约为98%。试验结果说明同地域、同品种的蛋鸡在不同饲养系统下产下的鸡蛋其内部成分确实有差异。后期在模型中加入其他地域、品种蛋鸡产下的有机鸡蛋与普通鸡蛋后鉴别准确率虽有所下降，但依旧令人满意。由于基因上的不同，蛋鸡的品种应是影响试验鉴别目的可靠性的关键因素。因此后续实验拟加入多品种蛋鸡产下的鸡蛋，观察模型鉴别效果、进而提升模型在不同地域、不同蛋鸡品种、不同饲料等变量影响下的泛化能力。