反射光谱结合光谱基二维卷积回归网络快速检测食用油中饱和脂肪酸

2022-05-05翁士状储昭结王满琴

光谱学与光谱分析 2022年5期

翁士状，储昭结，王满琴，王年

安徽大学，农业生态大数据分析与应用技术国家地方联合工程研究中心，安徽合肥 230601

引言

食用植物油富含脂肪酸及维生素E、矿物质、类胡萝卜素等多种营养物质，是人体能量和营养需要的重要来源[1]。当食用植物油中的饱和脂肪酸摄入过多时，人体就会增加患胆固醇高和心血管疾病的风险。通过检测不同食用植物油中不同饱和脂肪酸含量的参考值，不仅可以用于对食用植物油的分类，还可以确定其变质程度和评定其氧化程度。因此，测定出食用油中饱和脂肪酸含量对保障人们身体健康和食品安全具有重要意义[2]。

目前，理化分析与图谱检测等方法常应用于食用油掺假、分类、新鲜度、品质及成分分析等应用中[3-4]。在理化分析方面，气相色谱-质谱分析法(GC-MS)被用于测定食用油中6种甘油单酸酯标记物的含量，用于区分用过的食用油和新鲜的食用油[1]。荧光光谱用于鉴定掺假植物食用油，可在2 min内检测出大豆油中0.4%精制掺假油[5]。理化分析方法准确度高，但其操作过程中检测指标较多，不适用于快速分析。相较于理化分析方法，红外光谱、拉曼光谱和反射率光谱等图谱类方法可以做到快速且不破坏样品，便于进行无损检测。中红外光谱被用于测定亚麻籽油与菜籽油、芝麻油和葵花籽油掺假，准确度最高可达到99.0%，预测误差为1.3%～2.5%[6]。红外光谱分析样品时，样品前处理需要专业人员，不好操控。 Kwofie, Lavine等使用拉曼光谱技术对15种不同食用油分类准确率为95%[7]。拉曼光谱技术可提供快速、简单、可重复且无损伤的定性定量分析，但存在灵敏度不高、需要特定波长的激光光源和精度低等问题。反射率光谱主要是通过测量样本的光谱特性计算其物理结构或化学属性来实现定量检测或定性识别。反射光谱具有波长范围宽、操作简单、扫描时间短、无需独立光源和仪器便携式等特点。反射率光谱分析带壳花生中总油脂和脂肪酸的含量，对总油脂和脂肪酸预测决定系数R2值达到0.99[8]。在预测两种山茶籽中油脂和水分含量时，其中对油脂的预测模型R2分别为0.98和0.95，对水分的预测模型R2分别为0.92和0.89[9]。反射率光谱分析样品时其设备方便小型便捷，样本处理简单，因此采用反射光谱技术对食用油脂肪酸进行分析。

利用机器学习方法实现反射率光谱的智能化、自动化分析，可以使对食用油中脂肪酸的检测更快速、便捷。判别分析和主成分分析结合偏最小二乘回归(PLSR)对油品的GC-MS谱进行分析，实现对芝麻油品掺假的判别准确率为97.27%～100%[10]。应用PLSR对不同品牌不同种类食用油的中红外光谱数据进行掺假辨别，其准确度最高可以达到99.0%，误差在1.3%～2.5%之间[5]。在对油品监测分析方面，传统机器学习快速简单，对于小数据量、简单的关系很有效，但在对大数据训练样本时难以很好地表达高度复杂的数据信息。区别于传统机器学习，深度学习网络可以从大数据中自动提取特征，从而提高模型的性能。在基于卷积神经网络(CNN)的光谱分析中，将猪肉的中红外光谱数据集和大肠杆菌的拉曼光谱数据集可视化且基于类激活映射卷积神经网络，平均准确率可达98.83%和100%[11]。 Laarhoven等利用一维CNN对啤酒、药片、葡萄酒、咖啡、橄榄油以及果汁的红外和拉曼光谱数据进行分类预测，其平均准确率为96%[12]。同样，在将时间序列心电图数据输入CNN时，平均F1-score为78.2%。一维CNN的处理分析往往难以挖掘光谱数据的深度特征信息。为获得更精确的分析结果，设计一个合理的能够充分挖掘光谱中信息的卷积回归网络是非常必要的。

本研究利用面向反射率光谱的光谱基二维卷积回归网络实现了食用油中饱和脂肪酸的测定。本研究的目的： (1)探索使用反射率光谱检测油品中饱和脂肪酸的可行性； (2)评价中心化(CEN)、多元散射校正(MSC)、标准正态变量变换(SNV)及标准化(STA)等算法对光谱数据的去噪性能； (3)构建一种新型的基于光谱的二维卷积回归网络(S2DCRN)用于脂肪酸分析，并与全卷积网络(FCN)、偏最小二乘回归(PLSR)、支持向量回归(SVR)及随机森林(RF)比较； (4)利用序列前向选择(SFS)、随机蛙跳(RFrog)及遗传算法(GA)选取重要波长，构建简易、稳健的反射率光谱分析模型； (5)探索S2DCRN模型在多种脂肪酸分析中的通用性。

1 实验部分

1.1 样本

13种不同品牌的玉米油、 13种不同品牌的菜籽油、 13种不同品牌的芝麻油、 13种不同品牌的橄榄油、 15种不同品牌的花生油、 15种不同品牌的大豆油及11种不同品牌的葵花籽油均购于合肥大润发超市。每个油品取4份样分别置于玻璃烧杯中，每份25 mL，共获得372个样本。

1.2 光谱数据采集

光谱范围为350～2 500 nm的反射率光谱用PSR-3500便携式地物光谱仪(Spectral Evolutions, Lawrence, MA, USA)测量，其光谱分辨率为1 nm，测量环境如图1所示。数据采集时，每个样本测量5个反射光谱数据，每测量一次移动一次位置。首先，将光纤探头垂直对准标准白板并保持距离2 cm进行仪器校准，再依次将样本置于采集台，保持油样上表面与光纤探头垂直距离2 cm。由于反射光谱受光照和系统物理结构差异等因素的影响，用白板校准消除或最小化这些影响。校准公式如式(1)

图1 食用油的反射率光谱采集平台

(1)

式(1)中，ρ(λ)为被测物体的反射率；ρS(λ)为标准白板的反射率；，V(λ)和VS(λ)分别为测量物体和标准白板的仪器测量值。

1.3 饱和脂肪酸参考含量检测

气相色谱质谱联用仪(GCMS-QP2010, Shimadzu, Japan)使用DB-5MS型毛细管柱(30 m×0.25 mm×0.25 μm)，氦气(99.99%)为载气，设置恒定流速为1 mL·min-1。柱箱温度从60 ℃以15 ℃·min-1速度升至215 ℃，再以10 ℃·min-1的速度升至250 ℃，然后以2 ℃·min-1的速度升至260 ℃，最后以5 ℃·min-1的速度升至280 ℃并保持2 min。进样口温度为250 ℃，以40∶1的分流比进样，每次进样量为1 μL。仪器的离子化方式选择电子轰击式离子源，接口温度和离子源温度分别设置为270和250 ℃。将溶剂延迟时间设置为10 min，电子能量设置为70 eV，检测器电压设置为1 500 V，采集速率为每秒20个光谱。

1.3.2 实验过程

由于食用油中各种脂肪酸的沸点比较高，且含碳量相似的脂肪酸沸点相近，不容易实现气化及分离，因此使用GC-MS测定食用油中的脂肪酸含量之前需要对食用油进行甲酯化预处理。甲酯化预处理流程如下：首先，称量100 mg油样，再加入2 mL正己烷并将混合物置于超声波清洗器中20 min使其完全溶解；再加入2 mL氢氧化钾与甲醇溶液(28 mg·mL-1氢氧化钾)，再将混合物置于超声波清洗器中5 min，使油同时皂化和甲酯化；最后，将2 mL盐酸加入溶液后置于超声波清洗器中5 min以中和过量的氢氧化钾；静置10 min后取顶部有机溶液并过滤至进样瓶中，最后进行GC-MS分析获取油样中软脂酸、花生酸以及山嵛酸的含量。

1.3.3 光谱预处理及变量选择方法

反射光谱数据除了含有油样本身的信息外，还包含了其他无关信息和噪声，因此对于消除光谱数据中的无关信息及噪声的预处理举足轻重。对光谱数据的预处理主要有CEN， MSC， SNV和STA方法。 CEN可增加样品光谱之间的差异，从而提高模型的稳健性和预测能力； MSC可用来消除样本间的基线平移和漂移现象，增强光谱特异性； SNV主要用来消除固体颗粒大小、表面散射以及光程变化对漫反射的影响； STA给光谱中所有变量相同的权重，可以避免异常值和极端值的影响。

变量选择的方法主要包括SFS， RFrog及GA。 SFS是指特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J(X)最优。即每次都选择一个使得评价函数的取值达到最优的特征加入，其实就是一种简单寻找最优解的贪心算法。 RFrog利用少量的变量迭代，输出每个变量选择可能性，从而进行变量的选择，是一种非常有效的高维数据变量选择方法。 GA通过数学的方式，利用计算机仿真运算，将问题的求解过程转换成类似生物进化中的染色体基因的交叉、变异等过程。

1.4 模型构建方法

1.4.1 传统机器学习

联合国教科文组织指出：“将来的文盲是没有学会学习的人！”学生是学习的主人，理所当然要从小学习些自能读书的本领。因此，教师应该更新教学观念，确立主体地位；创设情境，实施愉快教学；教给方法，重视培养能力；课后延伸，养成良好习惯等。为学生自主学习创造良机，把语文教学的水平推向一个新的高度。

在对食用油中饱和脂肪酸进行检测时，利用数理统计方法中回归分析来确定光谱和脂肪酸变量间相互依赖的定量关系。 PLSR与主成分回归具有相似性， PLSR没有寻找响应变量和预测变量之间最大方差的超平面，而是分别将预测变量和响应变量投影到一个新空间，寻找一个线性回归模型。 RF是一种由多棵决策树组成的非线性集成方法，每棵树都依赖于独立采样的随机向量的值，并且对森林中所有树具有相同的分布，森林的泛化误差随着森林中树木数量的增加而收敛到一个极限。在回归分析中，采用最小方差原则来最小化每棵树的方差。 SVR是一种非线性回归模型，其主要思想是找到一个回归平面，让一个集合内所有数据到该平面的距离最近。在解决非线性、小样本及高维数据实际问题时表现优异。

1.4.2 FCN网络

随着利用带标签数据量的快速增长和图形处理器的巨大进步， CNN网络研究在各种任务上取得了较好的成果。经典的CNN架构除了输入层和输出层外，还包括卷积层、池化层和完全连接层。卷积神经网络通过权值共享降低复杂度和参数，提高神经网络的泛化能力，通过池化操作减少神经元，增强鲁棒性。卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量，类似于一个前馈神经网络的神经元。卷积层在计算不同的特征图时，首先可以通过将输入与学习的内核进行卷积，然后应用基于元素的非线性来获得新的特征图，由几个卷积核组成激活函数上的卷积结果。在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层的每个特征图都连接到先前卷积层的相应特征图。全连接层的作用则是对提取的特征进行非线性组合从而得到输出。

通常CNN在卷积之后会接上若干个全连接层，将卷积层产生的特征图映射成为一个固定长度的特征向量。 FCN将CNN中的全连接层转化成一个个的卷积层。 FCN的架构(图2)来源于CNN， FCN将池化层和全连接层替换为卷积层，每一层的sigmoid函数都增加了网络的非线性度。在所有卷积层之后，采用全局平均池化进行正则化，加强特征图与标签之间的对应关系，对输入空间变换具有更强的鲁棒性。由于CNN对二维矩阵形式的数据输入表现力较好，故将一维向量形式的光谱数据转换为二维矩阵形式输入网络模型(如图3)。若n1×n2大于n，则在最后补零使其构成n1×n2的矩阵。

图2 全卷积网络结构

1.4.3 S2DCRN网络

对食用油脂肪酸回归分析设计了光谱基二维卷积回归网络(图4)，为增加网络的非线性建模能力，采用sigmoid函数与卷积层和池化层相结合的方法用于提取主要特征，提高学习效率。全连接层的核心操作就是矩阵向量乘积，相当于一个特征空间线性变换到另一个特征空间，可以把有用的信息提取整合。采用交叉熵损失作为损失函数，同时增加1个全连接层和1个未激活函数隐藏单元的输出层，该网络光谱数据同样以二维矩阵形式输入(图3)。

图3 二维矩阵形式的光谱输入

图4 面向光谱的二维卷积回归网络结构图

1.4.4 模型评估

(2)

(3)

PLSR， RF， SVR， FCN和S2DCRN在Python和Keras的环境下实现，且所有方法均在NVidia GeForce RTX 2080Ti和Intel Core i7-8700 CPU的电脑设备进行。

2 结果与讨论

2.1 食用油反射率光谱特性

玉米油、菜籽油、芝麻油、橄榄油、花生油、大豆油和葵花籽油的原始光谱如图5(a)所示。

每类油样品的平均反射光谱如图5(b)所示。从图中可以看出，在反射光谱的350～700 nm波段范围内， 7类食用油的反射光谱之间存在较大的差别，其中花生油的反射率光谱变化随着波长增大而快速增加；在反射光谱的700～2 500 nm处， 7类食用油光谱的总体趋势是相似的。反射率变化与化学基团振动产生的倍频信息和合频信息有关，差异表现在不同种类食用油的反射率大小不同，这些差异是由于被测物在可见色谱范围内的颜色特征不同所导致的，具体到食用油的反射光谱检测中， 350～700 nm之间的反射光谱差异可能是不同种类食用油中叶绿素和胡萝卜素的含量不同引起的[8]。在反射光谱的700～1 700 nm处出现了几个波峰和波谷，其中位于856和1 098 nm处的波峰归属于C—H键的三级倍频振动，而1 586 nm处的波峰归属于N—H键的二级倍频振动。在反射光谱1 320 nm处的波峰与C—H键的弯曲振动有关，而980 nm处的波峰与O—H键的弯曲振动有关。

图5 所有油样的原始反射率光谱(a)以及七种食用油的平均反射率光谱(b)

2.2 食用油中软脂酸含量的预测

表1 不同预处理方法后PLSR对食用油中软脂酸含量预测结果

表2 采用SNV去噪后对食用油中软脂酸含量预测结果

2.3 重要波长的选择与验证

2 151维的全光谱会降低模型的训练速度和分析效率，无法满足快速检测的需求。特征提取或者特征选择能够减少光谱的维度，筛选出重要的特征，有效提高模型的鲁棒性。采用SFS， RFrog及GA等方法选取光谱特征的重要波长。在RFrog处理后，食用油的光谱维数从2 151降至64。但对于食用油中脂肪酸的快速检测，光谱维数仍然太多。为进一步简化模型，分别再利用GA和SFS对于选定的64个波长进一步筛选。通过RFrog-GA和RFrog-SFS选取，分别从2 151个全光谱波长中选取了16和14个重要波长，所选重要波长的重要性从大到小排序(见表3)。由图5(b)可知， 7类食用植物油的反射率光谱在350～700 nm范围内差异较大，在700～2 500 nm范围内光谱强度和趋势均相似。 RFrog-SFS选择的特征波长均位于在350～700 nm光谱范围内。虽通过RFrog-GA选择的特征波长数目与RFrog-SFS相当，但仍有部分重要波长位于1 200～2 200 nm范围内。结果表明，通过RFrog-SFS选择的重要波长数目最少且重要波长的分布范围最小。