基于近红外光谱和深度模型转移预测烟丝总糖含量

2022-12-02宾俊王志国杜文钟科军陈增萍

农业与技术 2022年22期

宾俊王志国杜文钟科军陈增萍

(1.湖南中烟工业有限责任公司技术中心，湖南长沙 410007；2.湖南大学化学化工学院，湖南长沙 410082)

近红外光谱是一种简单、快速、绿色、非破坏性的分析技术，已广泛应用于烟草常规化学成分、无机元素、物理指标和烟气成分的检测等[1,2]；在烟叶分级、卷烟配方识别、卷烟辅料分析和在线质量控制等方面也得到成功应用[3]。随着烟草行业近红外光谱数据的不断积累，模型会越来越大，使用深度学习方法构建模型势在必行，深度学习由于具有强大的多层次特征学习和提取能力，可弥补传统机器学习方法函数形式简单、特征提取依赖经验的缺陷，已逐渐成为多元信号建模的有力工具[4]，在烟草行业、光谱数据分析方面都获得了大量应用[5]。如果训练样本足够，深度神经网络的准确性和鲁棒性高于传统的机器学习算法[6,7]。

但是，随着近红外光谱技术应用场景的日益复杂，测量环境温度/湿度变化、仪器或其配件/精度改变、样品物理状态/化学成分变化等，2次测量光谱之间的吸光度差异、波长漂移、背景漂移是不可避免的[8,9]，与传统机器学习方法类似，大多数深度学习模型对仪器和样品也具有高度特异性，因而基于源域的深度学习模型无法直接应用于目标域样品的预测[10]。通常目标域数据样本量较小，重新建模效果较差，为提高预测准确率，降低建模成本，可采用迁移学习将训练成功的源域模型作为预训练网络，而已经训练好的模型对相似的新样品数据具有极高的特征提取能力，经过微调更改相关层，共享相关参数信息，可以完成对目标域样品的预测任务[11,12]。基于此，本文拟通过深度模型转移策略消除不同仪器、不同物理状态对烟叶检测的影响，利用一台仪器上已成功构建的烟粉总糖卷积神经网络(CNN)模型实现对新仪器上烟丝样品总糖含量的准确预测，以期提高模型应用效率、降低建模成本。

1 材料与方法

1.1 光谱采集及预处理

本研究收集烟粉样品330个、烟丝样品100个，源机为MPA傅里叶变换近红外光谱仪(德国Bruker Optics公司)，目标机为Antaris Ⅱ傅里叶变换近红外光谱仪(美国Thermo Fisher Scientific公司)。利用源机测量烟粉样品的光谱，目标机测量烟丝样品的光谱，测量的波长范围为4000～10000cm-1，每条光谱包含1555个波长点。所有样品的总糖含量参照烟草标准YC/T 159-2002测定。采用Norris一阶导数滤波结合平滑法对源机和目标机所有近红外光谱进行预处理，预处理前后的近红外光谱见图1。

图1 烟叶近红外光谱图

1.2 样本划分

采用Kennard-Stone样本划分方法[13]按照7∶1∶2的比例将烟粉光谱数据划分为训练集、验证集和测试集。训练集和验证集用于深度学习模型的训练和参数优化，测试集用于深度学习模型性能测试。为了传递模型，将烟丝光谱数据按照5∶1∶4的比例划分为微调训练集、微调验证集和外部测试集。微调训练集和微调验证集用于转移模型的深度模型转移和参数优化，而外部测试集用于转移模型的效果测试，具体的数据集划分结果见表1。

表1 样本信息统计

1.3 1D-CNN模型构建

卷积神经网络(CNN)[14,15]是一种典型的前馈神经网络，在图片、人脸和语音识别领域表现突出。CNN的基本结构通常由卷积层、池化层和全连接层3个部分组成。卷积层的目的是不断地学习输入的样本特征。池化层的主要作用是控制实现图像或者数据的空间不变形，降低特征图的分辨率，将前一层所有的神经元与当前层的每个神经元相连接。全连接层的作用是将输出传递到输出层。

由于烟叶近红外光谱是一维向量，本研究设计了一个包括2个卷积层、2个批归一化层和2个全连接层的一维CNN(1D-CNN)模型，见表2。与许多用于图像识别问题的二维CNN模型由一系列卷积层和池化层组成不同，仅使用2个分别带有16个、32个卷积核的卷积层。考虑到输入向量尺寸小和网络层数少，没有使用池化层，因为池化层可能会导致信息丢失。在每次卷积运算后应用线性整流函数(ReLU)变换以确保非线性。卷积层后设置批归一化(BN)层用于加速网络收敛，改善梯度弥散，提高网络的泛化能力。转换后的数据分别流经128个和64个神经元的2个全连接层，激活函数设置为ReLU。用1个单一神经元全连接层的线性激活函数来实现回归分析。

为了提高优化算法的收敛性，采用“He_normal”对各层的权值进行初始化，使用自适应矩优化算法(Adam)进行模型优化，可以自适应学习速率，初始学习率(LR)根据LR=0.01×(批处理大小)/256设置，在训练过程中不断迭代减小，减少训练初始阶段的收敛时间，并且通过逐步减小LR步长，使Adam算法能够逼近极小值。使用均方误差(MSE)作为损失函数，在训练过程中观察损失函数变化，若经过一定次数的历元，验证集损失函数趋于稳定或增大，则停止训练。

表2 卷积神经网络设置

1.4 深度模型转移方法

本文所构建的CNN模型主要分为3个部分：卷积层的特征增强/提取，全连接层非线性建模部分和映射到响应变量的最终输出层。计算机视觉领域中广泛使用的迁移学习方法是通过冻结特征增强/提取部分(将先前学习的权重保持为常数)来适应新任务，并允许重新训练其他层(全连接层和输出层)上的权重以适应新场景。假设由卷积层从第一图像集提取的低水平特征对所有图像都是通用的，并且只需要根据目标数据以不同的方式组合。这些低层特征也被认为是空间不变量，即CNN可以在图像中的任何地方找到这些模式。有研究表明，使用正确的结构构建的一维CNN应用于特定类型的光谱，也可以实现光谱特征的类似平移不变性。

图2 深度模型转移流程图

由于本研究包括仪器不同、样品状态不同2种差异，冻结卷积层可能无法达到与二维CNN相同的效果。这是因为在许多情况下仪器的差异是局部的，但是样品状态的差异是全局的，可能需要重新训练卷积层的权重。但是，也不应完全替换全连接层中的权重，因为其已经学习到了卷积层提取的特征与响应变量之间的一些有用映射关系，迁移学习过程是通过在一个小的新数据集上重新训练模型来微调这些预先学习的权重，少量的数据样本足以扩展神经网络的“信息/知识”[10,16]。因此，本文深度模型迁移策略是全连接层用预先训练的权重初始化，并利用新的微调数据对模型进行重新训练，具体流程图见图2。

1.5 模型评价与软件

模型的评价参数选择相关系数(R2)和均方根误差(RMSE)，R2越大，表明分析组分与模型预测结果的相关性越好，RMSE越小，表明预测性能越好，模型传递的效果越好。

所有光谱数据预处理、模型转移计算均使用Python(v3.8.2)平台上完成。此外，CNN模型的训练和验证都是使用Keras库(v2.4.3)和TensorFlow(v2.4.0)后端实现的。所有操作都是采用英特尔核心1.8GHz CPU、16GB内存和Windows操作系统的电脑完成。

2 结果与讨论

2.1 光谱差异分析

烟粉和烟丝的光谱如图1所示。从图1可知，相对来说，烟粉的光谱平均响应较烟丝的响应低，且2台仪器光谱之间有轻微的峰漂移，在整个光谱范围内都存在。引起这种差异的因素可能是仪器光源、检测器和样品状态的不同。因此，如果在一台仪器光谱上建立的模型用于新仪器采集光谱的预测时，由于2个应用场景存在的差异，预测结果不会太好。所以，校正差异的模型转移是必须的。

2.2 深度学习模型建立

为了获得较高的预测精度，需要对CNN模型训练中的几个关键参数进行优化，本文研究了卷积核大小、批处理大小和历元次数对模型的影响。

2.2.1 卷积核大小

研究了卷积核大小对CNN模型的影响，分别计算卷积核尺寸为5、9、13、17、21、25和35的预测误差，如图3a所示，卷积核大小对CNN预测结果的影响较小，当卷积核大小设置为13时，校正集和验证集的预测均方根误差达到最小。因此，在CNN模型构建中，卷积核大小被设置为13。

2.2.2 批处理大小

采用批处理方法对数据集进行分割，可以加快更新参数，适当的批处理大小有助于模型训练。实验比较了16、32、64、128和256的批处理大小对模型的影响，如图3b所示，当批处理大小为32时，验证集的预测误差最低。因此，批处理大小被设置为32。

2.2.3 历元次数

历元次数是CNN模型构建中的一个重要参数。如果历元太小，模型的泛化能力就不高。如果历元过大，模型很容易过度拟合，需要大量的训练时间。为了评估历元大小对模型性能的影响，历元大小为50、100、150、200和300的CNN模型预测结果如图3c所示。当历元较小时，模型训练不足，分类精度较低。分类精度随历元大小的增加而增加。当历元次数大于150时，预测结果变化不大，趋于稳定。因此，CNN建模的历元次数设置为150。

表3为烟粉和烟丝偏最小二乘(PLS)[17]、CNN模型的性能参数，CNN模型参数为运行5次的平均值。从表3可知，烟粉的PLS模型预测性能略优于CNN模型，总体相差不大，而烟丝的CNN模型预测性能略优于PLS模型，总体而言，烟粉的PLS和CNN模型预测性能皆优于烟丝模型，可以获得令人满意的结果。因此，将烟粉模型进行转移用于烟丝样品的预测是可行的。

图3 卷积神经网络参数优化

表3 建立的烟粉、烟丝光谱PLS、CNN模型性能参数

图4 烟丝测试集预测散点图

2.3 深度模型转移分析

采用上节建立的烟粉PLS模型和CNN模型直接用于预测新仪器采集的烟丝光谱，预测的Rp2分别为-0.870和0.613、RMSEP值分别为9.30和4.23，结果见表4。这说明用烟粉模型直接预测烟丝光谱无法得到较好的结果。RMSEP的急剧增大是由于不同仪器、不同物理状态之间的光谱有较大差异，导致模型不能通用。

进一步采用模型转移方法对烟粉PLS模型和CNN模型进行了转移研究。由于没有标准样品，考虑使用无标样方法——线性模型校正(LMC)[18]对烟丝光谱进行标准化，使之适合烟粉PLS模型的预测。通过深度模型转移，将烟粉CNN网络结构迁移到烟丝光谱的预测，预测集散点图见图5，可以注意到，2种模型转移方法都能使RMSEP值显著降低，Rp2显著提高，并且深度学习模型的传递性能优于PLS模型。因此，只需要在新仪器上测量少量新样品，通过深度模型转移方法就可以恢复深度模型在新场景的预测能力。在许多情况下，用户无法得到大量样品，使用尽可能少的样品可以减少实验负担以节省时间和成本。

随着近红外光谱技术在烟草行业的广泛应用，在特定仪器上已经获得了多年和多次实验的大量数据，并且开发了有价值的模型。假设旧仪器损坏，无法获得标准样品数据，常规模型转移方法无法使用[19]。在这种情况下，深度模型转移就可发挥作用，只需要少量新数据就可以微调模型，校正仪器响应和物理状态的全局和局部差异，使之适用于新场景的预测。因此，对深度模型进行转移研究，具有较高的研究价值。

表4 烟丝光谱预测结果

图5 烟丝测试集预测散点图

3 结论

与传统化学计量学多元校正模型一样，深度学习模型直接用于预测新仪器/样品状态检测的光谱无法得到满意的结果。为了实现烟粉深度学习模型在多次检测之间的通用，本文通过一种深度模型转移策略，基于模型微调的概念，使用少量新仪器采集的烟丝样品光谱，对已成功构建的烟粉深度学习模型的全连接层进行重新训练，校正2次检测光谱之间的差异，实现对深度模型的转移。转移学习后的模型能够实现对烟丝总糖的有效预测，与烟丝直接建立的PLS和CNN模型相比，预测R2分别提高了24.4%和16.2%、RMSEP值分别降低了33.2%和27.2%。无标样深度模型转移方法能应用于源机设备无法再次使用的情况，具有较好的应用前景。