近红外光谱结合无参数校正增强实现不同年份烟叶总糖含量模型更新

2022-07-22耿莹蕊沈欢超何倪文鸿苗飞陈王勇辉刘吴雪继松忠张立立李永生

分析测试学报 2022年7期

耿莹蕊，沈欢超，2，何倪文鸿苗飞，，陈王勇辉，，刘吴雪继松忠*，张立立，李永生，

（1.浙江大学药学院，浙江杭州 310058；2.浙江大学智能创新药物研究院，浙江杭州 310018；3.浙江中烟工业有限责任公司技术中心，浙江杭州 310008）

在过去几十年，近红外光谱（NIRS）技术因具有快速高效、无损、低成本的优势，已成功应用于各个领域［1-2］。烟草作为一种复杂的天然产物，利用其近红外光谱信息结合化学计量学方法可实现烟叶定量分析、品质分类、质量控制等，具有重要的应用价值［3-5］。

建立一个稳健准确且能在实际生产中应用的校正模型是NIRS技术的关键，目前常用的模型校正方法有偏最小二乘回归（PLSR）［6］、最小二乘支持向量机（LS-SVM）［7］、人工神经网络（ANN）［8］等，通过这些方法建立校正模型，可实现未知样品目标成分的定量分析。但检测条件、仪器状态以及烟叶培育环境的变化均会造成光谱特性与质量属性的差异［9-10］，这些新变化可导致原有模型预测能力下降。

为维持原始模型在新样本中的良好预测性能，目前已开发了较多的模型转移算法［11-12］。传统的模型转移方法侧重于对数据的调整和修正，如分段直接标准化（PDS）［13］、斜率/截距修正算法［14］等，此类方法对不同仪器间的模型转移效果显著，但其标准样品的选择和获取在实际应用中存在一定难度，因此有标样的模型转移算法应用存在局限性。模型转移的第二种途径是模型更新［15］，即添加新样本进行校正，优化现有的模型［16］，该方法往往需要挑选具有代表性的样本，考虑新样本权重以优化模型［17-18］。此外，还有一些算法可通过消除外部影响因素达到模型更新的目的，但这类方法涉及大量参数的调整和优化［19-21］，对日常使用而言复杂耗时。

为解决上述方法的不足，有学者提出一种无参数校正增强框架（PFCE）算法［22］，其通过对回归系数进行相关性约束，从而增强原始模型对新样本的预测能力［23］。该方法不仅减少了对标准样品的需求，还省去模型更新需要多参数优化的步骤，大大提高了模型的更新效率。本文旨在通过PFCE 模型更新策略消除采收时间对烟叶总糖含量预测结果的影响，以期维持主模型在不同年份烟叶样本中定量分析的性能。

1 实验部分

1.1 数据采集及参考值的测定

本研究使用的烟叶样本分别采收于2016 年、2017 年、2018 年以及2020 年，均由浙江中烟工业有限责任公司提供。烟叶样本在相同测试条件下采用Antaris II FT-NIR（Thermo Fisher Scientific）分析仪进行光谱测量，光谱的采集范围为10 000 ～3 800 cm-1，分辨率为8 cm-1，每个光谱包含1 609个变量。本研究选择烟叶中总糖含量建立定量分析模型，样品的参考值由浙江中烟技术中心依照烟草标准YC/T159—2002测定［24］。

1.2 实验设计及软件

采用2016年烟叶样本建立总糖含量预测的PLSR主模型，以2017年、2018年和2020年样品的光谱用于校正和更新主模型。主模型样本使用基于x-y距离样本集划分（SPXY）算法划分为校正集（70%）和测试集（30%），用于更新主模型的样本划分为模型更新集（30%）和测试集（70%）。在研究中，采用半监督无参数校正增强（SS-PFCE）方法对主模型进行更新，另外比较了2017、2018 及2020 年样本重新建模的效果。对于所有定量模型，使用校正相关系数（Rc）、预测相关系数（Rp）、校正均方根误差（RMSEC）、预测均方根误差（RMSEP）和残差预测偏差（RPD）对其性能进行评价［25］。

所有算法和画图操作均使用MATLAB R2018 b软件完成。

1.3 理论与算法

1.3.1 偏最小二乘回归（PLSR） PLSR是一种经典的定量建模方法，它将m个样本在n个变量处的光谱X与m个样本的相关参考值Y投影到新空间中构建线性回归模型。在本文中，采用留一交叉验证方法确定PLS模型中的最佳潜在变量（Latent variables，LV）数［26］。

1.3.2 半监督无参数校正增强（SS-PFCE）用于光谱校正增强的无参数框架（PFCE）是Zhang 等［22］最新提出的模型维护方法，其根据模型传递中标准品的有无分为非监督PFCE（NS-PFCE）、半监督PFCE（SS-PFCE）和全监督PFCE（FS-PFCE）。其中SS-PFCE 方法仅需新样品的部分光谱和属性参考值对模型进行校正更新，无需额外挑选标准品，SS-PFCE的目标函数采用公式（1）进行计算。

公式（1）中，Xnew代表新批次样本中被选为更新集的光谱，ynew表示参考值，b0，new和bnew分别表示更新模型的截距和回归系数；公式（2）中，bm代表主模型的回归系数，为约束新旧模型回归系数的阈值，保证更新模型获得适当的回归系数和截距，已有研究均将阈值设定为0.98［22］。

使用SS-PFCE方法实现不同年份烟叶模型的更新可概括为以下3个步骤：

（1）选择某一年份样本的光谱，构建PLSR主模型，从中获得主模型回归系数bm。

（2）使用新年份样本的部分光谱和参考值对主模型进行维护和校正，从主模型回归系数bm中得到新模型的bnew。

（3）用新样本测试集的光谱验证更新后的模型，以RMSEP和Rp对模型更新效果进行评估。

2 结果与讨论

2.1 不同年份烟叶样本的近红外平均光谱

不同年份烟叶样本的近红外平均光谱如图1所示。不同年份烟叶样本具有相似的吸收峰趋势，但吸收强度存在差异，说明烟叶的光谱信息很大程度上受采收年份的影响。

表1 数据表明，不同年份烟叶中总糖含量差异较大，除2020 年外，2017 年和2018 年烟叶样本的总糖含量均超出2016 年总糖含量的覆盖范围。结合图1 可知，不同采收年份造成样本的化学信息和光谱特征产生差异，这些差异可能严重影响主模型预测新样本的准确性，因此需进行模型维护以提高主模型的稳健性。

表1 不同年份烟叶样本汇总Table 1 Summary of tobacco samples in different years

图1 不同年份烟叶样本的近红外平均光谱图Fig.1 The average raw NIR spectra of tobacco samples in different years

2.2 烟叶样本主模型的建立

采用SPXY 方法将2016 年193 个烟叶样本按照7∶3 的比例划分为校正集和测试集，划分结果及总糖含量汇总于表2。通过内部交叉验证，以最小的交叉验证均方根误差（RMSECV）为指标，确定最优潜在变量数（LV），建立2016年烟叶的PLSR 主模型。模型预测性能如表3所示，可以看出，主模型Rp值接近1，说明模型预测结果与参考值相关性很高，RMSEP值较小，RPD大于15，证明主模型性能较优，可实现相同年份间烟叶总糖含量的准确预测。

表2 主模型样本的划分结果Table 2 Statistics of reference quality measurements for tobacco samples

表3 主模型总糖含量的预测性能Table 3 Total sugar content prediction performance obtained by original PLSR model

2.3 SS-PFCE模型更新

将2017 年、2018 年以及2020 年的烟叶样本按照“1.2”所述进行样本划分，更新集参与SSPFCE 方法对主模型回归系数的校正，划分结果汇总于表4。使用“2.2”中2016 年样本建立的主模型分别对2017、2018及2020年的样本进行总糖含量预测，图2展示了2016年主模型更新前对不同年份烟叶总糖的预测结果。

表4 用于模型更新的样本划分结果Table 4 A summary of total sugar content range for model updating and testing sets for different years of tobacco

图2 采用2016年主模型预测2017年（A）、2018年（B）及2020年（C）烟叶样本的总糖含量Fig.2 Total sugar contents of tobacco made on samples in 2017（A），2018（B）and 2020（C）years predicted with the master model for 2016 year

以2016 年样本建立的主模型Rp 值为0.997 8，RMSEP 值为0.310 8，而使用该模型直接预测其他年份样品时，Rp 值下降，RMSEP 值升高，预测能力均下降（见表5）。结合表2 和表4 的数据，尽管2020年样本的总糖含量未超出2016年主模型的定量范围，但模型的预测效果下降，说明即使预测集样本含量在模型定量范围内，由于样本批次差异，其预测准确度难以保证，因此需对主模型进行模型更新以适用新批次样本的定量分析。

表5 采用SS-PFCE方法模型更新后对不同年份的预测效果Table 5 Prediction effects of SS-PFCE method on model updating in different years

表5 结果显示，使用SS-PFCE 方法更新后，主模型对3 个年份的预测结果均明显提高，2017 年、2018 年和2020 年的Rp 值分别升高了0.13%、1.32%和4.29%，RMSEP 值分别下降了15.26%、58.69%和36.53%，证明SS-PFCE方法对主模型进行更新后，可提高新批次样本的预测准确性。

2.4 与重新建模方法的比较

为进一步验证SS-PFCE 方法对主模型的更新效果，使用表4 中2017、2018 和2020 年的更新集分别重新建立定量校正模型，模型预测性能与SS-PFCE更新结果的对比如表6所示。数据表明，相比于重新建模，采用SS-PFCE方法对主模型进行更新后，3个年份测试集的Rp值分别升高3.53%、0.25%、3.01%，RMSEP值分别下降70.24%、28.69%和30.32%，表明模型预测性能有大幅提升。

表6 模型预测性能对比Table 6 Total sugar content predictions for different years based on two different model updating approaches

图3 更直观地对比了两种方式对不同年份烟叶中总糖含量的预测结果，其中绿色“△”代表重新建模效果，红色“○”代表采用SS-PFCE 方法对主模型进行更新后的预测效果，可明显看出红色“○”更加紧密地分布于拟合直线上。相比之下，SS-PFCE 方法进行模型更新不仅可得到更好的模型预测性能，同时大大减少了重新建模所需的时间和计算成本，在实际应用中具有较大的价值和意义。

图3 重新建模和SS-PFCE对2017年（A）、2018年（B）及2020年（C）烟叶样本总糖含量的预测结果比较Fig.3 Comparison of prediction results for total sugar content of tobacco samples in 2017（A），2018（B）and 2020（C）years by the rebuild model and SS-PFCE

3 结论

针对定量模型应用于新场景导致模型性能下降的问题，本研究采用半监督无参数校正增强（SSPFCE）的模型更新策略对3个不同年份的烟叶样本进行模型更新。结果表明SS-PFCE 方法可以显著地改善主模型对新样本的预测结果，通过对回归系数的约束优化，可直接使用新样本的光谱数据进行预测。与重新建模方法相比，SS-PFCE 方法可在更新过程中以更少的时间和成本达到较高的预测精度。此外，PFCE是一种基于历史数据量化的模型维护方法，不涉及模型中其他复杂参数的优化，也无需挑选具有代表性的标准样品，这种更新策略在消除外部影响时具有高效低成本的优势，对未来实际应用中多种变化场景的模型共享和模型更新均具有重要意义。