基于集成建模方法的便携式近红外光谱仪酒醅成分检测研究

2022-10-14贾利红张国宏闫晓剑王小琴宋廷富安明哲

分析仪器 2022年5期

贾利红张国宏* 王毅闫晓剑王小琴郭艳宋廷富安明哲

（1.四川长虹电器股份有限公司，绵阳 621000；2.宜宾五粮液股份有限公司，宜宾 644000）

随着微机电技术的发展，近几年，便携式近红外光谱仪被广泛应用于化工［1，2］、食品［3，4］、饮料［5］、医药［6，7］等各个领域，相较于传统的大型傅里叶变换光谱分析系统，其具有结构简单、成本低廉、携带方便、结果实时可见等优势，目前已成为光谱领域的热门产品［8］。但其自身也存在一定的不足，如预测结果不稳定、预测准确率略低等［9，10］，尤其是针对待检样本形态不稳定的定量分析场景，如酒醅样品，其固液混合的物理形态，及随着时间的推移、环境的变化，持续发酵的状态［11-13］，均对近红外光谱仪模型的稳定性及可靠性提出了很高的要求。

在近红外光谱数据建模方面，何思洋等利用PLS建模算法对能源高粱茎、叶的近红外光谱建立能源转化相关化学成分分析模型，通过光谱一阶导和光谱点“竞争性自适应权重（CARS）”筛选等方法对模型进行优化［14］。谭惠芬等将反渗透复合膜近红外原始光谱用Savitziky-Golay法平滑、二阶微分法预处理后，通过选择间苯二胺、三乙胺和十二烷基苯磺酸钠的PLS因子数及特定波长区间对模型进行优化［15］。徐杰等在傅立叶变换红外光谱仪上采集不同混合比例的黏纤与氨纶样品的近红外光谱图，利用偏最小二乘法（PLS）建立黏氨织物的近红外光谱定量分析模型。通过选择不同的分辨率、扫描次数、预处理方法和波段对模型进行优化［16］。综上所述，目前行业内近红外光谱数据建模优化工作，主要集中于数据源筛选、预处理算法优化、模型筛选算法优化等基于PLS算法的单模型建模优化工作，此类建模算法主要适用于高精度的傅里叶近红外光谱仪数据或样本为单一固态或液态的近红外光谱数据。对于自身硬件分辨率较低的便携式近红外光谱仪以及一些自身形态较复杂的样本，适用性较差。因此本文在基于PLS算法建模的基础上，引入集成建模方法，将提取的相对较稳定、准确率较高的若干个酒醅基模型利用设定的特定准则进行集成，以此来提升便携式近红外光谱仪模型整体性能，为其批量应用于产线提供有效的算法支撑。

1 实验部分

1.1 材料与仪器

选取酿酒车间共计1750个酒醅样品作为实验样本，其中出窖酒醅、入窖酒醅各875个。样本待检成分主要有入窖水分、入窖酸度、入窖淀粉、出窖水分、出窖酸度、出窖淀粉，各成分标定值由车间技术人员通过标准的理化分析实验所得。

本次实验数据采集选用四川长虹自主研发的PV800R-I便携式近红外光谱仪套件，图1a为便携式近红外光谱仪及配套移动终端，图1b为制备酒醅样品的工装件。其中光谱仪波段范围为1350 nm～2150 nm，采样间隔为6 nm，重量约750g。

图1 PV800R-I便携式近红外光谱仪套件

1.2 光谱采集

本次实验在常温条件下，将固液混合态的酒醅样品装入光谱仪的配套工装件中，填满压实备用。具体的采样过程为PV800R-I通过蓝牙与智能移动终端连接，利用智能移动终端的客户端，控制近红外光谱仪对已经制备好的样品进行采样，然后将采集的数据通过无线网络传送到样品光谱数据库中以备分析使用。为了保证光谱数据采样的准确性及稳定性，每一个样本的原始光谱数据均通过光谱仪在工装件上均匀旋转采样6次，取平均所得。

1.3 光谱集成建模

由于便携式近红外光谱仪本身精度限制及酒醅样本自身的复杂形态，造成了基于此类样本采集的近红外光谱数据进行建模，模型针对同一样本多次预测，结果重复性差，稳定性欠佳；同时模型对样本各成分的预测准确率较低，迟迟达不到产线要求。考虑到这些影响因素的原发性，本实验摒弃传统的单模型优化思路，尝试将效果欠佳的各个单模型利用集成建模方法，按设定的特定准则进行集成，利用集成模型对样本数据进行预测，进而提升便携式近红外光谱仪的预测准确率。具体建模流程如图2所示。

图2 集成建模流程图

1.3.1 样本集合划分

选定出窖、入窖各774条作为样本集T，利用随机抽样方式提取100条样本为验证集V1，剩余样本为训练集T1；将样本集T按采集时间排序，选取最新采集的100条样本为验证集V2，剩余样本为训练集T2。

1.3.2 数据建模

近红外光谱数据建模主要分为两部分，即数据预处理及线性拟合。其中预处理算法采用高斯平滑（半窗宽∈［1，2，…，12］）、高斯求导（多项式阶次∈［2，4，6］）、SG平滑（半窗宽∈［1，2，…，12］，多项式阶次∈［1，2，…，6］）、去趋势（阶次∈［1，2，…，4］）、SNV及log，共计93种。数据线性拟合采用偏最小二乘法（主成分区间∈［1，2，…，15］）。基于以上组合，每个样本集的建模数量总计为1395种。

1.3.3 基模筛选

将样本集T作为训练集，进行数据建模，选取RMSECV最小的模型作为最优基模型，其中为标定值，Yp为采用留一法交叉验证的预测值，n为训练集样本数量；对于包含验证集的样本集合，计算验证集最大准确率P，选定系数ƛ（ƛЄ（0.5，1）），提取准确率大于ƛP的所有模型中RMSECV最小的模型为最优基模型。根据以上筛选指标进行基模筛选后，保存最优基模型相应的建模参数，包括预处理方法及参数，Beta值（线性拟合参数值）以及模型的R2值。

1.3.4 权重计算

对所有基模的R2值进行归一化，即

其中n为基模的个数，ti为对应基模的权重值。

经过以上光谱数据处理，最终得到实验中入窖、出窖各成分集成模型参数如表1所示。其中每个集成模型均由5个基模型组合而成，其样本集划分采用了1.3.1中原始样本、随机样本、临近样本的划分方式，同时对随机样本、临近样本分别采取了ƛ=0.9及ƛ=0.95两种筛选标准。对于每个基模型，分别给出了可以表征模型解释性能、预测性能相应的R2值、留一法下的RMSECV值及验证集预测准确率值等。

表1 集成模型参数

1.3.5 集成预测

引入本次实验需要预测的出窖、入窖光谱数据各101条，对其进行基模对应的预处理，将预处理后的数据与基模的Beta值相乘得到基模的预测结果，将多个基模的预测结果结合其权重值，最终生成理想的集成模型的预测结果。待预测样本的预测值Yp计算公式为：

其中Xpi为待预测样本的光谱数据经基模对应的预处理方法处理后得到的数据集合，n为基模的个数，本次实验中n=5。

2 结果与讨论

2.1 基于单模型建模方法的酒醅成分检测分析

结合余梅［17］等提出的优化光谱预处理算法及李良［18］等在酒醅分析中提出的基于PLS的单模型建模算法对本实验酒醅数据进行建模，通过多种预处理组合优化，有效剔除了光谱数据中的大量无用信息，并结合PLS算法，将高达300维的光谱数据进行有效降维，提升了光谱数据的有效性及准确度。最后以RMSECV作为模型筛选指标，利用筛选的最优模型对101条未知样本进行模型外验证。图3a～图3f依次给出了入窖水分、出窖水分、入窖酸度、出窖酸度、入窖淀粉、出窖淀粉6个指标的模型外预测分布情况，图中横坐标Y为标定值，纵坐标Yp为预测值，黄色区域为模型允许的误差范围（水分、淀粉允许误差为绝对偏差±1，酸度允许误差范围为绝对偏差±0.3）。

由图3可知，单模型整体表现较稳定，各个指标预测分布均集中在目标线周围，体现了相应优化建模算法整体的可靠性。但纵观入窖酒醅、出窖酒醅自身各成分模型间的对比，其模型外的表征能力出现了较大的差异性，如图3a与图3e其模型预测出现了非常明显的相反趋势，即水分模型普遍预测值小于标定值，而淀粉模型则反之。同理在图3b与图3d间也出现了类似的情况；对于同成分模型，入窖酒醅、出窖酒醅也表现出了较大的差异性，如该光谱仪模型对图3c中入窖酸度预测效果良好，但对3e中的出窖酸度预测效果欠佳；统计分析以上6个模型的预测结果，其中图3a、图3b、图3d、图3e模型均未达到产线要求，即高达2/3的模型表现不佳。单模型建模方法对样本数据具有高度依赖性，而本实验中的固液混合态酒醅样本组成成分复杂，且处于一种持续发酵的状态中，再叠加以便携式近红外光谱仪自身的识别误差，从而造成了光谱数据波动，进而造成了单模型的泛华能力弱、识别准确率低的情况发生。如何在特定硬件条件下，削弱模型对原始数据、硬件状态的高依赖性，提升特殊样本模型的泛化能力成为了一个亟待解决的实际问题。

图3 出入窖各指标单模型预测结果

2.2 基于集成建模方法的酒醅成分检测分析

酒醅样本会随着温度的变化、时间的推移，发生缓慢变化，进而会造成样本光谱特性发生变化。集成建模方法中，临近方式的样本划分，充分考虑了酒醅样本发酵的时序特性，用采样时间最临近预测样本集的样本来表征，保证了模型的局部稳定性；同时随机方式的样本划分，旨在保证训练集及验证集光谱样本的分布均匀，可有效提升模型的全局稳定性；最后结合RMSECV及验证集最优准确率多指标相结合筛选，有效提升了模型的可靠性。相较于单模型的建模方法，集成模型建模方法生成的模型，可以极大地弥补硬件、样本、环境等因素造成的波动，提升了模型的鲁棒性及预测准确率。表2中给出了单模型及集成建模模型外预测准确率统计，表2中单模型的统计结果对应于图3a～图3f中的各个模型。

表2 单模型与集成模型预测准确率对比

将表2中集成建模预测结果与表1中各个基模型验证集预测结果加以对比，发现以R2为模型集成的权重计量标准，有效将集成模型中的各个基模型间的波动差异拉至其整体预测能力的中上水平以上，保证了最终结果的可靠性、稳定性及高准确性。横向对比表2中集成模型在出窖酒醅、入窖酒醅各个成分的预测水平，其总体分布均衡，预测能力相当，表现了较高的稳定性。与单模型纵向对比，各指标准确率均有不同幅度提升，其中在出窖水分、出窖酸度、入窖水分、入窖淀粉方面提升明显，6个指标准确率平均提升约8.0%。各指标准确率均达到了酿酒车间的应用要求，除去出窖酸度指标，其余指标甚至已逼近实验室大型傅里叶光谱仪设备性能指标。

3 结论

利用便携式近红外光谱仪，对酿酒车间出窖酒醅、入窖酒醅各774个样本，分别以单模型建模方法、集成建模方法进行酒醅各成分光谱建模，并对101个未知样本进行模型外部验证分析。结果表明，基于集成模型的建模方法，可以有效弥补便携式光谱仪在采样精度、稳定性等方面的不足，以及酒醅样本的复杂形态造成的数据波动。相较于单模型预测准确率，其性能有稳定提升，甚至可有效逼近大型傅里叶光谱仪设备预测效果。本实验研究为便携式光谱仪落地应用提供了一种实用建模方法，可有效推动便携式光谱仪在产线上大面积应用、指导生产，进而产生可观经济效益。