具有渐进学习能力的硝酸铵-硝酸溶液中硝酸铵浓度快速定量分析方法
2023-02-26钱石川王志鲁志艳李志华杏若婷盛鑫苏强金韶华李丽洁陈锟
钱石川 王志 鲁志艳 李志华 杏若婷 盛鑫 苏强金韶华 李丽洁 陈锟*
1(北京理工大学材料学院,北京100081)
2(甘肃银光化学工业集团有限公司,白银 730900)
奥克托今(HMX)是一种综合性能优良的单质炸药,广泛应用于制作混合炸药和推进剂[1-2]。世界各国普遍采用醋酐法生产HMX[3]。硝酸铵-硝酸(NH4NO3-HNO3)溶液是醋酐法生产HMX 的重要原材料,NH4NO3的浓度对产品产率有重要的影响。化学分析法广泛用于化工生产中物料浓度的离线分析检测,但操作繁琐且无法保证结果的实时性。生产线物料浓度一旦出现异常,离线检测难以满足实时调整工艺参数的要求,容易造成产品质量和产率不稳定等问题。在生产过程中对NH4NO3的浓度进行在线检测,对于提高反应过程中动态料比的稳定性、保证产品质量和提高产品产率具有重要意义。
近红外光谱分析技术具有快速、无损和人力成本低等特点,近年来广泛用于推进剂、发射药和混合炸药组分的快速检测。杨旭等[4]结合近红外光谱和偏最小二乘法(Partial least squares,PLS),建立分析检测模型,实现发射药生产过程中挥发成分含量的实时快速检测。王菊香等[5]利用PLS 回归分析建立了三乙胺和二甲苯胺的校正模型,用于混胺组成含量的快速测定。苏鹏飞等[6-7]将近红外光谱技术用于混合炸药组分含量的测定,通过PLS 建立了混合炸药中HMX、复合黏结剂、聚四氟乙烯和石蜡等主体组分的定标模型;在随后的研究中,又开发了适用于聚合物粘结炸药X 中HMX、石蜡和聚四氟乙烯的定量校准模型,将分析时间从2 d 缩短到数分钟,为爆炸物分析提供了一种高效方法。温晓燕等[8]采用PLS建立了改性B 炸药主要成分的定量模型,对改性B 炸药的主要成分梯恩梯(TNT)和黑索今(RDX)进行了快速检测。Liu 等[9]基于近红外光谱技术,利用PLS 建立了改性双基混合推进剂均匀度快速定量测试方法。梁惠等[10]利用PLS 建立了近红外光谱和乌洛托品含量间的温度校正模型,用于乌洛托品-醋酸溶液中乌洛托品含量的快速测定。然而,由于PLS 进行模型训练需要一次性获取完整数据,不适用于需要实时响应并随着数据增长而及时更新的场景。相比之下,增量随机梯度下降(Incremental stochastic gradient descent,ISGD)可在数据不断增加的情况下迅速更新模型权重,实现实时响应和动态适应新数据的需求,目前主要应用于分类计算[11]和数据流挖掘[12-13]。
本研究以生产HMX 的重要原材料NH4NO3-HNO3溶液为研究对象,以化学分析法获得的NH4NO3浓度值为基础,基于光谱预处理和特征变量提取,并运用ISGD 算法建立NH4NO3-HNO3溶液光谱信息与NH4NO3浓度之间的联系,实现了NH4NO3-HNO3溶液中NH4NO3浓度的快速定量分析,解决了化学分析中存在的需要大量溶剂、分析时间长以及操作复杂等问题。同时,也提供了一种在保留原有学习效果前提下利用新数据更新模型参数的方法,以适应需要随数据新增而快速响应的实时预测场景。
1 实验部分
1.1 仪器与试剂
Antaris MX 型傅里叶近红外分析仪(美国Thermo-Nicolet 公司);EX12001ZH 型电子天平(上海奥豪斯仪器有限公司)。硝酸铵(NH4NO3,工业品,含水量0.3%,纯度≥99.0%);HNO3(自制,纯度≥98.5%)。
1.2 实验方法
1.2.1 样本制备
称取不同质量的NH4NO3固体和HNO3,配制成不同NH4NO3浓度的NH4NO3-HNO3溶液,同时人工分析NH4NO3-HNO3溶液中NH4NO3浓度,共获得169 个不同NH4NO3浓度的NH4NO3-HNO3溶液样本。从中选取69 个样本用于模拟实际应用时的增量学习场景,剩余100 个样本以7∶3 的比例划分为校正集(70 个样本)和预测集(30 个样本)。校正集用于建立模型,预测集用于对所建模型进行外部验证。
1.2.2 光谱数据采集
使用Antaris MX 型傅里叶近红外分析仪采集制备的169 个NH4NO3-HNO3溶液样本的近红外光谱。仪器参数:扫描范围为4000~10000 cm‒1,分辨率为8 cm‒1,扫描64 次,共采集1557 个波数点。在保持室内温度和湿度基本稳定的条件下,连续扫描采集光谱,每个样本重复扫描3 次,取其平均光谱。
1.3 样本集划分
为了避免样本分布不均匀所带来的校正集不具备代表性的弊端,选择SPXY(Sample set partitioning based on jointx-ydistance)算法对样本集进行划分。由于样本光谱数据(x)和NH4NO3浓度值(y)对建模结果都有影响,在考虑样本间距离时,对x和y在空间上的距离赋予同等的重要性,以保证最大程度表征样本分布,有效覆盖多维向量空间[14-15]。具体划分公式见式(1)~式(3):
式中,m代表样本光谱数据的波长点数,n为样本的总数量,p和q为不同的样本。
1.4 特征变量优选
采用近红外原始光谱进行定量分析时,由于变量过多,易导致算法迭代次数增加,运算速度减缓,并且有些光谱区域样本的信息很弱,与样本的组成或性质的相关度不高,因此需要进行特征变量优选,提高模型的分析精度和运行速度[16]。常用的特征变量优选方法有区间偏最小二乘法(Interval partial least squares,iPLS)、最小角回归算法(Least angle regression,LAR)、无信息变量消除法(Uninformative variables elimination,UVE)和连续投影算法(Successive projections algorithm,SPA)等。近年来,基于模拟动物的群体行为而进行路径搜索的群体智能优化算法(Swarm intelligence optimization algorithm,SIOA)在特征变量优选方面表现出更强的搜索能力,因而被广泛应用于特征变量优选。遗传算法(Genetic algorithm,GA)、粒子群优化算法(Particle swarm optimization,PSO)、人工鱼群优化算法(Artificial fish swarm algorithm,AFSA)、灰狼优化算法(Grey wolf optimizer,GWO)和鲸鱼优化算法(Whale optimization algorithm,WOA)这5 种SIOA 算法被用作特征变量优选(参数设置见表1),通过比较基于SIOA 的ISGD模型,获得了最佳优化算法。不同SIOA 算法的适应度函数选择为校正集均方误差(Mean squared error,MSE),其定义为:
表1 不同群体智能优化算法参数Table 1 Parameter of different swarm intelligence optimization algorithms
式中,yi为第i个样本的NH4NO3浓度的化学值;yi′为第i个样本的NH4NO3浓度的预测值。
1.5 基于ISGD的NH4NO3-HNO3溶液中NH4NO3浓度定量分析的校正模型
运用ISGD 算法建立NH4NO3-HNO3溶液中NH4NO3浓度定量分析的校正模型,以克服传统批处理算法(如PLS、支持向量机和随机森林等)用于新增数据学习时,会发生灾难性遗忘,导致遗忘原有学习知识,使得泛化能力下降的问题。传统随机梯度下降是一种针对自由度优化问题的优化算法,通过一次只考虑单个训练样本来近似E(ω,b)真实的梯度。算法在校正集样本上遍历,并且对每个样本按下述更新规则更新模型参数[17]:
式中,ω为模型参数,η为学习率,α为控制正则化强度的非负超参数,R为惩罚模型复杂度的正则化项,L为衡量模型拟合程度的损失函数,t为时间步长,eta0和power_t为超参数。ISGD 算法能够将上一次学习获得的模型参数ω作为本次迭代的初始值进行更新,从而保留原有学习权重,达到增量学习目的。
ISGD 模型构建方法可以具体描述为:(1)分别构建模型的预测函数、误差函数和惩罚模型复杂度的正则化和损失函数;(2)对预测函数中的模型参数ω随机赋值,并通过不断迭代更新模型参数ω,直至迭代完成或损失函数达最小值时停止更新;(3)将更新得到的模型参数ω代入预测函数,用于新数据的预测;(4)当新数据到达时,首先利用构建好的模型对新数据进行检查,计算预测值与真实值之间的相对误差百分数,通过容差阈值ζ(文中∣ζ∣=0.1)判断是否需要开始学习;(5)将需要学习的数据输入至模型中进行训练,并更新模型参数ω;(6)得到新数据更新后的模型参数ω,即得ISGD 模型。
2 结果与讨论
2.1 样本集划分方法对比
为了验证样本集划分的重要性,在采集NH4NO3-HNO3溶液近红外光谱数据后,运用随机选择(Random selection,RS)算法、Kennard-Stone(KS)算法和SPXY 算法取出校正集与预测集,运用构建的ISGD 模型预测评价结果的有效性,同时考虑到RS 算法具有随机性,采用10 次结果的平均值作为最终结果,处理软件为Python 3.8。表2 为运用不同方法选择样本建模的比较结果,可见SPXY 选择的校正集中样本与KS和RS 选择的样本相比,基于SPXY 方法的随机梯度下降初始模型的指标参数有所改善。相比于RS 的随机性,KS 和SPXY 通过最大化选择样本光谱之间的欧式距离,有效覆盖多维向量空间,效果优于RS;由于在计算时同时考虑x和y数值的空间,与KS 相比,SPXY 具有更均匀的分布,预测性能最佳[18]。
表2 不同划分方法的建模比较Table 2 Modeling comparison of different divide methods
2.2 光谱预处理方法比较
100 个NH4NO3-HNO3溶液样本的近红外光谱如图1 所示,光谱数据存在较明显的基线漂移与噪声干扰,因此在进行建模分析前,需要对原始光谱进行预处理。考察了多元散射校正(Multivariate scattering correction,MSC)、标准正态变换(Standard normal variation,SNV)、一阶导数(First order derivative,D1st)和小波变换(Wavelet transform,WT)用于NH4NO3-HNO3溶液近红外光谱预处理的效果,以预处理后的光谱数据作为输入变量构建ISGD 模型,并测试了模型在校正集和预测集上的预测性能(表3)。由表3 可知,通过对光谱进行预处理能有效减少散射和噪声等外在影响,突出与化学特性相关的信号,提升模型预测性能;相比于D1st、SNV 和MSC 预处理,使用WT 预处理可为ISGD 模型提供更好的结果,主要是由于WT 在处理近红外光谱时,能够将背景和噪音与有用信息分开,并对有用信息进行重构,提高了光谱分析精度。
图1 100 个NH4NO3-HNO3 溶液样本的近红外(NIR)光谱Fig.1 Near-infrared (NIR) spectra of 100 samples of NH4NO3-HNO3 solution
表3 不同预处理方法的增量随机梯度下降(ISGD)模型预测性能Table 3 Predictive performance of incremental stochastic gradient descent (ISGD) model with different pretreatment methods
利用WT 对近红外光谱进行预处理时,不同的小波基和分解级数会导致不同的分析结果,因此需要进一步对小波基和分解级数进行探究。相比于Haar、Symlets(symN)和Coiflets(coifN)等小波基函数,Daubechies(dbN)小波基具有更好的分析效果[19]。考察了不同db 小波基函数(db1、db2、db3、db4、db5、db6、db7 和db8)与小波分解层数(1~8)时的ISGD 模型预测性能。由图2 可知,当小波基函数为db1 且小波分解层数为5 时,ISGD 模型可获得最佳的预测效果,预测集的Rp2和MSEP 分别为0.9991 和0.0940。因此,选择优化后的小波变换(小波基函数为db1,小波分解层数为5)作为NH4NO3-HNO3溶液近红外光谱数据的预处理方法。
图2 不同小波基函数与分解层数时的ISGD 模型预测性能:(A) Rp2;(B)MSEPFig.2 Prediction performance of ISGD model with different wavelet basis functions and decomposition layers:(A) Rp2;(B): MSEP
2.3 特征变量的优选
光谱信息中存在冗余,采用全光谱校准模型只能得到次优结果,因此变量选择是光谱学定性和定量分析过程中必不可少的环节。为了消除光谱冗余和共线性,降低模型复杂度,提高近红外光谱校正模型的预测能力和鲁棒性,采用常规算法(UVE 和SPA)和SIOA 算法(GA、PSO、AFSA、GWO 和WOA)进行特征变量的优选,结果见图3。将优选的变量作为输入变量,用于ISGD 模型的建立和预测,结果见表4(考虑SIOA 算法具有随机性,连续运行50 次,取其中最优结果)。
图3 SPA、UVE、GA、PSO、AFSA、GWO 和WOA 优选的特征变量Fig.3 Spectral characteristic variables selected by SPA,UVE,GA,PSO,AFSA,GWO and WOA
表4 不同变量选择方法的ISGD模型结果Table 4 Results of ISGD model using different variable selection methods
由图3 可知,SPA、UVE、GA、PSO、AFSA、GWO 和WOA 优选的特征变量中有1 个重复选中的特征吸收峰,即5068 cm‒1处的特征吸收峰,考虑与N—H 键的伸缩振动和弯曲振动的组合频有关[20],这种选择的一致性说明该特征峰对解释NH4NO3分子的振动特性具有显著信息,因此在不同的变量优选算法中都被选中。此外,UVE、GA、PSO、AFSA、GWO 和WOA 这6 种变量优选方法同时选择的还包括位于6437 和7185 cm‒1处的特征吸收峰,分别与N—H 键和O—H 键伸缩振动的一级倍频吸收有关。
由表4 可知,采用SPA-ISGD 进行变量选择后,特征变量数大幅减少,从1557 减至11 个,但模型在校正集和预测集上的整体性能表现有所降低,这主要是因为SPA 算法在利用向量投影优选冗余度低、共线性好且能代表光谱关键信息的有效特征变量时,去除了部分重要信息(如代表N—H 键伸缩振动的6437 cm‒1特征吸收峰并未被选中),使得有效信息缺失,导致模型性能下降,这与Li 等[21]得到的SPA 变量选择后模型性能不及使用全光谱建模的结论一致。采用UVE-ISGD 进行特征变量选择后,变量数减少至全光谱的70.97%,模型在校正集和预测集的均方误差分别降低了38.22%和36.17%,表明UVE 算法能有效去除噪声和冗余信息,使得有用信息凸显,有利于提高模型的预测性能。值得注意的是,UVE 算法被设计用于去除光谱中信息量较少的变量,因此在变量信息中可能仍存在一些包含大量冗余信息的共线变量,这与算法的固有缺陷有关[22-23]。尽管UVE 算法选择的特征变量数量过多,但MSEC 和MSEP 值下降,可以认为UVE 算法选择的变量信息更丰富有效,从而促使模型性能得到提升[24]。GA-ISGD 进行特征变量选择后,变量数为全光谱的36.67%,模型整体性能较全光谱大幅提升,但相比于UVE-ISGD 还略有不足,可能是因为GA 算法具有较强的全局搜索能力,但局部搜索能力较弱,容易获得次优解而非最优解,导致模型性能并非最佳,这与文献[25-26]的研究结果一致。采用PSO-ISGD、AFSA-ISGD 和GWO-ISGD进行特征变量选择后的模型整体性能均优于UVE-ISGD 结果,但对比这3 种算法可以发现,GWO-ISGD更具有选择性,Rp2从0.9994 升至0.9995,MSEP 从0.0602 减至0.0553,原因是GWO 算法利用围捕猎的机制进行搜索,依靠前3 种最优解进行搜索,实现局部寻优和全局搜索之间平衡,使得结果非常接近于最优结果。此外,采用WOA-ISGD 进行特征变量选择时,有最佳的模型性能,此时Rp2为0.9996,MSEP 为0.0453,说明WOA 算法具有最佳的搜索性能,考虑到是由于WOA 采用随机个体或最优个体模拟座头鲸的捕猎行为,并用螺旋线模拟座头鲸的泡泡网攻击机制,使其具有最佳的搜索性能。同时,观察到随着特征变量数量减少,建模时间缩短,其中SPA-ISGD 的特征变量最少,仅有11 个,因而建模时间也最短,仅为0.141s;具有最佳性能的WOA-ISGD 的特征变量数为124,建模时间为0.156 s,相比于全光谱的建模时间(0.203 s)缩短了23.15%。
虽然WOA 极大地减少了模型变量的数量,但其中一些特征变量可能仍然是冗余的。为了进一步减少特征变量个数,避免因变量过多而使得智能优化算法陷入局部最优的情况,同时缩短建模时间并降低模型复杂性,在WOA 算法提取的124 个特征变量基础上,利用GWO、AFSA 和PSO 进一步提取变量,结果见图4。WOA 选择了包括4057、4099、4157 和4204 cm‒1等在内的124 个特征变量(图3),与WOAPSO 和WOA-AFSA 相比,WOA-GWO 的特征变量从124 个急剧减至44 个。
图4 WOA-ISGD(A)、WOA-PSO-ISGD(B)、WOA-AFSA-ISGD(C)和WOA-GWO-ISGD(D)的变量选择Fig.4 The selected variables by WOA-ISGD (A),WOA-PSO-ISGD (B),WOA-AFSA-ISGD (C) and WOAGWO-ISGD (D)
不同变量提取方法的ISGD 模型性能见表5。与WOA-ISGD 模型相比,WOA-GWO-ISDG 和WOAPSO-ISDG 模型的特征变量数明显减少,并且模型在校正集和预测集上的预测性能有所提升,说明删除一些冗余变量后,模型具有更好的性能。WOA-AFSA-ISGD 虽然在校正集上的性能表现不及WOA-ISGD,但在预测集上的表现较好,Rp2从0.9996 升至0.9997,MSEP 从0.0453 减至0.0360,说明通过对WOA 优选的特征变量再次选择可以去除部分波段干扰,使模型预测性能得到提升。此外,无论是模型在校正集或验证集上的表现(MSEC 和MSEP 值分别为0.0313 和0.0353),还是特征变量的选择(选择的44 个特征变量涵盖了N—H 键的伸缩振动与弯曲振动的组合频和N—H 键的伸缩振动一级倍频,与NH4NO3-HNO3溶液中NH4NO3浓度信息有着密切的关系,具有物理意义),都说明WOA-GWO-ISGD 模型具有优越性。因此,WOA-GWO 在选择用于预测NH4NO3-HNO3溶液中NH4NO3浓度的特征变量方面具有很好的效果。
表5 不同组合变量选择方法的ISGD模型结果Table 5 Results of ISGD model using different combinations of variable selection methods
2.4 不同校正模型用于新增数据的结果
为了验证ISGD 校正模型用于新增数据加入时的预测性能及其与其它校正模型的差异,分别构建了NH4NO3-HNO3溶液近红外光谱的小波变换-鲸鱼优化算法-灰狼优化算法-偏最小二乘校正模型(WT-WOA-GWO-PLS)、小波变换-鲸鱼优化算法-灰狼优化算法-支持向量机回归(Support vector regression,SVR)校正模型(WT-WOA-GWO-SVR)和小波变换-鲸鱼优化算法-灰狼优化算法-随机森林回归(Random forest regression,RFR)校正模型(WT-WOA-GWO-RFR)。在构建WT-WOA-GWO-PLS 校正模型时,利用WOA-GWO 提取的44 个特征变量和遍历算法对潜变量进行优化,确定了最优潜变量为10;在构建WT-WOA-GWO-SVR 和WT-WOA-GWO-RFR 校正模型时,采用网格调参和五折交叉验证,确定了WT-WOA-GWO-SVR 校正模型核函数为Linear,C为5.6282,优化后的WT-WOA-GWO-RFR 校正模型树深为9,树的最大总量为83。
将69 个样本划分为7 组(前6 组每组10 个样本,第7 组9 个样本),采用分批读入的方式模拟实际应用时新数据加入的场景。具体模拟时,采用已构建的模型对每组样本数据进行检查,当样本预测值与真实值相对误差百分数∣ζ∣≤0.1 时,判断该样本不需要加入,将其舍弃,否则放入待训练样本集;检查完毕后,将待训练样本集中的样本数据输入至模型进行训练,得到更新的模型;重复检查、训练,直至全部新增样本检查完毕。
不同模型加入新样本数据后模型在预测集上的表现见表6。未加入新增数据时,WT-WOA-GWO-PLS模型的预测性能最佳,预测集Rp2和MSEP 分别为0.9998 和0.0198,而WT-WOA-GWO-RFR 模型的预测性能最差,4 种模型的预测性能按照WT-WOA-GWO-RFR<WT-WOA-GWO-SVR<WT-WOA-GWOISGD<WT-WOA-GWO-PLS 的顺序增强。当新增数据分批读入时,WT-WOA-GWO-PLS、WT-WOA-GWOSVR 和WT-WOA-GWO-RFR 模型在预测集上的性能表现均越来越差,主要是三者均属于批处理模型,在新增数据学习时会抛弃以往的学习效果,仅对新数据进行学习,导致模型的预测精度大幅下降;WTWOA-GWO-ISGD 模型在预测集上的性能呈现先降低后增加的趋势,考虑到新样本的数据分布与旧任务差别较大,模型进行渐进知识更新需要一定时间,因此模型的性能会下降;待修正和加强以前知识后,再以更新后的知识适应数据,并且随着数据不断丰富,模型性能会逐步提升。由此可见,近红外光谱结合ISGD 算法可以很好地实现NH4NO3-HNO3溶液中NH4NO3浓度的快速定量分析,同时也可以实现新增NH4NO3-HNO3溶液样本数据的快速实时精准预测。
表6 NH4NO3-HNO3溶液NIR光谱不同校正模型预测性能比较Table 6 Comparison of predictive performance of different calibration models based on NIR spectroscopy of NH4NO3-HNO3 solution
3 结论
针对数据样本非一次加入的增量学习场景,采用支持增量学习的ISGD 用于NH4NO3-HNO3溶液中NH4NO3浓度的预测。分别对样本优选、光谱预处理、特征变量优选以及校正模型性能对比等部分进行了深入研究。比较了SPXY、KS 和RS 这3 种样本划分方法下的模型性能,确定了最佳样本划分方法为SPXY;根据不同预处理算法(SNV、MSC、D1st 和WT)下的预处理效果,选择WT 预处理算法结合db1小波基、5 级分解获得最佳预处理效果;对经预处理后的NH4NO3-HNO3溶液近红外校正模型进行输入变量的优化,比较了不同变量优选方法(UVE、SPA、GA、PSO、AFSA、GWO、WOA、WOA-PSO、WOA-ASFA 和WOA-GWO)对模型的预测性能。为了进一步探究WT-WOA-GWO-ISGD 校正模型用于新增数据加入时的预测性能,将其与其它校正模型(WT-WOA-GWO-SVR、WT-WOA-GWO-RFR 和WTWOA-GWO-PLS)进行比较,结果表明,WT-WOA-GWO-ISGD 校正模型有最好的预测性能,其Rp2和MSEP分别为0.9996 和0.0459。WT-WOA-GWO-ISGD 校正模型能够在保持原有学习效果的基础上,再学习新数据,表现出渐进学习能力,为适应新增数据快速响应的实时预测场景提供了有效的解决方案。