基于红外光谱与多种预处理组合的柴油纯度检测方法
2024-01-22周围李安吉俞铁铖尹冉赵丽娟赵美琪
周围,李安吉,俞铁铖,尹冉,赵丽娟,赵美琪
(东北石油大学物理与电子工程学院,黑龙江 大庆 163318)
柴油是使用最广泛的石油燃料之一,其使用价值取决于它的纯度。传统的柴油纯度检测方法费用高且耗时冗长,不能满足快速、无污染与低成本检测柴油纯度的现实需求。因此,需要建立一种检测柴油纯度的新方法。
红外光谱技术具有分析速度快、无损检测以及价格低等优点,在石化、食品、农业和药物分析等领域被广泛应用[1-4]。在石化分析领域,该技术已逐步应用于检测油品成分及其物化性质[5]。Wikberg等[6]利用红外光谱技术对化石柴油混合物中的可再生柴油(HVO)含量进行了定量分析,HVO预测模型的RMSEP为0.026 6,预测效果较好。欧阳爱国等[7]利用红外光谱法结合支持向量机对乙醇柴油中的乙醇含量进行了分析,结果表明,预测模型的Rp为0.995 3,RMSEP为0.571 0,该预测模型可实现对乙醇含量的预测。陈素彬等[8]建立了ELM光谱校正模型来快速测定柴油凝点,所建模型预测精度高且较稳定,其Rp为0.956 8,RMSEP为1.029 9。国内外文献报道中主要针对柴油混合物中其他物质含量或柴油性质进行分析检测,而对柴油纯度即柴油体积分数的检测却鲜有报道。
本研究利用红外光谱技术采集51种不同体积分数的柴油光谱数据,采用主成分马氏距离法来检测并剔除柴油样本中的异常样本[9]。根据预处理效果的不同,将常用的十种预处理方法Savitzky-Golay(SG)平滑、一阶导数(1stderivative)、二阶导数(2ndderivative)、移动窗口平滑(MWA)、标准正态变换(standard normal variate,SNV)、多元散射校正(multiplicative scatter correction,MSC)、归一化(normalization)、标准化(auto)、中心化(center)、尺度化(scal)[10-11]共分为4类,选出每类方法中的最佳预处理方法并进行全排列组合研究,结合无预处理和单一预处理,通过偏最小二乘法(partial least squares,PLS)建模,根据建模后的模型评价指标选出适用于柴油纯度光谱数据的预处理组合,实现对柴油纯度的快速检测。
1 实 验
1.1 材料与仪器
柴油、煤油、机油购自当地正规的加油站,其纯度与品质均符合国家标准。在实验室中,通过控制每次加入柴油、机油、煤油的体积分数,使溶液中的柴油含量按2%从0递增到1,其中煤油与机油随机配比,最终得到51个不同体积分数的柴油溶液样本。
IRTracer-100傅里叶变换红外光谱仪,日本岛津;APTC-2帕尔贴恒温控制器,奥特赛恩斯仪器有限公司。
1.2 光谱数据采集
实验在常温下进行,波长用波数表征,光程为0.1 mm,红外波数范围为400~4 000 cm-1,采集7 467个数据点,共得到51个不同体积分数的柴油光谱数据样本。
1.3 异常样本剔除
采用主成分马氏距离法来剔除异常样本,从而提高柴油纯度检测模型的精确性与可靠性。
1.4 数据集划分
采用KS方法以2∶1的比例划分校正集和预测集[12],从51个不同体积分数柴油样本中剔除1个异常样本,从剩下的50个柴油样本中,选择34个样本为校正集,预测集为剩下的16个样本。
1.5 预处理组合方法
采用无预处理和单一预处理对不同体积分数柴油数据进行相应处理。将一阶导数、MWA、SNV等10种预处理方法分为4类,包括基线校正、散射校正、平滑处理和尺度缩放[13],如表1所示。然后,选出每类方法中的最佳预处理方法并对这四种方法进行全排列组合研究,探讨不同预处理组合及相同预处理组合的不同顺序对建模的影响,并根据建模后的模型评价指标选出适用于红外光谱分析柴油纯度的最佳预处理方法。
表1 预处理方法的分类
1.6 建模方法与评价指标
使用PLS建立校正模型,采用相关系数(Rp)、预测均方根误差(RMSEP)来评价各个预处理方法对所建模型的影响。Rp越接近1,RMSEP越小,则所建模型预测能力越强,预测精度越高。
1.7 数据处理与建模方法的验证
为测试所提出的最优预处理及建模方法的可靠性与正确性,对0.025 mm光程的柴油光谱数据进行相同的处理,分析建模后的评价指标包括Rp及RMSEP。
2 结果与分析
2.1 异常样本的剔除
对原始柴油数据进行了数据集划分,并通过PLS法建立了定量模型,得到了模型的RMSEP为0.061 9,Rp为0.982 8。为了消除样本光谱数据中存在的异常样本,采用主成分马氏距离法对柴油数据进行异常样本剔除,得到马氏距离的最佳阈值约为2.4,剔除的异常样本个数为1,其序号为6,如图1所示。
图1 样本序号与马氏距离的关系
对剔除后的柴油光谱数据进行了PLS建模分析,得到的RMSEP为0.041 1,Rp为0.988 8,RMSEP下降了33.6%,Rp提高了6.1%。由此可见,异常样本的剔除是必要的,模型的性能得到了很大提升。
剔除后的柴油光谱如图2所示。从图2可以看出,柴油样本光谱曲线大体的趋势是一致的,并且大多数曲线具有相同或者相似的吸收峰。大部分曲线有一定的重叠现象,其次,光谱的平滑性较差,具有一定数量的尖峰,同时也存在一定程度的基线漂移与背景干扰,基于此,需要对光谱数据进行预处理。
图2 剔除异常样本后的柴油光谱
2.2 单一预处理后的光谱特征
将剔除异常样本后的柴油光谱数据进行一阶导数、二阶导数、MSC、SNV等10种单一预处理,处理后的柴油光谱如图3所示。
图3 柴油数据进行单一预处理后的光谱
从图3可见,导数处理可以消除部分基线和背景的干扰,二阶导数曲线在波长2 400~3 300 cm-1范围内光谱信息丢失比较严重;经过MSC、SNV处理后的光谱的重合度变高,原始光谱受散射的影响得到了一定的抑制;通过平滑处理能够较好地消除部分噪声且对原始光谱中的有效信息不会产生影响,可使光谱更平滑,经过尺度缩放后,光谱数据集中在一个特定区间内,去除了尺度及结构差异的干扰,能够有效保留原始光谱的有效信息;标准化后,光谱重合度降低,引入了散射的影响。
2.3 预处理后PLS的建模效果
每类预处理方法中的最佳方法分别是一阶导数、SNV、MWA、中心化。利用这4种预处理方法进行全排列组合,具体组合方式如表2所示。
表2 预处理组合方法
对柴油光谱数据分别进行71种预处理,然后建立PLS模型,根据RMSEP及Rp分析不同预处理的建模效果。预处理后PLS的预测结果如表3~表5所示。
表3 预处理组合方法1—23的模型评价指标
从表3中可以看出,对于柴油数据大部分预处理都有一定的效果,RMSEP降到了0.040 0以下,Rp达到了0.990 0以上。其中经SG平滑与归一化处理后,模型评价指标变差,说明这两种预处理方法不适于柴油纯度光谱数据。在单一预处理中,编号2即一阶导数效果最好,RMSEP为0.019 5,比原始数据降低了52.6%,Rp为0.997 4,比原始数据提高了0.87%。经两种预处理组合处理后,模型的性能基本都得到了一定的提升,相同组合的不同顺序对应的RMSEP与Rp也不同,如预处理组合编号14、15的预处理组合方法相同,但先后顺序不同,其RMSEP前者为0.024 4,后者为0.024 7,其Rp前者为0.995 7,后者为0.996 9,这说明预处理顺序对模型有一定的影响。在两种预处理组合中,编号12即一阶导数与SNV组合得到的RMSEP与Rp最优,RMSEP可达0.018 7,Rp可达0.997 8,建模效果最好。
从表4中可以看出,柴油光谱数据经3种预处理组合处理后,消除了光谱数据中的无用与干扰信息,RMSEP降到了0.027 0以下,Rp提高到了0.994 0以上,提高了模型预测能力,相比两种预处理组合方法,3种预处理组合方法整体上更能提升模型性能。编号30与31,36与37,44与45预处理后的模型评价指标相同,这说明中心化与SNV、MWA等组合时,组合顺序不同对模型的影响可能较小。其中编号30、31、34这3种预处理组合效果最好,RMSEP降到了0.018 7,Rp提高到了0.997 8。
表4 预处理组合方法24—47的模型评价指标
从表5中可以看出,4种预处理组合对模型优化有一定效果,其最优RMSEP为0.018 9,Rp为0.998 2,相比于3种预处理组合其最优RMSEP略高,可能光谱中的部分有效信息在去除干扰信息时被扣除掉了,从而降低了建模效果。其中编号50、51、53、67这4种预处理组合效果最好,RMSEP为0.018 9,Rp为0.998 2。
表5 预处理组合方法48—71的模型评价指标
2.4 数据处理及建模方法的验证
对0.025 mm光程的原始柴油数据进行PLS建模,得到Rp为0.972 6,RMSEP为0.074 2,然后对其进行主成分马氏距离法异常样本剔除,共剔除两个异常样本,剔除后的模型评价指标Rp为0.978 4,RMSEP为0.061 6,模型性能得到一定提升。利用实验得出的最优的四种预处理组合方法即编号12、30、31、34对剔除后的柴油数据进行处理,处理后其模型指标Rp最高为0.997 4,RMSEP最低为0.020 7,相比原始数据,其Rp提高了2.6%,RMSEP降低了72.1%。可见,实验所提出的数据处理及建模方法是可靠的、正确的,能够对柴油数据建立稳定准确的校正模型,实现柴油纯度的检测。
3 结 论
a.提出了一种考虑组合顺序的预处理组合策略,构建了柴油纯度校正模型。
b.异常样本的剔除是必要的,能够有效提升模型的预测性能,其RMSEP下降了33.6%,Rp提高了6.1%。
c.建模前的预处理是必要的,预处理后的建模效果明显优于未经预处理后的效果,大部分预处理及组合的RMSEP降到了0.040 0以下,Rp达到了0.990 0以上。预处理组合方法的顺序不同,其建模效果也不同。
d.过多的预处理组合可能会扣除一定的有效信息,从而降低模型的预测效果。红外光谱技术结合光谱预处理与偏最小二乘法可以实现对柴油纯度的检测。
e.本文所提出的柴油纯度检测方法与传统的看柴油颜色、用手捻摸柴油等方法相比,客观性强,检测精度高;而与馏程、实验室化验分析法等相比,快捷方便,可实现无损检测。与文献[6-7]中对HVO、乙醇含量所建模型相比,本文所建柴油纯度模型预测精度高,RMSEP可达0.018 7,Rp可达0.997 8。