基于SPCA降维的轻质燃料油分类拉曼光谱鉴别方法

2022-12-15董晓炜杨继平杨志猛夏梓航

石油炼制与化工 2022年12期

董晓炜，杨继平，杨志猛，晏刚，夏梓航

(重庆赛宝工业技术研究院有限公司，重庆 401332)

随着油价不断上涨，市场上油品掺假销售的现象屡见不鲜。以汽油为例，一些不法分子通过非法手段以次充好，如将低标号汽油和高标号汽油混合作高标号汽油销售，甚至添加甲醇等含氧化合物等。这些掺假行为不仅有损消费者权益，更会对社会安全造成不利影响，因此加强对市售油品质量的检测监督非常重要。

油品质量检测的方法有很多种，如测定油品的密度、超声波传导速率、电导率、元素组成、光谱等[1]。相比于传统的油品鉴别方法，采用拉曼光谱技术可快速获取油品的物质组成信息，而且其具有非接触、快速、稳定等优势，尤其适合用于定性分析[2-3]。石油产品中烯烃、芳香烃类等化合物有明显的拉曼光谱特征峰，因而拉曼光谱分析技术在石油产品分析领域不断突破[4]。随着小型化、高分辨率、抗干扰的便携式拉曼光谱仪的发展，拉曼光谱在油品在线检测领域的应用前景良好。

拉曼光谱与相关化学计量方法相结合，在石油产品种类鉴别、油品分析、质量检测等领域的应用研究不断增多[5]。例如：娄婷婷等[6]用632.8 nm波长拉曼光谱仪成功对包括燃料油和润滑剂在内的共6种石油产品进行了分类鉴别；包丽丽等[7]利用其自主研发的785 nm波长便携式拉曼光谱仪，对比了汽油、喷气燃料、柴油、石脑油等油品的拉曼光谱特征峰位移和强度，实现对不同种类油品的鉴别；李晟等[8]采用主成分分析法(PCA)对不同牌号汽油的拉曼光谱进行分析，实现了对不同牌号汽油的快速鉴别。此外，喻星辰等[9]提出一种以石墨化炭黑吸附、过滤的方法，成功抑制了石油产品拉曼光谱定性分析中的荧光干扰影响。

在上述基于拉曼光谱的油品鉴别研究中，通常采用PCA或偏最小二乘法(PLS)将油品组分简化为互不相关的几个主成分，拉曼光谱上得到的主成分往往是油品组分原始光谱的线性重组。然而，主成分载荷矩阵元素通常非零，很难对每个主成分分量做出合理解释[10]。此外，其分类模型采用线性判别法(LDA)或采用构造类间距阈值方法构建，未考虑光谱中的非线性影响因素[11]，模型泛化能力不足。基于此，本研究利用785 nm便携式光谱仪探索一种针对轻质燃油种类的快速鉴别方法：首先对原始拉曼光谱数据进行预处理，进而结合稀疏主成分分析法(SPCA)对数据进行降维处理[12]，然后运用支持向量机(SVM)建立基于SPCA的非线性关系分类模型，实现油品快速鉴别，期望为成品油管道混油界面判断、油品掺假鉴别提供检测方法和理论依据。

1 实验

1.1 试剂

石油醚、乙醇(体积分数75%)，购自上海华天生物科技有限公司。

1.2 试验过程

试验轻质燃料油样本为取自重庆、山东、辽宁等不同产地0号车用柴油、3号喷气燃料、92号汽油、95号汽油、98号汽油5种样品各100个，共计500个。其中，将每种油品随机抽取80个样本，共400个样本组成训练集，每种油品其余20个样本，组成共100个样本测试集。

以不同产地95号汽油和92号汽油样本配制得到5种不同掺混比例的混合汽油样品A,B,C,D,E样本各50个。其中，混合汽油样品A,B,C,D,E中95号汽油的体积分数分别为97.5%,95%,90%,85%,70%。

使用北京华泰诺安有限公司生产的CRM100PS-1型便携式激光光谱仪对上述试验轻质燃料油样本进行光谱采集。试验条件：激光器波长为785 nm，光谱范围为350～3 000 cm-1，激光器功率为200 mW，积分时间为2 s，累加次数为2次，取两次测量平均值作为最终拉曼光谱。

1.3 拉曼光谱预处理

受激光器功率微弱变化等干扰因素影响，光谱采集过程中会产生噪声；同时，轻质燃油自身会受到荧光干扰，致使出现基线漂移、抬高的现象。研究表明，采用较长波长(如785 nm、1 064 nm)激光光源可以在一定程度上消除荧光对燃油拉曼光谱的干扰，但仍需要进行荧光背景校正[9]。

因此，在进行分析前，需对原始拉曼光谱数据进行预处理：首先，采用归一化算子，消除数据量纲的影响，增强特征峰之间的可比性；然后，采用平滑卷积(SG)算子[13]对光谱进行平滑处理；最后，采用自适应迭代惩罚最小二乘(airPLS)算子[14]，基于误差的迭代加权策略，逐步消除拟合基线和原始信号之间的差异，实现对拉曼光谱基线的校正。

1.4 SPCA稀疏降维及效果评价

轻质燃油的拉曼光谱范围较广、波数较多，通常采用降维的方法去除光谱中的冗余信息。目前，广泛使用的降维方法有PCA，其核心思想是通过将多个成分变量降维成少数相互独立的主成分；但其主成分仍是所有原始光谱的线性组合，实际意义模糊，难以对光谱特征峰进行合理解释[10]。Zou等[14]在PCA的基础上对载荷矩阵进行稀疏化，提出了一种稀疏主成分分析法(SPCA)，其主要思想是将载荷矩阵看作主成分对原始成分变量的回归系数矩阵，进而将PCA分析转换为优化回归系数求解问题，如式(1)所示。其中：第一项为误差平方项；第二项为岭惩罚项；第三项为关于回归系数的L1范数惩罚项。

(1)

且满足ATA=Ik×k

式中：Xn×p为样本矩阵，其中n为样本数量，p为成分变量维度；Ap×k=[α1…αk]，Bp×k=[β1…βk]分别为对样本矩阵降维、稀疏化后的两个矩阵，1

若同时优化Ap×k和Bp×k两个变量会导致目标函数不收敛，因而首先由PCA得到矩阵Ap×k的k个成分载荷初值，在固定Ap×k的基础上求解Bp×k，将式(1)转换为求解k个独立的弹性网问题，如式(2)所示。

(2)

然后，将求得的Bp×k=[β1…βk]作为定值，即可将式(1)简化为式(3)；根据普式矩阵旋转定理[14]将式(3)对Ap×k的求解问题转换为对矩阵XTXB进行奇异值分解(SVD)问题，如式(4)所示；进而，用由式(4)得到列正交矩阵U、奇异值矩阵D、行正交矩阵VT迭代更新Ap×k=UVT；之后，交替求解Ap×k和Bp×k，直至满足终止条件。

(3)

XTAB=UDVT

(4)

评价成分变量降维效果的指标有稀疏度、可解释性方差比、轮廓系数[15]、方差比准则[16]等。其中：稀疏度是指稀疏载荷矩阵中元素为零的个数(当元素绝对值小于0.01时，即看作为0)；可解释性方差比是指每个主成分的可解释方差贡献率；轮廓系数和方差比准则均为基于原始数据和聚类结果评估聚类模型优劣性的方法。轮廓系数和方差比准则的计算值越大，表明聚类结果越好[17]。

1.5 SVM分类模型及性能评价

SVM作为一种小样本的机器学习方法，在光谱吸收峰混叠识别、光谱多组分分析等领域取得了较好的效果[18]。其模型参数主要有核函数为RBF、惩罚因子(c)和不敏感系数(g)，其中c和g的取值范围均为0.25～64。构建的SVM模型需通过网格搜索算法5折交叉验证确定，即将训练集样本随机分为5组，其中1组用于模型预测，也称交叉验证集，其他4组用于模型训练。SVM分类模型的性能主要通过对其查准率(precision)、查全率(recall)和F1度量3项指标来评价，其越接近于1，表明分类模型性能越好。此外，为了进一步考察模型的泛化能力，对测试集的5种轻质燃油共100个样本进行预测，并且与传统PLS-DA光谱分类模型进行对比。

2 结果与讨论

2.1 拉曼光谱及其预处理

图1为5种轻质燃油的典型拉曼光谱，其中图1(a)是预处理前5种轻质燃油的拉曼光谱，图1(b)为经过预处理后5种轻质燃油的拉曼光谱。由图1可以看出，经过预处理操作，可以去除原始光谱的荧光背景和背景噪声，拉低基线，使光谱轮廓平滑，特征峰更明显，显著改善拉曼光谱的表征效果。

图1 5种轻质燃油的典型拉曼光谱 —0号车用柴油； —3号喷气燃料； —92号汽油； —95号汽油； —98号汽油1～12—拉曼位移特征峰

由图1(b)预处理后5种轻质燃料的拉曼光谱，分析轻质燃料拉曼光谱的典型特征峰，结果如表1所示。结合表1和图1可知，3种汽油中较强的特征峰分别是在拉曼位移为525 cm-1附近的CH2CH3等基团振动(特征峰1)、拉曼位移737 cm-1附近的季碳基团对称伸缩振动(特征峰2)、拉曼位移769 cm-1处C—C—C 对称伸缩振动(特征峰7)以及拉曼位移1 003 cm-1处单环芳烃的强呼吸振动(特征峰5)。这4处特征峰是汽油区别于柴油、喷气燃料的主要特征峰。

表1 轻质燃油产品拉曼光谱与振动模式的对应表[19-22]

由图1(b)可知：汽油与柴油、喷气燃料之间的特征峰区别较为明显，汽油中含有较多直链饱和烃和少量不饱和烃，且饱和烃的拉曼特征峰清晰尖锐，受荧光干扰的影响较小；但不同牌号汽油间的特征峰差异较弱，主要体现在直链饱和烃含量的不同，对应在拉曼位移737,769,1 003 cm-1附近的特征峰强度上存在微弱差异。

喷气燃料与柴油的拉曼光谱具有相似的特征峰，二者在拉曼位移1 306 cm-1和1 451 cm-1处均有两个较强的特征峰(特征峰8和10)；喷气燃料中不饱和烃含量较高，在拉曼位移1 400～1 500 cm-1区域的拉曼散射强度较高，而柴油中含有大量的芳烃及其衍生物，在拉曼位移1 500～2 735 cm-1区域拉曼散射强度略高于喷气燃料。

从上述分析不难看出，不同轻质燃料油中某些特定成分化学特性不同，组分含量存在差异，使其在对应的拉曼光谱特征峰强度上存在微弱差异，因而可以考虑通过化学计量学建模的方法进行特征提取，并结合机器学习算法进行物质鉴别。

2.2 特征成分变量降维

将预处理之后的拉曼光谱，分别采用PCA和SPCA方法将特征成分变量维度降至6维，图2为可解释方差比最高的前3个主成分的得分图。如图2(a)所示，采用PCA降维方法大致能区分5种轻质燃油，但同类样本的分布较离散，并且0号车用柴油和3号喷气燃料在主成分空间中有个别交错现象；而由图2(b)可知，SPCA降维方法的分类效果更优，同类别样本内部数据点分布紧凑，不同类别样本簇获得明显区分。

图2 特征成分变量分别采用PCA和SPCA降维的效果●—0号车用柴油； ■—3号喷气燃料； ▲—92号汽油；号汽油； ◆—98号汽油

分别计算PCA和SPCA方法对拉曼光谱特征降维效果的量化指标，结果如表2所示。由表2可以看出，与采用PCA方法的效果相比，采用SPCA方法对特征变量降维，在获得变量载荷矩阵高稀疏度的情况下，虽然可解释性方差比略低，而在轮廓系数和方差比准则两项指标上表现更优。

表2 采用PCA和SPCA方法降维效果的量化指标比较

图3为分别采用PCA和SPCA方法对拉曼光谱特征变量降维后得到的前2个主成分的载荷因子(PC1、PC2)在各拉曼位移处的分布情况。载荷因子绝对值越大，则对主成分的贡献越大。由图3可以看出：采用PCA法得到的主成分由全光谱信息组合而成，主要特征峰因受背景噪声的影响而对主成分的贡献不高；而采用SPCA的大部分载荷因子绝对值为零，主成分可表示成少数特征峰的线性组合，其中载荷因子绝对值较大的特征峰的拉曼位移在517，735，769，1 003，1 306，1 447 cm-1处和2 855～2 940 cm-1区域等，基本与表1中的特征峰吻合，充分体现了稀疏主成分对光谱特征峰的解释性，并且为后续建模分析提供基础。

图3 采用PCA和SPCA方法降维得到的前2个主成分的载荷因子分布

2.3 模型构建与训练

在拉曼光谱数据预处理的基础上，分别采用PLS-DA，PCA-SVM，SPCA-SVM方法构建轻质燃料分类模型；同时，为了探究对光谱特征成分变量降维影响模型分类的效果，对原始光谱数据也分别采用SVM、PCA-SVM方法建立轻质燃料分类模型。不同分类模型的预测结果如表3所示。

表3 不同分类模型对训练集样本的预测结果

通过分析表3中的模型评价指标可知：针对原始光谱的两种分类模型，在PCA降维的基础上，通过SVM法构建分类模型的分类指标比变量降维前有明显提升，模型预测准确率达到为96.75%，同时分类模型的精确率、召回率和F1度量的输出值分别为0.974 9，0.984 5，0.987 4；降维后，光谱特征成分变量维度从1 160降为6，显著降低了运算复杂度，大幅缩短了分类模型的训练和预测时间；基于预处理拉曼光谱所建3种分类模型的预测结果均优于原始光谱的分类模型，其中PCA-SVM和SPCA-SVM方法构建模型的准确率均达到100%。

2.4 分类模型验证

为了进一步验证模型的泛化能力，避免分类模型过拟合，将5种轻质燃料测试集样本(每种燃料20个样本)按照0号车用柴油、3号喷气燃料、92号汽油、95号汽油、98号汽油的顺序依次编号为1～100，进而基于其原始拉曼光谱和预处理拉曼光谱，采用不同分类模型进行分类预测，结果如图4所示。

由图4可以看出：对比不同分类模型对测试集样本的预测结果，采用SPCA-SVM方法基于预处理后拉曼光谱所建分类模型的分类效果最好，仅有1个3号喷气燃料样本被错归类为0号车用柴油，3个95号车用汽油样本被错归类为92号车用汽油；而采用PLS-DA、PCA-SVM方法基于预处理后拉曼光谱所建分类模型在鉴别0号车用柴油和3号喷气燃料时效果不理想，多个样本被错误归类；采用PCA-SVM方法基于原始拉曼光谱所建分类模型对0号车用柴油、95号车用汽油分类效果较差。

图4 不同分类模型对测试集样本的分类结果●—0号车用柴油； ■—3号喷气燃料； ▲—92号汽油；号汽油； ◆—98号汽油

5种分类模型对测试集样本的分类性能指标如表4所示。由表4可知，相较于其他建模方法，基于预处理后拉曼光谱用SPCA-SVM法所建分类模型的分类准确率最高，为96%。这说明基于预处理后拉曼光谱用SPCA-SVM法所建分类模型训练和验证效果均最好，可以用于轻质燃料油类别的快速、准确鉴定。

表4 采用不同建模方法时测试集预测结果比较

2.5 掺混油品的识别

在实际应用中，需要对掺混油品的类型进行鉴别，如鉴别成品油输运过程混油界面的掺混油品和纯牌号油品等。为考察所建模型对掺混油品分类鉴别的效果，将纯牌号95号汽油样本、95号汽油和92号汽油按不同配比调合的5种混合汽油样本各取50个，并且随机将每种样本的70%划分为训练集(每种各35个样本)和30%划分为测试集(每种各15个样本)。

不同混合汽油样品的预处理后拉曼光谱及其局部特征光谱如图5所示。由于95号汽油与92号汽油最明显的区别是直链饱和烷烃含量不同[图1(b)]，因此在混合汽油样品中95号汽油占比越高，直链饱和烷烃含量就越高，对应拉曼光谱的特征峰强度也就越大。如图5(b)所示：混合汽油A的拉曼光谱中异构烷烃(拉曼位移737 cm-1)和单苯基烷烃(拉曼位移1 003 cm-1)的特征峰强度最高；当混合汽油中95号汽油的占比降低，上述两处特征峰强度也随之减弱。

图5 不同混合汽油样品的预处理后拉曼光谱 —混合汽油A； —混合汽油B； —混合汽油C； —混合汽油D； —混合汽油E

基于预处理后的拉曼光谱，为区分纯牌号95号汽油与某种混合汽油，采用SPCA-SVM方法建立了95号汽油分别对应混合汽油A，B，C，D，E的5种二分分类模型，其分类结果如表5所示。从表5可以看出：当混合汽油中92号汽油体积分数为2.5%和5%时，模型分类的准确率均不理想，主要原因在于掺混92号汽油含量较低时，混合汽油组成改变引起拉曼光谱特征峰的变化很弱，而拉曼光谱自身的稳定性误差为±2.5%，因而模型难以建立光谱特征峰与组分变化的准确关联；随着混合汽油中掺混92号汽油含量升高，其拉曼光谱特征峰的强度变化增大，差异性愈加明显；当92号汽油体积分数达15%后，所建分类模型对测试集样本的错判数仅为2，可以较准确地识别出混合汽油类型。因此，混合汽油中92号汽油体积分数为15%可视为该分类模型的识别下限。

表5 采用SPCA-SVM法所建分类模型鉴别5种混合汽油样本的结果

3 结论

利用拉曼光谱分析技术来自对不同产地的0号车用柴油、3号喷气燃料、92号汽油、95号汽油、98号汽油共5种轻质燃料油进行了定性分析，进而基于原始拉曼光谱采用SVM、PCA-SVM方法和基于预处理后拉曼光谱采用PLS-DA，PCA-SVM，SPCA-SVM方法分别构建了一种轻质燃油分类模型。经过对上述5种燃料油样本的训练分类和测试验证，结果表明基于预处理后拉曼光谱以SPCA-SVM方法构建的分类模型的分类预测效果最好、准确率最高，其训练集样本分类准确率为100%，测试集样本分类准确率为96%，说明该分类模型可以用于轻质燃料油类别的快速、准确鉴定。

此外，对拉曼光谱预处理过程发现，经过预处理操作，可以去除原始拉曼光谱的荧光背景和噪声，使光谱特征峰更明显，显著改善拉曼光谱的表征效果。对拉曼光谱特征成分变量降维结果表明，与采用PCA方法的效果相比，采用SPCA降维方法的分类效果更优，同类别样本内部数据点分布紧凑，不同类别样本簇获得明显区分；在获得变量载荷矩阵高稀疏度的情况下，SPCA降维方法在轮廓系数和方差比准则方面表现更优。

基于拉曼光谱的分类模型鉴定方法预处理过程简单、光谱可解释性强、鉴别准确率高，适用于石油产品鉴别、油品掺假鉴定、输油管线油品质量监控等领域。