光谱自动检索算法在快速建立汽油光谱数据库中的应用

2017-02-08李敬岩褚小立田松柏

石油学报（石油加工） 2017年1期

关键词：辛烷值烯烃芳烃

李敬岩，褚小立，陈瀑，田松柏

(中国石化石油化工科学研究院，北京 100083)

光谱自动检索算法在快速建立汽油光谱数据库中的应用

李敬岩，褚小立，陈瀑，田松柏

(中国石化石油化工科学研究院，北京 100083)

首先采用聚类分析方法将某石油化工企业汽油样本进行适当分类，然后采用光谱库自动检索算法，从RIPP汽油库中有针对性地找到一定量的汽油样本作为校正集，建立汽油重要性质的分析模型。近红外分析方法结合偏最小二乘法具有测量快速、操作简单、无需预处理、重复性好等优点。建立的校正模型对该石油化工企业汽油样本的辛烷值、烯烃含量和芳烃含量的预测标准偏差分别为0.3、1.6%和1.0%，满足快速分析要求。

汽油；偏最小二乘(PLS)；近红外光谱(NIR)；库检索；聚类分析

光谱定量分析是一种新兴的、快速的分析技术，将其与化学计量学和计算机技术结合，可以对研究对象进行快速定量。近年来，红外、近红外光谱(NIR)技术与多元分析方法的结合在各个领域[1-2]都取得了长足发展。石油及石油化工产品以烃类为主，产品的性质大多取决于其组成，这是红外光谱分析技术可以用于石油及石油化工产品性质预测的基础。红外、近红外光谱技术具有操作简单、精密度高、分析速度快等优点，非常适合原油及油品的定量和定性分析[3]，如汽油辛烷值[4]、烃族组成、生物柴油主要成分[5]等。采用该技术进行油品快速分析的核心是建立稳健的定量校正模型。建模常用的线性校正方法有多元线性回归[6](MLR)、偏最小二乘(PLS)[7-9]等。

国外许多炼油厂均采用汽油管道调合优化技术，并取得了明显的经济效益。而所有的在线分析技术中近红外光谱技术是应用最广泛的一种[10-11]，只有极少数采用了在线拉曼或在线核磁技术。据统计，有95%以上的汽油调合装置采用近红外光谱技术。中国石化石油化工科学研究院(简称RIPP)汽油库中汽油样本数量多，有近千个，直接用来建立汽油性质校正模型不一定适合特定的石油化工企业，需要建立与石油化工企业汽油样本特征类似的小型样本库，以达到针对性建模的目的。笔者利用库检索算法从RIPP汽油数据库中寻找与某石油化工企业类似的汽油样本，建立小库并研究了样本库大小即校正集样本数量对预测结果的影响，从而快速建立汽油评价模型，得到一种简捷的优化生产决策及时获得评价数据的方法。

检索相似样本的策略可以是以某石油化工企业汽油样本为目标进行逐个检索，但检索速度慢，且不一定具有代表性。从大库进行检索计算之前首先将石油化工企业汽油样本进行聚类分析，进而以此类中心检索大库中的相似样本，这样可保证检索出来的RIPP大库样本的类别与某石油化工企业汽油样本的类别相似。

1 实验部分

1.1 汽油样本

收集了905个成品汽油，其中90#汽油223个，93#汽油405个，97#汽油277个，有研究法辛烷值(RON)数据的样本905个，有抗爆指数数据的样本670个，有烯烃和芳烃组成数据的样本668个。研究法辛烷值数据是扣除添加剂影响后的结果。成品汽油样本的收集时间为2007年10月～2015年10月。

某石油化工企业需使用近红外光谱仪进行数据库的建立和预测汽油性质的工作。因此从该石油化工企业收集两个批次，共计36个典型汽油样本，辛烷值范围92.2～98.6，收集时间为2013年7月～2014年9月。

1.2 仪器及光谱采集

采用Thermo Antais Ⅱ傅里叶变换近红外光谱仪采集汽油样本的近红外光谱。测量附件包括透射样品室，带聚乙烯塞一次性透明1 mL圆筒玻璃小瓶(35 mm×7.8 mm)、光程6.5 mm。用空玻璃小瓶进行背景测量；光谱分辨率8 cm-1，累计扫描128次，光谱采集范围3500～10000 cm-1。

1.3 数据处理

将采用标准方法测得的汽油红外光谱及其辛烷值、烯烃含量和芳烃含量数据通过“RIPP化学计量学软件3.0”进行编辑，生成标准矩阵式光谱数据库。所用的库检索、定量校正等化学计量学方法均采用MATLAB 8.0编写，程序运行平台为ThinkPad T440p，i5(2.50 GHz)，4 GB RAM。

1.4 PLS算法原理

偏最小二乘方法在分解光谱阵X时考虑到浓度阵Y的影响，因此对X阵和Y阵同时进行分解，分别得到对应的得分矩阵T和U以及载荷矩阵P和Q，然后将T和U进行回归，B为回归系数矩阵，表达式如式(1)、(2)所示。

U=TB

(1)

B=(TTT)-1TTY

(2)

在预测时，首先得到待测样品光谱阵Xun的得分Tun，然后根据式(3)得到其预测值。

Yun=TunBQ

(3)

汽油样本将被分为校正集和预测集，所得到的模型通过校正标准偏差(SECV)和预测标准偏差(SEP)来评价。校正标准偏差和预测标准偏差由式(4)、(5)计算。

(4)

(5)

式(4)、(5)中，m、n分别为预测集和校正集的样本数；yi,predicted为交互验证预测值；yi,actual、yj,actual分别为采用标准方法得到的校正集样本和预测集样本的实测值，yj,predicted为近红外光谱预测值。

1.5 聚类分析原理

聚类分析(Clustering analysis)是一种典型的无监督模式识别方法，利用多维空间中相似的样本彼此的距离小、不相似的样本间的距离大的原理，将相似的样本“聚”在一起，从而达到分类的目的。在众多的聚类分析算法中，K-均值聚类方法需要事先确定类数k，将待聚类的样本分为k类，使所要聚类的所有样本到其聚类中心的距离平方和最小。

1.6 光谱检索方法

光谱检索的目标是，对于待测样本的光谱x，使用一定的算法和规则，从光谱库R中找出与x最相近的一个或多个样本。为了得到满意的检索结果，在检索前往往需要对光谱进行必要的预处理和特征选择。预处理方法包括矢量归一化、导数、标准化、傅里叶变换等，特征选择可根据数学方法或化学知识找出信噪比高、特征性强、受外界影响小的一段光谱区间或多段区间的组合[12]。

本研究采用距离算法。这种算法的基本原理是两个样本的光谱越相近，则两者之间的距离越短。光谱之间的距离有多种形式，其中最常用的是欧氏距离，也称为最小二乘距离。待测样本光谱x与光谱库中第j个样本光谱rj之间的欧氏距离可由式(6)表示。

(6)

2 结果与讨论

2.1 光谱预处理及参数选择

建立校正模型前，需要选择特征性强、重复性好的光谱区间，剔除因为吸收过高、非线性现象严重而无法利用的光谱区间。经优化后最终选择波数范围为6150～8850 cm-1的区间作为最终建模选择的光谱范围。在建立校正模型前需要对光谱进行预处理，一般使用微分处理以消除温度、样品颜色、基线漂移等因素的影响，并经归一化处理，从而实现离散波长光谱的基线漂移校正。

校正集的光谱经预处理后采用偏最小二乘方法分别建立研究法辛烷值、烯烃含量和芳烃含量的校正模型，由留一法交互验证所得的预测残差平方和(PRESS值)确定PLS所用的最佳主因子数。

2.2 聚类分析

2.2.1 样本的空间分布

将RIPP汽油库样本与某石油化工公司汽油样本进行主成分分析，取前2个主因子作图，第1主因子为横坐标，第2主因子为纵坐标，如图1所示，图1中红色数据点为RIPP汽油库样本的，蓝色数据点为某石油化工公司汽油样本的。从图1可以看出，RIPP汽油样本可明显分为3类，距离某石油化工公司汽油样本较远的RIPP汽油样本不宜作为建模的样本。得到样本的分类后，还需将某石油化工公司汽油样本进行聚类分析，得到合适的类中心，以此作为选择RIPP库样本的依据。

2.2.2 未知样本的分类

依据样本间聚类进行分类，分类算法为K-mean方法，该方法分类前需指定分类数。通过高斯混合模型法给出最优分类数为4。

某石油化工企业汽油样本按4分类结果如图2所示，纵坐标为分类数，横坐标为分类效果，其值越高说明分类效果越好。从图2可以看出，该石油化工企业的汽油样本可以很好地分为4类。得到分类结果后，将以此4类的类中心为目标检索出相似的RIPP汽油样本。

图1 RIPP汽油库样本与某石油化工公司汽油样本的空间分布Fig.1 Space distribution of gasoline samples from RIPP and the petrochemical enterprise RIPP sample; The petrochemical enterprise

图2 某石油化工公司汽油样本4分类结果Fig.2 Classification of four types for gasoline samples from the petrochemical enterprise

2.3 相似样本检索

得到某石油化工公司汽油样本分类结果后，计算每类的中心，再计算RIPP汽油库中的样本与这4个类中心的欧式距离；每类取最相近的N个样本并剔除重复样本，最终检索出M个汽油样本，如图3所示。图3中红色数据点为N=100时检索出的RIPP汽油库相似样本，蓝色数据点为某石油化工企业汽油样本。检索出的RIPP汽油样本将作为校正集分别建立汽油辛烷值、烯烃含量和芳烃含量的校正模型。按不同N值检索出4组样本，每组样本的数量列于表1，4#库包含了RIPP汽油库的所有样本。由表1可见，1#库最小，只有185个样本。

2.4 校正集样本的训练

将经过变量选择后的光谱区间进行一阶微分处理，处理后的光谱数据形成吸光度矩阵(X)，相应汽油样本用标准方法测定辛烷值、烯烃含量和芳烃含量等分别构成浓度矩阵(Y)，然后用PLS法分别建立汽油物性的校正模型。笔者采用交互验证选取最佳主因子数，交互验证采用留一法，通过交互验证的预测残差平方和与主因子数作图即通过PRESS图确定最佳主因子并建立校正模型。偏最小二乘建模参数列于表2。由表2可见，对于2#样本库，当主因子数为7时，RON模型PLS交互验证SECV达到最小并趋于稳定，因此通过交互验证所得的预测残差平方和确定辛烷值PLS模型最佳主因子数为7，R2为决定系数，其绝对值越接近1说明预测结果越好。从汽油辛烷值的模型结果可以得出，相关系数R2为0.96，交互验证得到的校正标准偏差(SECV)为0.3；汽油烯烃含量的校正标准偏差为1.2%，相关系数R2为0.98；汽油芳烃含量的校正标准偏差为1.0%，相关系数R2为0.96，基本满足了快速分析和过程分析的要求。

图3 RIPP汽油样本库中与某石油化工企业汽油样本相似的样本Fig.3 The gasoline samples from RIPP similar to the gasoline samples of the petrochemical enterprise RIPP sample; The petrochemical enterprise表1 RIPP不同汽油样本库大小Table 1 Gasoline samples scale in different sets from RIPP

No.NSamplingscale1#501852#1003563#2006284#—905

N—Number of samples retrieved per class

表2 表1中2#样本库PLS模型参数Table 2 PLS model parameters for 2# set in Table 1

2#库汽油辛烷值、烯烃含量和芳烃含量的训练结果如图4所示，其中横坐标为实测值，纵坐标为近红外方法预测值。从图4可以看出，辛烷值、烯烃含量和芳烃含量的实测值和近红外方法预测值有很好的相关性。

图4 汽油辛烷值、烯烃质量分数和芳烃质量分数的 NIR预测值与实际值Fig.4 Experimental values and NIR prediction values for RON, mass fraction of olefin and aromatics of gasoline samples NIR—By NIR prediction; Ref—By reference method(a) RON; (b) Mass fraction of olefin; (c) Mass fraction of aromatics

4个含有不同数量RIPP汽油样本的数据库建立校正模型的建模效果如图5所示。从图5可以看出，当选择2#库即校正集样本数量为356时，模型的SECV最小；以2#库为校正集建模预测某石油化工企业汽油样本的SEP也是最小，因此2#库为最具有针对性的样本库。1#库和3#库建模效果都不佳，原因是1#库样本较少，缺乏代表性，3#库样本量过多，含有与某石油化工企业汽油样本差异大的样本。

2.5 预测分析

为了验证NIR方法测量汽油辛烷值、烯烃含量和芳烃含量的准确性，以某石油化工企业36个汽油含量样本作为验证集，用建立的校正模型对验证集的36个样本的辛烷值，烯烃含量和芳烃含量进行预测，结果列于表3。由表3可见，汽油辛烷值,烯烃含量、芳烃含量的预测标准偏差(SEP)分别为0.3、1.6%、1.0%。因此，使用PLS算法结合NIR自动检索算法建立小库预测汽油辛烷值、烯烃含量和芳烃含量完全可行，预测结果基本满足了快速分析和过程分析的要求。

图5 表1中4个汽油样品库的建模效果Fig.5 Effect of modeling for 4 gasoline sample sets in Table 1(a) SECV; (b) SEP表3 NIR方法与标准方法测定的汽油辛烷值、烯烃质量分数和芳烃质量分数结果对比Table 3 Comparison between NIR prediction values and reference values of RON, mass fractions of olefin and aromatics of gasoline

SampleIDRONNIRRONRefDeviationw(Olefin)NIR/%w(Olefin)Ref/%Deviation/%w(Aromatics)NIR/%w(Aromatics)Ref/%Deviation/%192.792.40.310.710.7037.337.8-0.5296.296.00.29.78.41.339.740.6-0.9392.993.6-0.712.612.30.336.536.10.4495.795.709.211.6-2.437.638.0-0.4595.695.7-0.19.211.6-2.437.738.0-0.3696.095.70.39.88.61.239.139.00.1798.698.9-0.37.87.70.139.339.10.2892.892.40.410.611.1-0.537.838.5-0.7992.792.40.310.711.1-0.437.238.5-1.31092.892.70.110.611.4-0.837.737.9-0.21195.595.8-0.38.47.41.038.836.22.61293.093.0010.012.2-2.238.638.601392.692.7-0.110.68.12.536.637.3-0.71498.098.7-0.76.57.6-1.139.739.50.21595.595.8-0.3——————1692.392.00.39.87.12.735.836.7-0.91792.292.00.29.97.12.835.636.7-1.11895.395.6-0.3——————1994.794.8-0.18.36.32.035.136.2-1.1

续表3

3 结论

(1)可通过向RIPP汽油库检索足够的样本的方式，针对具体石油化工企业汽油样品建模，用于汽油辛烷值、烯烃含量和芳烃含量的预测。

(2)使用类中心的检索策略可大大缩短建模所耗时间。

(3)用来建模的样本数量需要优化，本研究中使用含356个样本的小库建模效果最佳。

(4)P LS方法可以准确预测汽油辛烷值、烯烃含量和芳烃含量，校正标准偏差分别为0.3、1.2%和1.0%，预测标准差分别为0.3、1.6%和1.0%，均接近于标准方法的误差要求，且测量快速、操作简便，在一定场合可以替代标准方法用于汽油的快速分析。

[1] LIU F， ZHANG F， JIN Z L， et al． Determination of acetolactate synthase activity and protein content of oilseed rape (Brassica napus L.) leaves using visible/near infrared spectroscopy[J]．Analytica Chimica Acta， 2008, 629(1-2)： 56-65.

[2] KEMENY G J. Handbook of Near-Infrared Analysis[M]. New York: Marcel Dekker, 2001: 1-6.

[3] 褚小立, 许育鹏, 陆婉珍. 用于近红外光谱分析的化学计量学方法研究与应用进展[J].分析化学, 2008, 36(5): 702-709. (CHU Xiaoli, XU Yupeng, LU Wanzhen. Research and application progress of chemometrics methods in near infrared spectroscopic analysis[J].Chinese Journal of Analytical Chemistry, 2008, 36(5): 702-709.)

[4] KELLYJ J, CALLIS J B. Nondestructive analytical procedure for simultaneous estimation of the major classes of hydrocarbon constituents finished gasolines[J].Analytical Chemistry, 1990, 62(14): 1444-1451.

[5] PIMENTELA M F, RIBEIROB M G S, ROSENIRA S, et al. Determination of biodiesel content when blended with mineral diesel fuel using infrared spectroscopy and multivariate calibration[J].Microchemical Journal, 2006, 82(2): 201-206.

[6] ANDREAS A K, NIKOS P. Autoregressive modeling of near-IR spectra and MLR to predict RON values of gasolines[J]. Fuel, 2010, (89): 158-161.

[7] DU Y P, LIANG Y Z, JIANG J H, et al. Spectral regions selection to improve prediction ability of PLS models by changeable size moving window partial least squares and searching combination moving window partial least squares[J]. Analytica Chimica Acta, 2004, 501(2): 183-191.

[8] 褚小立, 许育鹏, 陆婉珍. 偏最小二乘法方法在光谱定性分析中的应用研究[J].现代仪器, 2007, (5): 13-15. (CHU Xiaoli, XU Yupeng, LU Wanzhen. The study of use of partial least squares in spectroscopy qualitative analysis[J].Petroleum Processing and Petrochemicals, 2007, (5): 13-15.)

[9] MARCELO M S, RONEI J P. N-way PLS applied to simultaneous spectrophotometric determination of acetylsalicylic acid, paracetamol and caffeine[J].Journal of Pharmaceutical and Biomedical Analysis, 2004, (34): 27-34.

[10] LANG Q A. NIRs monitor critical gasoline parameter[J]. Hydrocarbon Processing, 1994， 73(2)： 69-71.

[11] LAMBERT D， DESCALED B， ESPINOSA A， et al. NIR online advanced control system for gasoline blender[J].Analusis， 1995， 23(4)： 20-25.

[12] 褚小立，袁洪福，陆婉珍. 近红外分析中光谱预处理及波长选择方法进展与应用[J]. 化学进展， 2004， 16(4)： 528-542. (CHU Xiaoli， YUAN Hongfu， LU Wanzhen. Progress and application of spectral data pretreatment and wavelength selection methods in NIR analytical technique[J].Progress in Chemistry， 2004， 16(4)： 528-542.)

Application of Spectral Automatic Retrieval Algorithm onthe Rapid Establishment of Gasoline Spectral Database

LI Jingyan, CHU Xiaoli, CHEN Pu, TIAN Songbai

(ResearchInstituteofPetroleumProcessing，SINOPEC，Beijing100083，China)

The petrochemical enterprise gasoline samples were properly classified by cluster analysis method, then the spectral library automatic retrieval algorithm was employed to find a certain amount of gasoline samples as calibration sets from RIPP gasoline library to establish the analysis model for the properties of gasoline. The calibration models of research octane number (RON), olefin and aromatics content had been established by Partial least square (PLS). The standard error of prediction (SEP) of the petrochemical enterprise gasoline samples on gasoline RON, olefin and aromatics mass fraction were 0.3， 1.6% and 1.0%， respectively. The results predicted by this method were very close to those determined by standard methods. Compared with standards, PLS combined with near infra-red (NIR) method was provided with advantages such as high-speed, simplicity, no-pretreatment and good-repeatability.

gasoline; Partial least square (PLS); near infra-red (NIR); library retrieval; cluster analysis

2016-04-12

李敬岩，男，高级工程师，博士，从事光谱分析与原油快速评价方面的研究

褚小立，男，教授级高级工程师，博士，从事光谱分析与原油快速评价方面的研究；Tel：010-82368342；E-mail:chuxl.ripp@sinopec.com

1001-8719(2017)01-0131-07

O657.33

10.3969/j.issn.1001-8719.2017.01.018