APP下载

基于核函数的非线性校正算法在原油快评中的应用

2016-10-20李敬岩褚小立田松柏

石油学报(石油加工) 2016年5期
关键词:酸值校正原油

李敬岩,褚小立,田松柏

(中国石化 石油化工科学研究院,北京 100083)



基于核函数的非线性校正算法在原油快评中的应用

李敬岩,褚小立,田松柏

(中国石化 石油化工科学研究院,北京 100083)

为了快速准确地测量原油的密度、酸值和硫质量分数等重要性质,采用红外光谱技术结合非线性化学计量学定量校正算法建立校正模型。结果表明,分别使用最小二乘支持向量机算法(LSSVM)和核偏最小二乘(KPLS)两种基于核函数的非线性校正算法建模预测原油密度、酸值和硫质量分数的预测标准偏差分别为0.0065 g/cm3、0.19 mgKOH/g和0.38%以及0.0089 g/cm3、0.23 mgKOH/g和0.40%,预测结果的重复性与再现性等同或优于标准方法。与经典偏最小二乘(PLS)方法相比,KPLS算法准确性更高,而LSSVM具有更快的训练速率、更小的测量偏差等优点。

原油;最小二乘支持向量机(LSSVM);核偏最小二乘(KPLS);PLS;红外光谱(MIR);快速评价

原油评价在原油开采、原油贸易和原油加工等方面发挥着十分重要的作用。在炼油厂,不同种类原油混合的情况比较普遍;此外,机会原油交易逐渐频繁,油质对油价影响巨大,快速检测原油性质,对于优化进料、调合,提高企业效率具有重要意义。针对以上情况,国内外大型石化企业都采用多种现代仪器分析手段开发原油快评技术[1]。现代仪器分析手段包括色谱、质谱、核磁共振、红外/近红外光谱等。

红外/近红外光谱技术具有分析快、精密度高、操作简单等优点,与化学计量学[2]结合非常适合原油及油品的定量和定性分析[3]。国外已有采用近红外光谱法进行原油评价[4-6]。BP Oil Lavara 炼油厂首先监控原油的密度及实沸蒸馏数据,根据进厂原油的性质及时调整操作数据,可以最大限度地发挥装置的加工能力,带来可观的经济效益。中国石化石油化工科学研究院长期从事原油评价的基础工作,已收到500多种不同原油样本,其产地覆盖了世界各地及我国各大油田,包括石蜡基原油、环烷基原油及中间基原油,且分布也较均匀;在此基础上开展了一系列的原油快评研究,包括原油性质的预测[7-8]与未知原油的识别等工作[9]。但这些快评技术基本上以实验室用大型光谱仪为平台,缺乏一种可用于现场的快速分析手段。

建立稳健的定量校正模型是红外/近红外光谱分析的核心之一。经典的线性校正算法有多元线性回归[10](MLR)、偏最小二乘(PLS)[11]等,它们可以完美地回归线性系统,但不能很好地解释非线性化学响应,并且计算时间较长。非线性校正算法有最小二乘支持向量机算法[12](LSSVM)、核偏最小二乘[13](KPLS)等,其中,LSSVM是基于核函数的学习方法,它将解决凸二次规划(QP)问题转变为求解一个线性方程组[14],可以避免局部最优值的出现。

笔者采用中红外光谱仪,以两种非线性的化学计量学算法建立了原油的密度、酸值和硫质量分数的预测模型,可及时获得原油评价数据,为确定原油加工方案和优化生产决策提供快速、简捷的方法,并与经典的PLS算法建立模型的预测结果进行比较。

1 实验部分

1.1原油样本

国内外具有代表性的原油样本200种,基本覆盖了世界主要原油产区的原油品种,密度分布范围0.7687 ~1.009 g/cm3。其中,石蜡基原油50个、中间基原油82个、环烷基原油32个、环烷-中间基原油13个、石蜡-中间基9个、中间-石蜡基 14个。分别采用标准方法测定所收集原油的密度、酸值以及元素硫质量分数。

1.2仪器与光谱采集

采用Nicolet6700红外光谱仪,附件为ATR液体池。光谱采集范围4000~650 cm-1,DTGS检测器,累积扫描64次。

在常温下采集所有样本的红外光谱,并实时扣除H2O和CO2的干扰。测量前,原油样品需要铺满整个样品池表面,对于黏度较大不易铺展的原油可以用棉签将其涂抹在晶体表面。测量结束后先用脱脂棉将样品池中的原油大部抹去,然后再用石油醚清洗数次,直至通过背景测试。

1.3数据处理

采用“RIPP化学计量学光谱分析软件3.0”将原油样本的红外光谱及其密度、酸值和硫质量分数进行编辑,生成标准矩阵式数据库。用K-S(Kennard-Stone)方法将原油样品分为校正集和验证集,其中校正集样本150个,验证集样本50个。为保证实验结果的可比性,LSSVM与KPLS以及PLS算法使用相同的校正集和预测集。程序运行平台为ThinkPad T440p,i5(2.50 GHz),4 GB RAM。

1.4算法原理

LSSVM算法是由支持向量机(SVM)改进而来的一种非线性建模方法。该算法以线性系统降低了计算的复杂性,无局部最小值,预测可靠性高且泛化能力更强。

对于红外光谱矩阵X={x1,x2,…,xn},对应的性质矩阵Y={y1,y2,…,yn},其中xi∈Rd为输入向量,yi∈R为目标向量,d为维数,i=1,2,…,n。首先由一非线性映射φ(·)将原空间映射Rd到特征空间φ(xi),然后在高维特征空间内构造最优决策函数,并以结构风险最小化原则构建约束优化问题。定义核函数k(xi,xj)=(φ(xi)φ(xj)),用以代替从低维到高维的映射。将优化问题转换为求解线性方程。当采用径向基核函数时,需要调节核参数δ2和正规化参数C。这两个参数对模型的计算复杂度和预测精确度都有很大的影响,本研究采用基于交互验证的网格搜索法寻找最优的参数组合。

传统的各种可用内积表达的线性方法经过“核化”,进而成为非线性方法。例如,通过将核函数与经典PLS算法结合可以解决非线性校正的问题[15]。

PLS算法的回归系数b的表达式为式(1)。式(1)中,T和U分别为X和Y矩阵的得分矩阵。

b=XTU(TTXXTU)-1TTY

(1)

对于KPLS算法,是用一个非线性映射φ(·)将输入变量映射到新的空间,本研究采用高斯核,未知样本的预测值可通过式(2)得到。式(2)中,K*为未知样本核矩阵,K为校正样本核矩阵。

(2)

2 结果与讨论

2.1原油样本红外光谱预处理及参数选择

图1为原油样品的红外光谱,其中1800~900 cm-1范围为光谱指纹区。模型建立前,校正集样本和验证集样本均需采集红外光谱,并将红外光谱进行微分处理,以消除样品颜色、温度及基线漂移等因素的影响;建立的模型通过校正标准偏差(SECV)和预测标准偏差(SEP)来评价,分别如式(3)、(4)所示。

图1 原油样本的红外光谱

i=1,2,3…,n

(3)

j=1,2,3…,m

(4)

式(3)、(4)中,n为校正集的样本总数;yi,actual为通过标准方法得到的实测值;yi,predicted为交互验证预测值;m为预测集的样本数;yj,actual为通过标准方法得到的实测值;yj,predicted为红外光谱预测值。

2.2校正集样本的训练

原油成分极其复杂,在中红外光谱范围内(4000~400 cm-1),尤其是指纹区内信息非常丰富,但谱带重叠严重,本研究通过优选后的区域参与建立校正模型。

校正集样本的选择与分布对模型影响较大,校正集样本需覆盖预测集样本的浓度范围,同时分布尽量均匀。将经过优化后的光谱区间进行一阶微分处理后的吸光度值形成吸光度矩阵(X),用标准方法测定相应样品的密度、酸值和硫质量分数,并分别组成矩阵(Y),然后用最小二乘支持向量机法(LSSVM )和核偏最小二乘方法(KPLS)分别建立原油性质的校正模型。

超参数是决定最小二乘支持向量机的学习精度和泛化能力的重要参数[16]。本研究采用径向基核函数,首先需要调节核参数δ2和正规化参数C。通过基于交互验证的网格搜索法找到最优的参数组合,结果列于表1。对校正集样本进行训练,密度、酸值和硫质量分数模型对校正集样本实际函数值逼近效果如图2所示。从图2可以看出,模型对原油的这3种性质都有很高的预测精度和泛化能力,总体上不会出现较大偏差。

表1 预测原油性质的LSSVM模型的参数组合

针对KPLS方法,需要通过交互验证选取核宽度因子以及潜变量数(主因子数)。图3为校正集样本的密度、酸值和硫质量分数交互验证的残差面。X轴是潜变量数目,从1到20,Y轴是核宽度因子,Z轴是校正标准偏差(SECV)。从图3(a)可以看出,潜变量在10以后,模型的SECV值没有明显减小;核宽度因子在0.8以后,模型的SECV值也没有明显变化。因此,选择密度模型的潜变量数为10,核宽度因子为0.8。同理得到酸值和硫质量分数模型的相应参数,结果列于表2。

2.3原油样本的预测分析

对LSSVM方法,使用留一法对校正集样本进行交互验证。通过网格搜索法确定模型的核参数δ2和正规化参数C最优参数组合后,对验证集的50个原油样本的密度、酸值和硫质量分数进行预测,结果示于图4,其中红色为校正集样本,黑色为预测集样本。从图4可以看出,对模型外的样本的密度依然有很好的预测能力,相关系数R2为0.9541,交互验证得到的SECV为0.0093 g/cm3,SEP为0.0065 g/cm3,达到了标准方法的误差要求;酸值预测的相关系数R2为0.9562,交互验证得到的SECV为0.32 mgKOH/g,SEP为0.19 mgKOH/g;硫质量分数预测的相关系数R2为0.9721,交互验证得到的SECV为0.27%,SEP为0.38%。因此,使用LSSVM算法结合红外光谱预测原油密度、酸值和硫质量分数等主要性质的校正模型完全可行,预测结果基本满足了快速分析和过程分析的要求。

对KPLS方法,通过网格搜索法确定模型的核参数δ2和潜变量数的最优参数组合后,对验证集的50个原油样本的密度、酸值和硫质量分数进行预测,结果示于图5,其中红色为校正集样本、黑色为预测集样本。由图5可知,密度的预测值与实测值有良好的相关性,交互验证得到的SECV为0.0075 g/cm3,SEP为0.0089 g/cm3,达到了标准方法的误差要求;酸值预测的SECV为0.20 mgKOH/g,SEP为0.23 mgKOH/g,建模效果稍优于LSSVM方法;硫质量分数交互验证得到的SECV为0.17%,SEP为0.40%,预测结果与LSSVM方法相当。

图2 校正集原油样本的密度(ρ)、酸值(TAN)和硫质量分数(w(S))的训练逼近效果

图3 原油样本密度(ρ)、酸值(TAN)和硫质量分数(w(S))的交互验证残差面

ParameterFactorδ2ρ100.8TAN101.0w(S)120.6

图4 中红外光谱方法与标准方法测定原油密度(ρ)、酸值(TAN)和硫质量分数(w(S))的LSSVM预测值和实际值

图5 中红外光谱方法与标准方法测定原油密度、酸值和硫质量分数的KPLS预测值与实际值

2.4非线性建模方法与PLS预测结果的对比

在确定光谱预处理方法和选定波长范围后(同LSSVM、KPLS),采用偏最小二乘(PLS)通过交互验证的预测残差平方和与主因子数的关系分别确定密度、酸值和硫质量分数模型的最佳主因子并建立校正模型。通过PLS建立密度、酸值和硫质量分数校正模型的校正标准偏差(SECV)和预测标准偏差(SEP)列于表3。

表3 PLS模型预测原油性质的校正标准偏差(SECV)和预测标准偏差(SEP)

图6是LSSVM、KPLS和PLS算法对原油密度、酸值和硫质量分数的训练以及预测效果的对比。由图6可知,对校正集密度、酸值和硫质量分数的训练效果由好到差的算法顺序为KPLS、LSSVM、PLS。LSSVM算法对密度和酸值的训练以及预测效果都要明显优于经典PLS算法,而对于硫质量分数的预测效果大致相当。KPLS算法对预测集的预测效果略差,因此LSSVM的泛化能力优于KPLS方法。通常预测标准偏差(SEP)要大于校正标准偏差(SECV),但PLS和LSSVM算法对于密度和酸值的SEP小于SECV,而从实验结果分析并无过拟合现象,这是因为预测集密度、酸值的范围小于校正集并且无界外样本,因此模型能够完美拟合预测集。

图7是LSSVM、KPLS和PLS算法对原油密度、酸值和硫质量模型进行训练以及预测的平均消耗时间。从图7可以看出,KPLS方法计算时间略少于PLS方法,LSSVM算法所消耗的时间远低于PLS,在大批量数据计算场合优势明显。

3 结 论

(1)测定了200个原油的红外光谱,并使用最小二乘支持向量机方法和核偏最小二乘方法分别建立了测定原油密度、酸值和硫质量分数等重要性质的非线性定量校正模型,并与PLS的建模效果进行了对比。

(2)对于原油特别是深色、黏稠的重质原油红外光谱的测量存在进样和清洗的困难,而ATR液体池附件可以有效地解决,重复性好。

图6 3种校正算法对原油密度(ρ)、酸值(TAN)和硫质量分数(w(S))的训练和预测效果

图7 3种校正算法的平均训练和预测时间

(3)LSSVM方法可以准确预测原油密度、酸值和硫质量分数,交互验证标准偏差分别为0.0093 g/cm3、0.32 mgKOH/g和0.27%,预测标准差分别为0.0065 g/cm3、0.19 mgKOH/g和0.38%,均接近于标准方法的误差要求。KPLS方法预测原油密度、酸值和硫质量分数的交互验证标准偏差分别为0.0075 g/cm3、0.20 mgKOH/g和0.17%,预测标准差分别为0.0089 g/cm3、0.23 mgKOH/g和0.40%,模型训练效果最好。

(4)与经典偏最小二乘方法相比,LSSVM训练和模型预测的时间短,测量的精度更高。

[1]陈瀑,褚小立.原油及重油的快速分析技术进展[J].分析测试学报,2012,31(9):1191-1198.(CHEN Pu,CHU Xiaoli.Development of rapid analytical technologies in crude and heavy oil[J].Journal of Instrumental Analysis,2012,31(9):1191-1198.)

[2]KEMENY G J.Handbook of Near-Infrared Analysis[M].New York:Marcel Dekker,2001:1-6.

[3]褚小立,许育鹏,陆婉珍.用于近红外光谱分析的化学计量学方法研究与应用进展[J].分析化学,2008,36(5):702-709.(CHU Xiaoli,XU Yupeng,LU Wanzhen.Research and application progress of chemometrics methods in near infrared spectroscopic analysis[J].Chinese Journal of Analytical Chemistry,2008,36(5):702-709.)

[4]PASQUINI C,BUENO A F.Characterization of petroleum using near-infrared spectroscopy:Quantitative modeling for the true boiling point curve and specific gravity[J].Fuel,2007,86(12):1927-1934.

[5]FALLA F S,LARINI C,LE ROUX G A C,et al.Characterization of crude petroleum by NIR[J].Journal of Petroleum Science and Engineering,2006,51(1):127-137.

[6]HIDAJAT K,CHONG S.Characterization of crude oils by partial least square calibration of NIR spectral profiles[J].Journal of Near Infrared Spectroscopy,2000,8(1):53-58.

[7]李敬岩,褚小立,田松柏.红外光谱方法快速预测原油密度的研究[J].石油炼制与化工,2011,42(12):73-77.(LI Jingyan,CHU Xiaoli,TIAN Songbai.Research on determination of density of petroleum by mid-infrared spectroscopy[J].Petroleum Processing and Petrochemicals,2011,42(12):73-77.)

[8]LI Jingyan,CHU Xiaoli,TIAN Songbai.Research on determination of total acid number of petroleum using mid-infrared attenuated total reflection spectroscopy[J].Energy Fuels,2012,26(9):5633-5637.

[9]CHU Xiaoli,XU Yupeng,TIAN Songbai,et al.Rapid identification and assay of crude oils based on moving-window correlation coefficient and near infrared spectral library[J].Chemometrics and Intelligent Laboratory Systems,2011,107 (1):44-49.

[10]ANDREAS A K,NIKOS P.Autoregressive modeling of near-IR spectra and MLR to predict RON values of gasolines[J].Fuel,2010,89(1):158-161.

[11]MARCELO M S,RONEI J P.N-way PLS applied to simultaneous spectrophotometric determination of acetylsalicylic acid,paracetamol and caffeine[J].Journal of Pharmaceutical and Biomedical Analysis,2004,34(1):27-34.

[12]WU Di,HE Yong,FENG Shuijuan,et al.Study on infrared spectroscopy technique for fast measurement of protein content in milk powder based on LS-SVM[J].Journal of Food Engineering,2008,84(1):124-131.

[13]VAN DEN BROEK W H A M,DERKS E P P A,VAN DE VEN E W,et al.Plastic identification by remote sensing spectroscopic NIR imaging using kernel partial least squares (KPLS)[J].Chemometrics and Intelligent Laboratory Systems,1996,35(2):187-197.

[14]SUYKENS J A K,VANDEWALLE J.Least squares support vector machine classifiers[J].Neural Processing Letters,1999,9(3):293-300.

[15]ROSIPAL R,TREJO L J.Kernel partial least squares regression in reproducing kernel Hilbert space[J].Journal of Machine Learning Research,2001,(2):97-123.

[16]TRYBULA W J.Annual review of information science and technology(ARIST)[J].Data Mining and Knowledge Discovery,1997,32:197-229.

Application of Nonlinear Algorithm Based on Kernel Methods inFast-Evaluation of Crude Oil

LI Jingyan,CHU Xiaoli,TIAN Songbai

(Research Institute of Petroleum Processing,SINOPEC,Beijing 100083,China)

Fast and accurate measurement of density,acid value and sulfur mass fraction is necessary for petroleum characterization,which can be realized by the combined use of mid-infrared spectroscopy and nonlinear quantitative calibration algorithm based on kernel function.The calibration models of density,acid value and sulfur mass fraction were established by Least squares support vector machines (LSSVM)and Kernel partial least squares(KPLS)with the standard prediction errors (SEP)of crude oil density,and sulfur mass fraction were 0.0065 g/cm3,0.19 mgKOH/g and 0.38% on LSSVM and 0.0089 g/cm3,0.23 mgKOH/g and 0.39% on KPLS,respectively.The results predicted by the two methods were very close to those determined by standard methods.Compared with classic PLS algorithm,the KPLS showed high predictive accuracy,and LSSVM method provided the advantages such as high-speed,simplicity and high precision.

crude oil; Least squares support vector machines (LSSVM); Kernel partial least squares (KPLS); PLS; mid-infrared spectroscopy (MIR); fast-evaluation

2015-09-24

李敬岩,男,高级工程师,博士,从事红外光谱分析与原油快速评价的研究;Tel:010-82368342;E-mail:lijy.ripp@sinopec.com

1001-8719(2016)05-0967-07

O657.33

Adoi:10.3969/j.issn.1001-8719.2016.05.014

猜你喜欢

酸值校正原油
柴油酸度和酸值测定结果差异性研究
劉光第《南旋記》校正
优质橄榄油如何购买
在Lightroom中校正镜头与透视畸变
机内校正
放开我国原油进口权的思考
初探原油二元期权
“1吨原油等于7.33桶”的来龙去脉
大数据是“原油”,不是“汽油”
Al2(SO4)3/SiO2催化高酸值生物柴油原料降酸值研究