基于卷积神经网络的原油组分光谱分析研究

2022-01-04沈阳孔笋冯永仁左有祥周明高

测井技术 2021年5期

沈阳,孔笋,冯永仁,左有祥,周明高

(中海油田服务股份有限公司油田技术研究院,河北三河065201)

0 引言

油藏流体主要由各种碳氢化合物组成,流体中的溶解气数量多、差异大。碳氢化合物开采和利用的各个方面都取决于流体的类型,而地层原油的组分含量是决定流体类型的关键,确定原油的组成对设备设计到开采策略具有重要的指导作用[1]。原油虽成分复杂,但其含氢基团的震动吸收光谱的倍频及组合频正好位于近红外光谱范围(700～2 500 nm)内,因此,可以利用近红外光谱对原油成分进行测定[2-3]。近红外光谱分析技术测量方便、速度快、成本低,非常适合于原油在线快速分析[4]。

原油近红外光谱分析中需要用多元校正方法。常用的方法有多元线性回归法(Multiple Linear Regression,MLR)、主成分回归法(Principal Component Analysis,PCR)、偏最小二乘法(Partial Least Squares,PLS)、人工神经网络(Artificial Neural Network,ANN)和支持向量机(Support Vector Machines,SVM)等[5]。其中,MLR、PCR和PLS是线性方法,ANN和SVM属于非线性方法。理想情况下,近红外光谱的吸收强度与原油组分含量呈线性相关,但受测井仪器的非线性响应和井下环境的影响,实际采集的原油光谱与组分含量之间可能存在某种非线性关系。此时,仅采用线性方法难以正确反映近红外光谱和原油成分之间的关系。

因此,在建立校正模型之前,需要先对光谱进行预处理,消除与原油组分含量无关的其他影响因素的干扰。目前常用的近红外光谱预处理方法有:平滑、导数、标准正态变量变换(Standard Normal Variate,SNV)、多元散射校正(Multiplicative Scatter Correction,MSC)等[6-7]。针对不同的数据特点采用不同的预处理方法,不恰当的预处理可能会导致模型的预测能力下降[8]。

该文以原油的近红外光谱为研究对象,提出了一种基于卷积神经网络的原油组分定量分析方法。该方法利用神经网络的自学习能力,自适应学习光谱中的噪声特征,将噪声从光谱数据中去掉,提高校正模型预测准确率。利用该方法对原油样品近红外光谱进行校正和预测,取得了较好的实验效果。

1 卷积去噪网络

利用卷积神经网络对原始光谱数据进行预处理,去除光谱中影响校正模型的因素,从而提高校正模型的预测效果。预测模型的结构见图1,将其命名为CDNet(Convolutional Denoising Network)。CDNet分为预处理和校正模型2个模块,预处理模块由2个卷积块(Block1和Block2)构成。校正模型为3层感知机,(Multilayer Perceptron,MLP),由2个全连接层(FC1和FC2)和1个输出层构成。

图1 预测模型CDNet结构图

预处理模块的作用是替代现有的近红外光谱预处理方法,利用神经网络的自学习能力,学习输入的光谱数据中影响预测的因素,并将其扣除。其中,每个卷积块(Block)包括1个卷积层(Conv)和1个跳跃连接。跳跃连接使得卷积层只需学习测量光谱与目标光谱之间的差异,即光谱中的干扰因素,而网络更容易学习这种差异[9]。不仅如此,这种输入输出具有相同形状的结构,也便于堆叠卷积块的数量以达到更优的效果。卷积块可以表示为

(1)

式中,Xc为卷积层的输出;Xinput为卷积块的输入;Wc为卷积层卷积核的权重;Xb为卷积块的输出。

为了获得较好的预测能力,校正模型由2个全连接层(FC1和FC2)和输出层组成。预测过程可以表示为

(2)

式中,XFC1和XFC2分别为FC1和FC2层的输出;Xb2为Block2层的输出;WFC1和WFC2分别为FC1和FC2层的权值矩阵;bFC1和bFC2分别为FC1和FC2层的偏置向量;AFC1(x)为FC1层的激活函数,用来实现非线性的映射。

预测模型CDNet在MLP校正模型的基础上加入了基于卷积神经网络的预处理模块,对输入的光谱数据进行修正,以提高后续校正模型的预测性能。预测模型CDNet具有3个主要特点。

(1)将光谱的预处理步骤融入到模型当中,进行整体优化,避免了预处理和校正模型独立优化的不足。以往预处理步骤在模型之外进行,无法利用训练模型过程中输入的组分含量信息进行优化,而且对多组分中的每个组分应用相同的预处理方法。预测模型CDNet将预处理整合到模型当中,让组分含量信息参与优化预处理过程,对多组分数据中每个组分进行针对性的优化。

(2)传统的预处理方法效果依赖于参数的设置,参数选择需要通过经验确定,效果不稳定。使用卷积神经网络替代传统的预处理方法,通过网络的自适应性,可以更有效地去除光谱中不利于校正模型预测的因素,提高模型的性能。

(3)MLP校正模型可以同时处理光谱与物质含量之间的线性和非线性关系。MLP校正模型网络包含输入层、隐藏层和输出层,由于层次之间的复杂的映射关系,通过调整隐藏层的层数以及各层的节点数,网络可以逼近任意复杂的映射关系。

2 实验部分

为了验证该方法的有效性,设计了实验方案和实验装置。通过在实验室进行原油的组分配比,然后采集原油的近红外光谱。

2.1 实验装置

实验装置包括:手摇泵、真空泵、混合罐、样品罐、搅拌器、光谱仪、计算机等部分,如图2所示。

图2 实验装置

样品罐用于存放甲烷、乙烷、丙烷、丁烷、戊烷以及氮气样品。混合罐将原油与甲烷、乙烷、丙烷、丁烷、戊烷在罐中高压混合。手摇泵可通过手摇控制进入混合罐的样品含量。真空泵用来抽取管路中残余气体。搅拌器用于将混合罐中混合样品搅拌均匀。光谱仪用于采集混合罐中样本的光谱数据,波长范围1 100～2 110 nm。

2.2 光谱数据采集

在实验过程中,原油混合一定量的甲烷、乙烷、丙烷、丁烷、戊烷,采集混合溶液的近红外光谱。数据采集过程中,首先要抽真空以保证管路中没有残留的气体;然后,通过手摇泵进行样品混合,保证混合罐的压力。由于氮气在近红外区域几乎没有吸收,因此,对光谱采集的影响可以忽略不计。重复上面的过程,共采集了97个样品,其光谱见图3。由图3可见,吸收峰主要在1 200、1 400和1 700 nm附近。其中,1 200 nm附近主要是C-H基团的二级倍频吸收,1 400 nm附近主要是C-H的合频吸收,1 700 nm附近主要是C-H基团的一级倍频吸收[10]。

图3 混合原油的近红外光谱

2.3 模型建立

在97个样本中,经过初步分析,剔除了3个异常样本,剩余94个样本用于后续分析。使用Duplex算法[11]分为64个校正集样本和30个测试集样本。校正集用于模型的训练,测试集用于模型之间的性能比较。

CDNet模型的预处理模块中,2个卷积层的卷积核k1、k2分别设置为11和35。考虑到每个卷积块去除一种干扰因素,同时保持光谱波长点数量基本不变,所以卷积核的个数设置为1。校正模型中全连接层FC1、FC2的神经元个数分别为256和128。输出层有1个神经元,输出值为组分含量预测值。模型训练采用的损失函数是均方误差

(3)

训练过程中的损失值变化见图4。由图4可见,迭代3 000次以后模型已经收敛,后续的训练可能会使得模型过拟合,因此,模型选择迭代3 000次时的网络权值。

图4 训练过程损失迭代图

预处理模块中卷积层的卷积核k是CDNet网络非常重要的1个参数,k过大或过小都会影响卷积层学习近红外光谱干扰因素的效果,从而影响校正模型的预测效果。采用网格搜索的方法,对核大小的组合进行了评估,结果见图5。

图5 卷积核大小的选择

图5中的方块可以分成4个区域:左上、左下、右上和右下。从图5中可以直观地看出,右上区域的方块颜色要比其余3个区域浅,说明该区域的参数组合得到的校正模型预测效果比其余区域更好;同时,也说明Block1应选择1个小卷积核,而Block2应选择1个大卷积核,所以最终选择了11和35作为卷积核的大小。

3 实验结果分析

在实验的过程中,选择了偏最小二乘模型进行比较。同时,为了验证预处理模块的有效性,还使用不带预处理的感知机模型进行了建模对比。模型的预测效果使用测试集的均方根误差ERMSEP和决定系数R2来衡量,计算公式为

(4)

(5)

实验结果见表1。首先观察没有预处理模块的校正模型MLP和PLS的对比,在丙烷、丁烷2种组分的预测上,MLP的效果优于PLS,这一结果说明光谱中存在与样品含量相关的非线性因素,仅使用线性模型无法准确预测物质的含量。其次,CDNet预测模型对丙烷和丁烷的效果优于MLP,而且乙烷和戊烷的效果优于PLS,这说明加入的预处理模块有效地降低了光谱中干扰因素的影响,提高了模型的预测效果。

表1 轻烃组分预测结果对比

对于甲烷组分,由于甲烷在原油中的溶解度低,故在所有样本中含量都很低(小于2%)。此外,甲烷的近红外吸收峰与乙烷、丙烷等组分重叠[12]。因此,尽管校正模型MLP和PLS的结果优于预测模型CDNet,但R2普遍偏低,其结果并不足以区分方法之间的优劣。

为了研究卷积神经网络的预处理效果,将预处理模块的输出结果与现有的预处理方法进行对比。图6(a)为输入样品的原始光谱,图6(b)为预测乙烷组分的CDNet预测模型中Block2的输出,图6(c)为用Savitzky-Golay方法对相同样本求一阶导数(窗口大小为5)所得到的光谱。

图6 原始光谱、Block2的输出及Savitzky-Golay求导后的光谱

比较图6(b)和图6(c)可见,Block2类似于S-G导数的结果,但是S-G导数在1 250～1 640 nm和1 800～2 110 nm波段引入了高频噪声,对模型带来不利的影响。不仅如此,S-G法的参数是依据经验事先设定的,与校正模型之间没有关联性。对校正参数是依据经验事先设定的,与校正模型之间没有关联性。而CDNet预处理模块的参数是在整体网络的训练过程中自动优化的,针对每一个组分的校正模型进行了自适应调整,更加有针对性地扣除干扰因素,保留更多对当前预测的组分有用的信息。

由表1可见,相比于MLP校正模型,CDNet预测模型的预测效果有较大提升。为研究加入预处理模块前后的区别,将同一样本分别输入MLP校正模型和CDNet预测模型中,然后根据全连接层的权重值计算各波长点对最终预测值的贡献,结果见图7。由图7可见,区别较大的2个波段,一个是1 400 nm附近,另一个是1 800～2 100 nm。由图6(b)中可知,经过预处理后这2个波段的值都被抑制到接近,因此,在后续的校正模型中贡献也接近为0。其中,1 800～2 100 nm波段并非C-H基团的吸收区,而1 400 nm附近,此处是C-H基团的合频吸收区,受到抑制的原因可能是合频吸收与组分含量的关联度不大。其他与C-H基团吸收相关的波段,如1 200 nm附近和1 700 nm附近,都被完整地保留了下来。