APP下载

基于自动谱聚类与多极端学习机模型的油井油液含水率软测量

2016-08-06黄海礁

化工学报 2016年7期
关键词:油液萤火虫含水率

李 琨,韩 莹,黄海礁



基于自动谱聚类与多极端学习机模型的油井油液含水率软测量

李琨1,韩莹1,黄海礁2

(1渤海大学工学院,辽宁 锦州 121013;2辽河油田分公司锦州采油厂采油作业五区,辽宁 锦州 121209)

摘要:油井油液的含水率是石油生产中的一个重要参数,及时、准确的测量对提高采油生产效率具有重要的意义。针对传统人工测量所存在的不足,引入软测量技术,建立基于自动谱聚类与多极端学习机(automatic spectral clustering-multiple extreme learning machines, ASC-MELM)的软测量模型。提出一种自动谱聚类(spectral clustering, SC)算法,由改进的萤火虫算法(firefly algorithm, FA)对聚类数目和尺度参数进行优化选取,所提出的改进萤火虫算法(improved firefly algorithm, IFA)采用以一定概率跳出当前解的机制,避免传统FA过早陷入局部最优解的不足;对聚类后的不同训练子集,分别由极端学习机(extreme learning machine, ELM)建立子模型,由IFA对其中的隐含层输入权值、隐含层神经元的偏置和隐含层节点个数进行优化选取;最后,将多个子模型的结果取加权平均值输出。由国内某油田作业区一口生产井进行实例验证,结果表明所提出方法具有较高的预测精度,对于实现油井油液含水率的软测量是合理有效的。

关键词:软测量;油井油液含水率;谱聚类;极端学习机;萤火虫算法;测量;石油;模型

引 言

油井油液的含水率是油田生产的一个重要指标,对原油的开采、计量、运输等都有重要的影响。油液含水率不仅关系到油井的工作寿命,还关系到油田生产企业的经济效益。因此,油液含水率的准确测量对计量油井产量、掌握油井生产动态、评价油藏的开发程度和价值、制定合理开发措施等具有十分重要的意义。油液是油、气和水的混合体,其含水率的计算公式为

其中,m水、m油和m气分别表示油液中水、油和气的质量。一般来说,m气远远小于m水和m油的和,所以油液含水率可以近似定义为

目前,国内对油井油液含水率的测量一般采用人工取样后蒸馏测试的方法,存在周期长、误差大、实时性低、人力成本高等问题。按照传统的方法,油田作业区的每口井从原油采集到人工取样再到给出测量结果,一般需要一到两天的时间,致使目前生产中存在无法根据测量结果及时、准确地获知油井生产的真实情况等问题,从而不能制定合理高效的油井开采方案。

软测量技术是由比较容易测量的变量通过构造某种数学关系来推断难以测量的主要变量,实现某种程度上由软件计算代替硬件直接测量的功能;其目的就是利用较易获取的可测信息,通过数学建模来实现对主要变量的推断。针对目前生产中采用机理模型测量油井油液含水率方法中所存在的不足,文献[1]提出采用软测量技术进行估算,建立了基于支持向量机的原油含水率软测量模型;文献[2]提出基于BP神经网络和CPN网络的原油含水率软测量方法;文献[3]提出基于粒子群优化 RBF神经网络的原油含水率软测量方法,采用粒子群优化算法对 RBF神经网络的相关参数进行优化;文献[4]提出果蝇优化广义回归神经网络的原油含水率软测量方法,采用果蝇优化算法对广义回归神经网络的相关参数进行优化。

在实际工业生产中,受数据采集设备、生产工艺和技术等的影响,传统的基于单一模型的软测量建模方法存在模型训练复杂度高、过程特性匹配不佳和预测精度低等问题[5-7]。随着软测量理论的不断发展,基于多模型的软测量建模方法越来越受到重视,通过将多个模型的预测结果相加,提高模型的预测精度和泛化能力[6]。其中,基于聚类的多模型软测量建模方法是近年来一个重要的研究方向,通过聚类算法将数据样本分为多个类,同一类内的数据具有较高的相似度,而不同类数据的相似度较低,由不同类数据分别训练模型,再综合不同模型的预测结果,从而提高软测量模型对具有不同过程特性数据样本的适应能力。文献[5]首先采用自适应模糊核聚类和最小二乘支持向量机进行多模型建模,然后由 D-S 证据理论对多个模型的输出进行融合得到总的输出,再由ARIMA 模型进行动态校正,但是在聚类过程中并没有考虑训练样本集的数据分布情况,另外采用交叉验证法确定高斯核函数中的 c 和σ,计算复杂度高,参数确定较慢;文献[6]采用放射传播聚类和最小二乘支持向量机进行多模型建模,然后由 D-S 证据理论对多个输出结果进行合成,但是由于放射传播聚类输出的聚类数目依赖于输入的偏向参数p[8], 如何确定合理的p并未在文中涉及;文献[7]首先采用FCM方法将训练集样本聚类为c类,然后对每一个数据子类建立高斯回归子模型,最后采用D-S 证据理论对多个子模型的输出结果进行合成,但是,采用 FCM方法并没有考虑训练集样本的数据分布特性,另外,聚类个数c需要提前给定;文献[9]采用FCM方法和高斯回归模型建立集成的多软测量模型,采用Adaboost算法训练样本的权重,从而提高算法的泛化能力和预测精度,但是同样,FCM方法没有考虑训练集样本的数据分布特性,以及聚类个数c需要提前给定。

传统的K-means、FCM聚类算法虽然实现简单,但是要求数据集形状为凸球形,而在实际工业生产中,所采集的数据集很难满足这一条件,因此聚类结果极易陷入局部最优。谱聚类是近年来提出的一种基于图论的聚类算法[10],适用于任意形状的数据集,且能够收敛于全局最优解,已在很多领域取得了较好的应用效果[11-14]。本文首先对传统的谱聚类算法进行改进,提出了一种改进的自动谱聚类算法,将聚类数目k和尺度参数σ看作优化目标,由改进的萤火虫算法对其进行优化选取,所提出的改进萤火虫算法,针对传统萤火虫算法易发生“早熟”的情况,提出一种搜索解的选择机制,以一个较低的概率将活力较低的萤火虫在搜索空间内去除,同时产生一个新的萤火虫;然后,对于聚类后的每一个数据子集,采用极端学习机建立软测量子模型,极端学习机是由Huang等[15]于2006年提出的一种新型的前馈神经网络,摒弃像BP算法等传统的神经网络学习算法由于人为设置大量网络训练参数而极易陷入局部最优解的不足,能够产生唯一的最优解;最后,将多个子模型的输出结果相结合得到最终结果。将研究成果应用于某油田作业区一口作业井的油液含水率的测量中进行了实例验证。

1 谱聚类算法(SC)

1.1 传统谱聚类算法

谱聚类算法有很多不同的具体实现方法,本文采用基于规范化拉普拉斯矩阵的谱聚类算法[10]。给定输入样本集X={x1, x2,…, xn},设定聚类数目k和尺度参数σ,其中σ为所采用的高斯核函数的尺度参数,定义如下

其中,xi, xj∈X。

建立相似度矩阵S∈Rn×n,计算规范化度矩阵D,然后构造规范化拉普拉斯矩阵L=D-1/2(D-S)D-1/2;对L进行特征值分解,计算前k个最小的特征值对应的特征向量u1, u2, …, uk,将特征向量u1, u2, …, uk进行列排列,组成矩阵U,令Y∈Rk对应U的第i(i=1, 2, …, n)行向量;最后由K-means算法将(Yi)i=1,2,…,n聚类为k类。

由于传统的谱聚类算法中的分类算法还是K-means算法,因而需要预先指定聚类数目 k;另外,谱聚类算法对其中的尺度参数σ较为敏感,传统的方法是凭经验预先设定不同的σ值,分别进行聚类,将聚类结果中最好的σ作为参数。因此,传统算法中对于k和σ的确定较为烦琐,耗费时间较多。对此,本文结合参数优化的思想来改进传统的谱聚类算法,在每一次迭代中随机调整k的值,然后将每一代k所对应的聚类中心Center和σ作为一对搜索解,采用合适的指标函数,在搜索空间内通过搜索最优的指标函数值来确定最佳的 Center和σ,随之即可确定最佳的聚类数k。

1.2 自动谱聚类算法(ASC)

1.2.1 CritC指标函数 本文采用CritC指标函数[16],该指标能够很好地综合不同类数据之间的相异性和相同类数据之间的相似性,定义如下

1.2.2 改进的萤火虫算法(IFA) 萤火虫算法是由Yang[17]提出的一种新型的群智能优化算法,它源于自然界中萤火虫的荧光行为,能够较好地应用于多种优化问题[18-21]。首先定义每个萤火虫的亮度为I(r),其中r表示两个萤火虫之间的笛卡尔距离;然后定义两个萤火虫间的吸引度 β(r),每个萤火虫受到比它亮度更亮的萤火虫的吸引而移动,位置更新公式如下

其中,α表示步长,α∈[0,1];rand为[0,1]上服从均匀分布的一个随机数。

但是,FA算法在搜索最优解过程中易发生“早熟”情况从而陷入局部最优[22]。对此,本文对经典FA算法进行改进,提出了改进的FA算法(IFA)。给定一阈值 ξ,当萤火虫向比它亮度更亮的萤火虫移动时,如果它们之间的距离r≤ξ,则认为该萤火虫的活力(搜索新区域的能力)较低,那么以一定的概率p(p∈(0,0.5))将该萤火虫在搜索空间内去除,同时在搜索空间内随机产生一个新的萤火虫。

阈值ξ的定义如下

式中,IBrightest表示最亮萤火虫的亮度;Ii表示第i个萤火虫的亮度;N为萤火虫的数量。

IFA算法中,通过这种方式,以一定概率跳出当前解,在一定程度上更改搜索解的位置更新路线,搜索新的解空间区域,从而避免过早陷入局部最优解的情况。IFA算法的主要步骤如下:

(1)产生初始萤火虫群体,{X1, X2,…, XN};

(2)计算每个萤火虫的亮度,{I1, I2,…, IN};

(3)每个萤火虫根据式(5)进行位置更新,如果两个萤火虫之间的距离r≤ξ,以一定的概率p(p ∈(0,0.5))将该萤火虫在搜索空间内去除,同时在搜索空间内随机产生一个新的萤火虫;

(4)更新解集中每一代的当前最优解和所有代的全局最优解;

(5)如果满足终止条件,停止迭代,否则返回步骤(2)重新迭代。

1.2.3 基于IFA优化的SC算法(IFA-SC) 对于改进的SC算法,在自动聚类过程中还涉及两个问题,一个是最佳聚类数k的确定,另一个是当k确定后最佳聚类中心的确定。对于k的选择,在每一次迭代中,可以采用随机选取的策略,k的取值范围为:k∈[1,](n为样本数)[23];然后在每一个k下,将聚类中心Center和尺度参数σ看作一对搜索解(萤火虫),由 IFA算法进行优化选取,在搜索空间内通过搜索最佳的 CritC值来确定最优的Center和σ。当最优的Center确定时,最佳的聚类数目k也随之确定。

所提出的IFA-SC算法的主要步骤如下:

(2)给定初始的Center和σ(σ∈(0, 1])值,随机产生初始萤火虫群体,计算初始群体中每个萤火虫的亮度;

(3)根据SC算法将数据集聚类为k类,计算当前聚类结果的CritC指标值;

(4)根据式(5)更新每个萤火虫的位置;(5)由IFA算法进行迭代选择,更新当前最优解和全局最优解,达到设定的迭代次数停止;

(6)随机产生一个新的k值,重复步骤(2)~步骤(5);

(7)如果满足终止条件,停止迭代,输出全局最优解,否则返回步骤(6)重新迭代;

(8)输出的全局最优解为最优的Center和σ,由步骤(3)将数据集聚类为k类。

1.2.4 仿真实验 为了说明本文所提出 IFA-SC算法的有效性,由UCI数据库中的iris、wine和seeds数据集进行仿真实验。首先,为了说明不同尺度参数值对SC算法的影响,分别赋予其不同的σ值,由3个数据集分别进行仿真,结果如图1所示。

图1 不同σ下iris、wine和seeds数据集的聚类准确率Fig.1 Clustering accuracy of iris, wine and seeds data setswith different σ

由图1可以看到,对于iris、wine和seeds数据集,不同的σ值对聚类准确率的影响是较大的,若依赖手动设置,不合适的σ值会影响聚类效果。另外,可以看到,当σ在[0, 1]区间内取值时可以得到最高的聚类准确率,因此,为了提高聚类的效率,本文将σ限定在[0, 1]区间内取值。为了进一步说明本IFA-SC改进算法的有效性,将其与SC和FA-SC进行聚类效果的对比分析,聚类准确率如表1所示(运行20次),最大迭代次数为500代。

表1 不同方法聚类准确率对比Table 1 Comparison of clustering accuracy of different methods

由表1,对于经典的SC算法,当指定合适的σ 和k的值时,聚类的效果较好,且多次运行具有较好的聚类稳定性;但是对于FA-SC算法,运行多次程序后,最大聚类准确率虽然与经典的SC算法相比差别不大,但是多次聚类的平均值却较低,说明经典FA算法中的“早熟”情况影响了聚类的稳定性;而改进后的 IFA-SC算法由于采用了“跳出”机制以杜绝过早陷入局部最优解的情况,不仅保证了聚类的准确率,还提高了聚类的稳定性。

2 极端学习机(ELM)

2.1 基本原理

ELM 将传统单隐层前馈神经网络参数的训练问题转化为线性方程组的求解问题,整个训练过程不需要反复调整相关参数。因此,与传统神经网络方法相比,ELM的训练速度得到提高,具有学习速度快、泛化能力强和不易陷入局部收敛等优点。

其中,βj为隐含层神经元与第i个输出神经元之间的连接权值;ωj为隐含层神经元与输入神经元之间的连接权值;bj为第j个隐含层神经元的偏置。

其中,H+为H的Moore-Penrose广义逆。

ELM计算的主要步骤如下:

(1)初始化,随机生成ω、b和L;

(2)计算隐含层输出矩阵H;

(4)计算输出值。

2.2 IFA-ELM

由ELM的基本原理,在初始化阶段,隐含层输入权值ω、隐含层神经元偏置b和隐含层节点个数L的值随机给定。那么,ELM模型的输出值会受到随机设定的ω、b和L的值的影响;对此,本文采用IFA算法对ω、b和L进行优化选取,IFA-ELM建模主要步骤如下:

(1)设定待优化参数ω、b和L的取值范围,其中,ω∈[0, 1],b∈[0, 10],L∈(1, N];

(2)将数据集样本归一化到区间[0, 1];

(3)由IFA算法进行待优化参数ω和b的优化选取,对于 L,每一次迭代都在取值范围内随机取一个值,根据2.1节ELM建模的步骤(1)~步骤(4)计算所有样本的输出值,将数据集所有样本的实际值和模型输出值的均方根误差作为适应度函数;

(4)若满足终止条件,输出记录的最优参数;若不满足终止条件,返回步骤(3)重新迭代选择;

(5)将得到的最优的ω、b和L作为ELM模型的参数,计算输出值并进行反归一化处理。

2.3 仿真验证

为了验证所提出IFA-ELM方法的有效性,采用如下非线性函数进行仿真实验

其中,x1∈[0, 1],x2∈[-5, 5]。

随机生成300组数据进行仿真,随机选取250组数据作为训练样本建立模型,剩余50组数据作为测试样本,将本文所提出的 IFA-ELM方法分别与FA-ELM、BP[2]、PSO-RBF[3]、FOA-GRNN[4]和DCI-ELM[24]进行对比分析。几种方法 RMSE和MAE指标对比结果如表2所示,训练结果和预测结果如图 2和图 3所示。相比于 BP、PSO-RBF、FOA-GRNN、FA-ELM和DCI-ELM几种不同的方法,所提出的IFA-ELM方法具有较好的预测效果。

表3 针对非线性函数不同方法的MAE和RMSE指标对比Table 2 Comparison of MAE and RMSE index value of different methods for nonlinear function

3 自动谱聚类与多极端学习机模型(ASC-MELM)

本文所提出的ASC-MELM模型的结构框图如图4所示。

图2 不同方法的预测值对比Fig.2 Comparison of predicted value of different methods

图3 不同方法的预测误差Fig.3 Comparison of predicted error of different methods

图4 ASC-MELM结构框图Fig.4 Structure diagram of ASC-MELM

ASC-MELM模型算法的具体实现步骤如下。

(1)确定训练集,将其进行预处理。

(2)由IFA-SC算法将训练集样本自动聚类为k类,分别表示为样本子集1,…,样本子集k。

(3)分别由每一个样本子集训练 IFA-ELM软测量模型,表示为IFA-ELM 1,…,IFA-ELM k。

(4)确定测试集样本,对其进行预处理。

(5)由测试集样本与每一个样本子集的聚类中心计算权值w1,w2,…,wk,计算方法如下。

假设测试样本集T={T1, T2, …, TM}由M个样本组成,每个样本为d维;k个聚类中心分别表示为: Center1,Center2,…,Centerk,都为d维。计算测试样本集中第i个样本与第j个聚类中心的欧氏距离

其中,i=1, 2, …, M;j=1, 2, …, k。

那么,计算第 i个测试集样本相对于第 j个IFA-ELM模型的权值如下

其中,i=1, 2, …, M;j=1, 2, …, k。

(6)将测试集样本作为每一个 IFA-ELM模型的输入,分别得到k个模型的输出结果。

(7)将步骤(5)得到的k个权值和步骤(6)得到的k个输出结果求加权平均,得到最终输出值。

(8)为了降低系统的时变性对模型预测效果的影响,使所建立的模型能够跟随新的采样数据进行更新,本文采用文献[25]中的方法进行模型的在线更新。当输入新的样本数据后,将其加入建模数据集中,同时删除时间点最旧的数据以保证建模数据集中数据数量的一致,另外设置长度一定的预测数据集,然后根据步骤(1)~步骤(7)得到预测数据集,设置预测误差累计阈值,当预测数据集预测误差的累计值大于该阈值时,重新训练模型进行更新,否则不变。

4 实例验证

游梁式抽油机采油系统是国内外油田生产中最主要的生产方式,本文将国内某油田作业区一口生产井作为实验对象,采集其一段时期内的生产数据进行验证。

油井生产过程中,油液由抽油泵通过抽油杆的上下往复运动输送到井口流出。井口流出油液与悬点载荷、冲次、冲程、井口压力等参数密切相关,而这些井上参数是比较容易测量的。因此,在油液含水率的软测量中,选择容易直接测量的一些生产参数作为辅助变量,通过对生产工艺的研究和现场生产经验以及查阅相关文献[26-27],本文选择上下冲程平均载荷差、冲次、冲程、产液量、井口油压和套压作为辅助变量。

选取该生产井300组生产数据进行仿真验证,随机选取250组数据作为训练样本用以建立软测量模型,剩余50组数据作为测试样本。在人工测量油液含水率时,由于人工化验的周期较长,会造成得到测试结果的时刻和各辅助变量记录的时刻不一致;因此,为了保证软测量建模的准确性,记录每一组数据中油液采样的时刻,使其与各辅助变量的采样时刻相匹配。首先由 IFA-SC算法将训练集样本进行自动聚类,得到的聚类结果如图5所示,由于训练样本集数据为多维,为了显示聚类效果,采用PCA主元分析方法提取主元,将聚类后的数据映射到二维空间。

图5 基于IFA-SC算法的训练样本的自动聚类Fig.5 Automatic clustering results of training samples based on IFA-SC

由图5可以看到,训练集样本被自动聚类为4类(即k=4),样本数目分别为101、38、61和50;然后由每一类的样本数据分别训练 IFA-ELM软测量模型,得到4个子模型;再由测试样本计算每一个 IFA-ELM子模型对应的权值 w1、w2、w3和w4;最后对4个子模型输出求加权平均得到最终结果。

为了验证本文所提出ASC-MELM软测量模型的有效性,将其与IFA-ELM、BP[2]、PSO-RBF[3]、FOA-GRNN[4]和DCI-ELM[24]几种不同方法进行比较,几种方法的RMSE和MAE指标值对比如表3所示,预测结果对比如图6和图7所示。

表3 针对油液含水率几种方法的MAE和RMSE指标对比Table 3 Comparison of MAE and RMSE index value of different methods for moisture content of well oil

图6 ASC-MELM与几种方法的预测结果对比Fig.6 Comparison of predicted value between ASC-MELM and several methods

图7 几种方法的预测误差率对比Fig.7 Comparison of predicted error of different methods

根据表3、图6和图7的对比结果可以看到,当不采用聚类方法时,本文所提出的IFA-ELM单一模型的预测效果优于BP、PSO-RBF、FOA-GRNN 和DCI-ELM几种方法;当采用ASC聚类方法将数据集进行分类后,多模型的预测性能又有提高,说明所提出的ASC-MELM方法是有效的。

5 结 论

针对油井油液含水率单一软测量模型精度较低的不足,提出基于自动谱聚类与多极端学习机的软测量模型。由提出的自动谱聚类算法对训练集进行自动分类,对不同子集分别建立极端学习机软测量模型,对多个输出取加权平均值。由改进的萤火虫算法对聚类数目、尺度参数、隐含层输入权值、隐含层神经元的偏置和隐含层节点个数进行优化选取。由某油田一口生产井的生产数据进行实例验证,结果表明,所提出方法具有较好的预测性能。

References

[1] 李志明, 孔令富. 基于SVM的软测量在原油含水率估算中的应用[J]. 燕山大学学报, 2006, 30(4): 328-333.

LI Z M, KONG L F. Application of soft sensor based on SVM on estimation of water cut of crude oil[J]. Journal of Yanshan University, 2006, 30(4): 328-333.

[2] 王丽娜, 刘翠玲. 基于CPN网络井口计量原油含水率预测模型[J].东北石油大学学报, 2009, 33(6): 101-104.

WANG L N, LIU C L. Model for prediction of crude oil water content at wellhead metering based on CPN neural network[J]. Journal of Daqing Petroleum Institute, 2009, 33(6): 101-104.

[3] 吴良海. 基于粒子群优化RBF神经网络原油含水率预测[J]. 计算机仿真, 2010, 27(5): 261-263.

WU L H. Prediction of crude oil moisture based on RBF neural network optimized by PSO[J]. Computer Simulation, 2010, 27(5): 261-263.

[4] 刘翠玲, 张路路, 王进旗, 等. 基于FOA-GRNN油井计量原油含水率的预测[J]. 计算机仿真, 2012, 29(11): 243-246.

LIU C L, ZHANG L L, WANG J Q, et al. Application of FOA-GRNN to prediction of moisture content in crude oil of wellhead metering[J]. Computer Simulation, 2012, 29(11): 243-246.

[5] 王振雷, 唐苦, 王昕. 一种基于D-S和ARIMA的多模型软测量方法[J]. 控制与决策, 2014, 29(7): 1160-1166.

WANG Z L, TANG K, WANG X. A multi-model soft sensing method based on D-S and ARIMA model[J]. Control and Decision, 2014, 29(7):1160-1166.

[6] 唐苦, 王昕, 王振雷. 基于证据合成规则的多模型软测量[J]. 控制理论与应用, 2014, 31(5):632-637.

TANG K, WANG X, WANG Z L. Multi-model soft sensor based on Dempster-Shafer rule[J]. Control Theory & Applications, 2014, 31(5):632-637.

[7] 梅从立, 杨铭, 刘国海. 基于证据合成的高斯过程回归多模型软测量方法[J]. 化工学报, 2015, 66(11): 4555-4564.

MEI C L, YANG M, LIU G H. A multi-model based soft sensor using evidence theory and Gaussian process regression[J]. CIESC Journal, 2015, 66(11): 4555-4564.

[8] 王开军, 张军英, 李丹, 等. 自适应仿射传播聚类[J]. 自动化学报, 2007, 33(12): 1242-1246.

WANG K J, ZHANG J Y, LI D, et al. Adaptive affinity propagation clustering[J]. Acta Automatic Sinica, 2007, 33(12): 1242-1246.

[9] 嵇小辅, 张翔. 基于FCM与集成高斯过程回归的赖氨酸发酵软测量[J]. 智能系统学报, 2015, 10(1): 156-162.

JI X F, ZHANG X. Soft measurement of lysine fermentation based on FCM and integrated Gaussian process regression[J]. CAAI Transactions on Intelligent Systems, 2015, 10(1): 156-162.

[10] VON LUXBURG U. A tutorial on spectral clustering[J]. Statistics and Computing, 2007, 17(4): 395-416.

[11] HU H, WANG X, YANG Z, et al. A spectral clustering approach to identifying cuts in wireless sensor networks[J]. Sensors Journal, IEEE, 2015, 15(3): 1838-1848.

[12] WANG S, LU J, GU X, et al. Unsupervised discriminant canonical correlation analysis based on spectral clustering[J]. Neurocomputing, 2016, 171: 425-433.

[13] LIU H, ZHAO F, JIAO L. Fuzzy spectral clustering with robust spatial information for image segmentation[J]. Applied Soft Computing, 2012, 12(11): 3636-3647.

[14] MEHRKANOON S, ALZATE C, MALL R, et al. Multiclass semisupervised learning based upon kernel spectral clustering[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(4): 720-733.

[15] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1): 489-501.

[16] BREABAN M, LUCHIAN H. A unifying criterion for unsupervised clustering and feature selection[J]. Pattern Recognition, 2011, 44(4): 854-865.

[17] YANG X S. Nature-inspired Metaheuristic Algorithms[M]. Beckington: Luniver Press, 2010.

[18] LONG N C, MEESAD P, UNGER H. A highly accurate firefly based algorithm for heart disease prediction[J]. Expert Systems with Applications, 2015, 42(21): 8221-8231.

[19] SAHU R K, PANDA S, PADHAN S. A hybrid firefly algorithm and pattern search technique for automatic generation control of multi area power systems[J]. International Journal of Electrical Power & Energy Systems, 2015, 64: 9-23.

[20] OLATOMIWA L, MEKHILEF S, SHAMSHIRBAND S, et al. A support vector machine-firefly algorithm-based model for global solar radiation prediction[J]. Solar Energy, 2015, 115: 632-644.

[21] BAYKASOGLU A, OZSOYDAN F B. Adaptive firefly algorithm with chaos for mechanical design optimization problems[J]. Applied Soft Computing, 2015, 36: 152-164.

[22] YU S, ZHU S, MA Y, et al. Enhancing firefly algorithm using generalized opposition-based learning[J]. Computing, 2015: 1-14.

[23] 于剑, 程乾生. 模糊聚类方法中的最佳聚类数的搜索范围[J]. 中国科学(E辑), 2002, 32(2): 274-280.

YU J, CHEN Q S. Search range of the optimal cluster number in fuzzy clustering [J]. Science in China (Series E), 2002, 32(2): 274-280.

[24] 王超, 王建辉, 顾树生,等. 改进式混合增量极限学习机算法[J].控制与决策, 2015, 30(11): 1981-1986.

WANG C, WANG J H, GU S S, et al. Improved hybrid incremental extreme learning machine algorithm[J]. Control & Decision, 2015, 30(11): 1981-1986.

[25] 田中大, 李树江, 王艳红, 等. 短期风速时间序列混沌特性分析及预测[J]. 物理学报, 2015, 64(3): 030506-1-12.

TIAN Z D, LI S J, WANG Y H, et al. Chaotic characteristics analysis and prediction for short-term wind speed time series[J]. Acta Phys. Sin., 2015, 64(3): 030506-1-12.

[26] 李翔宇, 高宪文, 侯延彬. 基于在线动态高斯过程回归抽油井动液面软测量建模[J]. 化工学报, 2015, 6(6): 2150-2158.

LI X Y, GAO X W, HOU Y B. Online dynamic Gaussian process regression for dynamic liquid level soft sensing of sucker-rod pumping well[J]. CIESC Journal, 2015, 6(6): 2150-2158.

[27] 王通, 高宪文, 刘文芳. 自适应软测量方法在动液面预测中的研究与应用[J]. 化工学报, 2014, 65(12): 4898-4904.

WANG T, GAO X W, LIU W F. Adaptive soft sensor method and application in determination of dynamic fluid levels[J]. CIESC Journal, 2014, 65(12): 4898-4904.

2015-11-27收到初稿,2016-03-18收到修改稿。

联系人及第一作者:李琨(1983—),男,博士,副教授。

Received date: 2015-11-27.

中图分类号:TP 273

文献标志码:A

文章编号:0438—1157(2016)07—2925—09

DOI:10.11949/j.issn.0438-1157.20151785

基金项目:国家自然科学基金项目(61403040)。

Corresponding author:LI Kun, bhulikun@163.com supported by the National Natural Science Foundation of China (61403040).

Soft sensor method for moisture content of well oil based on automatic spectral clustering and multiple extreme learning

LI Kun1, HAN Ying1, HUANG Haijiao2
(1College of Engineering, Bohai University, Jinzhou 121013, Liaoning, China;2The Fifth District of Jinzhou Oil Production Plant, Liaohe Oilfield Company, Jinzhou 121209, Liaoning, China)

Abstract:Moisture content of the well oil is a key production variable in the oilfield, and it has great significance for improving the oil production efficiency by timely and accurate measurement of it. In order to overcome some deficiencies of the traditional manual measurement, the soft sensor technology is introduced to establish a soft sensor model based on automatic spectral clustering - multiple extreme learning machines (ASC-MELM). An automatic spectral clustering (ASC) algorithm is proposed and an improved firefly algorithm (FA) is applied to reach an optimal selection of the clustering number and the scale parameter. The proposed improved firefly algorithm (IFA) adopts a mechanism of jumping out of the current solution at a certain probability, which can avoid the deficiency of falling into the local optimal solution earlier of the traditional FA. For different training subsets after the clustering, the multiple extreme learning machines (ELM) are adopted to establish the different sub-models, in which IFA is used to reach an optimal selection of the hidden layer input weights, the hidden layer biases and the number of the hidden layer nodes. Finally, the output is obtained by calculating the weighted average of multiple sub-models. An application example of an oil well in a domestic oilfield is given. The simulation results show that the proposed method has better predicted accuracy and it is reasonable and effectiveto realize the soft sensor for moisture content of the well oil.

Key words:soft sensor; moisture content of well oil; spectral clustering; extreme learning machine; firefly algorithm; measurement; petroleum; model

猜你喜欢

油液萤火虫含水率
基于在线监测的油液污染智能控制系统
630MW机组石膏高含水率原因分析及处理
昆明森林可燃物燃烧机理研究
不同介质下油水两相流含水率测量模型构建与仿真
通过油液分析查找发动机抱轴故障原因
液压润滑系统的油液污染控制措施
萤火虫
萤火虫
原油含水率在线测量技术研究
抱抱就不哭了