APP下载

基于支持向量机的油气储量价值等级评价

2012-01-03杨磊王化增陈子凌

关键词:储量油气分级

杨磊,王化增,陈子凌

(1.中国石油大学经济管理学院,山东青岛 266580;2.中石化胜利油田东胜集团公司,山东东营 257091; 3.中石油物资公司,北京 100029)

基于支持向量机的油气储量价值等级评价

杨磊1,王化增2,陈子凌3

(1.中国石油大学经济管理学院,山东青岛 266580;2.中石化胜利油田东胜集团公司,山东东营 257091; 3.中石油物资公司,北京 100029)

针对油气储量的特点,对油气储量价值的优劣等级进行划分。选取影响油气储量价值等级的7个因素,即储量规模、储量丰度、储层埋深、原油黏度、渗透率、凝固点和采收率,采用最小二乘支持向量机模型对油气储量价值等级划分进行仿真,并运用网格搜索法确定最小二乘支持向量机模型的参数惩罚因子C和核函数参数σ。结果表明,最小二乘支持向量机是评价油气储量价值等级的有效方法,训练正判率达到95%,检验正判率达到81%。

最小二乘支持向量机;油气储量;价值分级

油气储量具有经济性差异,可划分为经济储量、次经济储量和非经济储量,其中非经济储量可能占探明储量的比例较大。油气储量要实现资产化管理首先应确定其价值的优劣等级。针对油气储量价值等级评价问题前人已经做了一些研究。孟伟[1]和周晓俊[2]采用灰色多目标局势决策和模糊聚类理论对油气储量价值进行分级评价。袁自学等[3]和胡健等[4]通过一元回归分析、德尔菲法对油气储量价值进行分级评估。赵庆飞等[5]运用层次分析法、德尔菲法对天然气储量价值进行分级。以上这些研究多采用主观方法确定指标权重,忽视了指标数据本身对油气储量价值等级的影响。王化增和迟国泰[6]运用BP神经网络的方法对油气储量价值等级进行了划分,该方法对油气储量价值优劣分级在参数合适和样本足够多的情况下能够得到较好的判别效果,但参数隐层个数和学习率的确定是一个难点,具体应用中这些参数需根据实际情况来确定。笔者采用最小二乘支持向量机法对油气储量价值分级进行仿真,将油气储量价值划分为优、良、中、差4个等级。

1 最小二乘支持向量机基本原理

支持向量机(SVM)能较好地解决小样本、非线性、高维数和局部极小点等实际问题,已成为机器学习界的研究热点之一[7]。最小二乘支持向量机(LS-SVM)是标准支持向量机的改进,该方法用等式约束代替标准支持向量机算法中的不等式约束,并将求解二次规划问题转化为直接求解线性方程组,降低了计算复杂度,在许多分类或回归估计问题中取得了很好的应用效果[8]。

1.1 最小二乘支持向量机的基本模型

支持向量机的基本思想是,首先经非线性映射φ(x):RN→H把输入变量从原空间(RN)映射到高维特征空间(H)中,然后在高维特征空间中建立优化超平面,并在该空间中进行线性分类。在线性情况下只用到了原空间的点积运算,在非线性空间中也只须考虑在高维特征空间的内积运算,甚至不需要知道映射φ的具体形式[9]。

设样本集S={(xi,yi)}(i=1,2,…,N),xi为输入矢量,yi为输出矢量,N为样本个数。首先将输入变量从原空间映射到高维空间:φ(x)=(φ1(x),φ2(x),…,φn(x),…)。在高维特征空间中,如果训练数据集是线性可分的,则存在分类超平面。为了描述分类超平面,并考虑存在不能被分类超平面正确分类的样本,引入了松弛向量即误差量εi≥0,超平面的约束条件为

式中,w为超平面法线方向;b为常数。

为了得到一个大边缘的最优超分类面,取训练集到超平面的最小距离最大。对于最小二乘支持向量机方法,高维特征空间中线性不可分相对应的优化问题转化为如下最优问题:

其中,C为常数,控制错分样本惩罚的程度,实现在错分样本的比例与算法复杂度之间的折中,称为惩罚因子。要寻找最优化分类面,就是要求解式(1)所示的二次规划问题,找到唯一的极小点。最小二乘支持向量机优化目标采用εi的平方项,且不等式约束也变为如下等式约束:

为了解决该二次规划问题,建立拉格朗日函数

式中,α为拉格朗日乘子。根据库恩-塔克最优化条件有

将式(4)消去w和εi,变为线性方程组,可用最小二乘法求得b和α。因此得到的分类决策函数即最小二乘支持向量机为

式中,K(x,xi)为核函数。核函数将高维特征空间中内积运算转化为低维输入空间上一个简单的函数计算。选择不同的核函数就会得到不同的支持向量机。目前,在支持向量机中经常使用的核函数有以下3种:

目前,还没有很好的方法来指导具体问题的核函数的选取。一般地,由于径向基核函数是个可适用于任意分布样本的普适函数,且仅有一个参数宽度系数σ,并能很好地反映模型选择的复杂度,因此被广为应用。如彭涛、杨斌[9-10]等在分类识别时对采用不同核函数的结果做了对比分析,发现径向基核函数分类效果最好。本研究中也做了对比分析,最终选定了径向基函数作为核函数。

1.2 参数确定

核函数确定后,最小二乘支持向量机模型有两个参数需确定:惩罚因子C和核函数参数σ。惩罚因子C用于控制模型复杂度和逼近误差的折中,C越大则对数据的拟合程度越高,学习机的复杂度就越高,容易出现“过学习”的现象;而C取值过小,则对经验误差的惩罚小,学习机的复杂度低,就会出现“欠学习”的现象;当C的取值大到一定程度时,最小二乘支持向量机模型的复杂度将超过空间复杂度的最大范围,那么C继续增大将几乎不会对最小二乘支持向量机的性能产生影响。径向基核函数参数σ的取值直接影响模型的分类精度。

目前,还没有公认的方法来确定这两个参数。本文中采用网格搜索法[10],将C和σ分别作为网格的横向和纵向,思路是首先将参数C和σ的选取范围设定得较大些,设定较大步长进行支持向量机仿真,比较选取不同参数数值时的训练正判率和检验正判率,选取一组正判率最高的参数数值,然后再以该数值为中心缩小参数范围,同时参数选取的步长也适当地减小,即通过这样的选取方法一步一步缩小参数选取的范围,直到得到满意的训练正判率和检验正判率为止,此时C和σ的数值就非常接近其最优数值。

2 油气储量价值分级的最小二乘支持向量机仿真

2.1 学习集的选取

利用最小二乘支持向量机方法进行油气储量价值等级划分的核心是建立一个训练样本集,通过确定合适的核函数及参数,对已知样本集进行学习与训练,最后确定最优决策函数,并利用该函数进行价值等级评价和预测。

油气储量价值等级分级是在地质勘探、地质评价基础上,根据已发现油气田油气资源条件对油气勘探开发经济效益的影响,确定油气储量价值的优劣等级。油气储量价值=可采储量×油气价格-总开发投资-总经营成本。一定的市场条件下,影响油气储量价值的因素有可采储量、开发投资和经营成本。依据油气储量资产特点和数据可得性,本文中选取了7个影响油气储量价值优劣的因素,即储量规模、储量丰度、储层埋深、渗透率、原油黏度、凝固点和采收率,这7个影响因素作为油气储量价值分级支持向量机的输入;输出为油气储量的4个价值等级,即优、良、中、差,分别用1、2、3、4来表示。本文中从中石化胜利油田搜集了99个已知价值等级的油气储量区块数据,随机选取73个作为训练样本,其余26个作为检验样本,具体数据见表1和表2,建立影响油气储量价值等级因素的样本集,即最小二乘支持向量机的学习集。

表1 学习原始数据及判别结果Tab le 1 Training database and classification result

表2 支持向量机评价结果Tab le 2 Assessment result of support vector machine

2.2 数据预处理

不同性质的指标对油气储量价值影响方向不同,影响油气储量价值的正向指标有储量规模、储量丰度、渗透率和采收率,逆向指标有储层埋深、原油黏度和凝固点。另外,不同指标数据在数量级上有很大差异。因此,有必要对原始数据做标准化处理,将其化为[-1,1]之间的数。设xi为原始数据,yi为标准化处理后的数据,标准化方式如下:

2.3 参数C和σ的确定

在学习样本集确定后,支持向量机的参数惩罚因子C和核函数参数σ的寻求过程实质上就是预测模型的建立过程。网格搜索法确定参数的过程如下:

(1)凭经验选定一组惩罚因子C和核参数σ的范围,如C取2-10~215,σ取210~2-15;

(2)设定搜索步长分别为-1和1,训练支持向量机并开展检验,得到训练正判率和检验正判率最高的一组C和σ分别为128和0.5;

(3)重新选定C和σ的范围,将其范围缩小,设定C取2~200,σ取2-3~22;

(4)设定C的搜索步长为1,σ的搜索步长为0.1,训练支持向量机并开展检验,得出训练正判率和检验正判率最高的一组C和σ,分别为133和0.57,对应的训练正判率为95%,检验正判率为81%,符合评价要求。因此,该C和σ的数值就是最小二乘支持向量机的最优参数。

2.4 油气储量价值分级支持向量机的训练与评价

惩罚因子C和核参数σ确定后,就可以构建出支持向量机模型,学习判别结果列在表1(其中,区块3为训练出错的区块)的最后一列。在训练样本的73个数据中,有4个出现误判,正判率达到95%,在检验样本的26个数据中,有5个出现误判,正判率达到81%。

用训练好的油气储量价值分级支持向量机模型对未知价值等级的59个油气储量区块进行评价,评价结果列在表2最后一列。结果显示,储量价值划分为良的区块有14个,占24%;中等的区块有42个,占71%;差的区块有3个,占5%;优级区块没有。

3 结论与讨论

(1)最小二乘支持向量机可以应用于油气储量价值等级的划分,训练正判率达到95%,检验正判率达到81%。

(2)网格搜索法是确定最小二乘支持向量机参数惩罚因子C和核参数σ的有效方法。最小二乘支持向量机模型中,参数的确定过程也就是向量机的训练过程。采用网格搜索法逐步缩小参数的搜索范围,使确定出的参数越来越逼近最优数值,简单实用。

(3)在支持向量机学习集中油气储量价值优等的数据较少,只有3个,今后需要丰富价值优等的油气储量区块数据,使支持向量机的学习样本更具有代表性。

[1]孟伟.油气储量价值分级评价研究[J].新疆地质,2000,18(3):43.

MENGWei.The research of grade reserve value of oil and gas[J].Xinjiang Geology,2000,18(3):43.

[2]周晓俊.油气储量价值分级评价与风险分析[D].天津:天津大学管理学院,2001.

ZHOU Xiao-jun.Graded appraisal of hydrocarbon reserve value and risk analysis[D].Tianjin:School of Management,Tianjin University,2001.

[3]袁自学,郦君一.油气储量资产评估方法和资产化管理探讨[M].北京:石油工业出版社,2000.

[4]胡健,刘永爱,李志学.天然气储量的价值分级模型设计与检验[J].西北大学学报:自然科学版,2005,35 (4):479-483.

HU Jian,LIU Yong-ai,LIZhi-xue.A model design and checking of value classification of natural gas reserves[J].Journalof Northwest University(Natural Science E-dition),2005,35(4):479-483.

[5]赵庆飞,李丽娜,徐向华,等.天然气储量价值评估模型[J].资源与产业,2006,8(2):39-42.

ZHAO Qing-fei,LI Li-na,XU Xiang-hua,et al.Model of value evaluation of natural gas reserves[J].Resources&Industry,2006,8(2):39-42.

[6]王化增,迟国泰,程砚秋.基于BP神经网络的油气储量价值等级划分[J].中国人口·资源与环境,2010,20(6):41-46.

WANG Hua-zeng,CHIGuo-tai,CHENG Yan-qiu.Applying BP neural network to grade reserve value of oil and gas[J].China Population,Resources and Environment,2010,20(6):41-46.

[7]程爱辉,高茂庭.基于聚类的LS-SVM的入侵检测方法研究[J].网络安全技术与应用,2010(5):14-16.

CHENG Ai-hui,GAO Mao-ting.Research of the intrusion detection method based on clustering LS-SVM[J].Network Security Technology and Application,2010(5): 14-16.

[8]符杨,张雷,江玉蓉,等.基于可靠性数据分析和最小二乘支持向量机的电力变压器故障诊断[J].变压器,2010,47(9):47-50.

FU Yang,ZHANG Lei,JIANG Yu-rong,et al.Power transformer fault diagnosis based on data reliability analysis and least squares support vectormachine[J].Transformer,2010,47(9):47-50.

[9]彭涛,张翔.支持向量机及其在石油勘探开发中的应用综述[J].勘探地球物理进展,2007,30(2):91-95.

PENG Tao,ZHANG Xiang.Review of supportvectormachine and its applications in petroleum exploration and development[J].Progress in Exploration Geophysics,2007,30(2):91-95.

[10]杨斌,匡立春,孙中春.一种用于测井油气层综合识别的支持向量机方法[J].测井技术,2005,29(6): 511-514.

YANG Bin,KUANG Li-chun,SUN Zhong-chun.On support vector machines method to identify oil&gas zone with logging and mudlog information[J].Well Logging Technology,2005,29(6):511-514.

Assessing value classification of oil and gas reserve based on support vector machine

YANG Lei1,WANG Hua-zeng2,CHEN Zi-ling3

(1.School of Econom ics&Management in China University of Petroleum,Qingdao 266580,China; 2.ShengliOilfield Dongsheng Group of SINOPEC,Dongying 257091,China; 3.Materials Company of PetroChina,Beijing 100029,China)

Based on the characteristics of oil and gas reserve,value classification of oil and gas reserve was assessed.Seven factors influencing value classification of oil and gas reserve were chosen,which were reserve scale,reserve abundance,reserve depth,oil viscosity,permeability,freezing point and recovery ratio.Least square support vector machinemodel was applied to simulate value degradation of oil and gas reserve.The parameters of penalty factor C and kernel function parameter σcan be decided by grid searchingmethod.The results show that least square supportvectormachine is a validmethod in the value classification of oil and gas reserve.The right rate of training is up to 95%and the right rate of testing is up to 81%.

least square support vectormachine;oil and gas reserve;value degradation

X 196

A

10.3969/j.issn.1673-5005.2012.03.033

1673-5005(2012)03-0192-05

2011-12-29

山东省自然科学基金项目(ZR2009HM010);中央高校基本科研业务费专项资金资助项目(09CX04085B;09CX05015B)

杨磊(1974-),女(汉族),山东东营人,讲师,博士,研究方向为环境经济学。

(编辑 修荣荣)

猜你喜欢

储量油气分级
《矿产资源储量技术标准》修订对资源储量报告编写的影响
平凉,油气双破2万吨
“峰中”提前 油气转舵
《非常规油气》第二届青年编委征集通知
基于三维软件资源储量估算对比研究
分级诊疗路难行?
油气体制改革迷局
分级诊疗的“分”与“整”
分级诊疗的强、引、合
“水到渠成”的分级诊疗