应用于石油钻井安全评价的改进主成分分析-贝叶斯判别方法
2017-09-03任冬梅张宇洋董新玲
任冬梅,张宇洋,董新玲
(西南石油大学 计算机科学学院,成都 610500)
应用于石油钻井安全评价的改进主成分分析-贝叶斯判别方法
任冬梅,张宇洋*,董新玲
(西南石油大学 计算机科学学院,成都 610500)
(*通信作者电子邮箱dukezyy@163.com)
针对主成分分析-贝叶斯判别法(PCA-BDA)仅支持安全评价但不能发现危险因素的问题,引入属性重要度的概念,提出一种改进的PCA-BDA算法,并将其应用于石油钻井安全评价。首先,使用原始PCA-BDA方法评估出各条记录的安全等级;然后,利用主成分分析(PCA)过程中的特征向量矩阵,贝叶斯判别(BDA)过程中的判别函数矩阵,以及各安全等级的权重计算得出属性重要度;最后,通过参考属性重要度来调控属性。安全评价准确率的对比实验中,改进PCA-BDA方法准确率达到96.7%,明显高于层次分析法(AHP)和模糊综合评价法(FCE)。调控属性的仿真实验中,调控重要度最高的3个属性70%以上的钻井安全等级得到改善;相对地,调控重要度最低的3个属性钻井安全等级几乎没有变化。实验结果表明,改进PCA-BDA方法不仅能够准确地实现安全评价,同时能够找出关键属性使石油钻井安全管理更有针对性。
属性重要度;贝叶斯判别分析;主成分分析;石油钻井安全评价
0 引言
系统安全评价作为一种有效且基本的方法已逐渐应用于各类工程领域[1-2]。面对这一问题传统的做法有安全检查表法、专家打分法、模糊综合评价(Fuzzy Comprehensive Evaluation, FCE)[2]和层次分析法(Analytic Hierarchy Process, AHP)[3]等方法, 但这些方法需要依靠专家或技术人员人工“打分”,从而会不可避免地引入主观因素[4]。
除了传统方法以外,一些分类方法也被应用于安全评价。例如,决策树归纳、贝叶斯判别法、支持向量机(Support Vector Machine, SVM)、判别分析法、贝叶斯网络等方法[5-6]。在这类算法中,主成分分析(Principal Component Analysis, PCA)配合判别分析使用的方法是一种常见的选择[5-8],而主成分分析-贝叶斯判别分析(Principal Component Analysis-Bayes Discriminant Analysis, PCA-BDA)正是隶属于此类的高效算法。
相较于其他方法,PCA-BDA方法有如下三点优势:1)可以杜绝主观因素;2)可以消除属性之间的信息重叠;3)可以简单且高效地完成评价。然而,该方法并不能显著地表示出属性与安全等级间的因果关系。当安全状态异常时,很难找出关键因素并进行针对性的预防和控制。
本文提出了一种改进的PCA-BDA方法,其主要思想是引入属性重要度的概念[9-10],在实现安全评价的同时发现关键属性,从而通过对关键属性的针对性控制更加高效地避免和减少风险。最后通过实验分析,验证了本文算法不仅具有良好的评价准确率,并且所得属性重要度可以有效帮助企业降低安全风险。
1 相关工作
本文相关的理论基础包括石油钻井安全评价系统、主成分分析、贝叶斯判别分析(BDA),以及两者混合的方法PCA-BDA。
1.1 石油钻井安全评价体系
石油钻井安全评价是石油钻井安全管理的重要组成部分。它利用系统工程的方法为钻井作业提供综合的评估,并且预测潜在风险和可能后果。基于评估结果,钻井企业可以提出相应的安全措施,以便减少危险和损失,进而提高效率。
作为石油工业的重要环节,石油钻井备受重视。作为一项需要巨大投资的系统工程,它具有多因素、多层次、高风险、立体交叉和连续作业等特点[11]。所以,石油钻井安全评价是一项复杂且必须的任务。本文所研究的石油钻井安全评价体系如图1所示。
图1 石油钻井安全评价体系
1.2 主成分分析
主成分分析是一项用于数据压缩和特征提取的技术[12-13]。在处理多变量问题时,通常变量之间都会存在或多或少的相关,这样的相关相当于一种信息重叠,会对数据分析的准确性产生影响。主成分分析正好被用于解决此类问题。它可以在很少或是没有信息重叠的前提下,将原本存在相关的变量转化为相互独立的主成分(Principal Component, PC),每个主成分都是原始变量的一个线性组合。
主成分分析的数学模型[4,13]如下所示。
假设样本数据如矩阵X所示:
利用原始数据X和特征向量矩阵T进行线性组合Y=TX。
所得变换同时满足以下条件:
1)所得主成分两两不相关;
2)Y1的方差最大,它在主成分中的贡献最大,而Y2,Y3,…,Yp的贡献率依次递减;
3)Y1,Y2,…,Yp的方差之和等于X1,X2,…,Xp的方差之和。
则主成分分析的具体步骤如下:
步骤1 对原始数据X进行标准化处理,同时建立相关系数矩阵Co。
步骤2 计算相关系数矩阵Co的特征根λ1≥λ2≥…≥λp≥0和对应的特征向量T1≥T2≥…≥Tp。
步骤3 计算主成分的方差贡献率,同时决定选取的主成分个数m,使得εm达到累积方差贡献率的要求(通常要求εm≥85%)。
步骤4 获得选取主成分的特征向量矩阵T(T=T1,T2,…,Tm),并计算选取的主成分。
1.3 贝叶斯判别分析
判别分析是一种多变量统计分析方法,它根据已知分类的历史数据确定判别准则,从而判定一个新样本的归属[13-14]。相较于其他判别分析方法,贝叶斯判别分析法具有两项优势:1)它考虑了总体各自出现的概率大小; 2)它考虑了错判所造成的损失[13]。
假设现有数据集Y,其中样本通过类标记被分成k个分组G1,G2,…,Gk(k≥2)。
则贝叶斯判别分析的具体步骤[13,15]如下:
步骤1 计算分组Ga(a=1,2,…,k)中样本的先验概率pa,同时计算分组Ga中样本的属性均值;
步骤2 计算协方差矩阵Sa,然后计算联合协方差S;
步骤3 构建贝叶斯判别方程,并将参数代入;
步骤4 使用判别方程判别样本,并检验判别结果L′是否符合要求。
1.4PCA-BDA方法
一般情况下,在安全评价指标体系中会存在或多或少的信息重叠问题,这些信息重叠会在一定程度上影响安全评价模型的准确性[9]。为了消除这种影响,研究者们将主成分分析与判别分析方法结合使用[5-8],而作为此类方法的一份子,PCA-BDA也被应用于相关领域。
PCA-BDA的基本原理如图2所示。在这个混合方法中,主成分分析被用于消除属性间的相关性,同时实现数据降维; 接着,将得到的主成分作为输入利用贝叶斯判别法来评估安全等级。如此,安全评价模型得以建立,属性间的信息重叠得以消除,安全等级的判断得以实现。这样的一种结合被称为PCA-BDA方法。
图2 基本的PCA-BDA过程
2 基于改进PCA-BDA的石油钻井安全评价
通过研究原有的PCA-BDA方法原理以及石油钻井安全评价的特点, 本文提出了一种适用于石油钻井安全评价的改进PCA-BDA方法。
2.1 问题定义
尽管PCA-BDA方法已经被广泛地接受与应用, 但是该方法依然存在一些亟待解决的缺陷。试想这样一种情况:某天PCA-BDA模型显示当天的安全状态是危险的,此时,人们却难以发现原始属性与危险状态之间的联系,难以找到关键的属性去采取措施。同时,需要注意只有原始属性才是真实存在且可操作的,所以,需要在原始属性和评估结果之间建立清晰的联系。
为了解决这一问题,本文提出了改进的PCA-BDA方法,其基本原理如图3所示。在PCA-BDA过程,可以得到如式(1)、式(2)的方程组。式(1) 反映了原始属性与各主成分之间的直接联系;式(2) 反映了各主成分与判别函数值之间的直接联系。可以发现,原始属性与判别函数值之间的关系可以通过联立两个方程组获得,联立两式可得式(3)。
(1)
其矩阵形式可表示为:Y=TX。
(2)
其矩阵形式可表示为:F=B*Y+Con。
F=B*(T*X)+Con=I*X+Con
(3)
其中I=B*T。
图3 改进的PCA-BDA过程
定义1 重要度矩阵。
I*=abs(I)
由于在前期处理中对原始数据进行了标准化,所有原始属性的值域都是基本相近的,所以系数的绝对值矩阵I*可以被直接理解为相应属性在对应判别过程中的重要度度量。
定义2 属性重要度。
其中:ωa代表安全等级权重,越危险的等级权重越大;θaj(j=1,2,…,p)代表在每一个安全等级判别中的属性得分,其值的大小反映属性在相应判别中所起作用的大小。
2.2 算法描述
本文改进的PCA-BDA算法的输入包括X和L,分别代表石油钻井作业过程中每天的原始属性违反次数和样本对应的安全等级;算法的输出包括L′、I*和M分别代表判别分类(评价等级)、重要度矩阵和属性重要度矩阵。算法可分为以下4步(伪代码如算法1所示):
步骤1 利用原有的PCA-BDA方法评估石油钻井的安全等级,建立判别模型;获取特征向量矩阵T、判别函数矩阵B和评价结果L′。这一步关联算法1中的第1)行。
步骤2 计算重要度矩阵I*。这一步关联算法1中的第2)~3)行。
步骤3 计算并保存属性重要度,得到属性重要度矩阵M。这一步关联算法1中的第4)~9)行。
步骤4 输出相关结果数据L′、I*、M。这一步关联算法1中的第10)行。
算法1 改进的PCA-BDA算法。
1)
使用原始PCA-BDA方法处理输入数据X和L,获得评价结果L′和对应的矩阵B、T;
2)
I=B*T;
3)
I*=abs(I);
4)
foreachFa(X)do
5)
//从大到小
6)
依照排序结果对θaj赋值;
7)
设定各安全等级的权重ωa;
8)
endfor
9)
计算属性重要度mj,并将其存入矩阵M;
10)
returnL′,I*,M
2.3 举例说明
使用一个小规模的数据集为例来说明本文算法。该例子所用到的数据如表1所示,其中包含分属于3个类别的6条记录。为了简化表达,在此省略了原始PCA-BDA方法的具体过程,着重说明算法的改进部分。
表1 举例数据
在此例中,原始属性X包含4个指标X1、X2、X3、X4,类别指标L包含3种值(1,2,3)。通过PCA-BDA过程,本文提取到2个主成分(累计方差贡献率达到94.1%,意味着保留了原始属性94.1%的信息),同时获得判别结果(正确率达到100%)。
得到主成分表达式和贝叶斯判别函数式,如式(4)、式(5)所示:
(4)
(5)
联立方程式(4)和式(5),可以得到相关系数矩阵I,然后将I转化为I*,所得I*如表2所示。
通过矩阵I*可以得到在样本被判入每一类别时各个属性的重要度排名(从大到小):
1)类别1对应的排序:X3,X4,X2,X1。
2)类别2对应的排序:X3,X4,X2,X1。
3)类别3对应的排序:X3,X4,X2,X1。
表2 重要度矩阵(例子)
考虑到在实际情况中,人们往往更关注危险程度高的状态。本例中按照安全等级的高低类1赋值为1,类2赋值为2,类3赋值为3。同时,依照每个判别中属性的排序,可以给它们分别赋值(4到1)。随后,将赋值与权重相结合,可以得到属性重要度。计算过程与结果如式(6)所示:
(6)
由式(6)所得的属性重要度便可以找到重要属性。显然,本例中最重要的属性是X3。
3 实验分析
为了验证本文算法在石油钻井安全评价中的应用效果,本章将通过实验解决以下两个问题:1)使用本文方法进行石油钻井安全评价的准确率是否理想;2)通过参考计算得到的属性重要度是否能准确地找出重要属性,以后是否能有效地改善钻井安全状态。
3.1 实验数据
实验使用某石油钻探公司连续90d的安全数据来验证本文方法。数据的指标体系如图1所示,属性X1~X11代表不同的安全监督项,记录的值代表当天对应属性的违反次数;属性L代表记录当天的安全等级(“1”代表安全,表示无事故;“2”代表轻度危险,表示有少量轻伤事故;“3”代表中度危险,表示有较多轻伤事故;“4”代表高度危险,表示有重伤或重伤以上事故)。数据样式如表3所示。
表3 原始数据(部分)
3.2 实验结果
首先,使用改进的PCA-BDA方法分析实验数据。在PCA过程中,从11个原始属性中提取出了6个主成分,这些主成分的累积方差贡献率达到92.9%,意味着这6个主成分表达了原数据92.9%的信息。
然后,建立式(7)所示的贝叶斯判别方程用以判别记录所对应的安全等级。判别过程中仅有3个样本发生错判,判别准确率达到96.7%。
(7)
为验证改进PCA-BDA方法安全评价的有效性,使用模糊综合评价、层次分析法对实验数据进行评价,并将判别结果进行比较。判别准确率对比如表4所示,可以看出本文方法判别准确率明显优于对比方法。同时,从“模糊综合评价Ⅰ”和“模糊综合评价Ⅱ”的结果可以看出,基于不同专家打分所作评价的准确率相差较大,证明传统方法受主观因素的影响较大,这也是本文方法相较于传统方法的一大优势。
表4 安全评价准确率对比
为验证本文方法所得属性重要度的有效性,本文设计了一个模拟实验。本实验计算所得的I*如表5所示。综合考虑石油钻井作业的实际情况,设定安全等级的权重如表6所示。最后,计算获得的属性重要度如表7所示。通过表7可以非常容易地辨别出关键属性。
表5 重要度矩阵
表6 安全等级的权重
表7 属性重要度
接着,通过对比的方式来验证属性重要度的作用。首先将90条原始数据随机均分成两部分:第一部分中,将最重要的三个属性(X8,X11,X1)的发生次数减半;第二部分中,将最不重要的三个属性(X5,X10,X7)发生次数减半,来模拟实际生产过程中对于对应属性的防范与控制。然后,将这两部分数据输入到本实验所建立的PCA-BDA评价模型中,得到新的安全评价结果。实验仿真结果如图4所示。
图4 仿真结果
图4(a)和图4(c)分别表示第一和第二部分原始数据的安全等级占比情况;图4(b)和图4(d)分别表示第一和第二部分对属性防范和控制后的安全等级占比情况。对比图4(a)和图4(b)可以发现,通过控制最重要的3个属性,第一部分数据的安全等级状况有了明显的改善。高危(L=4)情况占比从8.9%减少至2.2%,高危天数从8d减少为2d,减少比例达到75%;同时中危(L=3)情况占比从22.2%减少至6.7%,中危天数从20d减少为6d,减少比例达到70%。然而,如图4(c)和图4(d)所示,通过控制最不重要的3个属性,第二部分数据的安全等级几乎没有变化。结果表明,本文方法计算得到的属性重要度可以有效地辨别出重要属性,通过防范与控制这些重要属性可以明显地改善样本的安全等级状态。
4 结语
本文结合原有PCA-BDA方法以及石油钻井安全评价的特点, 引入属性重要度的概念,创新性地提出了一种改进的PCA-BDA方法来解决石油钻井安全评价问题。该算法不仅能在安全评价中获得准确的评价结果,而且能够通过计算属性重要度的方式找出重要属性,从而可以为石油钻井安全管理部门提供有力的参考,指导他们有针对性地防范重要属性。通过实验分析可以看出,本文方法在安全评价准确率方面显著优于传统方法;同时,所计算的属性重要度可以有效地防范关键属性,改善钻井安全状态。
)
[1]KHANFI,HUSAINT,ABBASISA.SafetyWeightedHazardIndex(SWeHI):anew,user-friendlytoolforswiftyetcomprehensivehazardidentificationandsafetyevaluationinchemicalprocessindustrie[J].ProcessSafety&EnvironmentalProtection, 2001, 79(2): 65-80.
[2]TSAURSH,CHANGTY,YENACH.TheevaluationofairlineservicequalitybyfuzzyMCDM[J].TourismManagement, 2002, 23(2): 107-115.
[3] 刘刚,金业权,李峰,等.层次分析法在井控风险可控诱因分析中的应用[J].西南石油大学学报(自然科学版),2011,33(2):137-141.(LIUG,JINYQ,LIF,etal.TheapplicationofAHPmethodinwellcontrolriskevaluationbycontrollablefactoranalysis[J].JournalofSouthwestPetroleumUniversity(Science&TechnologyEdition), 2011, 33(2): 137-141.)
[4]YUH,WUZR,BAOTF,etal.MultivariateanalysisindammonitoringdatawithPCA[J].SCIENCECHINATechnologicalSciences, 2010, 53(4): 1088-1097.
[5] 刘晓南,葛少成,武宇.FA-FDA判别分析的矿井通风系统安全评价[J].辽宁工程技术大学学报(自然科学版),2014,33(9):1221-1225.(LIUXN,GESC,WUY.FA-FDAonsafetyevaluationofmineventilationsystem[J].JournalofLiaoningTechnicalUniversity(NaturalScienceEdition), 2014, 33(9): 1221-1225.)
[6] 宫凤强,鲁金涛.基于主成分分析与距离判别分析法的突水水源识别方法[J].采矿与安全工程学报,2014,31(2):236-242.(GONGFQ,LUJT.Recognitionmethodofminewaterinrushsourcesbasedontheprincipalelementanalysisanddistancediscriminationanalysis[J].JournalofMining&SafetyEngineering, 2014, 31(2): 236-242.)
[7]MOKEEVAV,MOKEEVVV.Patternrecognitionbymeansoflineardiscriminantanalysisandtheprincipalcomponentsanalysis[J].PatternRecognitionandImageAnalysis, 2015, 25(4): 685-691.
[8]JOMBARTT,DEVILLARDS,BALLOUXF.Discriminantanalysisofprincipalcomponents:anewmethodfortheanalysisofgeneticallystructuredpopulations[J].BMCGenetics, 2010, 11(2): 94-108.
[9]MINF,ZHUW.Attributereductionofdatawitherrorrangesandtestcosts[J].InformationSciences, 2012, 211: 48-67.
[10]HALLMA,HOLMESG.Benchmarkingattributeselectiontechniquesfordiscreteclassdatamining[J].IEEETransactionsonKnowledge&DataEngineering, 2003, 15(6): 1437-1447.
[11] 刘志坤,李琪,徐自强,等.钻井事故危险源分析与安全监控系统研究[J].石油钻采工艺,2012,34(3):107-111.(LIUZK,LIQ,XUZQ,etal.Researchofdrillinghazardsandstudyofsafemonitoringsystem[J].OilDrilling&ProductionTechnology, 2012, 34(3): 107-111.)
[12]HANJW,KAMBERM,PEIJ.数据挖掘:概念与技术[M].范明,孟小峰,译.3版.北京:机械工业出版社,2012:67-68.(HANJW,KAMBERM,PEIJ.DataMining:ConceptsandTechniques[M].FANM,MENGXF,translated. 3rded.Beijing:ChinaMachinePress, 2012: 67-68.)
[13] 朱建平.应用多元统计分析[M].北京:科学出版社,2012:42-106.(ZHUJP.ApplicationMultivariateStatisticalAnalysis[M].Beijing:SciencePress, 2012: 42-106.)
[14]SAPATINAST.Discriminantanalysisandstatisticalpatternrecognition[J].JournaloftheRoyalStatisticalSociety:SeriesA(StatisticsinSociety), 2005, 168(3): 635-636.
[15]GONGFQ,LIXB,ZHANGW.Over-excavationforecastofundergroundopeningbyusingBayesdiscriminantanalysismethod[J].JournalofCentralSouthUniversityofTechnology, 2008, 15(4): 498-502.
ThisworkispartiallysupportedbytheKeyTechnologyofMajorAccidentPreventionandControlinSafetyProduction(sichuan- 0009- 2016AQ).
REN Dongmei, born in 1977, Ph. D., associate professor. Her research interests include percolation theory of complex oil and gas fields.
ZHANG Yuyang, born in 1991, M. S. candidate. His research interests include data mining.
DONG Xinling, born in 1991, M. S. candidate. Her research interests include data mining, recommendation system.
Application of improved principal component analysis-Bayes discriminant analysis method to petroleum drilling safety evaluation
REN Dongmei, ZHANG Yuyang*, DONG Xinling
(SchoolofComputerScience,SouthwestPetroleumUniversity,ChengduSichuan610500,China)
Focusing on the issue that Principal Component Analysis-Bayes Discriminant Analysis (PCA-BDA) only supports safety evaluation but can not detect the dangerous factors, by introducing the concept of attribute importance degree, an improved PCA-BDA algorithm was proposed and applied to the petroleum drilling safety evaluation. Firstly, the safety ranking of each record was evaluated by the initial PCA-BDA algorithm. Secondly, the attribute importance was computed with the eigenvector matrix in PCA, the classification function coefficient in BDA, and the weight of safety ranking. Finally, the attributes were regulated and controlled with referencing the attribute importance. In the comparison experiments with Analytic Hierarchy Process (AHP) and Fuzzy Comprehensive Evaluation (FCE), the accuracy rate of improved PCA-BDA reached 96.7%, which was obviously higher than that of the AHP and FCE method. In the simulation experiment, more than 70% of safety rankings of petroleum drilling were improved by regulating the 3 most important attributes, while the safety ranking had no change by adjusting the least 3 important attributes. The experimental results show that the improved PCA-BDA can accurately accomplish the safety evaluation, and find out the critical attributes to make the petroleum drilling safety management more targeted.
attribute importance degree; Bayes Discriminant Analysis (BDA); Principal Component Analysis (PCA); petroleum drilling safety evaluation
2016- 10- 12;
2016- 12- 21。 基金项目:安全生产重大事故防治关键技术科技项目(sichuan-0009-2016AQ)。
任冬梅(1977—),女,黑龙江讷河人,副教授,博士,主要研究方向:复杂油气田渗流理论; 张宇洋(1991—),男,陕西宝鸡人,硕士研究生,主要研究方向:数据挖掘; 董新玲(1991—),女,山东德州人,硕士研究生,CCF会员,主要研究方向:数据挖掘、推荐系统。
1001- 9081(2017)06- 1820- 05
10.11772/j.issn.1001- 9081.2017.06.1820
TP301.6
A