改进蚁群聚类算法在火山岩岩性识别中的应用
2012-09-06张程恩潘保芝刘倩茹徐新也
张程恩,潘保芝,刘倩茹,徐新也
(1.吉林大学地球探测科学与技术学院,吉林长春130026;2.吉林大学地球科学学院,吉林长春130026;3.中国石油化工股份有限公司东北油气分公司,吉林长春130026)
改进蚁群聚类算法在火山岩岩性识别中的应用
张程恩1,潘保芝1,刘倩茹2,徐新也3
(1.吉林大学地球探测科学与技术学院,吉林长春130026;2.吉林大学地球科学学院,吉林长春130026;3.中国石油化工股份有限公司东北油气分公司,吉林长春130026)
提出了一种基于蚁群算法和模糊聚类算法的改进蚁群聚类算法对火山岩岩性进行识别。介绍了蚁群算法的原理、K-均值聚类算法的实现过程及改进蚁群聚类算法的实现过程。用该方法对火山岩样本数据点进行训练和学习,获得最佳的岩性聚类中心,根据加权信息素浓度和的大小,识别实际测井数据点的岩性。对松辽盆地430个火山岩薄片的实际处理表明,与自组织神经网络及K-均值聚类算法相比,该方法识别准确率高、运算速度快,是一种有效的岩性识别手段。
测井解释;蚁群算法;模糊聚类;火山岩;岩性识别;松辽盆地
0 引 言
火山岩成分复杂,矿物结合方式多样。建立测井资料与地质岩性定名资料之间的响应关系,实现利用测井资料划分地层岩性已经成为目前火山岩岩性识别研究的热点[1-4]。利用测井方法进行岩性识别的方法很多,最常用的为交会图版方法识别岩性,近年来神经网络、主成分分析、模糊聚类、遗传算法等方法均已应用到岩性识别领域中。陈建文[5]从优选测井资料入手,主要采用聚类分析法,再利用优选后的数据交会识别火山岩岩性。黄布宙等[6]描述了松辽盆地北部深层流纹岩、安山岩、安山玄武岩、英安岩和凝灰岩等岩性特征,并用模糊聚类方法进行了岩性识别。王玉娟等[7]利用自组织神经网络对松辽盆地东岭地区深部火成岩井段进行了岩性识别。王祝文[8]利用K-均值动态聚类分析方法对砂泥岩剖面进行了岩性识别。潘保芝等[9]应用因子分析法对松辽盆地火成岩进行了岩性划分。
蚁群算法是意大利学者M Dorigo等受自然界中蚂蚁觅食行为的启发而发展起来的一种新的模拟进化算法。人们经过大量研究发现,蚂蚁在搜索食物源时会在其走过的路径上释放信息素。因此,由大量蚂蚁组成的蚁群的集体行为便表现出一种信息正反馈现象:某一路径上走过的蚂蚁越多,则后来者选择该路径的概率就越大。蚂蚁个体之间通过信息素的交流达到搜索食物的目的。蚁群算法是继模拟退火算法、遗传算法、禁忌搜索算法、人工神经网络算法等启发式搜索算法以后的又一种应用于组合优化问题的启发式搜索算法[10-11]。目前主要用于求解旅行商问题、指派问题、调度问题、图像处理等,袁可红等[12]利用蚁群聚类算法对储层的含油性进行识别。本文首次将该方法用于岩性识别。
本文结合蚁群算法及K-均值聚类分析方法提出了一种改进的蚁群聚类算法,通过对样本点的训练和学习找到最优化的聚类中心。另外,借鉴蚁群算法中信息素的相关方法,提出了一种新的聚类距离,并对松辽盆地2口井岩性进行了聚类判别。改进的蚁群聚类算法与自组织神经网络及K-均值聚类算法相比,判别准确率更高,表明该算法能很好地实现火山岩岩性的判别,效果良好,是一种新的岩性判别有效方法。
1 K-均值聚类的实现过程
K-均值聚类算法是一种常用的模糊聚类方法。该算法在每次迭代中都要考察每个样本的分类是否正确,通过调整不正确样本点类别更新聚类中心,进入下一次迭代。直至2次迭代的聚类中心不再变化。具体实现步骤如下。
(3)计算新的聚类中心
K为属于第j类的样本点数量;
(4)判断2次聚类的聚类中心改变量d,若d≤ε则结束循环,ε为给出的极小值常量;否则转入步骤(2)继续迭代,当达到最大迭代次数时结束循环。
2 改进蚁群聚类算法的实现过程
常规K-均值聚类方法只对属性相近的点进行模糊聚类,初始聚类中心随机给出,对聚类结果的影响很大且实际物理意义不明确。这种方法计算量大、耗时多、容易受孤立点的影响。基于以上原因本文提出了一种改进的蚁群聚类算法。
对样本数据点进行训练时,以不同岩性的曲线均值作为初始的聚类中心,使得初始聚类中心接近真值而能够更快收敛。在进行迭代时,为了避免某些距离聚类中心过远的散逸点影响初始聚类中心,造成偏移过大且过早收敛的问题,引入了聚类半径这一参数。不同岩性取不同的聚类半径,对于dij<rj的数据点按照最大隶属度原则进行归类,否则认为该数据点为散逸点,归置在未归类点集中。对信息素进行更新,再次迭代,当聚类中心不再发生变化时,得到的新的聚类中心即为全局最佳的聚类中心,对未归类的数据点计算隶属度并进行归类,即完成了所有数据点的岩性判别工作[13-15]。
利用蚁群算法进行聚类时可以将样本视为具有不同属性的蚂蚁,聚类中心看做是蚂蚁的“食物源”。样品聚类过程就可以看做是蚂蚁寻找食物源的过程。具体实现过程如下。
(1)初始化蚁群参数,包括蚂蚁数目M、聚类数目N、信息素挥发参数ρ、常量Q等。
(2)初始化信息素矩阵,对所有的τij赋相同的数值。
(3)读入样本数据文件及对应岩性,对样本数据进行归一化处理,计算不同岩性的初始聚类中心作为蚁群的初始聚类中心。
(4)计算每种岩性的聚类半径rj。对于点的聚集状态假定满足正态分布,由于数据值落入(μjp-1.5σjp,μjp+1.5σjp)范围内的概率为0.86,取rj=1.5max(σjp)。其中μjp和σjp分别代表第j种岩性第p个属性的均值及方差。
(6)利用式(1)重新计算聚类中心。
(7)按照更新方程修改信息素浓度
式中,ρ为信息素轨迹的挥发系数,用来避免路径上信息素量的无限累加,通常选取ρ=0.1~0.5;Δτij表示本次循环中路径(i,j)的信息素量的增量;Q为常数。
(8)判断聚类中心是否变化,当聚类中心不再变化时,对未归类点按照式(5)计算隶属度,并按照最大隶属原则进行归类,否则继续迭代。
式中,ap为第p条曲线的权重,利用多元线性回归得到;P为曲线总条数;xp为归一化了的第p条曲线数值。
3 实际测井数据的岩性判别
样本训练结束后,获得不同岩性的最佳聚类中心,就可以对实际测井数据点进行岩性判别了。本文采用一种加权距离法进行样本识别,综合考虑了曲线权重和蚂蚁信息素量的影响。受蚁群算法的启发,每只蚂蚁都会在所走过的路径上留下信息素,人为规定各路径信息素浓度值为其路径长度的倒数,
则距离大的路径上留下的信息素浓度低,反之则信息素浓度高。另外,不同曲线的影响程度不同,因此具有不同的权重系数,最后取信息素和的最大值对应岩性为最佳识别结果。假定每个数据点有P个属性值,则目标函数为
式中,xp为归一化了的数据点的第p个属性值;μjp为第j类聚类中心的第p个属性值;ap为该曲线的权重。
4 实际数据处理结果
实际处理时,利用松辽盆地430个火山岩薄片的自然伽马(GR)、声波时差(AC)、电阻率(Rt)、密度(DEN)及钍值(Th)作为样本进行训练和学习。其中基性玄武岩数据点22个,中性安山岩数据点39个,中酸性英安岩数据点33个,酸的粗面岩数据点52个,酸性流纹岩数据点284个。另外选取了该地区的20个薄片数据点(其中玄武岩2个、安山岩3个、英安岩3个、粗面岩4个、流纹岩8个)进行岩性判别测试。图1为松辽盆地火山岩样本点的GR-Th交会图。
图1 松辽盆地火山岩样本点GR-Th交会图
利用改进蚁群算法进行训练时,先对所有数据点进行了归一化处理,选取各岩性数据点均值作为初始聚类中心,样本数M=430,聚类中心数N=5,挥发系数ρ=0.1,α=1,β=1,Q=0.1,样本识别准确率很高。岩性判别时,对于GR、AC、Rt、DEN和Th等5条曲线利用线性回归的方法获得各自的权重[16],利用式(6)完成判别工作。
为了进一步验证改进蚁群聚类算法的优越性,将其与自组织神经网络(SOM)及K-均值聚类算法进行了比较,对比结果见表1。显然改进的蚁群聚类算法判别准确率很高,能够更好地满足岩性识别的需要。
表1 3种方法判别正确率对比
对松辽盆地南部2口井的岩性剖面进行了识别和研究。图2为A井和B井的测井综合解释图,剖面上出现了4种主要的岩性——安山岩、英安岩、粗面岩和流纹岩。改进的蚁群聚类算法识别得到的岩性与测井曲线特征及录井结果符合得很好。证明了该方法的实用性及有效性。
图2 A井和B井岩性识别结果
5 结 论
(1)蚁群算法是一种新型的进化算法。它具有较强的鲁棒性、通用性和并行搜索等优点。本文综合考虑蚁群算法和模糊聚类算法,提出一种改进的蚁群聚类算法,并对火山岩岩性进行了识别。
(2)具体处理时首先对样本数据点的蚁群模糊聚类获得最佳聚类中心,然后对实际测井数据进行岩性判别。比较测井数据点到不同岩性聚类中心的加权信息素浓度大小,距离近者信息素浓度高,反之则低,选取加权信息素浓度最高者对应的类别为匹配岩性。
(3)对松辽盆地的实际岩心薄片数据点进行实际处理,并与自组织神经网络、K-均值聚类识别结果进行了比较。对比结果表明该算法具有很高的识别准确率,运算速度快,耗时短,是一种快速有效的岩性判别手段。
[1] 张莹.火山岩岩性识别和储层评价的理论与技术研究[D].长春:吉林大学,2010.
[2] 周波,李舟波,潘保芝.火山岩岩性识别方法研究[J].吉林大学学报:地球科学版,2005,35(3):394-397.
[3] 潘保芝.裂缝性火成岩储层测井评价的理论与方法研究[D].长春:吉林大学,2002.
[4] 张丽华.火成岩储层测井评价方法研究[D].长春:吉林大学,2009.
[5] 陈建文,魏斌,李长山,等.火山岩岩性的测井识别[J].地学前缘,2000,7(4):458-459.
[6] 黄布宙,潘保芝.松辽盆地北部深层火成岩测井响应特征及岩性划分[J].石油物探,2001,40(3):42-47.
[7] 王玉娟,闫磊,张晓明,等.松辽盆地东岭地区深层火成岩测井特征与岩性识别[J].吉林大学学报:地球科学版,2007,(S1):147-150.
[8] 王祝文,刘菁华,任莉.基于K均值动态聚类分析的地球物理测井岩性分类方法[J].东华理工大学学报:自然科学版,2009,32(2):152-156.
[9] 潘保芝,李舟波,付有升,等.测井资料在松辽盆地火成岩岩性识别和储层评价中的应用[J].石油物探,2009,48(1):48-52.
[10]乐群星,魏法杰.蚂蚁算法的基本原理及其研究发展现状[J].北京航空航天大学学报:社会科学版,2005,18(4):5-8.
[11]宋雪梅,李兵.蚁群算法及其应用[J].河北理工学院学报,2006,28(1):42-45.
[12]袁可红,李艳晓,郭海湘,等.一种用于储层含油性识别的蚁群聚类算法[J].计算机工程,2011,37(13):178-180.
[13]高尚,杨静宇,吴小俊.聚类问题的蚁群算法[J].计算机工程与应用,2004,40(8):90-92.
[14]孙晓霞.蚁群算法理论研究及其在图像识别中的应用[D].哈尔滨:哈尔滨工程大学,2006.
[15]段海滨.蚁群算法原理及其应用[M].北京:科学出版社,2005.
[16]王松桂,陈敏,陈立萍.线性统计模型:线性回归与方差分析[M].北京:高等教育出版社.1999.
Application of Improved Ant Colony Clustering Algorithm to Volcanic Rock Lithology Identification
ZHANG Chengen1,PAN Baozhi1,LIU Qianru2,XU Xinye3
(1.College of Geo-exploration Science and Technology,Jilin University,Changchun,Jilin 130026,China;2.College of Earth Science,Jilin University,Changchun,Jilin 130026,China;
3.Northeast Oil and Gas Branch,SINOPEC,Changchun,Jilin 130026,China)
Put forward is an improved ant colony clustering algorithm based on ant colony algorithm and fuzzy clustering algorithm to identify the volcanic rock lithology accurately.Introduced are the principle of ant colony algorithm,realization process of K-means clustering algorithm and improved ant colony clustering algorithm.After training and learning of the volcanic rock sample-data points,the best cluster centers are obtained.Then the lithology of actual logging data points can be identified by comparing the sum of weighted pheromone concentration values.Practical applications of 430volcanic chips in Songliao basin show that,compared with SOM as well as K-means clustering algorithm,the improved ant colony clustering algorithm is more accurate,faster calculation and practical in lithology identification.
log interpretation,ant colony algorithm,fuzzy clustering,volcanic rock,lithology identification,Songliao basin
P631.84
A
2012-5-3 本文编辑 王小宁)
1004-1338(2012)04-0378-04
张程恩,男,1988年生,硕士研究生,从事测井解释与研究工作。