基于主成分分析的矿井突水水源Bayes判别模型
2014-12-12邓清海曹家源张丽萍林永霞张丹丹
邓清海,曹家源,张丽萍,林永霞,张丹丹
(1.山东科技大学地球科学与工程学院,山东青岛 266590;2.重庆大学资源与环境科学学院,重庆 40044)
煤矿水害一直是威胁矿山安全生产的主要灾害。根据国家安全生产监督管理总局统计数据可知,仅2012年4月份全国就发生5起煤矿突水事故,造成47人遇难[1]。要有效地预防矿井突水灾害,关键是要及时准确判别突水水源。
水源识别方法包括地下水水化学特征法、同位素法、水温法、水位动态观测法等[2]。此外,由于含水层岩性、地化环境等因素的不同,导致了不同含水层的水化学成分有较大差距。因此,也可选用水化学数据判别突水水源[3]。利用水化学数据判别矿井突水水源的方法有很多,主要是通过结合一些数学模型实现,如魏军等人利用灰色聚类评估方法对煤矿突水进行了预测[4];余克林等人根据矿井含水层的水化学分析资料和矿井涌水量资料,用模糊综合评判法对矿井突水水源进行判别[5];吴岩采用改进的SOM神经网络对矿井突水水源进行判别[6]。这些方法都取得了较好的结果。但前人在选择判别指标时,大都没有进行筛选,而各种水化学指标之间存在信息叠加,若简单地采用全部水化学数据分析,容易造成信息冗余,增加工作量,甚至产生误判问题。因此,本文考虑首先采用主成分分析法对水化学资料进行分析,找出各种水源的主成分和主控因子,然后结合贝叶斯判别法对处理过的样本数据进行判别,最终建立主成分分析法和贝叶斯判别分析相结合的模型,判别矿井突水水源。
1 矿区概况
鹤壁煤矿位于河南省北部的鹤壁市,矿区现有生产矿井9对,包括一矿、二矿、三矿、四矿、五矿、六矿、八矿、九矿和十矿(图1),年生产600×104t优质动力用煤,是河南省主要煤炭基地之一。该矿区属于典型的华北型岩溶煤田,区内构造复杂、断层发育、水文地质条件复杂,主要开采煤层顶底板发育有多层含水层,主要有:奥陶系灰岩含水层;石炭系太原群二层灰岩含水层;石炭系太原群八层灰岩含水层;二1煤顶底板砂岩含水层;新近系砾岩含水层。其中位于煤层底板的奥灰水和二灰水含水层,富水性强,承压水头高,补给充沛,对采煤生产构成很大威胁,曾多次发生突水淹井事故。随着矿井向深部发展,水患对矿井的影响与日俱增,突水危害将越来越严重。
2 研究方法
2.1 主成分分析法(PCA)
图1 鹤壁矿区位置图Fig.1 Location map of Hebi mine
PCA法是一种数据压缩和特征信息提取技术[7~11]。主要用来研究如何在损失很少信息的前提下通过少数几个主成分解释多变量方差,且这几个主成分彼此独立。其基本原理如下:
假定有n个样本,每个样有p个变量,则构成一个n×p的数据矩阵。
当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而这些综合指标既要能反映原来较多变量指标的信息,同时又要保证彼此独立。
如果定义 x1,x2,…,xp为原变量指标,z1,z2,…,zm(m≤p)为新变量指标,两者若有如下关系:
其中,系数lij的确定原则为:
①zi与 zj(i≠j;i,j=1,2,…,m)相互无关;
②z1是x1,x2,…,xp的所有线性组合中方差最大者,z2是与z1不相关的 x1,x2,…,xp所有线性组合中方差最大者;
③依次类推,zm是与 z1、z2、……、zm-1不相关的x1,x2,…,xp所有线性组合中方差最大者。
新变量指标z1,z2,…,zm分别成为原变量指标x1,x2,…,xp的第一,第二,…,第m主成分。而且在选择主成分个数时,要使方差的累计贡献率达到80%以上[9]。
从以上分析可以看出,主成分分析的实质就是确定原变量 xj(j=1,2,…,p)在各主成分 zj(i=1,2,…,m)上的载荷 lij(i=1,2,…,m;j=1,2,…,p),它们分别是相关矩阵的m个较大的特征值对应的特征向量。
2.2 贝叶斯判别法
贝叶斯判别法是建立在Bayes准则基础上的。它是通过计算变量属于各类的概率,将该变量归属于概率最大的一组进行分类。其步骤如下[12]:
(1)列出训练样本,计算先验概率。
先验概率qt是指第t类样本总数占总样本数m的比例。其中 t=1,2,……,n。
(2)求训练样本的均值向量μ。
均值向量 μ =(μ1,μ2,……,μt,……,μn)。其中μt为第t类样本不同指标的平均值组成的行向量,t=1,2,……,n。
(3)计算后验概率并进行判别。
计算预测样本X属于第t类的后验概率(t=1,2,……,n):
求出预测样本X属于各类的后验概率,并进行比较,最后把预测样本归属于后验概率最大值对应的类别。
3 突水水源判别模型的建立
3.1 水源类型及判别参数的确定
根据矿区水文地质条件和对以往突水水源的分析,将鹤壁矿区的突水水源分为6类:奥灰含水层(Ⅰ)、二灰含水层(Ⅱ)、八灰含水层(Ⅲ)、砂岩含水层(Ⅳ)、老空水(Ⅴ)、砾岩含水层(Ⅵ)。
各含水层化学成分众多,且各不相同,原则上都可以用来区分各种突水水源,但考虑每一种化学离子是不现实的,因此,综合考虑离子的重要性及数据的有效性[13],本文选取 Ca2+(X1)、Mg2+(X2)、Na++K+(X3)、CO2-3(X6)、(X5)、Cl-(X6)、SO2-4(X7)7种离子的毫克当量数作为突水水源判别因子。
3.2 训练样本的建立
从鹤壁煤矿多年的突水水样资料中选取294个作为训练样本,其中奥灰水样124个,二灰水样35个,八灰水样26个,砂岩水样62个,老空水样23个,砾岩水样24个。样本数据的实际资料见表1。
3.3 数据的PCA处理
首先计算表1中各种判别指标的相关系数矩阵,结果见表2。由表2可看出,各离子之间有一定的相关性,如 Ca2+和 Mg2+之间的相关系数达到了75.57%,这说明各指标之间有信息的重叠,如果直接用这7种离子的毫克当量数对水源进行判别,会造成信息冗余,计算量增大,还可能会对矿井突水水源判别模型的精度造成影响,并发生误判。因此,有必要对样本数据进行主成分分析处理。
表1 鹤壁矿区各类水源突水样本Table 1 Inrush-water samples in the Hebi coal mine
利用Matlab软件对各突水水源判别因子进行主成分分析,结果见表3。由表3可以看出,第1、第2主成分特征根大于1,而前3个主成分解释方差的贡献率分别为44.8%、30.28%和10.05%,其解释方差的累计贡献率为85.13%,包含了原始数据的大部分信息,可以有效概括原始样本信息。故选用第1、第2和第3主成分即可。
表2 各水化学成分指标Pearson相关系数矩阵Table 2 Person correction coefficient matrix of the water chemical components
表3 各主成分解释方差率Table 3 Explained variance rates of the principal components
得到主成分因子后,再次运用Matlab得到主成分Z1、Z2和Z3的得分系数矩阵,从而得到各主成分与原始变量之间的关系表达式:
3.4 基于主成分分析的贝叶斯判别
将利用主成分分析法得到的3个主成分Z1、Z2、Z3作为判别指标,事先选定的294个突水水样作为训练样本,随机选取的22个突水水样作为预测样本,用贝叶斯判别法进行突水水源判别。具体判别过程,利用Matlab软件的classify函数实现,其格式为:
[class,err]=classify(sample,training,group,type)
式中:class——返回列表;
err——返回误差比例信息;
sample——由待分类的22个预测样本数据构成的矩阵;
training——样本数据矩阵,由前面选定的294个已知突水水源类型的水样数据构成;
group——分类列向量;
type——3种选择:线性距离、二次距离和马氏距离,本文采用的是线性距离。
利用该模型对鹤壁矿区随机选取的22个预测样本的判别结果见表4。
表4 预测样本的判别分类结果Table 4 Discriminant results of the testing samples
由表4可以看出,判别正确的水样有19个,错误3个,准确率达到86.36%。其中10号水样实际为八灰水,但是本模型判别为砾岩水。原因可能是鹤壁矿区以这两种含水层地下水为突水水源的水样水化学类型大都以HCO3-Na·Ca·Mg型为主,所以难以区别;13号水样实际为砂岩水,但判别为砾岩水,原因可能是由于砂岩含水层与上部的砾岩含水层和下部的八灰水(主要呈HCO3-Ca·Mg型)之间的距离都比较近,在采动的影响下,它们之间可能发生了一定的水力联系,从而造成以砂岩含水层水为突水水源的水样水化学类型发生了变化,演变为HCO3-Na(Ca·Mg)型,这将影响判别结果;18号水样实际为老空水,但判别为二灰水,原因可能是鹤壁矿区这两类地下水的化学类型均为SO4-Ca·Mg型。
4 结论
(1)以鹤壁矿区各含水层水化学特征和突水水样水质分析数据为基础,用主成分分析和贝叶斯判别相结合的方法,建立了鹤壁矿区突水水源判别模型。该模型考虑到不同水质指标之间的相互联系对突水水源判定的影响,通过提取主成分,减少了计算工作量,而且充分利用了各水质指标的信息,从而确保了评判结果的可靠性。
(2)判别模型利用matlab软件实现。首先对取自六种不同来源的294个突水水样的7种离子资料进行主成分分析,提取出3个主成分,并得到了各主成分与原始变量之间的关系表达式;然后,以这3个主成分为判别因子,借助matlab软件的classify函数建立了鹤壁矿区矿井突水水源贝叶斯判别模型。
(3)利用上述模型对鹤壁矿井随机抽取的22个突水水样进行判别,准确率达到86.36%。可以认为,利用主成分分析法与贝叶斯判别法相结合建立的矿井突水水源判别模型比较可靠,稳定程度高,能满足矿井安全生产的实际要求。
(4)需要说明的是,矿井突水水源十分复杂,不仅与充水含水层的水化学特征有关,还受到其他诸多因素的影响,突水水源判别有待进一步深入研究。
[1] 国家安全生产监督管理总局.事故查询系统[OL].[2012-05-01].http://media.chinasafety.gov.cn:8090/iSystem/shigumain.jsp.[State Administration of Work Safety.Accident Inquiry System[OL].[2012-05-01].http://media.chinasafety.gov.cn:8090/iSystem/shigumain.jsp.(in Chinese)]
[2] 张许良,张子戌,彭苏萍.数量化理论在矿井突(涌)水水源判别中的应用[J].中国矿业大学学报,2003,32(3):251-254.[ZHANG X L,ZHANG Z R,PENG S P.Application of the Second Theory of Quantification in Identifying Gushing Water Sources of Coal Mines[J].JournalofChina University ofMining &Technology,2003,32(3):251-254.(in Chinese)]
[3] 鲁金涛,李夕兵,宫凤强,等.基于主成分分析与Fisher判别分析法的矿井突水水源识别方法[J].中国安全科学学报,2012,22(7):109-115.[LU J L,LI X B,GONG F Q,et al.Recognizing of Mine Water Inrush Sources Based on Principal Components Analysis and Fisher Discrimination Analysis Method[J].China Safety Science Journal,2012,22(7):109-115.(in Chinese)]
[4] 魏军,题正义.灰色聚类评估在煤矿突水预测中的应用[J].辽宁工程技术大学学报,2006,25(增刊1):44-46. [WEI J,TI Z Y.Application of Grey System Clustering Evaluation in Forecast of Water Inrush in Coal Mine[J].Journal of Liaoning Technical University,2006,25(Sup1):44-46.(in Chinese)]
[5] 余克林,杨永生,章臣平.模糊综合评判法在判别矿井突水水源中的应用[J].金属矿山,2007(3):47-50.[YU K L,YANG Y S,ZHANG C P.Application of Fuzzy Comprehensive Evaluation Method in Identifying Water Source of Water-Rush in Underground Shaft[J].Metal Mine,2007(3):47-50.(in Chinese)]
[6] 吴岩,余智超.神经网络在矿井突水水源判别中的应用[J].工矿自动化,2011(10):60-62.[WU Y,YU Z C.Application of Neural Network in Water Source Distinguishing of Mine Water Inrush[J].Industry and Mine Automation,2011(10):60-62.(in Chinese)]
[7] 杜红兵,王雪莉.基于主成分分析法的空管多指标安全综合评估研究[J].中国安全科学学报,2009,19(7):124-128.[DU H B,WANG X L.Multiindex Safety Comprehensive Evaluation of Air Traffic Control Based on Principal Element Analysis Method[J].China Safety Science Journal,2009,19(7):124-128.(in Chinese)]
[8] 王敏,张占松,胡松,等.基于主成分分析的Fisher判别法在L地区水淹层识别中的应用[J].长江大学学报(自然科学版)理工卷,2010,7(4):79-82.[WANG M,ZHANG Z S,HU S,et al.Fisher discrimination method based on principal component analysis and its application in identifying the flooded layers in L area[J].Journal of Yangtze University(Natural Science Edition)Sci& Eng V,2010,7(4):79-82.(in Chinese)]
[9] 张文,陈剑平,秦胜武,等.基于主成分分析的FCM法在泥石流分类中的应用[J].吉林大学学报,2010,40(2):368-372.[ZHANG W,CHEN J P,QIN S W,etal. Application ofFCM Based on Principal Components Analysis in Debris Flow Classification[J].Journal of Jilin University(Earth Science Edition),2010,40(2):368-372.(in Chinese)]
[10] 范东凯,曹凯.基于主成分分析法的城市道路交通安全评价[J].中国安全科学学报,2010,20(10):147-151.[FAN D K,CAO K.Urban Road Traffic Safety Evaluation Based on Principal Components Analysis[J].China Safety Science Journal,2010,20(10):147-151.(in Chinese)]
[11] 姚银佩,李夕兵,宫凤强,等.加权距离判别分析法在岩体质量等级分类中的应用[J].岩石力学与工程学报,2010,29(增刊 2):4119-4123.[YAO Y P,LI X B,GONG F Q,et al.Application of Weighted Mahalanobis Distance Discriminant Analysis Method to Classification of Rock Mass Quality[J].Chinese Journal of Rock Mechanics and Engineering,2010,29(Sup2):4119-4123.(in Chinese)]
[12] 张磊.利用贝叶斯判别分析方法识别岩性[J].石油工业计算机应用,2012(1):41-43.[ZHANG L.lithology identification with Bayesian discriminant analysis methods[J].ComputerApplicationsof Petroleum,2012(1):41-43.(in Chinese)]
[13] 刘伟韬,宋传文,张国玉.底板突水的专家评分-层次分析预测与评价[J].工程勘察,2002(1):22-25.[LIU W T,SONG C W,ZHANG G Y.Analysis and prediction of floor water inrush based on expert gradinganalytic hierarchy method[J].Geotechnical Investigation& Surveying,2002(1):22-25.(in Chinese)]