多元统计分析模型在矿井突水水源判别中的应用＊

2013-09-10刘杰刚徐新启时艳茹虞青松

中国煤炭 2013年2期

刘杰刚徐新启时艳茹虞青松李磊

（1.中国矿业大学资源与地球科学学院，江苏省徐州市，221116；2.煤层气资源与成藏过程教育部重点实验室，江苏省徐州市，221116；3.淄博矿业集团有限责任公司，山东省淄博市，257000）

刘杰刚1，2徐新启3时艳茹1虞青松1，2李磊1，2

综合运用分层聚类、逐步判别分析方法的计算原理，依据岱庄煤矿出水点及含水层水样的水质分析资料，建立多元统计分析模型，进行水质相似度分析和主要出水水源判别。研究表明分层聚类方法能够定量、直观地反映各水源之间水质的亲疏关系；逐步判别分析法可以有效地判别突水点的类型归属，二者互为补充和验证。

多元统计分层聚类逐步判别出水水源岱庄煤矿

矿井水害事故多发且容易造成严重的损失，一旦发生矿井突水，首先应该判断突水水源，为治理和进一步预防水害事故提供依据。矿井突水水源判别方法较多，其中水化学分析方法是一种快速、准确、经济的水源判别方法，应用多元统计的水化学分析在实践中取得了大量的成果。本文应用多元统计分析模型（分层聚类和逐步判别分析）对淄博矿业集团岱庄煤矿下组煤首采工作面出水水源水质进行了分析与判别，从而研究多元统计水化学判断方法的适用性。

1 工作面出水概况

淄博矿业集团岱庄煤矿下组煤首采工作面出水，随后钻进的水文探查孔显示出水量随钻进深度增加而变大，最大达到105.3 m3／h。造成下组煤开采突水的水源可能有16＃煤层的直接顶板十下灰岩溶裂隙水、底板十三灰岩溶裂隙水和奥陶系灰岩岩溶水。针对不同含水层的防治方法不同，需要查明出水水源，从而进一步提出治理方案。

工作面出水后，岱庄矿先后在出水巷道掘进面取了5次水样进行水质化验分析，又收集、整理了该矿十下灰水样（6个）、十三灰水样（15个）和奥灰水样（10个）的相关水质分析资料，见表1，以此为基础进行多元统计分析。

表1 含水层及出水点水质分析成果表（6大常规离子） mg·L-1

2 多元统计分析模型及运用

多元统计分析主要包括回归分析、聚类分析、判别分析、因子分析等方法。本文选取矿井突水水源判别中广泛运用的分层聚类和逐步判别分析建立多元统计分析模型，见图1。

首先通过分层聚类方法计算各含水层及出水点水质之间的相似性程度并绘制谱系图，从而反应各类别之间水质的亲疏关系，判别各含水层以及出水点间的水力联系；然后采用逐步判别分析方法，通过对不同含水层水质特征组分含量的分析，建立不同水源的判别函数，再利用判别函数对待定水源进行识别，进而判断出水点所属的含水层。

图1 多元统计分析模型示意图

2.1 分层聚类识别模式

分层聚类分析方法首先将样品或指标各视为空间中的一类，根据类与类之间的空间距离或相似程度将最相似的类合并为一类，然后再计算新类与其他类之间的相似程度，选择最相似的类进行合并，如此每合并一次就减少一类，不断进行这一过程，直到将所有样品或指标合并为一类为止。本文以不同水源以及出水点为变量，通过它们的属性（水质）比较，进行水源的分类，属于Q型聚类分析。

2.1.1 分析过程

设选取n个水质样本，其中每个样本又包含m个水质指标，则原始数据矩阵为：

式中：i——某个水质样本，1≤i≤n；

j——某种水质指标，1≤j≤m；

xij——第i个样本的第j种指标含量。

（1）原始数据的标准化处理。由于各水质指标数量级不同，需要对原始数据进行标准化处理，使变量处于相同的量级。文中通过极差变化，将矩阵中的每一列都转化成0到1间的值，标准化后的水质含量zij为：

式中：max（xj）——第j种水质指标的最大值；

min（xj）——第j种水质指标的最小值。经标准化处理后的矩阵记为：

（2）相似统计量。文中主要采用Q型聚类中的欧氏距离作为计算过程的相似统计量，空间样本两两之间的欧氏距离为：

式中：i、k——代表两个不同的样本，1≤i，k≤n。

欧氏距离Dik越小，相似程度越好，其大小定量地表示出水样之间的亲疏程度。

（3）聚类方法。采用聚类分析中广泛使用的类平均法中的组间连接法（Between-groups linkage）进行聚类，用两个类别中元素两两之间的平均平方距离来定义两个类别间的距离平方。

2.1.2 聚类分析结果

结合水质指标的重要性，选取K＋Na＋、Ca2＋、Mg2＋、Cl-、SO2-4、HCO-3六大常规离子的含量作为各水样的变量。同一含水层各水质指标取平均值做为数据的有效性。采用SPSS软件先进行数据正规化（Z scores）处理，然后采用类间连接法（Between-groups linkage）进行聚类分析。最后得出相似矩阵见表2，谱系图见图2。

表2 聚类分析相似性矩阵

图2 聚类分析谱系图

表2反应了含水层及出水点两两之间的相似距离，距离越短，说明两者越相似，反之，两者差别越大。图2直观反应各类别聚类的先后顺序。从分析结果可以看出：十三灰和奥灰之间距离最小，谱系图中首先聚为一类，水质特征最为相似，可能存在水力联系；奥灰和十下灰之间距离最大，水质特征差别最大；出水点与三个含水层的水质相似程度为：十三灰＞奥灰＞十下灰，与前人灰色关联度分析结果一致。分层聚类分析定量的反应了水源之间的水质亲疏关系。

2.2 逐步判别分析

逐步判别分析是通过建立判别函数，分析样品所属类型的一种方法。进行判别分析时，如果把所有的变量都代入判别函数，不仅计算量大，而且变量间的不独立性可能使计算的精度变低，此外，这些变量对区分各个母体所起的作用不尽相同，判断能力有大有小。逐步判别分析主要是根据所给数据中每个变量在各类判别式中的重要性来挑选出判别效果最优的变量进入判别式，然后再从判别式中去除那些因为新变量的选入而失去判别效果的变量，最终在判别式中只保留那些对母体判别能力较强的变量。

2.2.1 分析过程

（1）突水水源判别指标的选取。综合考虑离子的重要性以及数据的有效性，结合前人的研究成果，选取 K＋Na＋、Ca2＋、Mg2＋、Cl-、SO2-4、HCO-3六大常规离子作为变量，见表1。

（2）判别变量的筛选和判别函数的建立。利用SPSS软件剔除了Ca2＋、Mg2＋、Cl-、HCO-34种判别能力较差的预测变量，而筛选出了K＋Na＋、SO2-4两个判别能力较强的预测变量进入判别函数，最终得出该矿下组煤3个充水水源在Fisher准则下的逐步判别函数。

把待判水样的K＋Na＋、SO2-4的实际浓度值代入3个方程中，计算出相应函数值并比较，最后把水样划归为函数值最大的含水层。

（3）判别效果的检验。将参与构建判别函数的31个水样分别代入判别函数中进行回判检验，结果见表3。

从表3可以看出，回判检验的正确率为83.9%，判别效果较好，可以利用判别函数对未知水样进行判别。

表3 判别函数的回判检验结果

2.2.2 逐步判别分析结果

将出水点水样K＋Na＋和SO2-4水质含量代入3个判别函数方程中，计算出函数值并进行比较，结果见表4。

通过判别函数比较，5个待判水样全部属于十三灰水，逐步判别结果显示主要出水水源为十三灰水。

表4 出水点逐步判别分析结果

3 两种方法结果比较

通过上述两种多元统计方法的分析，两者均证明了出水点的水质和十三灰的水质最接近，分析结果一致，得到了互相验证的目的，而且与前人灰色关联分析和水质模型分析结果相一致，说明判别结果准确，有一定的说服力。

多元统计分析模型中，分层聚类强调亲疏关系，实现了定性和定量分析的有机结合，为水源分析判断提供了客观的数学依据；逐步判别分析强调类型归属，计算过程简单易行、构建的模型稳定，优于其它判别模型。二者对水源判别各有所长，互为补充和检验，可以更加准确地分析水源，防止水源分析中出现误差。

［1］熊伟，崔光磊.贝叶斯判别分析在矿井突水水源预测中的应用［J］.中国煤炭，2012（11）

［2］杨永国，黄福臣.非线性方法在矿井突水水源判别中的应用［J］.中国矿业大学学报，2007（3）

［3］杨海军，王广才.煤矿突水水源判别与水量预测方法综述［J］.煤田地质与勘探，2012（3）

［4］李燕，徐智敏等.矿井突水水源判别方法概述［J］.煤炭技术，2010（11）

［5］周健，史秀志，王怀勇.矿井突水水源识别的距离判别分析模型［J］.煤炭学报，2010（2）

［6］修中标，魏延双等.聚类分析在矿井水源判别中的应用［J］.煤矿安全，2008 （2）

［7］杜强，贾丽艳.SPSS统计分析从入门到精通［M］.北京：人民邮电出版社，2011

［8］王心义，徐涛等.距离判别法在相似矿区突水水源识别中的应用［J］.煤炭学报，2011（8）

Application of multivariate statistical analysis model to identification of water inrush source in coal mines

Liu Jiegang1，2，Xu Xinqi3，Shi Yanru1，Yu Qingsong1，2，Li Lei1，2
（1.School of Resource and Earth Science，China University of Mining and Technology，Xuzhou，Jiangsu 221116，China；2.Key Laboratory of Coalbed Methane Resource and Reservoir Formation History，Ministry of Education，Xuzhou，Jiangsu 221116，China；3.Zibo Mining Group Co.，Ltd.，Zibo，Shandong 257000，China）

The comprehensive utilization of the calculation principal ofhierarchical clustering and stepwise discrimination，the multivariate statistical analysis model was set up to analyze the similarity of water quality and discriminate the source of water inrush according to the position of water inrush and the information of water quality in the aquifer in Daizhuang Coal Mine.The research showed that the hierarchical clustering method can quantitatively and visually reflect the close or distant relationship of water quality from different sources，and the stepwise discrimination analysis can effectively discriminate the type of water inrush position.Therefore，they are in complementary and verifiable relationship for each other.

multivariate statistical analysis，hierarchical clustering，stepwise discrimination，source of water inrush，Daizhuang Coal Mine

TD745.21

＊项目资助：“十二五”期间江苏省一级学科重点学科建设项目资助（苏孝研〔2011〕14号）

刘杰刚（1989-），男，汉族，四川绵阳人，硕士研究生，主要从事煤与油气地质方面的研究工作。

（责任编辑张艳华）