基于支持向量机的煤矿井水害水源自动识别方法研究
2015-05-07李继君薛阳余桂希余桂莲余生晨
李继君,薛阳,余桂希,余桂莲,余生晨
(1.高河能源有限公司,山西长治 047100;2.北京政法职业学院,北京 102600;3.宁夏中卫市海原县职业中学,宁夏海原 755200;4.宁夏固原市原州第五中学,宁夏固原 756000;5.华北科技学院,北京东燕郊 101601)
0 引言
山西潞安集团所属的各煤矿水害频发,其表现形式通常为突、涌、溃、淋水等。煤矿井突水会造成重大财产和人员伤亡,多年来对其预防和治理一直是相关领域生产者关注研究的重要课题。水文地球化学(简称“水化学”)探测技术主要利用地面水质化验的结果,一般是八个指标,有时或更多,然后根据这些指标分析水源。它是矿井防治水工作中的一种重要手段,在矿井突水水源判别方面效果显著,是一种快速、经济、实用的方法。目前一般采用以下几种方法:(1)利用特征离子或特征离子比值法判别突水水源;(2)利用水质分析结合同位素综合分析方法判断突(涌、淋、溃)水水源;(3)利用人工示踪法判断水源;(4)通过建立数学判别模型,判断突水水源[1]。然而这种手工且根据单一地面水质化验指标判断水源的方法,在一些复杂地区的判断结果与实际有较大的出入。
在实际应用过程中,由于受各种条件的限制(例如,钻井数量的限制),工程技术人员往往无法针对每类水源都能采集到大量的足够样本,有时,水源识别问题就是一个小样本的分类识别问题。对于小样本的分类识别问题,传统的分类方法容易出现过学习(over fitting)现象,导致算法的推广性差;同时,又会导致学习性能差,无法胜任水害水源识别这样一个非线性很强的分类模式。而支持向量机(SVM)恰好能够在学习性能和推广能力上找到一个平衡点,从而使得其分类性能既具有较好的推广性,又能达到较强的分类效果。
SVM是建立在统计学习理论基础之上的一种新型机器学习方法,它是对结构风险最小化原则的近似。由于SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广到函数拟合等其它机器学习问题中,所以将其作为一些小样本的分类器是一种合理的选择。但在实际运用中,支持向量机的泛化性能取决于其核函数的类型、核函数的参数以及惩罚系数C。文献[2]采用改变高斯核的方法来提高基于高斯核SVM的分类性能,但每种核函数都有其优缺点,很难说某一个核函数在所有的问题中都是最好的,为了充分利用各种核函数的优点,得到一个较好的分类效果,本文采用混合核函数的支持向量机。实验结果表明,该方法具有较好的水源识别效果。
1 支持向量机方法概述
支持向量机(SVM)分类器能将非线性可分样本经核函数映射到一个高维空间,并在该高维空间中构造最优分类超平面,这个超平面不但能将两类样本正确分开,而且使两类样本点的间隔最大。其过程如下:
1)用一个合适的核函数作用于一组分别属于两种不同类别的N维的向量组,使其在高维空间中分散开来;
2)找出两个类的支持向量;
3)找到最优分类面,即得到这两类的分类的依据。
SVM算法的输入是一个集合:{(xi,yi)|x∈Rd,y∈{-1,+1},i=1,2,…,N}
集合中,yi是样本xi的所属类的标志,d是样本的维数,N是训练样本的个数。
SVM的期望输出(最优分类面函数)设为:
其中,K(xi,x)= φ(xi)·φ(x),b*为分类的阈值,K(xi,x)是一核函数(内积函数),函数φ:R→F,是一个从非线性输入空间R到高维特征空间F的映射。文献[3]给出了目前使用较多的四个典型的核函数,它们分别是:
2)polynomial kernel多项式核 Kpoly(xi,xj)
3)radial basis function kernel(径向基函数)
4)MLPkernel KMLP 核 KMLP(xi,xj)=tanh
为了充分利用各种核函数的优点,减少核函数类型差别对支持向量机分类性能的影响,本文采用如下混合核函数的支持向量机模型:
产生最优分类面函数的过程实质上是使两类样本的分类间隔最大的过程,使分类间隔最大的分类面即为最优分类超平面,这可以通过求解下列函数的最优化解αi来完成。因此,求解最优超平面可以转化为函数优化问题如下:
式2)中C是用户自定义的惩罚系数,用来实现在最少错分样本和最大分类间隔之间的折衷[4],在不等式中φ是一映射函数,ξ是一松散变量,其值是可接受的错分样本率。这个二次规划问题有唯一的极小点,利用Lagrange(拉格朗日)乘子法可转化为其对偶形式[5]:
其中,αi为每一个样本对应的Lagrange乘子。
最后得到最优分类超平面函数为:
其中,sign(.·)是一符号函数,b*是分类的阈值,可以通过两类中任意一对支持向量取中值求得。
2 水源识别理论
利用数学模型对矿井水化学数据进行处理并判别充水水源,是现代地球化学和计算机科学相结合的必然结果。水源识别过程的一般步骤如下:
1)根据实际情况,首先建立一个煤矿,或一个区域(例如,潞安集团所属煤矿区)的水化学模型(或建水样库)。不同地区的水化学模型一般是有差别的,我国内陆煤矿充水水源主要有砂岩水、奥灰水、太灰水、老空水。有些在浅海区下面开采的煤矿充水水源主要是海水,在水库或湖泊下面开采的煤矿充水水源主要是水库或湖泊水;
2)获取水质化验分析的多个指标:例如,K(钾)、Ca2+(钙)、Mg2+(镁)(硫酸盐)、PH(PH值)、Fe(铁)(亚硝酸盐)、I(碘)和T(水温);
3)建立数学判别模型,判断突水水源,例如,可以应用人工智能方法判定水的来源;
4)当判定为奥灰承压水,或老窑采空区积水等,即,可能会发生水害的水源,可采取预防措施;当判定为其它水源或危害性较小的水源时,可正常采煤。
3 支持向量机(SVM)方法在煤矿水害水源识别中的应用
用本文方法对潞安集团所属的高河能源有限公司的煤矿矿井水害水源进行了分类识。其计算过程的具体步骤如下:
1)利用潞安集团所属煤矿区的矿井和钻孔水样以及在地面对其水质化验的指标,首先建立潞安集团所属煤矿区的水化学模型(或建水样库);高河能源有限公司煤矿区的充水水源主要分为6大类:砂岩水、奥灰水、太灰水、老空水,地面泉水和断层氧化带水等;
2)获取水质化验分析的多个指标(在分类识别中,称为“特征”):K(钾)、Ca2+(钙)、Mg2+(镁)(硫酸盐)、PH(PH值)、Fe(铁)、(亚硝酸盐)、I(碘)、氯(CI)和T(水温);
3)为了使有不同量纲的特征(指标)能够进行比较,需要将特征数据规格化,即将特征数据变换为无量纲的数据,然后再判别识别,本文规格化方法是“标准差归一化方法”,把带单位的水质化验分析指标,都转化为没有单位的数据,但不影响分类效果,归一化后,第i个水质化验指标的取值在-1~+1之间;
4)建立数学判别模型,判断突水水源,应用本文改进的支持向量机(SVM)方法判定水的来源;
5)跟据上述10个特征(水质化验分析的指标),把待判别的水源样品和水化学模型(或建水样库)中的各类水源样品,一同分类。如图1所示,先粗分为两大类,再把两大类各自细分为2个子类,依次类推;
图1 先粗分为两大类,再细分为4类,依次类推
6)当判定为奥灰承压水、太灰水或老窑采空区积水等,即,可能会发生水害的水源,可采取预防措施;当判定为其它水源或危害性较小的水源时,可正常采煤。
4 实验结果与讨论
本文计算程序,包括支持向量机(SVM)分类器程序,都是采用FORTRAN90和C++编写。
1)建立水化学模型(或建水样库)。本文用潞安集团所属煤矿区的矿井和钻孔水样,利用在地面对其水质化验的指标判断水源。该煤矿区的充水水源主要分为6大类:砂岩水、奥灰水、太灰水、老空水,地面泉水和断层氧化带水等。
通过实验发现当训联样本集的两类样本的个数相差较大时,分类结果总是偏向样本个数较大的类。为了避免这一现象,本文用相同数目的样本训练分类器。6大类水源各取7个典型的代表性水源样本,总共42个样本,做为训练集(如果条件允许的话,尽可能的多取一些训练样本)。
为了消弱水质化验中的干扰和分析误差,本文把同一类水源的同一个水质化验指标的多个化验值,取其平均值,这样,用平均值代替同一个水质化验指标,对每类形成一个平均后的代表样本,即,指标平均值样本。
6大类水源各取3个典型的已知水源的代表性水源样本,总共18个样本,做为测试样本集,以便测试本方法的分类识别效果。测试样本集越多越好。
2)特征数据规格化。在地面水质化验的结果中,众多化验指标的单位是不统一的,例如,离子含量单位为mg/L(毫克/升),有些离子含量单位为mol/L(模尔/升,1模尔Mg2+离子=6.02×1023个Mg2+离子),这就给通过建立数学判别模型,判断突水水源的方法带来很大麻烦,导致该方法判断结果误差较大。为了解决这两个问题,本论文用“标准差归一化”方法,把带单位的水质化验分析的多个指标(即,特征),转化为没有单位的数据,但不影响分类效果,转化(即,归一化)后,第i个水质化验指标的取值在-1~+1之间。
标准差归一化方法。以Ca2+(钙)、(钙)离子为例,假设xi=Ca2+(钙)离子,其观测了30个数据,这里n=30。
对于第i个水质化验指标(即,测量指标)归一化(标准化),就是将第i个测量指标换成x'i,
这样归一化后,第i个测量指标的取值在-1~+1之间。
3)用上述(1)中选出的训练集中的42个样本训练本文研制的支持向量机(SVM),确定支持向量机(SVM)中的参数;当SVM训练好后,再用测试样本集中的18个样本,分别测试支持向量机(SVM)的分类识别效果。在测试中,如(1)所述,当训练样本集的两类样本的个数相差较大时,分类识别结果总是偏向样本个数较大的类。
4)对比点。在测试对比过程中发现:有1个测试样本,不论用什么方法分类识别,其结果都是不正确的,后经多方分析查证是砂岩水和奥灰水混在一起了,该测试样本被放弃。
5)多方法对比。
②用2个指标分类识别的效果也不高,识别水害水源正确率为48%。我们做了数据分布图,并分析了原因,原因如下:
图2 用2个指标分类识别的效果
从图2可见,在x-y座标系中,奥灰水和砂岩水可以区分开,但是由计算机计自动分类识别就困难了。17个样本进行了测试,其识别水源的正确率分别为77%和71%。
表1给出了应用本文改进的支持向量机(SVM)分类识别该煤矿区水源的结果和其它常用方法的识别结果的比较。
表1 用本文研究的方法和其它常用方法识别水源的结果比较
表2 用本文研究的方法识别水害水源的结果和部分数据
由表1和表2可以看出几种不同的方法对水害水源的识别正确率是不同的。应用本文改进的支持向量机(SVM)方法对水源的正确识别率是最高的,从而证明本文研究的方法是有效的而且是可行的。
6)支持向量机(SVM)核函数的选用问题。每种核函数都有其优缺点,很难说某一个核函数在所有问题中都是最好的,但可以充分利用各种核函数的优点,得到一个较好的分类效果,本文采用混合核函数的支持向量机模型,实验证明其有较强的分类能力。
在第1部分(支持向量机方法概述)中,列举了目前常用的四个典型的核函数。根据泛函分析的有关理论,若某一变换空间中的内积函数满足Mercer条件,那么该函数就可以作为SVM核函数。因为polynomial kernel多项式核Kpoly(xi,xj)和 radial basis function kernel(径向基函数)总是符合Mercer条件的,所以其线性组合 λ1Kpoly(xi,xj)+ λ2KRBF(xi,xj)也满足 Mercer 条件。尽管 MLP kernel KMLP 核 KMLP(xi,xj)=+θ)在个别情况下不满足Mercer条件,但在本文的实验中不但切实可行,而且提高了SVM的分类性能,因而可以加入到本文的混合核函数中。前述的对水源的识别都是建立在使用混合核函数的支持向量机(SVM)模型基础之上的。
6)前提条件。使用本方法识别水源的前提条件是在识别水源前要建立一个适合待识别地区(煤矿)的水样本训练集(即,建立水化学模型,或水样库),并指出待识别地区(煤矿)可能的水源类型。每类水源至少有一个水样本做为训练样本,训练样本越多越好。
[1] 刘峰.矿井水害水源的水文地球化学探测技术[J].煤田地质与勘探,2007,35(4):20 -23.
[2] Kotsia I,Nikolaidis N,Pitas I.Facial expression recognition in videos using a novel Multi-Class Support Vector Machines variant[C].IEEE International Conference on Acoustics,Speech and Siqnal Processing,2007,2:585-588.
[3] Sheen Nuking,Andrews G J,Evans L B.Adaptive resource allocation in multiuser OFDM systems with proportional rate constraints[J].IEEE transactions on wireless communications,2005,4(6):2726 -2737.
[4] Jiao Jang,Kwan Bok Lee.Transmit power adaptation for multiuser OFDM systems[J].IEEE K.Sell.Areas common,2003,21(2):171-178.
[5] Vapnik V N.The Nature of Statistical Learning Theory[M].New York:Springer- Verlag,1995.
[6] 董书宁.对中国煤矿水害频发的几个关键科学问题的探讨[J]. 煤炭学报,2010,35(1):66 -71.
[7] 周健,史秀志,王怀勇.矿井突水水源识别的距离判别分析模型[J].煤炭学报,2010,35(2):278-282.
[8] 石磊,徐楼英.基于水化学特征的聚类分析对矿井突水水源判别[J].煤炭科学技术,2010(3):97-100.