基于误判率的贝叶斯判别法在变形监测点稳定性分析中的应用

2010-05-17张献州

铁道勘察 2010年6期

关键词：检验法概率密度错误率

陈超张献州

(西南交通大学土木工程学院, 四川成都 610031)

在变形监测过程中,监测点的相邻两期坐标之间存在差异,其包含了测量误差和点位稳定性信息[1～2]。为了判断这种差异究竟是测量误差干扰还是点位变动引起的,本文采用基于误判率的贝叶斯判别法对变形监测点的稳定性进行判别。

对于变形监测点的稳定性分析其实是一个分类问题,而且是一个二类分类问题,即稳定类(Ri)和非稳定类(Rj)

式中XΙ、XΠ分别为两期坐标平差值,ΔX为坐标之差。Ri表示两期坐标之差异是由测量误差的干扰引起的,此时点位是稳定的；Rj表示两期坐标之差异虽然存在测量误差的干扰,但主要是由于点位自身的变动引起的,此时点位是非稳定的。

1 贝叶斯判别理论

在分类问题中,往往希望尽量减少分类的错误。从这样的要求出发,利用概率论中的贝叶斯公式,建立基于误判率的目标函数,得到分类规划并对未知点进行判定的方法,称之为贝叶斯判别法[3]。

类别的状态是一个随机变量,而某种状态出现的概率是可以估计的。假设在m维空间中,对两种类别(设类别为R1和R2)进行判定,识别前已知先验概率P(R1)和P(R2),显然有P(R1)+P(R2)=1。则合理的判别规则应为

若P(R1)>P(R2), 则做出属于R1的判断；若P(R1)

显然,如果仅仅按照先验概率判别就会把所有样本点都判别为一类,而根本没有达到把两类样点分开的目的。这是因为先验概率提供的分类信息太少,为此还必须利用对样本进行观测和分析得到的信息,也就是构成样本数据中的m维观测量。在变形监测点的稳定性分析中,我们通常进行的是单点分析,这样就有m=1。则观测样本X在Ri状态下的类条件概率密度就为P(X|Ri),i=1,2。利用贝叶斯公式

(1)

得到的条件概率P(Ri|X)称为状态的后验概率。因此,贝叶斯公式实质是通过观察X把状态的先验概率转化为后验概率。则基于误判率的贝叶斯判别规则为

若P(R1|X)>P(R2|X),则做出属于R1的判断；若P(R1|X)

设变形监测点稳定类和非稳定类的先验概率分别为P(Ri)和P(Rj),则有P(Ri)+P(Rj)=1；两类的类条件概率分别为P(X|Ri)和P(X|Rj)。由于测量误差的存在,两类的条件概率密度的分布在一般情况下总是存在着不同的重叠,在非重叠的区域内,样本可以被正确的区分开；而在重叠的区域内,就不能正确的把样本区分开,从而决定了错误率的大小。如图1,图中Pi(e)和Pj(e)分别为稳定类和非稳定类的错误率,θij为两类条件概率密度分布的交点。

图1 类概率密度分布及错误率示意

1.1 类概率距离(Dij)

由于类概率距离Dij能直接反映类概率密度的分布情况,且又与误判率P(e)密切相关,因此可成为类可分性的一种度量,作为变形监测点的稳定性判别的基准。

设在m维空间里,类概率密度P(X|Ri)的分布服从N(ξi,Σi),P(X|Rj)的分布服从N(ξj,Σj),且根据同精度观测有Σi=Σj=Σ,则有

(2)

(2)式中,ξi,ξj,Σ分别为均值矩阵和协方差阵,Dij称为两类之间的马氏距离[5](是类概率距离的一种)。当样本X的各维特征值之间相互独立时,则有

(3)

(4)

(4)式中ξi,ξj分别为Ri类和Rj类的期望值,σ为两类的方差(两类方差相等)。

由(2)、(3)和(4)式可知,两均值之间的距离越远,且它们的分布越集中(方差越小),则两类的类概率距离(Dij)就越大,反之,Dij越小。由此可知,在两期观测坐标及统计信息确定后,Dij的大小直接反映了两期观测值的可区分度。Dij越大,两类就越容易区分,分类错误率越小；Dij越小,两类越难区分,分类错误率就越大。

1.2 分类错误率(P(e))

当类概率距离确定后,需要考虑该距离是否能区分两期观测值,即评价其优良性,在判别分析中采用误判概率(P(e))来衡量。如果源于Ri(或者Rj)的样品,取值落在Rj(或者Ri)中,那么按照贝叶斯判别规则就会把它误判为Rj(或者Ri)的样品,这种误判的概率为

(5)

由图1可知,分类误判率P(e)为

P(e)=P(Ri)Pi(e)+P(Rj)Pj(e)

(6)

(6)式中P(Ri)和P(Rj)分别为变形监测点稳定类和非稳定类的先验概率[6～9]。由于变形监测点的稳定性判别属于二类分类问题,且假设两类别出现的概率相等,即P(Ri)=P(Rj)=0.5。同时变形监测点服从方差相同的一维正态分布,即P(X|Ri)服从N(ξi,σ),P(X|Rj)服从N(ξj,σ),因此P(X|Ri)与P(X|Rj)密度分布将关于他们的交点θij(临界值点)对称,即θij为两类空间取值范围Ri与Rj的分界点。即可得

(7)

(7)式中Dij为两类之间的马氏距离。则根据(5)式可进一步计算误判率

(8)

由(6)、(7)和(8)可得

(9)

由上式可知,分类误判率P(e)与类概率距离间存在反相关的关系。两类之间的距离越大,误判率越小；距离越小,误判率越大。据此,我们可以通过设置适当的分类误判率,由(9)式反向计算得到合理的判别距离基准,根据基准即可判别变形监测点的稳定性。