基于多观察序列的HMM训练算法
2013-10-29赵娜
赵 娜
(湖北工程学院 物理与电子信息工程学院,湖北 孝感432000)
隐马尔可夫模型(Hidden Markov Model,HMM)是一种具有学习能力的统计模型。HMM利用概率及统计学理论成功地解决了如何辨识具有不同参数的短时平稳的信号段以及如何跟踪它们之间的转化等问题,即非平稳随机过程的建模问题。
HMM能否成功得到应用,其训练问题是关键。许多学者在这方面做了大量卓有成效的工作。1970年,Baum等人提出了用单个观察序列估计模型参数的 Maximization算法[1]。1977年Dempster等又提出了Expectation-Maximization(EM)算法[2]。之后Levinson等在假设不同的观察序列之间是统计独立的前提下提出了基于多观察序列的 HMM 训练算法[3]。自此以后,HMM广泛应用于语音识别、手写字符识别、图像处理、生物信号处理等诸多领域[4-6]。
独立假设使HMM的训练得到了简化,但却忽略了数据之间的相关性。事实上,实际应用中许多数据都具有很高的相关性。以语音识别为例,由同一个人发出的语音,不同帧间的语音信号是高度相关的。事实上,语言的结构信息是多层次的,除了语音特性外,还牵涉到音长、音调、能量等超音段信息以及语法、句法等高层次语言结构的信息。不合理的假设将导致识别率的下降或训练数据的增加。为此,人们在试图放宽这一限制方面做了许多有益的探索[7-9]。在不做任何假设的前提下,本文对一种基于多观察序列的HMM训练算法进行研究,较好地解决了HMM的训练问题。该算法既考虑到了多观察序列之间的相关性又不增加计算量。当用于训练的观察序列之间是统计独立时,又可以导出经典的HMM训练算法。
1 隐马尔科夫模型
1.1 HMM的表示
一个有N个状态(s1s2…sN)及M 个观察输出(v1v2…vM)的HMM由如下三组参数描述:
1)初始状态分布∏={πi}1≤i≤N。其中πi=P(q1=si)=1
2)状态转移概率矩阵A={aij}1≤i,j≤N。
1.2 一阶HMM的训练
给出观察量O=o1o2…oT,并假设各观察量是互不相关的。利用约束最佳化技术,Baum等导出HMM 的全套参数估计公式如下[1,2,5]:
2 HMM的多观察序列训练算法
观察序列之间可能是相关的,也可能是统计独立的。一般地,应有
引入权系数
构造如下形式的辅助函数
(9)式中q=q1q2…qT是状态序列。考虑(7)式和相应的约束条件,即
根据拉格朗日乘数法,构造如下目标函数:
上式中,cai,cbj,cπ为拉格朗日乘数。对目标函数最大化得到HMM的重估公式如下:
在上面的式子中,
3 讨论
当各观察序列之间是统计独立时,即:
此时wk=P(O|λ)/P(O(k)|λ),1≤k≤K.分别代入(11)、(12)、(13)式中得
(14)、(15)、(16)式与传统的重估公式完全一致。由此可见,本文导出的基于多观察序列的HMM训练算法实际上是在不做独立假设下经典HMM训练算法的推广。
4 结论
本文对一种基于多观察序列的HMM训练算法进行了研究,该算法避开了直接计算条件概率的困难,特别适用于分组间均匀相关的多观察序列HMM的训练。同时,该算法也可导出经典的HMM训练算法。
[1]Baum L E,Petrie T,Soules G,et al.A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains[J].The Annals of athematical Statistics,1970,41(1):164-171.
[2]Levinson S E,Rabiner L R,Sondhi M M.An introduction to the application of the theory of probabi-listic functions of Markov process to automatic speech recognition[J].Bell System Technical Journal,1983,62(4):1035-1074.
[3]姚天任.数字语音处理[M].武汉:华中理工大学出版社,1992:347-355.
[4]Li Xiaolin,Parizeau M,Plamon R.Training hidden Markov models with multiple observations-A combinatorial method[J].IEEE Transactions on pattern analysis and machine intelligence.2000,22(4):371-377.
[5]Baggenstoss P M.A modified Baum-Welch algorithm for hidden Markov models with multiple observation spaces[J].IEEE Transactions on speech and audio processing,2001,9(4):411-416.
[6]王新民,姚天任.一种基于SDTS的HMM训练算法[J].信号处理,2003,19(1):40-43.
[7]Bocchieri E,Mark B.Subspace distribution clustering hidden Markov model[J].IEEE Trans Speech and Audio Processing,2001,9(3):264-275.
[8]Engelbrecht H A,Du Preez JA.Efficient backward decoding of high-order hidden Markov models[J].Pattern Recognition,2010,43(2):99-112.
[9]Ye Fei,Yi Na,Wang Yifei.EM Algorithm for Training High-order Hidden Markov Model with Multiple Observation Sequences[J].Journal of Information & Computational Science,2011,8(10):1761-1777.