非齐次隐马尔可夫模型及其参数估计
2019-01-11徐妍
徐妍
摘要:隐马尔可夫模型是现今被广泛使用的统计模型之一。本文在现有的对隐马尔可夫模型研究的基础上,通过在转移模型的马尔可夫链中增加协变量,构建了非齐次隐马尔可夫模型。在对模型进行参数估计时,首先用k-means聚类分析确定了观测数据的隐状态,然后用极大似然估计对模型的转移参数进行估计。在数值模拟时,以非齐次隐马尔可夫多元正态分布和非齐次隐马尔可夫多元线性回归为例,利用文章所介绍的方法对模型的参数进行估计,验证了估计的可靠性。
关键词:非齐次隐马尔可夫模型 k-means聚类 极大似然估计
一、引言
隐马尔可夫模型最早是由Leonard E.Baum等在1966年和1970年的两篇论文中提出的[1,2]。隐马尔可夫模型由两部分组成,一部分是转移模型,用来描述模型隐状态之间的转移关系,在实际应用中隐状态是不能被直接观测到的;另一部分是发射模型,即和隐状态一一对应的观测变量,每个发射模型来自一个特定的分布。20世纪70年代,隐马尔可夫模型首先被应用在语音识别领域[3],之后,又成为分析生物遗传信息的有用工具[4]。随着隐马尔可夫模型的不断发展,对隐马尔可夫模型的研究也越来越多。Dempster等提出了EM算法,用来对包含隐状态的模型进行极大似然估计[5]。Jelinek等将Baum-Welch算法与EM算法的关系进行了完整的描述,说明了Baum-Welch算法是EM算法在隐马尔可夫模型中的具体应用[6]。国内也有很多关于隐马尔可夫模型的研究,夏叶茂等研究了隐马尔可夫因子分析模型的半参数贝叶斯分析 [7]。刘鹤飞等研究了隐状态个数未知的隐马尔可夫多元正态分布的贝叶斯推断,利用可逆跳跃MCMC算法对隐状态个数进行模型选择,再对模型参数进行估计[8]。王坤等将隐马尔可夫模型与结构方程模型相结合,并通过贝叶斯方法对模型的未知参数进行估计[9]。
随着大数据的发展,隐马尔可夫模型在生活中也得到了更广泛的应用。金融领域,隐马尔可夫模型可以用来对股市收益率波动和状态转换进行建模和预测[10];互联网领域,隐马尔可夫模型可以用来进行网络环境监管;安全领域,隐马尔可夫模型可以和貝叶斯神经网络结合,通过分析一些先前发生的事件来预测恐怖分子在未来一段时间内可能发动恐怖活动的概率,用来预防可能发生的恐怖活动[11]。
目前国内外期刊发表的论文主要集中在齐次隐马尔可夫模型的研究,即在转移模型中只考虑了隐状态从时刻的状态转移到时刻的状态的概率,没有考虑观测变量自身的某些因素对状态之间转移概率的影响。而我们发现,在许多实际应用中,模型在时刻的状态往往不仅仅受时刻状态的影响,还可能会受时刻自身某些协变量的影响。为此,本文提出了一种新的转移模型用来描述隐状态个数已知的情况下,隐状态之间的非齐次概率转移关系,称为非齐次隐马尔可夫模型,这是本文的第一个创新点。本文的第二个创新点是提出了利用k-means聚类方法确定非齐次隐马尔可夫模型的隐状态,在隐状态确定的条件下,再分别估计转移模型和发射模型中的未知参数。
二、模型描述
以上描述的就是非齐次隐马尔可夫模型的状态转移过程,我们将这种形式的转移模型称作“连续比对数转移模型”。
在隐状态确定的条件下,观测向量为服从特定分布的向量,其中p是观测向量的维度。即时,对非齐次隐马尔可夫模型来说,向量为模型的观测变量,为影响转移效果的固定协变量,q是固定协变量的维度。本文要研究的就是如何利用可观测到的信息和去估计非齐次隐马尔可夫模型中的转移模型和每个隐状态下发射模型中的未知参数。
三、估计原理
(一)隐状态向量
隐马尔可夫模型的观测变量来自不同的隐状态,然而在实际应用中,隐状态无法直接观测,这也是隐马尔可夫模型推断的困难之处。已有的许多研究,都试图利用观测变量中隐含的信息首先对观测变量的隐状态进行判定,在确定隐状态向量之后,再对隐马尔可夫模型中的转移参数和每个隐状态下特定分布的未知参数进行估计。其中,最有代表性的就是向前向后递归算法。然而向前向后递归算法的理论性很强,计算方法非常复杂,要求使用者具有一定的统计学理论背景和计算机编程能力,这极大地限制了隐马尔可夫模型在实际生产生活中的推广和应用。
本文利用k-means聚类方法,来确定隐马尔可夫模型观测变量的隐状态,在隐状态确定的条件下对模型中的未知参数进行估计。
(二)标签交换
在对非齐次隐马尔可夫模型进行研究时,首先要解决标签交换问题。如果没有解决这一问题,模型的参数估计结果就不具有可解释性,甚至会发生混淆。Richardson和 Green 在文章中通过比较均值来解决标签交换问题[12]。本文借鉴这一经验,在发射模型为多元正态分布时,通过比较多元正态分布中均值向量第一分量的方法来解决这一问题;在发射模型为多元线性回归时,通过比较回归系数的方法来解决这一问题。即在参数估计之后,重新确定观测变量隐状态的标签,然后再根据隐状态标签结果,重新确定每个隐状态下参数的估计结果。
(三)转移模型中未知参数的估计
利用极大似然估计对非齐次隐马尔可夫模型中转移模型的未知参数进行估计。未知参数的似然函数如下:
最大似然估计就是要找到使得似然函数取最大值时未知参数和的值。本文中似然函数含有个未知参数。在实际应用中,可以用统计软件中求极值的函数得到未知参数的数值解。比如,本文就是通过R语言BB程序包中的fun函数,近似求解似然函数的极大值点。
(四)发射模型中未知参数的估计
隐马尔可夫模型的发射模型可以来自各种不同的特定分布。本文选择比较经典和常用的多元正态分布和多元线性回归作为两个模拟实验的发射模型。
1.多元正态分布。假设聚类分析确定隐状态向量后,第k个隐状态下的观测集合为,。则观测模型中的待估参数为每个隐状态下的均值向量和协方差矩阵。
用极大似然估计对发射模型中的待估参数进行估计,结果如下:
2.多元线性回归。假设聚类分析确定隐状态向量后,第k个隐状态下的观测向量为。则观测模型中的待估参数为每个隐状态下自变量的系数向量。
用最小二乘估计对观测模型中的待估参数进行估计,结果如下:
四、实证分析
本实例的数据来源于曲靖师范学院数学与统计学院2014级数学与应用数学专业两个班91位同学八个学期的综合测评成绩。每名学生每学期的综合测评成绩分为文化知识成绩和创新发展成绩两类,文化知识成绩和创新发展成绩均采用百分制计算。我们将每名学生每学期的文化知识成绩和创新发展成绩作为发射模型的观测数据,将它们近似的看作一个二维的正态分布。将每名学生的性别作为固定协变量,男生设置为1,女生设置为0;将学生是否获得奖学金作为模型的隐状态,综合测评分数高的同学获得奖学金。用k-means聚类分析确定每个观测变量的隐状态,再利用文章中介绍的标签交换的方法,聚类后,表示学生获得奖学金,表示学生没有获得奖学金。
根据文中介绍的参数估计方法,得到各参数的估计值:
获得奖学金的同学,综合测评成绩服从:
没有获得奖学金的同学,综合测评成绩服从:
根据发射模型参数估计结果可知:获得奖学金的同学综合测评成绩明显高于没有获得奖学金的同学。具体来说,获得奖学金的同学,文化知识成绩平均分为86.24,创新发展成绩平均分为86.40;没有获得奖学金的同学,文化知识成绩平均分为78.48,创新发展成绩平均分为77.36。
根据隐状态转移概率公式可以知道,当学生性别为女时,如果前一个学期该学生获得了奖学金,那么后一个学期该学生获得奖学金的概率为0.80,不能获得奖学金的概率为0.20;如果前一个学期该学生没有获得奖学金,那么后一个学期该学生可以获得奖学金的概率为0.45,不能获得奖学金的概率为0.55。当学生性别为男生时,如果前一个学期该学生获得奖学金,那么后一个学期该学生可以获得奖学金的概率为0.51,不能获得奖学金的概率为0.49;如果前一个学期该学生没有获得奖学金,那么后一个学期该学生可以获得奖学金的概率为0.18,不能获得奖学金的概率为0.82。
五、结论
本文在现有的对齐次隐马尔可夫模型研究的基础上,通过在转移模型的马尔可夫链中增加协变量,提出了非齐次隐马尔可夫模型,解决了当模型的观测变量存在固定协变量时,对隐状态转移关系进行建模的问题,这是本文的第一个创新点。本文采用了“连续比对数转移模型”来描述隐状态之间的转移关系,因为模型中未知参数较多,且不同情况下未知参数的个数也不同,所以今后可以对非齐次转移模型进行相关的改进研究,使得转移模型形式更简单,使用更方便。
本文的第二个创新点是利用较简单的k-means聚类分析确定模型观测变量的隐状态,在隐状态确定的情况下对非齐次隐马尔可夫模型中的未知参数进行估计。在今后的研究中,可以尝试利用系统聚类方法对隐状态个数未知的隐马尔可夫模型进行隐状态个数的模型选择,或者尝试利用神经网络、决策树等聚类方法来确定观测变量的隐状态。
参考文献:
[1]Baum L E,Petrie T.Statistical inference for probabilistic functions of finite state Markov chains[J].Annals of Mathematical Statistics,1966,37(1):1554-1563.
[2]Baum L E,Petrie T,Soules G,Weiss N.A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains[J].Annals of Mathematical Statistical,1970,41(1):164-171.
[3]Jelinek,F.,Bahl,L.,Mercer,R.Design of a linguistic statistical decoder for the recognition of continuous speech[J].IEEE Transactions on Information Theory,1975 2(3):250-256.
[4]Bishop,Martin J,Thompson,Elizabeth A.Maximum Likelihood alignment of DNA sequences[J].Journal of Molecular Biology,1986,190(2):159-165.
[5]Dempster,A.P.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of Royal Statistical Society B,1977,39(1):1-38.
[6]Jelinek,Frederick.Statistical methods for speech recognition[M].1997.
[7]夏業茂,勾建伟,刘应安.隐马尔可夫因子分析模型的半参数贝叶斯分析[J].高校应用数学学报,2015,30(1):17-30.
[8]刘鹤飞,王坤,蒋成飞.隐状态个数未知的隐马尔可夫多元正态分布的贝叶斯推断[J].统计研究,2017,34(12):119-125.
[9]王坤,刘鹤飞,蒋成飞.隐马尔可夫结构方程及其贝叶斯估计[J].数理统计与管理,2018,37(2):273-279.
[10]刘金全,李楠,郑挺国.随机波动模型的马尔可夫链—蒙特卡罗模拟方法—在沪市收益率序列上的应用[J].数理统计与管理,2010,29(6):1026-1035.
[11]战兵,韩锐.基于隐马尔可夫的恐怖事件预测模型[J].解放军理工大学学报,2015,16(4):386-393.
[12]Richardson S,Green P J.On Bayesian analysis of mixtures with an unknown number of components[J].Journal of the Royal Statistical Society(Series B),1997,59(4):731—758.
(作者单位:首都经济贸易大学统计学院)