线性转换矩阵聚焦于事后概率的计算辨识
2017-07-13王钧
王钧
【摘 要】由于鉴别式训练的效果优越,于是出现使用鉴别式训练法则进行转换矩阵调适,称为最小分类错误率线性回归调适算法。我们认为使用最小分类错误率准则进行线性回归调适时,若能再进一步考虑线性回归矩阵之事前概率分布,则可以结合贝氏法则之强健性与最小分类错误率之鉴别性,以估测出更佳之转换矩阵用于语者调适上。透过聚焦事后概率与鉴别式训练间之关连及适当之条件简化,则可得到参数更新之封闭解型式以加速鉴别式训练的参数估测。
【关键词】线性;矩阵;事后概率;计算
一、绪论
一般化最小错误率(generalized minimum error rate,GMER),由事后概率的角度出发,定义聚焦事后概率(aggregate a posteriori,AAP),并将事后概率改写为具鉴别性形式的误辨率(misclassification measure)函式。在训练模型参数上,不使用一般的广义概率递减法则(generalized probabilistic descent,GPD),透过一些条件假设,即可推导出模型参数估测的封闭解形式。在语者调适的研究上,最广为使用的有最大相似度线性回归(maximum likelihood linear regression,MLLR)调适与最大事后概率调适两大类方法。在本研究中我们将使用前者作为调适的主要架构,透过所估测出之线性回归矩阵对语音模型参数进行调适。由于考虑到使用语料量稀少易造成調适效果失准的情况,引入线性转换矩阵之事前分布信息,以强健化调适效能外,也将由鉴别式训练之角度出发,尝试找出不同于传统以贝氏法则为准之最大化。聚焦事后概率线性回归(aggregate a posteriori linear regression,AAPLR)算法。故我们会针对文献中所提过之以线性回归为主之调适算法作回顾。除了最大相似度线性回归调适算法之外,主要有最大事后概率线性回归(MAPLR)、考虑到渐进式(sequential)学习的近似贝氏线性回归(quasi-Bayes linear regression,QBLR)与最小分类错误线性回归(minimum classification error linear regression,MCELR)。
二、鉴别式训练及线性回归调整
最大相似度参数估测法则是最普遍用来训练隐藏式马可夫模型参数的方法,它利用EM算法估测模型参数非常有效率;最大相似度的缺点是模型参数只利用属于本身模型的数据来估测,和其它模型的参数估测基本上是独立的。最小分类错误和最大交互信息,是近来较广为利用的鉴别式训练方法,除了训练语音模型外,还用在语言模型(language model)的训练上、语者辨识模型训练、特征参数撷取。使用鉴别式训练估测模型参数时,除了本身模型的数据外,还考虑与其它模型参数之鉴别性,所以可以更正确地估测出所需的模型参数内容。作者提出了另一种鉴别式训练方法,称作一般化最小错误率,从事后概率出发,定义与最大事后概率相似的目标函式,并且改写为鉴别式训练的形式,以下分别简介这三种鉴别式训练法则。
在两个类别12C,C的分类器里,假设1x∈C,贝氏分类法则定义了最基本的误辨值函式(misclassificationmeasure)为
其中(x;)ig为观察数据x对类别iC的相似度,表示所有类别的模型参数,|(x;)(x;)kikMigg,代表一群对观察数据x的相似度比类别kC对观察数据x相似度更具竞争性的类别集合,即混淆类别(confusing classes)或竞争类别(competing classes)的集合。kS并非是固定的集合,它随着模型参数和观察数据x而改变,而且该式在不连续,这在最陡坡降法(gradient descent)里并不适用,因此另外定义了一个连续性的误辨值公式为
除了最小分类错误法则外,最大交互信息也是普遍利用的鉴别式训练式法则,最大交互信息较隐性的引入了观察数据与其它类别的相似度,所以与一般化最小错误率较相似,在混合数高的情况下,最大交互信息能训练出比最小分类错误辨识率更高的模型参数,由于最大交互信息考虑了观察数据和所有类别的相似度,因此比最小分类错误在实作上难度更高。为了快速计算隐藏式马可夫模型和观察数据x的相似度,必须使用forward-backward算法。
三、最大相似度线性回归(MLLR)
最大相似度线性回归的目标就是,对一群集s,计算一转换矩阵sW,使得群集内所有调适数据的相似度最大,最大相似度线性回归调适算法的好处在于,调适语料不需要完全涵盖所有模型,即使没有调适数据的模型,也可以经由同类别的转换矩阵进行调适。以调整平均值向量为例,在计算转换矩阵之前,将平均值向量延展为
其中,D为向量维度,则更新后的平均值向量为 其中,r(s)代表状态s所属回归类别,r(s)W代表回归类别(regression class)r(s)的转换矩阵,维度为D×(D1),则透过EM算法,最后可以得到每一个回归类别的转换矩阵之每一列计算方式如 。由于以最大相似度为主之线性转换矩阵在计算上十分简易,所以其应用十分普遍,然而,若调适语料过少,或语料特性不具代表性时,则可能导致得到的转换矩阵仍旧无法符合测试语者的语音特性,于是,便考虑到引入转换矩阵的事前分布信息。矩阵参数的事前分布可以在估测转换矩阵时限制参数可能的调适量,使得参数的估测更具强健性,由文献实验可看出,最大事后概率线性回归可达到比最大相似度线性回归更好的辨识率。
最小分类错误的鉴别式训练方式在很多应用都能显示出不错的效能,不过最小分类错误一般以广义概率递减算法实现,并没有在理论上证明它能收敛到更好的模型,当训练数据变少时,错误的收敛停止点更容易发生,因此将MCE应用在模型调适时,使用线性回归有其必要。Chengalvarayan在1998年提出最小分类错误线性回归,使用全局性的转换矩阵并以广义概率递减算法估测矩阵参数,实验结果显示出其调适效果比最大相似度线性回归算法好。而在中,更进一步使用多组回归类别的转换矩阵进行调适,在同样使用广义概率递减算法下,可以有更好的调适效能改进。另外,作者不利用广义概率递减算法实现最小分类错误线性回归调适算法,而以一般化调适作法计算转换矩阵,即转换矩阵以群集为单位,将最小分类错误的目标函式改写后,可以透过EM算法以封闭解的方式计算转换矩阵。