基于语音识别与特征的无监督语音模式提取

2014-08-05赵庆卫颜永红

计算机工程 2014年5期

关键词：置信度分段音频

张震，赵庆卫，颜永红

(中国科学院语言声学与内容理解重点实验室，北京 100 190)

基于语音识别与特征的无监督语音模式提取

张震，赵庆卫，颜永红

(中国科学院语言声学与内容理解重点实验室，北京 100 190)

在语音识别与特征系统中，通过无监督的方法搜索未知语音流中出现的语言模式。利用语音识别系统的多候选结果，通过分段动态时间弯曲算法进行语言模式的搜索，采用有效的聚类算法以及置信度估计算法，提高系统性能，同时建立仅基于特征匹配的相似音频片段检测系统，不使用任何知识源，仅从语音中获取重复的语音模式，在广播电视新闻与自然口语对话2个测试集上对比2个系统的性能。实验结果表明，基于识别的系统具有较好的检测效果，而基于特征的系统具备多语种的推广性。

语音识别；语音模式发现；分段动态时间弯曲算法；图聚类算法；音素回环后验概率计算

1 概述

随着多媒体互联网的发展，出现越来越多的多媒体数据。之前网络传输成本、存储成本都相对高昂，人们更喜欢使用文本形式进行信息的存储，而随着信息科技的不断发展，网络传输速度的飞速提高，存储的成本越来越低廉，可以大量存储多媒体信息，如语音、视频录像等。目前如何有效地处理这些数据成为了一个研究热点，许多研究单位和机构致力于有效地进行信息利用。因为多媒体数据的信息存储于图像、声音中，无法直接利用这些信息，需要一些技术对信息进行相关处理，在图像上有图像识别等关键技术，而语音上则依赖于语音识别的相关技术，比如语音转文本技术[1]、语音识别关键词技术[2]。而某些场景需要在两段音频中挖掘出一些有效信息，并不像进行关键词搜索一样，有预先定义的关键词列表，在语音中搜索对应的关键词结果。所以需要一些新的方式进行语音流中相似信息的检出，这种无监督的方法对于语音的利用提供了很多方便[3]，比如对海量数据进行无监督聚类，对于刑侦案件上，需要提取出发音相同或者相近的片段进行比对，以作为案件侦破的证据。

本文工作的出发点是在未知信息的语音流中，用语音流检索语音流的方式进行语音信息无监督的发掘，找到语音流中重复的短语语义实体等[4]。文中构建了2套系统，分别为基于语音识别的相似音频片段检测系统与基于特征匹配的相似音频片段检测系统。基于识别的系统具有检出率高、精度高的特点，而基于特征的检测系统构建简单，并且不需要积累大量的知识源，可以用于多语种音频模式的检测。

2 任务背景以及相关工作

在过去几十年中，在自动语音识别领域，研究者在大词表连续语音识别领域做出了巨大努力，同时获得了很好的技术进步[1]。不过对于大多数应用场景，技术架构思路基本相同，那就是将语音送入到语音识别器，将语音转换为文本，然后在文本层面上搜索需要的语义实体，但是这些都是在预先定义的一系列词语框架内。然而，人类和机器的学习方式具有本质的区别，机器学习中对语音的处理是将语音从频谱域映射到状态域，然后在状态域中结合了预先定义的知识源，如发音词典、语言模型等，将语音转换为预先定义的词典中的单元序列。关心的是如何在无监督的输入下从语音本身去发掘一些信息[4]。

2.1 模式发现

模式发现在各个领域都有一定的应用，从计算生物学到音乐分析再到多媒体总结，这些领域存在共通点是需要利用模式发现的原则对数据进行梳理，在计算生物学上[5]，在模式发现上研究动机是寻找生物序列中显著基本图样。

2.2 无监督语言获取

这个领域的工作和本文的内容比较接近，其研究重点都是关心如何在发音层面无监督地获得语言的信息。近来，一些研究者提出了机器利用多关联输入进行发音获取的模型。有些研究者利用回溯神经网的长记忆结构将分段的语音转化为音素的后验概率，在后验概率上进行匹配，获得一些发音结构[6]。文献[7]提出了基于模型的词库感应方法。这种方法迭代地更新模型的参数来最小化输入语音与模型之间的描述长度。以及基于模型的动态规划算法对语音进行分段来获得词语实体获取。

3 基于识别的相似音频片段检测系统

3.1 系统架构

首先将语音信号进行分段处理，将分段之后的语音送入到语音识别器中进行识别，生成中间结果(多候选结果)。将识别中间结果送入到语音片段检测模块得到匹配的结果信息，之后将这些结果按照一定准则进行聚类[8]，得到聚类的不同类别，这些类的结果被送入到置信度重估模块[9]，对置信度得分进行重估，得到最终的搜索结果。系统结构如图1所示。

图1 基于语音识别的检测系统架构

3.2 模式发现算法

基于识别的相似音频片段检测系统的核心部分是在识别生成的中间结果上进行相似片段的检索，寻找序列中的匹配符号串采用动态时间弯曲算法是比较常见的方法[10]。但是传统的动态时间弯曲算法是针对整段的符号序列进行对齐，寻找最优序列，而对于整段语音流的输入来寻找最优对齐序列的问题，传统的动态时间弯曲就有其局限性，因为难以确定在语音流中什么位置才是真正的匹配最优序列的起始位置，需要对动态时间弯曲算法进行一定的改进以适应在整段语音流中检测出能够匹配的语音模式的要求，所以采用改进的分段动态时间弯曲算法作为主要手段来搜索语音流。

3.2.1 分段动态时间弯曲算法

改进动态时间弯曲算法，建立全局的约束条件来限制对齐算法可以进行的区域形状；通过对同一对进行对比的序列设定多个对齐的起点和终点获得多个对齐路径，然后进行失配函数的计算。

如图2所示，所有的对齐区域都限定在一定范围内，假定现在有2个符号序列X和Y，分别表示为X={x1, x2,…,xNx}与Y={y1,y2,…,yNy}。设定一个对齐宽度的方法保证了2个序列在进行对比时，其中一个不会在序列长度上超出另外一个序列很多。这里设定了一个准则。

图2 分段动态时间弯曲算法示意图

对于一个对齐路径起始于{i1,j1}经过了k步对齐到达的状态pk={ik,jk}必须满足下列条件：

这就限制了在局部进行对齐寻找最优路径的区域限制在宽度为2R+1的对角线区域内，几个对齐区域设定的R=1，而由于存在对齐区域的限制，局部对齐的路径很可能无法达到{Nx,Ny}，这样只有每个序列的部分可以匹配。

3.2.2 词语实体的搜索匹配

因为目前识别器性能受语音质量、环境噪音等影响比较大，识别首选的识别率有限，只使用识别的首选结果，将会对语音的搜索结果造成一定影响，所以考虑采用语音识别器生成的多候选结果进行词语实体的搜索。在语音识别器常用的多候选结构中，词图与混淆网络是比较常用的，因为词图是一个严格的有向无环图的结构，而分段动态时间弯曲算法需要输入的序列是线性结构，这里采用混淆网络作为进行搜索的多候选结构，一个典型的混淆网络结构如表1所示。

表1 一个典型的混淆网络线性结构

混淆网络中的每个元素都同样可以表示为三元组：xi={phi, p( phi),pos( phi)}。其中，phi是发音单元在语音识别器的发音词典的代表符号；p( phi)为该识别单元的置信度分数；pos( phi)为该识别单元在识别出的句子中的位置，识别单元的置信度采用词图置信度进行估计。

而混淆网络中的每个聚类可以将其考虑为一个结果向量：X={(w1, c1),(w2, c2),…,(wn, cn)}。其中，wi表示一个聚类中第个词的词id；ci表示该词的置信度。

而对于混淆网络的匹配得分计算公式为：

其中，X与Y分别为对比的2个结果向量；ϕ(X, Y)为规整因子，计算得到的得分处于同样的动态范围内可以比较。

3.3 聚类算法

将语音中的不同片段视为结点，而语音片段之间的相似关系作为连接2个结点的边，可以将语音中的不同片段映射为邻接图，如图3所示。图中连接的边为一个聚类中2个结点的相似性得分，采用一种自上而下的聚类方法[11]，先将每一个结点视为独自一个分类，然后通过逐渐将连接关系加回到邻接图内，使得结构化得分最大，这是一种在社交网络中寻找社团实体的聚类算法，和研究的目标类似。

图3 语音片段转换为邻接图的示意图

3.4 进一步的置信度估计方法

在寻找到合适的聚类模式之后，为了提高系统的性能，采用基于音素回环的音素后验概率[12]作为置信度计算，计算公式为：

其中，ps为搜索到的结果中包含的音素序列，共有Nt个音素；tsi与tei分别为音素的起止时间；P( phti|Ot

t seii

)为音素的声学后验概率，通过三音子保持上下文而中间音素进行回环计算得到。

4 基于特征匹配的相似音频片段检测系统

基于识别的相似音频片段检测系统需要大量的数据训练知识源，知识源的积累是一个长期的过程，数据需要人工进行标注，这无形中又是一笔巨大的投入。而且对于语料丰富的语种来说，比如汉语、英语，可以有资源进行语料积累，但是对于比较小的语种，语料的积累是很难实现的，所以希望能利用本身来搜索语音中的信息。

4.1 系统架构

基于特征匹配的系统架构因为没有使用语音识别器，所以架构相对简单，输入的语音经过分段模块分成小段的语音，根据特征提取模块，直接用3.2节描述的算法进行匹配搜索，然后进行结果聚类。系统架构如图4所示。

图4 基于特征的相似音频片段检测系统架构

4.2 相似度计算

在基于特征的相似音频检测系统上，相似度的计算，直接通过计算特征域的欧几里得距离加权得到。现有X= {x1,x2,…,xNx}为一段语音的特征序列，Y={y1,y2,…, yNy}为与X匹配的语音特征序列，存在着一组映射关系：

则X与Y的相似度计算公式为：

其中，d(x, y)代表了向量x与向量y的欧几里得距离。

5 实验与分析

5.1 实验设置

在2个测试集上进行了实验，一个测试集为广播新闻的测试集，时长为2 h，说话人使用语言均为标准普通话，语速均匀，背景噪音比较小。在广播新闻的测试集上一共有197个聚类，也就是发音相同或者相似的词语实体，另外一个测试集自然电话口语对话的测试集时长为1.5 h，说话人带有一定口音和感情色彩，具有一定的背景噪音，在自然口语对话的测试集上一共有136个聚类。

在系统上选用的分段模块为基于能量检测的分段模块，将输入的语音流按照能量比切分为小段的语音，语音识别器采用的是中科信利基于树拷贝的单边解码器[13]，声学模型使用400 h数据进行训练，采用的特征为39维的PLP特征(13维基维特征做二阶差分)，发音词典采用了包含44 92 0个中文词组的中文词典，语言模型的阶数为三阶，语言模型的训练预料为6 GB的文本。在语音识别器解码的参数设置方面，集束搜索宽度设置为120，相当于1.5倍实时(xRT)的解码速度。在进行分段动态时间弯曲匹配搜索时，对角线区域的限制参数R=2，表明在进行动态时间弯曲匹配的时候，允许2个音素的匹配错位。

在使用特征匹配的系统上，设置了R=10，代表在进行分段动态时间弯曲的时候，允许10帧的匹配错位。

本文采用的指标为纯度，其计算为每个聚类精度的均值，计算公式如下：

另外还采用了召回率作为指标，表示召回的词语数与语音流中的匹配词语实体总数的比值。

5.2 结果分析

在广播电视测试集上用基于语音识别的系统进行检测，性能如表2所示。

表2 系统在广播电视测试集上的性能

从表2中可以看到，在语音质量比较好的语音上，纯度和召回率的表现都比较令人满意，使用声学置信度进行置信度的重估之后，会使纯度指标大幅上升，但是会对召回率有一定的影响。在自然电话口语对话测试集上的性能如表3所示。

表3 系统在自然口语对话测试集上的性能

从表3中可以看到，由于自然电话口语对话测试语音质量相对较差，最后得到的纯度和召回率都和在广播新闻电视测试集上的性能有一定差距，同时声学置信度对于性能的影响与广播新闻电视测试集是一致的。

测试了2个测试集在基于特征的相似音频片段检测系统的性能，如表4所示。

表4 系统在2个测试集上的性能表现

由表4可以观察到，在少了知识源的加入，只依靠特征本身从语音中去寻找语音模式是比较困难的，性能与基于识别的系统存在较大的差距，但是因为此系统简单，依赖的资源少，可以进行多语种检测的推广。

6 结束语

本文从无监督地从语音流中获得语音信息的角度出发，从大量的语音中获取一些重复的词语模式。建立2套系统，分别是基于现在流行的语音解码器的架构以及直接基于特征匹配的系统架构。在性能上，基于语音识别器的系统性能远远好于基于特征的系统，但是语音识别器的构建过程复杂，对于语言资源比较匮乏的小语种，则显得无能为力，这时只依靠特征进行匹配的系统仍然能发挥一定作用。下一步研究将主要集中在基于特征匹配的相似音频片段检测系统性能的提升以及将相似音频检测技术推广到多语种的应用场景中。

[1] 刘加, 潘胜昔. 用TMS320C31实时实现电话语音识别系统[J]. 清华大学学报: 自然科学版, 1998, 38(z1): 51-54.

[2] 韩疆, 刘晓星, 颜永红, 等. 一种任务域无关的语音关键词检测系统[J]. 通信学报, 2006, 27(2): 137-141.

[3] Park A S. Unsupervised Pattern Discovery in Speech[J]. IEEE Transactions on Audio, Speech, and Langu age Processing, 2008, 16(1): 186-197.

[4] Shen Wade, White C M, Hazen T J. A Comparison of Queryby-Example Methods for Spoken Term Detection[C]//Proc. of Interspeech’09. Brighton, UK: [s. n.], 2009: 421-426.

[5] Rigoutsos I, Floratos A. Combinatorial Pattern Discovery in Biological Seque nces: The T EIRESIAS Algorithm[J]. Bioinformatics, 1998, 14(1): 55-67.

[6] Roy D K. Learning Words from Sights and Sounds: A Computational Model[J]. Cognitive Science, 2002, 26(1): 113-146.

[7] Brent M R. An Efficient, Probabilistically Sound Algorithm for Segmentation and Word Discovery[J]. Machine Learning, 1999, 34(1/3): 71-105.

[8] Ng A Y, Jordan M I. On Spectral Clustering: Analysis and an Algorithm[C]//Advances in Neural Information Processing Systems. Cambridge, USA: MIT Press, 2002: 849-856.

[9] 刘镜, 刘加. 置信度的原理及其在语音识别中的应用[J]. 计算机研究与发展, 2000, 37(7): 882-890.

[10] Christiansen R, Rushfort h C. Detecting and Locating Key Words in Continuous Speech Using Linear Predictive Coding[J]. IEEE Transactions o n Aco ustics, Sp eech and Signal Processing, 1977, 25(5): 361-367.

[11] Newman M E J. Finding and Evaluating Community Structure in Networks[J]. Physical Review E, 2004, 69(2).

[12] Sun Yanqing, Z hao Qingwei. Combining Ph oneme L oop Posteriori with Decoding Posteriori as Confidenc e Measure for Speech Recognition in E-service[C]// Proc. of International Conference on e-Education, e-Bu siness, e-Manage ment, and e-Learning. [S. l.]: IEEE Press, 2010: 238-241.

[13] Gao Jie, Zhao Qingwei, Yan Yonghong, et al. Efficient System Combination for Syllable-confusion-network-based Chinese Spoken Term Detection[C]//Proc. of the 6th International Symposium on Chinese Spoken Lan guage Processing. Kunming, China: [s. n.], 2008: 366-369.

编辑顾逸斐

Unsupervised Speech Pattern Extraction Based on Speech Recognition and Feature

ZHANG Zhen, ZHAO Qing-wei, YAN Yong-hong

(Key Laboratory of Speech Acoustics and Content Understanding, Chinese Academy of Sciences, Beijing 100190, China)

This paper proposes the unsupervised method based on both speech recognition system and feature-based system to search for the speech patterns. In speech recognition system, the alternative results of the speech recognition system decoder are us ed to search audio patterns with seg mental dynamic time warping alg orithm. Then gr aph clustering alg orithm is used, as well as confi dence estimati on algorithm, to improve the performance of the system. It also proposes the system based on feature only without any knowledge resource. In the final, the performances of the two systems on both radio and television news and spoken dialogue sets are compared. The speech recognition system achieves better performance, and the feature based system can be used on many languages.

speech recognition; speech pattern discovery; segmental dynamic time warping algo rithm; graph clus tering algorithm; phoneme loop calculation of posterior probability

10.3969/j.issn.1000-3428.2014.05.054

1000-3428(2014)05-0262-04

TN912.34

国家自然科学基金资助项目(10925419, 90920302, 61072124, 11074275, 11161140319, 91120001, 61271426)；国家“863”计划基金资助项目(2012AA012503)；中国科学院重点部署基金资助项目(KGZD-EW-103-2)；中国科学院战略性先导科技专项基金资助项目“面向感知中国的新一代信息技术研究”(XDA06030100, XDA06030500)。

张震(1984－)，男，博士研究生，主研方向：语音识别，关键词检索；赵庆卫、颜永红，研究员、博士生导师。

2013-05-02

2013-05-27E-mail：zhangzhen@hccl.ioa.ac.cn

文章编号：1000-3428(2014)05-0266-04

A中图分类号：TP391