南疆维吾尔语语音识别研究与实现

2012-08-08吐尔洪江

塔里木大学学报 2012年3期

吴刚吐尔洪江

(塔里木大学信息工程学院，新疆阿拉尔843300)

语音识别(Speech Recognition，简称SR)的根本目的是要让机器听懂人说的话，准确地识别出语音的内容，并根据其信息意图生成相应的文本或是执行某种操作。对语音识别的研究始于20世纪50年代，其中特定说话人和非特定说话人连续语音识别技术研究比较成熟，部分技术已经在相关领域广泛应用。

在新疆，少数民族尤其是维吾尔族人口占有很大的比例，维吾尔族有自己独特的语言，且不同地域其语言发音差异非常大。随着新疆信息化快速发展，维吾尔语语言文字信息技术的研究与应用也是新疆信息化建设进程中的重要组成部分。特别是在新疆大力发展旅游经济的过程中，为加强民族文化交流，积极研究与开发维吾尔语人机对话系统意义重大。但当前对新疆维吾尔语语音识别的研究还处于初步阶段，离实际应用还有很多问题需要解决。南疆维吾尔语语音识别研究以南疆区域维吾尔语发音为研究对象，对其语音进行特征分析并探讨其识别方法。

1 维吾尔语发音特点

现代维吾尔语是现代维吾尔民族共同使用的语言，在漫长的历史发展过程中，维吾尔语形成了明显的方言差异。现代维吾尔语主要分为中心方言、和田方言和罗布方言三大方言，三个方言的差别主要表现在语音上，其中又以中心方言为标准语、以乌鲁木齐发音为标准语音[1，2]。现代维吾尔语共有32个字母，其中元音8个，辅音24个，维吾尔语是一种拼音式文字，分别由这8个元音字母和24个辅音字母拼写而成，在书写时是从右向左书写。

以发音音位来看，8个元音音位为闭展唇音2个，闭圆唇音2个，开展唇音2个，开圆唇音2个，在闭、开展唇和圆唇中以发音部位又可分为前、央、后三种音位。24个辅音的发音音位为双唇音3个、唇齿音1个、齿音6个、齿龈音1个、齿龈后音4个、硬腭音1个、软腭音2个、喉音4个及其他2个，在辅音的发音中细分有塞音、鼻音、擦音、塞擦音、闪音、半元音和边音等。发音中存在元音和谐律，舌位合谐比较严整，唇状和谐比较松弛，有元音弱化现象。

2 语音识别系统结构

语音识别系统结构图如图1所示，主要包括语音特征提取(包括语音预处理)、模型训练、模式匹配及逻辑决策等三个主要模块。

图1 语音识别系统结构图

在研究中根据语音识别过程，从两个方面来进行处理:一是对语音语料库中的语音进行预处理，提取特征，进行样本训练，建立识别样本库;二是对待识别语音进行预处理并提取其特征参数，应用一定的识别算法将所提取的特征参数与识别样本库进行匹配，得到识别的结果。

3 语音信号预处理

语音预处理指采用各种数字信号处理技术，运用软、硬件手段对语音信号进行处理，包括采样、去噪声、信号预加重、加窗和端点检测等规范化处理，获得较标准的语音样本，以进行后期特征提取及识别研究。语音预处理是语音识别过程中关键的一个环节，预处理的效果直接影响到识别结果。

3.1 语音采样

Nyquist采样定理表明[3]:如果模拟信号的频谱带宽是有限的，且假设其信号不包含高于fm的频率成分，那么用等于或大于2fm的取样频率进行取样，或者说用等于或小于1/(2 fm)的间隔取样，所得到的等间隔离散时间取样值或取样信号就能够完全唯一的代表原信号，就能够由取样信号恢复出原始模拟信号来。

语音识别时常用的采样频率为10 kHz或16 kHz。南疆维吾尔语语音信号是在实验室环境下用PC机进行采集，语音信号以单声道PCM格式，选择采样率为16 kHz，采样精度是16 bit，采集到的语音以.wav格式文件存储。实验室条件下采集语音信号质量高，信号干扰小，便于预处理。

3.2 预加重处理

对语音信号进行分析要先进行预加重处理，按照语音能量损耗规律，语音信号高频部分约以6dB/倍频程下降。预加重处理一般采用6dB/oct来提升高频部分，使语音信号的频谱变得平坦，分布在低频到高频的整个频带中，以便于进行频谱分析和声道参数分析。

常用的预加重处理方法有以下两种[4]:

(1)采用6dB/oct(20dB/dec)的高频增强滤波器来实现，传递函数为

(2)采用一阶的数字滤波器来实现，传递函数为H(z)=1－αz－1，其中α为预加重系数，可取1或比1稍小的值。

在对维吾尔语语音预加重处理时，采用软件处理方法，预加重系数取α=0.94，图2为南疆阿克苏阿瓦提采集到的维语数字“0”语音在预加重处理后的时域波形图。

图2 数字“0”语音在预加重后的时域波形图

3.3 端点检测[5，6]

采集到的语音信息是一段时间内的连续信息，将要处理识别的信息称为有效语音，采集信息中还包含有效语音前信息和有效信息后语音信息。在语音中，要准确获得识别有效信息，就要对语音信号进行端点检测。端点检测的目的是确定语音信息中的有效语音起始位置和终止位置，获取最终的识别有效信息，端点检测的检测精度将直接影响到识别精度。

通过对南疆维吾尔语语音波形特征进行分析，选择从语音信号的时域短时参数、短时平均幅度和短时过零率三个方面来进行端点检测，实验效果较好。在处理时选择信号在10ms到20ms之间，取帧长为20 ms(采样率为16 KHz)，每帧320(N)个信号样值S(n)，其中n=0，1，2…，N－1。

短时平均幅度处理函数为:

短时过零率处理函数为:

在MATLAB中，南疆阿克苏阿瓦提采集的维语数字“0”语音信号进行短时平均幅度处理效果如图3所示。

图3 数字“0”语音短时幅值波形图

进行短时过零率处理，结果如图4所示。

图4 数字“0”语音短时过零率处理图

端点检测后获得有效语音信息，数字“0”语音有效信息波形图如下图5所示。

图5 数字“0”语音端点检测有效信息波形图

4 特征提取与识别模型

语音信息特征的提取与选择是语音识别的基础、关键，特征参数的提取与选择将直接关系到识别分类器的设计。语音信号中包含的信息非常丰富，通过对语音信号进行分析处理，去掉无关冗余信息，获得能够反映语音对象的状态、本质及性质等影响语音识别的重要特征参数，并且特征要求对分类有效，具有较高的模式区分能力。

目前在语音识别中常用的特征提取参数有Mel倒谱系数(MFCC)、线性预测系数(LPCC)以及它们的变体。经过对南疆维吾尔语发音特点分析，语音的个性特征很大程度上体现在发音声道变化上，及声道频率特征明显，故采用计算Mel倒谱系数作为特征参数。

倒谱系数的计算方法[7]是将一帧中的语音信号表示为:s(n)=h(n)*i(n)，其中h(n)为语音信号s(n)的音源激励，i(n)为s(n)的声道冲激相应。对乘积h(n)*i(n)取幅度对数，再对所得到声道冲激响应和音源激励的傅里叶变换的对数之和进行逆傅里叶变换，得到语音信号倒谱为:

即为声道分量的倒谱h`(n)和音源激励分量的倒谱之i`(n)和，其中h`(n)是非常有效的语音特征参数。

识别算法提供有效计算语音的特征矢量序列和每个发音样本之间的距离。目前比较成熟的语音识别算法模型有模板匹配模型、向量量化模型、高斯混合模型、隐马尔可夫模型、神经网络模型以及多方法混合模型，在南疆维吾尔语音识别中采用成熟的模板匹配算法[8]来实现。

先对识别样本进行训练，提取MFCC系数存储在训练模板信息库中。在识别时先提取输入语音的特征参数(MFCC系数)，将该特征参数与训练模板信息库中特征参数进行相似度比较，相似度最高的就作为识别结果。在实际过程中，语音信号具有较大的随机性，这些时长的变化会影响测度的估计，因此在识别过程中需要对说话偏差率进行补偿，常用的有效方法为动态时间规整(Dynamic Time Warping，DTW)方法[9]。DTW是一种非线性规整，它将时间规整和距离测度计算相结合，设参考样本的特征矢量序列为X={x1，x2，A，xI}，待识别语音特征矢量序列为Y={y1，y2，A，yJ}通常因为时间不完全一致，I和J并不相等，DTW算法就是通过局部优化的方法实现加权距离总和最小，即

其中f作为二者的匹配路径。

5 实验分析

MATLAB软件中提供了强大的语音处理工具包，借助该软件仿真实现了一个非特定人的南疆维吾尔语的语音识别系统。系统使用10个常用词作为测试样本，发音为和田方言，选择在实验室环境下每词发音16次，录音为单声道PCM格式，采样率为16 kHz，对应采样精度为16 bit。将采用中的10个语音数据作为训练样本，对训练样本经预处理后分别提取特征参数，然后对同1个词的10个样本特征参数进行两两计算相似度，选择匹配距离最小的3组，进行第2轮筛选。在第2轮筛选中，用第1次选出每词3个样本和其余9个样本的10个样本进行两两计算相似度，选择匹配距离最大的2组作为模板样本。对所有选出的模版样本进行训练，提取Mel倒谱系数作为特征参数，并将训练样本特征存储。所有样本模板训练好后，用其他6个语音数据作为测试样本对该系统进行试验。

上述试验对南疆和田方言发音的6名特定人进行测试，10个词，每词测试样本7个，总测试样本为420，识别正确样本394，识别正确率为93.8%，识别效果较好。