基于 DTW 的孤立词说话人识别研究
2016-10-13武佳杰
武佳杰
基于 DTW 的孤立词说话人识别研究
武佳杰
山西财经大学,山西 太原 030000
利用遗传算法优越的全局搜索能力对传统DTW算法进行改进,重点研究遗传动态时间规划算法(GA_DTW)的实现机理、编码方式、适应度函数设计、种群初始化、选择机理、交叉运算、变异操作和终止策略。实验结果表明,在孤立词的说话人识别上,该算法具有识别率更高、耗时更少的优点。
DTW;孤立词;识别
1 DTW的基本原理
其中:
实际应用中,DTW采用动态规划技术实现最优化算法,被限制在一个平行四边形内如图1,其一条边的斜率为2,另一条边的斜率为1/2。规整函数的起始点为(1,1),终止点为(,)。DTW算法用简单的局部路径限制,使沿路径的累积距离最小,其动态搜索的空间并不是整个矩形网格,而是局限于平行四边形区域内,许多点达不到,因此,本文采用基于遗传算法的动态时间规划算法(GA_DTW)用全局搜索能力来寻找最佳匹配路径[2]。
图1 时间规整过程
2 GA_DTW算法机理
3 GA_DTW算法的流程
GA_DTW是对每一代个体进行适应度评价,对待识别模板和参考模板各帧间累积距离进行计算,通过选择、交叉和变异等操作得到适应度更高的下一代种群,如此反复,直到达到算法终止条件即满足模板最小总累积距离,结束算法运算,输出结果[5]。
(1)编码方式。对参考模板进行编码,并对待识别模板上特征参数帧的位置及位置上的值进行编码,使染色体上的基因位置表示待识模板的帧号数,而该位置上的基因值表示参考模板的帧号数。假如参考模板特征参数有帧,待识别模板特征参数有帧,那么用长度为个字符的串来编码染色体,而这个串中的基因是一个小于或等于的正整数,它代表待识别特征参数帧在基因位置上对应的参考特征参数帧的位置,并在串中按从左到右、从小到大的顺序排放。假设参考模板参数有10帧,待测试模板参数有15帧,如串1,1,2,2,3,4,5,5,6,7,8,9,9,10,10,它表示待识别语音特征参数中的:第1帧对应参考模板中第1帧,第2帧对应参考模板中的第1帧,第3帧对应参考模板中第2帧,……,第14帧对应参考模板中第10帧,第15帧对应参考模板中第10帧。
(2)适应度函数设计。待识别模板特征参数(帧)参考模板特征参数(帧)间各帧间距离是一个×的矩阵dist[,],一般适应度值越大被遗传的机会就越大,但是累积距离是越小越好,所以需要进行最大值和最小值之间的转换。GA_DTW算法的适应度函数为式5。
(3)种群初始化。随机产生个0-2的随机整数,使它们的和加起来等于,然后对这些随机数按从左到右的顺序依次求和,即:染色体中从左至右的第个基因是随机数序列从左至右的前个随机数的和。
(4)选择操作。在进化时,上一代适应度最高的个体直接复制到下一代,再选取遗传运算之后适应度较高的个体,直到个体数量达到种群规模[6]。
(5)交叉操作。将种群中2个个体以随机方式组成个配对组,将对应两位置的中间基因片段进行交换,得到2个新的个体。
(6)变异操作。用表示变异概率,一般取值0.001~0.02,通过扰乱基因值再合并允许的新值,即:随机产生一个1~-1范围内的整数,用它取代个体中的某个元素。
(8)终止策略:本文采用固定遗传迭代次数的方法终止策略,设定迭代次数为60次。
4 实验结果及分析
实验采集了5个人的语音样本数据,包括3个女声和2个男声的发音,样本为两个字的连续词发音,分别为“芝麻、开门、晴朗、多云、小雨”,每人每个词发音重复40遍,这样得到共1000个语音样本数据,建立了一个s×5×40的语料库,供实验用。采用同一个女声的声音样本,交叉概率和变异概率取(,)=(0.8,0.005),遗传迭代次数按60计算,实验结果如表1。从表1知,DTW和GA_DTW的识别率分别为87.60%和90.51%,GA_DTW的识别率明显高于DTW的识别率,而且耗时更短,前者每个词识别平均耗时1.596 s,后者每个词识别平均耗时1.371 s,在效率上GA_DTW比DTW高得多。
表1 识别实验结果
[1]陈永斌,王仁华.语言信号处理[M].合肥:中国科学技术大学出版社,1990.
[2]De.Jong, KA. An Analysis of the Behavior of a Class of GeneticAdaptive Systems[D].University of Michigan,No.76-9381,1975.
[3]Holland J H.Adaptation in Natural and Artifi- cial Systems[M].Ann Arbor: Univ.of Michi- gan Press,1975.
[4]徐宗本,张讲社,郑亚林.计算智能中的仿生学[M].北京:科学出版社,2003.
People on Speak Recognition of Isolated Words DTW
Wu Jiajie
Shanxi University of Finance, Shanxi Taiyuan 030000
Genetic Algorithm excellent global search ability of traditional DTW algorithm is improved, focusing on genetic dynamic time programming algorithm (GA_DTW) the implementation mechanism, encoding, fitness function design, population initialization, selection mechanism, crossover operator, mutation and termination policies. Experimental results show that the speaker recognition isolated words, this algorithm has higher recognition rate, consuming fewer advantages.
DTW; isolated words; identification
TN912.34
A
1009-6434(2016)08-0115-02
武佳杰(1989—),男,山西汾阳人,山西财经大学2014(计算机应用技术)学术硕士研究生,研究方向为贝叶斯网络。