单音素语音信号的递归定量分析
2018-07-26范珍艳庄晓东孙桂琪
范珍艳,庄晓东,孙桂琪
(青岛大学电子信息学院,山东 青岛 266071)
0 引言
近年来,语音识别技术已经得到突破性进展和广泛应用[1],语音识别可分为小词汇量语音识别和大词汇量语音识别。小词汇量语音识别基本都是以汉语词为基本识别单位,而大词汇量语音识别则多以音素为基本识别单位,在此基础上再根据发音规则及语法规则对识别出来的音素串进行匹配而得到所识别的词[2]。因此音素作为基本的语音单位,正确的识别出音素是实现连续语流语音识别的重要基础。因此本文介绍了一种对单音素语音信号的不同特征进行分析的方法—递归图和递归定量分析方法。递归图(recurrence plot,RP)由Eckmann、Kamphorst和Ruelle首先提出,是分析时问级数实验数据的工具,它可以揭示非线性时间序列的内部结构,并得出很多预测性的先验特性.可以检验时间序列的平稳性、内在相似性。对递归图进行定量的分析方法称为递归定量分析(recurrence quantification analysis,RQA)。该方法通过递归图的递归点和对角线结构定义了递归率等递归定量参数[3]。本文通过对单音素语音信号做递归图和递归定量分析得到单音素语音的不同特征。
2 递归图及递归定量分析
2.1 递归图
递归图采用图形方式来描述信号中所存在的结构例如确定性。它体现待研究动力系统中产生的时间序列的所有可能时间尺度上的自相关,因此,递归图可以被认为是一个系统全局相关结构的展现[4]。递归图采用了相空间重构的思想[5],设原始时间序列为选择合适的嵌入维数和延迟时间τ进行相空间重构得到向量式中定义k个相空间点中任意两点的距离为[6]
则递归图中的元素为
2.2 递归定量分析
采用递归图分析方法只能在图像中定性的分析系统的动力学特性,因此Webber和Zbilut提出了递归定量分析方法[8]。递归定量分析就是在递归图的基础上通过统计或者测定递归图中基本图形点和线段的分布等特征,将递归图中直接观测的各种模式进行量化分析[9]。Webber和Zbilut提出的特征量包括:
(1)递归率(RR)表示递归图中的递归点在图上占据的相对数量[10]。
递归率较高表示一个较强的周期性嵌入过程。
(2)确定率(DET)表示递归图中平行于对角线段的递归点点数和总的递归点点数的比值。
(3)递归熵(ENTR)表示动力学信息量或随机型的程度。
(4)分层率(LAM)表示垂直线段包含递归点的点数与所有垂直结构包含递归点的点数比值[13]。
3 单音素语音的递归定量分析
3.1 递归图
本文采用采样频率为16KHz的单音素信号,分别为清音/a/,/e/,/h/,/s/,/sh/和浊音/a/,/e/,/i/,/o/,/u/,分别取了每个单音素信号的前3000个数据进行递归图分析。首先采用C_C方法[14]对每个单音素语音信号进行相空间重构,得到嵌入维数和时间延迟τ,选取一个合适的阈值,对每个单音素语音信号做出递归图,如图1-10。
由图1-10可以看出,清音/a/,/e/,/h/,/s/,/sh/和浊音/a/,/e/,/i/,/o/,/u/的递归图在结构上存在不同的特征。每个单音素语音信号的递归图均存在一条主对角线,且整个图形关于这条主对角线对称。由于递归图反映的是重构后的吸引子所具有的某种属性,不同性质的信号,由于其吸引子的表现不一样,递归图的结构也不同。平稳信号的递归图是均匀布满的,不存在与主对角线平行的直线。若存在,则表示该信号中存在确定性成分。浊音信号的递归图中存在很多与主对角线平行的直线段,说明浊音信号中存在确定性成分。而清音信号的递归图中不规则和无序部分占了很大比例,没有与主对角线平行的直线,说明清音信号的随机成分是主要的。
图1 浊音a的递归图Fig.1 The recurrence plot of voiced-a
图2 浊音e的递归图Fig.2 The recurrence plot of voiced-e
图3 浊音i的递归图Fig.3 The recurrence plot of voiced-i
图4 浊音o递归图Fig.4 The recurrence plot of voiced-o
图5 浊音u的递归图Fig.5 The recurrence plot of voiced-u
图6 清音a的递归图Fig.6 The recurrence plot of devoiced-a
图7 清音e的递归图Fig.7 The recurrence plot of devoiced-e
图8 清音s的递归图Fig.8 The recurrence plot of devoiced-s
图9 清音h的递归图Fig.9 The recurrence plot of devoiced-h
图10 清音sh的递归图Fig.10 The recurrence plot of devoiced-sh
3.2 递归定量分析
从以上单音素语音信号的递归图可以看出,只能从图像上定性的看出单音素语音的不同特征,因此引入递归定量分析(RQA)方法对单音素语音信号进行定量分析。本文采用CRP TOOL工具箱[15]对单音素语音信号进行递归定量分析,选择了递归率,确定率,递归熵,分层度等4个递归分析的特征量作为主要的特征参数,表1给出了4种特征量的定量分析结果。
表1 单因素语音信号的RQA分析Table 1 The RQA of single phoneme speech signals
由表1可以看出,总体上,清音的递归率相对浊音较大,较高的递归率代表一个较强的周期性嵌入过程,因此清音信号的周期性嵌入过程较浊音强。确定率为100%代表信号的规律性强,而清音/a/,/e/的确定率较浊音/a/, /e/大,说明清音信号/a/, /e/的规律性更强。分层度描述系统相对变化快慢的动力学特征,分层度为0,说明信号相对变化较快,清音/a/, /e/的分层度较浊音/a/, /e/大,说明清音信号/a/, /e/相对变化更快。递归熵的大小说明递归图确定性结构的复杂程度,熵值越大,复杂程度越大,清音/a/, /e/的递归熵较浊音/a/, /e/大,说明清音信号/a/, /e/复杂程度更大,更具有混沌性。
4 结论
本文采用递归图和递归定量方法对不同的单音素语音信号的递归特性进行研究分析。在相空间重构的基础上,将一维时间序列中不易识别的特征转化到高维相空间中,通过计算递归率,确定率,分层度,递归熵等非线性特征量,可以发现递归定量分析方法可以定量的分析单音素浊音/a/, /e/和清音/a/,/e/,但是对其他几个单音素信号的效果不是很明显,还有待改进。