APP下载

语谱图二次傅里叶变换特定人二字汉语词汇识别

2017-06-13梁士利李广岩许廷发王双维

关键词:傅里叶频域投影

潘 迪,梁士利,魏 莹,李广岩,许廷发,王双维

(1.东北师范大学物理学院,吉林 长春 130024;2.北京理工大学光电成像与信息工程研究所,北京 100081)

语谱图二次傅里叶变换特定人二字汉语词汇识别

潘 迪1,梁士利1,魏 莹1,李广岩1,许廷发2,王双维1

(1.东北师范大学物理学院,吉林 长春 130024;2.北京理工大学光电成像与信息工程研究所,北京 100081)

以语音信号的语谱图作为处理对象,提出了基于语谱图二次傅里叶变换对特定人二字词汇识别的方法.首先对语谱图二次傅里叶变换频域图的图像意义以及相应的语音特性表征进行了详细剖析;然后对语谱图频域图像进行二进宽度行投影,将投影值作为语音识别特征值,以支持向量机为分类器,进行特定人二字词汇语音整体识别.采用1 000个语音样本进行了仿真实验.结果表明,该方法正确识别率可达到92.4%,为汉语词汇整体识别提供了新的思路.

语谱图;二次傅里叶变换;支持向量机;二进宽度行投影

0 引言

无论语音识别还是语音增强,常规语音处理技术通常基于语音信号属于非平稳随机过程这一特性,以10~30 ms的短时语音帧为基本单位进行处理.但这种分割方法破坏了音节承载信息的整体性,在一定程度上影响了语音处理的效果.

相比英语等其他语言,汉语音节信息最强的部分在前面和中间,结尾部分往往只是信息很弱且时间较长的拖尾音.汉语的信息为声母、韵母及声调的整体表现,对汉语进行处理时极易使语音信息丢失.因此,对于汉语语音处理而言,寻找能够体现汉语语音整体化特征的处理方法显得尤为重要.

语谱图作为语音分析和语音学的有利工具,它将密切相关的时域与频域特征及其相互关系同时展现出来.所以,语谱图更加有利于表征语音信号的整体性.随着图像处理技术的发展,人们已将语谱图本身作为研究对象,利用图像处理技术提取语音识别的参数实现语音识别,并取得了一定效果.

20世纪70年代,文献[1]做了若干关于语谱图阅读的实验来尝试用语谱图进行语音识别;文献[2]尝试通过可视语谱图检验和机器帮助下的词汇搜索对一组未知句子进行识别,都取得了一定的成果;80年代末和90年代初,人们开始不直接使用语谱图,而是从语谱图中提取特征或使用处理过的语谱图;[3-7]新世纪以来,文献[8]提出一种新颖的基于谱模型适应算法的语谱图,并用于说话人识别.

1995年,潘凌云等人[9]将语谱图应用到语音识别中的语音音素分割中;2005年,马义德等人[10]把PCNN引入到说话人识别中;2006年,陈向民等人[11]将语谱图应用到语音端点检测算法中;2011年,姜洪臣等人[12]提出了一种基于音频语谱图像识别的广告检索方法;2014年,吴迪等人[13]对增强后语音的时频语谱进行二维增强,提出PSSB参数,并用于端点检测;我们依据语谱图纹理方位的数学形态学特征进行了汉语韵母声调识别研究[14].

以往基于语谱图的语音识别仅在语谱图本身的空域结构中直接寻找特征,并没有充分利用语谱图作为可视化图像的性质.考虑到语谱图表征语音特性体现在纹络结构上,而图像纹络结构更容易由图像的频域描述.因此,本文对语谱图进行二次傅里叶变换,将其图像空域转换至图像频域,并对语谱图图像频域进行二进宽度分带投影,借助于支持向量机实现特定人二字词汇的识别.仿真实验表明,选取对语谱图进行图像二次傅里叶变换之后的二进宽度分带投影值作为语音识别特征量,对特定人二字词汇语音的识别率可达到92.4%,为解决汉语词汇整体语音识别提供了一种新的思路.

1 语谱图二次傅里叶变换的意义

语谱图(Spectrogram)[15]是表示语音频谱随时间变化的图形,它采用二维平面来表达三维信息,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示.语谱图中显示了大量的与语音的特性有关的信息,它综合了频谱图和时域波形的特性,显示出语音频谱随时间的变化情况.所以,语谱图所承载的信息量远远大于单纯时域和单纯频域承载信息量的总和.

众所周知,窄带语谱图有较高的频率分辨率,在谱图上能显示出2个纯音,但其时间分辨率较差,看不出2个纯音所产生的拍音.[16]因此,作为词汇的窄带语谱图,可以反映词汇整体的基频及各次谐波的时间变化.窄带语谱图中基频及各次谐波体现为等间隔的横杠,从图像角度看,这些等间隔的横杠反映了图像竖直方向上的周期特征.如果将语谱图进行傅里叶变换,即由语谱图的空域转换到语谱图的频域,则上述横杠的周期性表现为语谱图频域竖直方向上的基频.

为了彰显上述特性,我们给出汉语单韵母“a”的语谱图(带宽43 Hz)见图1.为了突出重点,图1只显示4 kHz以下部分.由图1可以看出,当持续发“a”时,基频与各次谐波对应的横杠基本保持不变,而波动性反映发音时的声音脉动.图1的傅里叶变换图(全频域变换)见图2,亦即语谱图的频域图,图2中心代表0频率,向左右和上下指向高频.语谱图是非负的实数矩阵,所以,其傅里叶变换满足共轭对称性,我们只针对上半幅频域图进行解读.由于是单韵母“a”的持续发音,其基频与各次谐波的相对关系保持不变,体现在频域图上,即是图像的各频率成分集中在坐标轴上.

图1 汉语单韵母“a”的窄带语谱

语谱图频域图像中心亮斑(可称为0号亮斑)是语谱图水平和竖直方向的0频率分量,这是图像傅里叶变换的特有标志,因为图像矩阵为非负实阵,数据没有过零点,因此任何图像都包含“直流”成分,也正因为如此,图像频域的“直流”成分即中心亮斑不包含有用信息.

语谱图频域图竖直方向1号亮斑的位置,反映了语音基频及各次谐波间隔的大小,位置越高,说明基频及各次谐波频率间隔越小.2号及其以后的高频亮斑反映语谱图横杠断面边缘特征,即边缘梯度特征,高频亮斑越少,边缘下降越缓慢,反之亦然.从语音角度,高频亮斑对应着语音频谱的精细结构,这一精细结构除含有语音信息外,是否含有说话人的声纹信息,值得进一步研究.

图3 词汇“中国”的时域波形

与竖直方向类似,水平方向1号亮斑反映语音脉动的基本周期,高频亮斑反映语音脉动过程的速率.由于图1是窄带语谱图,时间分辨率不高,因此不能显示语音“a”发音脉动的细节过程.

某发音人词汇内容为“中国”的时域波形图见图3.相应的窄带语谱图(带宽43 Hz)见图4,为了突出重点,图4只显示4 kHz以下部分.语谱图傅里叶变换的频域图像(全频域变换)见图5.

图4 词汇“中国”的窄带语谱

图5 词汇“中国”语谱图二次傅里叶变换后的频域

由图5看出,“中国”语谱图二次傅里叶变换所形成的频域图像,其成分不再局限于坐标轴上,这是因为词汇发音属于非平稳过程,语音基频及其谐波的时域变化导致语谱图纹理周期性在任意方向都有体现.同时也说明,语谱图有信息价值的部分是较粗的纹理成分.

2 语谱图频域图像矩阵的特征提取

2.1 语谱图样本构成

用Cool Edit Pro 2.0软件进行语音录制,采样频率为44.1 kHz,使得语谱图频域表达范围为0~22 kHz,单声道,16 B进行量化.采集10人(男、女各5人)的10个词汇的读音样本,10个词汇均为二字词汇,重复10遍,即每个词汇有10个样本.一个词汇的语音时长约为1.2 s,10人的10个词汇共1 000个语音样本文件.所有语音样本文件转化为Matlab数据文件,即语音样本序列.

对每个样本序列进行分帧,帧长为1 024点,为保持其连续性,采用重叠率为25%的帧移量,窗函数采用汉明窗(Hamming),汉明窗公式为[17]

每个样本分为54帧,构造出1 024行54列时域分帧矩阵.对时域分帧矩阵做FFT,生成1 024行54列时频分析矩阵,频域分辨率为43Hz.时频分析矩阵的模矩阵即为样本所对应的语谱图矩阵.由于傅里叶变换具有对称性,取该矩阵的上半部或下半部作为语谱图即可,因此,每一幅语谱图的矩阵为512行54列,共1 000幅灰度图像.以上过程本文形成了参数可调的Matlab语谱图生成程序,以备随时调用.

为了消除由于音量不同造成的各个样本幅度差异,对每个图像矩阵均进行归一化处理.

2.2 语谱图特征提取

2.2.1 语谱图二进宽度分带行投影

语谱图矩阵的每一行代表着某一频率通道幅度特性随时间的变化,行投影则反映了某频率通道在整个语音时长过程中的总体特征.如果简单的对语谱图矩阵进行行投影,这种频域上过于细化的投影方式,不仅对语音识别没有益处,反而会降低识别系统的容错能力.而且从语谱图灰度图像中也发现大量信息集中分布在图像的中下部分,这一点符合人类语言信息主要分布在低频段的特征.为了便于特定人的二字词汇的语音识别更加准确,同时又能将灰度图像的中下部分的信息更清楚地显示出来,我们采取了二进宽度分带方法,从第1行开始二进分,即将每个语谱图矩阵的1~256行(带宽256行)、257~384行(带宽128行)、385~448行(带宽64行)、449~480行(带宽32行)、481~496行(带宽16行)、497~504行(带宽8行)、505~512行(带宽8行)分为7个带,最后8行不再分带,因为最后一个带的频率范围在0~200Hz之间,而人类所能听到的频率在100Hz以上,所以最后8行相当于只有4行是有效的,因此不用将8行再分.将这7个带进行行投影,构造每个词汇的7行10列二进宽度分带投影矩阵.通过对10个词汇之间对应带投影矩阵值的各个行求平均值和方差,并对不同词汇语谱图矩阵对应带投影值进行U检验,发现第3行到第7行5个带投影值有显著性差异,可以作为特征数据集合.

2.2.2 语谱图二次傅里叶变换后的二进宽度分带行投影

语谱图图像中像素的灰度值代表了信号在相应频率、相应时刻的幅度比重.基于图像处理思路,对其进行频谱分析,将语谱图图像进行再次傅里叶变换,形成512行54列语谱图图像频域特性矩阵,并将频谱低频部分移到中心处.我们采用了二进宽度分带投影方法,考虑到语谱图中显示语音特性的条纹主体,从图像角度看属于低频成分,而较低的频率被移到中心位置处,所以采用从中心向上由细到宽进行二进倍增宽度分带投影的方法.又因为图像矩阵为实的非负矩阵,所以二次傅里叶变换的频域矩阵满足共轭对称性,分析其幅频特性,发现图像的频域矩阵既不满足左右对称,也不满足上下对称.因此,应用图像二次傅里叶变换所对应的频域矩阵进行数据处理或分析时,不能只使用1个象限,要同时使用相邻的2个象限.但也发现图像的频域矩阵是转置对称矩阵,可完全描述图像幅频特征的独立子阵是上半子阵,或下半子阵,或左半子阵,或右半子阵.选择上半子阵进行二进宽度分带行投影,这种投影反映了词汇发音全过程中语音基频及其谐波关系的总体特性,同时还反映了语谱图条纹边缘梯度的整体特性.实验表明,不同词汇其相应的上述总体特性具有显著性差异.

因为上半子阵的左半部分和右半部分并不对称,所以分别对上半子阵的左半部分和右半部分进行分带投影.首先将图像的中心设置为坐标(0,0),然后对上半子阵的左半部分和右半部分分别二进倍增分带投影,行数分别设置为128~255行(带宽128行)、64~127行(带宽64行)、32~63行(带宽32行)、16~31行(带宽16行)、8~15行(带宽8行)、4~7行(带宽4行)、0~3行(带宽4行),分为7对计14个带的投影值,形成14行列向量,作为语音识别的特征向量.又由于每个词汇重复10遍,因此可以构造每个词汇14行10列二进宽度分带投影矩阵.最后,通过对10个词汇之间对应带投影值U检验,发现采用上半子阵的左右部分二进宽度分带投影作为特征量对特定人二字词汇的识别有显著性差异,可以作为特征数据集合.由于每个人词汇重复10遍,每遍有14个特征值构成的向量,共得到140个U检验结果,给出样本右侧第一带投影值间的U检验结果,如表1所示.

表1 样本右侧第一带投影值间的U值检验结果

为了清楚地观察到数据之间的识别差异,故在此规定当U≥1.96时,设定值为1,说明可以作为识别词汇的特征量,当U<1.96时,设定值为0,说明不能作为识别词汇的特征量,如表2所示.

表2 可作为识别词汇特征量的结果

表2中数据表明,样本右侧第一带投影值能够作为识别词汇特征量的比例为93.33%.由于篇幅所限,其他结果不再详述.

3 实验仿真与结果分析

3.1 系统设置

本次语音样本采用10人对10个二字词汇进行录制而成,采样频率为44.1 kHz,单声道,16 B进行量化,其中每个词汇10段重复录音,一共是1 000个语音数据样本,为了采样数据更加准确,将每人的10个二字词汇的每前5遍作为训练集,后5遍作为测试集,即前500个语音数据作为训练集,后500个语音数据作为测试集.在训练阶段,为了后面的数据处理的方便和保证程序运行时收敛加快,防止出现奇异样本数据(指的是相对于其他输入样本特别大或特别小的样本矢量)而进行了归一化处理.首先对特定人的各个特征量的语音样本进行归一化的预处理,使所有数据得到相应统一,然后将前500个语音训练样本特征数据存入数据库,作为支持向量机的训练模板,对其进行训练.在检测阶段,将后500个语音样本中提取出的特征数据放入到训练好的网络中,对相应的特定人的二字词汇进行语音检测.

3.2 仿真结果

对语谱图矩阵进行二进宽度行投影之后,构造每个词汇5行10列矩阵.同时对语谱图矩阵进行二次傅里叶变换之后,分别构造每个词汇的上半子阵的左半部分和右半部分各7行10列二进宽度分带投影矩阵.将上半子阵的左半部分小矩阵和上半子阵的右半部分小矩阵合在一起形成一个14行10列的大矩阵.1人的10个词汇10遍得到10组数据,10人即可得到100组数据,分别相应地将每人的10个词汇前5遍作为训练样本数据,后5遍作为检测样本数据.

支持向量机的参数:采用LIBSVM支持向量机的一个软件包实现10人的10个词汇的语音识别,由于基于语谱图特定人二字词汇汉语识别特征向量的维数是5维,因此输入维度是5维,中间层内积核函数维度是5维,同时由于基于语谱图二次傅里叶变换特定人二字词汇汉语识别特征向量的维数是14维,因此输入维度是14维,中间层内积核函数维度是14维.本文是对10人的10个词汇的语音进行识别,采用基数词第1到第10的编码方式,即1维10进制输出.

将基于语谱图与基于语谱图二次傅里叶变换得到的特征量用于特定人二字汉语识别的结果进行对比,如表3所示.通过前50组数据对支持向量机进行反复训练,得到最佳适用模板,将后50组数据放入训练好的模板中,使用基于语谱图对特定人的二字汉语词汇的语音识别正确率达到85.2%.,而基于语谱图二次傅里叶变换对特定人的二字汉语的语音识别正确率达到92.4%.

表3 用于特定人二字汉语词汇识别的特征量仿真结果对比 %

4 结论

本文提出了基于语谱图二次傅里叶变换对特定人二字词汇识别的方法.对语谱图频域图像进行行二进宽度分带投影,将投影值作为语音识别特征值,以支持向量机为分类器,进行特定人二字词汇语音识别.实验结果表明,该方法正确识别率可达92.4%.这是因为语谱图频域图像的各行反映的恰是语音整体基频与各次谐波的关系,同时高频成分还反映了语谱图横向条纹边缘梯度性质,这一性质是语音频率特征的精细结构,也许正是这些精细结构,可以更加精确识别特定人不同的语音.当然,这一结论有待于进一步研究确认.总之,本文方法为汉语词汇整体识别提供了新的思路.

由于本文仅以窄带语谱图作为研究对象,语音的时间特征没有得到深入体现,所以,后续工作将考虑引入宽带语谱图,并细化研究语谱图构造时参数选择以及语谱图频域图像特征量提取方式等因素对语音识别的影响,以便寻求最优方案,进一步提高语音识别效果.

[1] ZUE VICTOR W,LAMEL LORI F.Expert spectrogram a knowledge-based approach to speech recognition[C]//IEEE-IECEJ-ASJ International Conference on Acoustics,Speech,and Signal Processing,Jpn:IEEE,1986:1197-1200.

[2] KLATT D H,STEVENS K N.On the automatic recognition of continuous speech implications from a spectrogram-reading experiment[J].IEEE Transactions on Audio and Electroacoustics,1973,21(3):210-217.

[3] PALAKAL,MATHEW J,ZORAN,et al.Feature extraction from speech spectrograms using multi-layered network models[C]//IEEE International Workshop on Tools for Artificial Intelligence:Architectures,Languages and Algorithms,USA:IEEE Piscataway NJ,1989:1197-1200.

[4] BEN PINKOWSKI.Principal component analysis of speech spectrogram images[J].Pattern Recognition,1997,30(5):777-787.

[5] BRIAN E D KINGSBURY,NELSON MORGAN,STEVEN GREENBERG.Robust speech recognition using the modulation spectrogram[J].Speech Communication,1998,25(1/2/3):117-132.

[6] PAWAN K AJMERA,DATTATRAY V JADHAV,RAGHUNATH S HOLAMBE.Text-independent speaker identification using Radon and discrete cosine transforms based features from speech spectrogram[J].Pattern Recognition,2011,44(10/11):2749-2759.

[7] TAI-SHIH CHI,CHUNG CHIEN HAU.Multiband analysis and synthesis of spectro-temporal modulations of fourier spectrogram[J].The Journal of the Acoustical Society of America,2011,129(5):190-196.

[8] GURBUZ SABRI,GOWDYJOHN N,TUFEKCI ZEKERIYA.Speech spectrogram based model adaptation for speaker identification[C]//IEEE Southeastcon,United:IEEE Piscataway NJ,2000:110-115.

[9] 潘凌云,孙达传,吴美朝.语音识别中基于语谱图的语音音素分割方法[J].杭州大学学报(自然科学版),1995,22(1):42-46.

[10] 马义德,袁敏,齐春亮,等.基于PCNN的语谱图特征提取在说话人识别中的应用[J].计算机工程与应用,2005(20):81-84.

[11] 陈向民,张军,韦岗.基于语谱图的语音端点检测算法[J].电声技术,2006(4):46-49.

[12] 姜洪臣,任晓磊,赵耀宏,等.基于音频语谱图像识别的广告检索[J].清华大学学报(自然科学版),2011,51(9):1249-1252.

[13] 吴迪,赵鹤鸣,陶智,等.低信噪比下采用感知语谱结构边界参数的语音端点检测算法[J].声学学报,2014,39(3):392-399.

[14] XU SHEN,LIANG SHI LI,WANG SHUANG WEI,et al.A mathematical morophological processing of spectrograms for the tone of chinese vowels recognition[C]//Applied Mechanics and Materials,Shanghai:Trans Tech,2014:665-671.

[15] 赵力.语音信号处理 [M].北京:机械工业出版社,2009:128-129.

[16] 张家騄.汉语人机语音通信基础[M].上海:上海科技出版社,2010:328-331.

[17] 蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003:24-25.

(责任编辑:石绍庆)

Recognition of specific two-word Chinese vocabulary by applying Fourier transform twice to the spectrogram

PAN Di1,LIANG Shi-li1,WEI Ying1,LI Guang-yan,XU Ting-fa2,WANG Shuang-wei1

(1.School of Physics,Northeast Normal University,Changchun 130024,China;2.Institute of Photoelectric Imaging and Information Engineering,Beijing Institute of Technology,Beijing 100081,China)

This paper illustrates a method to recognize specific two-word Chinese vocabulary by analyzing speech signals using a spectrogram after Fourier transform is applied to it twice.First,we analyze the spectrogram in the frequency domain and its corresponding voice characteristics in detail after applying Fourier transform twice.Then,binary width zoning projection is carried out in the frequency domain.The projection value is treated as the characteristic value of semantic recognition feature and the support vector machine(SVM)is considered as the classifier for recognizing the semantics of specific two-word Chinese vocabulary.A total of 1000 voice samples were used in the simulation.The results using this method show a remarkable recognition rate of 92.4%.The proposed method provides a new way for vocabulary recognition.

spectrogram;fourier transform twice;support vector machine(SVM);binary width zoning projection

1000-1832(2017)02-0095-06

10.16163/j.cnki.22-1123/n.2017.02.018

2016-06-14

国家自然科学基金资助项目(61471111).

潘迪(1991—),女,硕士研究生;通讯作者:王双维(1957—),男,教授,主要从事噪声、声音与振动信号处理研究.

TN 7 [学科代码] 510·40

A

猜你喜欢

傅里叶频域投影
大型起重船在规则波中的频域响应分析
解变分不等式的一种二次投影算法
法国数学家、物理学家傅里叶
基于最大相关熵的簇稀疏仿射投影算法
找投影
双线性傅里叶乘子算子的量化加权估计
找投影
频域稀疏毫米波人体安检成像处理和快速成像稀疏阵列设计
网络控制系统有限频域故障检测和容错控制
任意2~k点存储器结构傅里叶处理器