采用双谱特征的语音可懂度评价算法
2022-12-05陈晓梅王晓玮商莹莹杨佳燕
陈晓梅,王晓玮,钟 波,商莹莹,杨佳燕
(1.华北电力大学电气与电子工程学院,北京 102206;2.中国计量科学研究院力学与声学计量科学研究所,北京 100029;3.中国医学科学院北京协和医院耳鼻喉科,北京 100730)
0 引言
近年来,人工智能技术的高速发展给语音信号处理带来一个又一个的突破。语音在社会的各个领域中扮演了重要的角色,因此,语音系统性能的优劣也成为了信息在交流过程中是否通畅的一个关键因素,其输出语音可懂度的高低成为了评价这些语音系统性能好坏的根本标志。语音可懂度的评价分为主观评价和客观评[1]。主观评估的优点是符合人对语音质量的感知,缺点是费时费力费钱,受人的主观影响较大等,为了克服主观评估的缺点人们开始研究语音可懂度客观评估。
传统的语音可懂度客观评价指标以语音清晰度指数(Articulation Index,AI)[2]和语音传输指数(Speech Tansmission Index,STI)[3]为主。AI可以预测听力正常的人在安静和噪声环境下的语音可懂度,自1997年以来,AI被重新命名为语音可懂度指数(Speech Intelligibility Index,SII)[4],SII取决于谱信息比例。SII在线性滤波和加性噪声的情况下,能够成功地预测出语音可懂度。但是,预测过程中仍存在一些局限性,当语音嵌入在波动掩蔽的情况下就不能应用SII。STI能够预测加性噪声和混响造成的语音可懂度下降,但是对于峰值削波和中心削波的失真信号,STI不再适用。2010年Falk等[5]提出了语音混响调制能量比(Speech-to-reverberation Modulation Energy Ratio,SRMR)。SRMR是一种非侵入式的[6],可以预测混响和去混响语音信号的可懂度,但其适用范围仅仅局限于混响失真的信号。上述的方法只针对某些特定类型的失真,适用范围较小。于是在2011年Andersen等[7]提出了一种短时语音可懂度测量(Short-time Objective Intelligibility Measure,STOI)。它是一个纯净语音和降噪语音的函数,可以预测多种语音失真的可懂度,但是在波动掩蔽噪声的影响下,其表现也不佳。
在测量过程中,当高斯噪声掺杂在语音信号中,上述方法不能有效地抑制噪声对可懂度造成的影响。本文在此基础上提出了一种从语音信号的双谱中提取特征来预测语音可懂度的方法,双谱是三阶统计量的二维傅里叶变换,利用双谱可以处理语音信号的非线性和非高斯的特性,检测信号的相位耦合[8],抑制语音信号中的高斯噪声,从而提高语音可懂度[9]。该方法不依赖于纯净语音的加入,是一种非侵入式的度量方法。从信号的双谱中提取单一特征(即对角元素的一阶谱矩)进行预测,结构简单,这种特征可以表征多种失真类型造成的语音可懂度的下降。
1 基于双谱特征的语音可懂度评价算法
语音是由不同生理结构之间的非线性相互作用产生的。例如,胶原纤维有助于黏弹性生理过程,控制声带僵硬和声音等。本文从双谱图中提取特征,提出了双谱语音可懂度评价(Bispectral Speech Intelligibility Metric,BSIM)等法,相比于二阶统计量(例如功率谱和自相关函数)可以提供更多关于信号的信息,它不仅可以检测频率分量之间的相位耦合还可以检测非线性效应,当语音信号中任意两个频率分量之间发生相位耦合产生和频时,这种耦合会影响三阶矩序列,双谱可以检测到这种非线性的影响,但是二阶统计量会抑制相位关系,无法检测到非线性效应的发生。因此本文使用双谱分析语音信号的各种线性和非线性变化对语音可懂度造成的影响。BSIM算法的整体流程为:首先将语音信号进行分帧加窗,接着对信号进行双谱估计并提取相关特征值,最后进行语音可懂度分数的计算。如图1所示为BSIM算法的整体流程框图,具体步骤如下:
图1 BSIM算法流程图Fig.1 Flow chart of BSIM algorithm
(1)语音信号的预处理
为了减少计算时间,对输入的语音信号进行降采样处理,对每个频带的信号用帧长256 ms、帧移32 ms的汉明(Hanmming)窗进行处理,窗函数w(n)的计算公式为
其中:n表示第n帧信号,N表示信号的帧数。
加窗分帧后信号的帧数为n,同时为了避免帧与帧之间的特性变化太大,帧移一般取帧长的1/4或者1/2。语音信号是非稳态、时变的,分帧之后每一帧的信号可以看成是短时平稳的。将语音信号x(t)分帧后,需要对每一帧信号进行分析处理。
(2)双谱估计
双谱是信号三阶累积量的二维傅里叶变换,三阶累积量可以反映相位关系,对于存在二次相位耦合的信号,其三阶累量不为零。使用双谱分析x(n)时,其双谱的三维图会在(ω1,ω2)和(ω2,ω1)出现峰值,因此可以利用双谱来检测谐波信号的二次相位耦合。
x(n)的三阶累积量为[9]
其中:c为联合累积量,m1和m2为任意延迟,E[·]表示求期望。
三阶谱(双谱)[9]为三阶累积量的二维傅里叶变换,即:
其中:B(ω1,ω2)为x(n)的双谱。
双谱具有对称性:
如图2所示,双谱定义的区域分为12个扇形区,根据双谱具有对称性的特点[10],只需要计算第一象限的三角形区域(ω2≥0,ω1≥ω2,ω1+ω2≤π)就可以描述x(n)所有的双谱。
图2 双谱的对称区域Fig.2 Symmetrical regions of bispectrum
(3)双谱的特征提取
双谱的特征值有相位熵[11]、平均幅值[12],还有与矩相关的值[13]。但是一些特征值的幅值并没有随着信号失真的变化而变化,但与矩相关的值如下式提到的三种,当语音信号出现失真变化时,幅值随之发生相应的变化。
①对数振幅之和H1
其中:Ω表示计算双谱的三角形区域(即图2所示的阴影区域),f1和f2为三角形区域(Ω)的两个频率。
②对角元素的对数振幅之和H2
其中:fk表示双谱对角线上的频率。
③对角元素振幅的一阶谱矩H3
其中:k表示双谱对角线上第k个频率,K表示频率个数,fk表示双谱对角线上的频率
(4)双谱特征值的选择
双谱对数振幅之和(H1)、对角元素的对数振幅之和(H2)和对角元素振幅的一阶谱矩(H3)的幅值随x(n)的失真发生变化。
使用公式(8)计算在三种特征值下客观语音可懂度的得分S:
其中:其中H代表信号特征值的幅值,Hmax和Hmin分别代表了纯净信号和完全嘈杂信号的特征值的幅值。
使用皮尔逊相关系数[14](Pearson correlation coefficient)计算在三种不同特征值下的客观分数与主观分数的相关系数[15-17]。皮尔逊相关系数是衡量两组数据是否线性相关,其函数表达为
其中:r值表示两组数据之间的相关程度,x代表主观分数,y代表客观分数。r值越大,表示两组数据的线性相关性越大。在本文中,r值越大,表示的是客观评测越接近主观评测,即可懂度客观评测算法效果越好。
客观分数的离均差的平方和Ixx,主观分数的离均差的平方和Iyy,客观分数与主观分数的离均差的平方和Ixy分别为
(5)计算语音可懂度得分
选用步骤(4)中确定的与主观评价最接近的双谱特征值进行客观评价。使用公式(13)计算归一化的语音可懂度的得分:
其中:rH1、rH2和 rH3分别表示特征值H1、H2和 H3与主观分数的皮尔逊相关系数,表示选择相关系数r值最高的特征值计算客观可懂度的得分。
2 实验测试结果
2.1 语料库
实验的语料库来自于TIMIT[18],TIMIT是一个由来自不同地区的以美式英语为母语的男性和女性的录音。TIMIT语料库包括总共6 300个句子,由来自美国八种主要方言的630个说话者中的每一个人所说的10个句子组成。该语音以16 kHz的采样率和16位样本分辨率录制。
在这项试验中,每个实验选用了300个随机选择的TIMIT句子,句子包含了6~12个英文单词。
这些句子用于预测听力正常的听者的语音可懂度,并与其他测量方法进行比较,例如短时客观清晰度度量(Short-time Objective Intelligibility Measure,STOI)[7]以及语音混响调制能量比(SRMR)[5]。STOI是一种侵入式的方法,而SRMR是一种非侵入式的度量方法。
主观评价:主观测试人员均为随机选取的20名正常听力留学生(母语为英语),评价结果是由测试者在各种听力条件下能听懂的单词数占句子总的单词数的百分比来衡量。例如,当测试人员100个单词听懂了80个时,则主观分数为0.80或者80%。
2.2 双谱特征值的选择测试
应用直接(基于快速傅里叶变换)[19]方法,使用Matlab的高阶谱分析(HOSA)[20]工具箱来估计双谱,双谱是用256采用(32 ms)的时间序列计算。
主观评价:分别测试添加了7种信噪比(-20~40 dB)的TIMIT句子,添加的噪声为语音形状噪声[21](其噪声时域包络恒定,频谱与原始语音信号匹配)。
客观评价:使用双谱的三种特征值(H1,H2,H3)分别进行语音可懂度测试。图3为测试结果,图中的可懂度得分为三种特征值客观评价得分的平均值。
图3 使用三种不同双谱特征值的语音可懂度测试结果Fig.3 Test results of speech intelligibility by using three different eigenvalues of bispectrum
表1 三种特征值的相关系数Table 1 Correlation coefficients of three eigenvalues
由图3分析可得,三种特征值均随着信噪比发生相应的变化,但H3与主观评估的结果更贴近,相关度最高。即H3预测语音可懂度的效果更接近主观评估,所以本文选用H3作为预测语音客观可懂度的特征值。
2.3 测试不同类型失真对语音可懂度的影响
语音信号处理过程中会被引入各种类型的线性失真和非线性失真,线性失真是由于系统对语音信号不同的频率成分产生不一致的放大倍数或者延迟时间引起的,不会产生除输入信号以外新的频率成分;非线性失真是由于系统引进的非线性元件或者进入非线性区域而引起的,会出现输入信号所没有的频率成分。
本文分别测试两种类型失真对语音可懂度造成的影响,线性失真选用的是语音形状噪声、高斯噪声和4种类型的实际噪声(babble、bus、machine和train,选自AURORA语音库中),这6种噪声均为加性噪声,不会产生新的频率成分;非线性失真选用的是峰值削波和中心削波[22]。
通过BSIM、SRMR和STOI三种算法测量的可懂度分数与主观测试的分数相比较,将客观结果与主观结果的相关度作为衡量该算法优劣的标准,
(1)线性失真对语音可懂度的影响
①语音形状噪声和高斯噪声对语音可懂度的影响
主观评价:测试环境为14种条件(7种信噪比及2种噪声类型,共14种测试环境)。
客观评价:随机选取300个TIMIT句子分别添加7种信噪比(-20~40 dB)的两种噪声,使用BSIM、STOI以及SRMR分别进行测试,预测的结果为300个句子的平均值,将结果与主观评价结果进行比较。图4、5分别为三种方法(STOI、SRMR和BSIM)在两种噪声下不同信噪比的可懂度得分。
图4 语音形状噪声不同信噪比时三种方法的可懂度得分Fig.4 The intelligibility scores of three methods under different ratios of signal to the speech shaped noise
由表2和表3可得,BSIM和STOI的评价结果与主观结果相接近,相关度较高;SRMR的相关度相比于前两者较差。BSIM和STOI均可作为预测客观可懂度的方法,BSIM在高斯噪声下评价效果优于STOI。
表2 在语音形状噪声时三种语音可懂度的相关系数Table 2 Correlation coefficients of three kinds of speech intelligibility under speech shaped noise
表3 高斯噪声时三种语音可懂度的相关系数Table 3 Correlation coefficients of three kinds of speech intelligibility under Gaussian noise
②实际噪声对语音可懂度的影响
主观评价:测试环境为24种条件(6种信噪比情况及4种背景噪声类型,共24种测试环境),添加噪声的信噪比为-10~40 dB。
客观评价:随机选取300个TIMIT句子分为4组,每组句子分别添加一种背景噪声,噪声的信噪比均为-10~40 dB。用三种方法分别进行测试。图6~9为三种方法在4种噪声条件下不同信噪比的语音可懂度得分。
图5 高斯噪声不同信噪比时三种方法的可懂度得分Fig.5 The intelligibility scores of the three methods under different ratios of signal to the Gaussian noise
由图6~9分析可得,在4种类型噪声条件下,BSIM和STOI可懂度得分的曲线走势与主观分数十分接近,SRMR相对较差,其中在babble和bus噪声下BSIM的表现优于STOI,更加接近主观分数。
图6 babble噪声不同信噪比时三种方法的可懂度得分Fig.6 The intelligibility scores of the three methods under different ratios of signal to the babble noise
图7 bus噪声不同信噪比时三种方法的可懂度得分Fig.7 The intelligibility scores of the three methods under different ratios of signal to the bus noise
图8 machine噪声不同信噪比时三种方法的可懂度得分Fig.8 The intelligibility scores of the three methods under different ratios of signal to the machine noise
图9 train噪声不同信噪比时三种方法的可懂度得分Fig.9 The intelligibility scores of the three methods under different ratios of signal to the train noise
表4为不同噪声类型时三种方法计算的皮尔逊相关系数。由表4分析可得,在实际噪声测试下,BSIM和STOI与主观评价接近,但是STOI算法属于侵入式,具有理想特性。
表4 不同噪声类型时三种方法计算的皮尔逊相关系数Table 4 Pearson correlation coefficients calculated by three methods in different noise situations
综上所述,BSIM预测语音可懂度效果更佳。
(2)非线性失真对语音可懂度的影响
语音可懂度的变化受到语音信号频率和幅值的影响,其降低不仅仅是由于环境噪声、房间混响和听力损失对语音可懂度造成影响,诸如来自助听器等语音传输设备所带来的非线性失真,也会对语音可懂度造成影响,并且其他类型的非线性失真对语音可懂度造成的影响均介于峰值削波和中心削波之间[22]。
峰值削波与语音传输设备中的运算、放大器和接收器饱和有关;中心削波与降低信号低电平部分幅度的噪声抑制系统有关。
峰值削波会使可懂度得分随着削波阈值的增加而增加,而中心削波会使可懂度得分随着削波阈值的增加而减少。将测试结果与Kates and Arehart[23]中的原始数据进行比较,测量结束如图10、11所示。
由图10可知,当中心削波的阈值增加时,可懂度的客观得分在降低,并且STOI与原始数据的走势相差较大,随着削波阈值的增加,STOI的可懂度得分逐渐下降之后,在削波阈值为60%时再次升高;SRMR与BSIM与原始数据走势大致相同,BSIM的效果更贴近原始数据,效果更佳。
图10 不同中心削波阈值下三种方法的可懂度得分Fig.10 Intelligibility scores of three methods under different center clipping thresholds
由图11可知,三种评测方法均与原始数据的走势大致相同,当峰值削波的阈值增加时,可懂度得分也随之增加。但BSIM的效果更贴近原始数据。所以BSIM可以较好地预测峰值削波造成的语音可懂度的变化。
图11 不同峰值削波阈值下三种方法的可懂度得分Fig.11 Intelligibility scores of three methods under different peak clipping thresholds
综上所述,BSIM和SRMR可以预测中心削波造成的语音可懂度的变化。对于语音传输设备造成的非线性失真,BSIM可以较好地预测语音客观可懂度的变化。
2.4 双谱与功率谱的区别
随机选取TIMIT语料库中的一段语音数据,分别添加阈值为20%和60%的峰值削波失真,进行功率谱和双谱估计。结果表明:添加两种阈值的峰值削波失真信号其频率分量的幅值在功率谱上没有显著差异。传统的语音可懂度评价方法基于的是二阶统计量,通过计算其功率谱包络预测可懂度,所以传统的方法将会产生相同的预测分数;而双谱的等高线图显示了不同峰值削波阈值相位耦合的较为明显差异,通过计算在两种峰值削波失真下特征值H3,其数值随着阈值的增大而增大,符合语音可懂度的变化。
3 结论
本文给出了一种基于双谱特征的语音可懂度客观评价算法,根据实验结果可知,在线性失真的条件下,STOI和BSIM的方法均可以预测语音可懂度变化,两者相差较小,但STOI在每次测量过程中均依赖纯净语音的加入,而在现实环境中纯净语音较难获取;在非线性失真的条件下,SRMR和BSIM的可懂度得分与主观评分曲线接近,BSIM相比于SRMR更贴近主观评分,误差在1%以内,但SRMR预测线性失真的效果较差。综上所述,该方法是一种不依赖原始语音,更实用的、预测多种类型失真的语音可懂度评价算法。