PESQ算法在军事语音评估中的性能分析

2014-07-01陈晓翔陆保体林嘉宇

微处理机 2014年1期

关键词：编码方式码率分值

陈晓翔，陆保体，林嘉宇

（1.国防科技大学电子科学与工程学院，长沙410073；2.武警广西总队司令部，南宁530031）

PESQ算法在军事语音评估中的性能分析

陈晓翔1，2，陆保体2，林嘉宇1

（1.国防科技大学电子科学与工程学院，长沙410073；2.武警广西总队司令部，南宁530031）

通过实验方法分析PESQ算法在军事通信语音评估中的性能；重点分析PESQ算法对不同编码方式、不同信噪比、不同背景噪音样本的计算性能，得到PESQ算法能够在军事通信中正确进行评估的结论。

性能分析；PESQ算法；编码方式；信噪比；背景噪音

1 引言

PESQ算法是目前国际比较流行的算法之一，在军事通信语音评估中的应用越来越广泛。为了论证PESQ算法在军事通信的特殊环境下，是否对不同类型的语音样本均能正确评测，设计实验对PESQ算法的性能进行分析。

实验采用的标准测试音样本，是一个自行录制的时长约为96秒的语音文件，文件中语音分为童声、女声和男生三个部分，每个部分的声音幅度是前半部分稍低后半部分稍高（如图1所示）。实验采用细颗粒度测试方式［1］，样本数据采用流模式输入，将语音文件分为24组，每组4秒采用PESQ算法进行一次计算，每组得到一个MOS分值。因此，测试一次标准测试音样本得到24个MOS分值。

2 PESQ算法性能分析

待测试样本采用标准测试音样本经过三种不同类型的处理得到。第一类是对标准样本使用不同的编解码，验证PESQ算法对不同信源编解码的评测性能是否良好；第二类是在标准样本中加入白噪声，在加入过程中设定不同的信噪比，验证不同信噪比对PEQS算法的影响；第三类是在信噪比固定的基础上，在标准样本中加入不同的背景噪声，验证不同背景噪声对PESQ算法评测性能的影响。

图1 实验室自行录制的汉语测试语音

2.1 不同编码方式的PESQ性能分析

测试选取ITU-TG.723.1的5.3kbps码率（标记为“5.3kbps”）、G.729的8 kbps码率（标记为“8kbps”）、G.728的16 kbps码率（标记为“16kbps”）、G.726的32 kbps码率（即ADPCM编码，标记为“32kbps”）、ETSI的国际标准GSM AMR-NB的4.75kbps码率（标记为“AMR”）、美国国防部标准MELP的2.4kbps码率（标记为“2.4 kbps”）、FS1016的4.8kbps码率（标记为“FS1016”）、FS1015的2.4kbps码率（标记为“FS1015”）以及改进型4.75kbps算法（标记为“4.75kbps”）九种具有代表性的编码方式进行。

在通信系统传输中，信源编码的码率越高，通信的质量应该越好，人听到的语音感觉越舒服，因此，通过PESQ算法计算得到的MOS分值越大。表1列出的各编码方式的码率从上到下递增，对样本的计算得到的分值应该也是从上到下递增。但语音质量除了与码率有关，还与编码方式的算法体制有关，因此，可以推断并不一定按照上述排列，有个别编码方式的分值会降低，例如FS1016编码方式是上个世纪80年代美国国防部采用的标准，编解码方式的算法体制相对较为落后，虽然码率较高，但测试得到的MOS分值应该会较低。

测试使用ITU-T的PESQ工具。每一次PESQ测试，输入都是两个文件，其中一个文件是原始的未经过编解码处理的语音文件，即测试标准音文件，另外一个文件是经过上述某一语音编码器、解码器处理还原之后的解码语音文件，即待评估文件。每一次测试得到24个MOS分值，再求平均得到每一种样本的MOS分平均值。测试结果如表1所示。

表1 不同编码方式样本PESQ测试结果

不同编解码方式的测试样本分值如图2至图4所示。

图2 不同编码方式PESQ-MOS分值图（一）

图3 不同编码方式PESQ-MOS分值图（二）

图4 不同编码方式PESQ-MOS分值图（三）

对测试结果进行分析可以得到，基本上分值随着码率的增大而增大，而码率相同的FS1015与2.4 kbps以及AMR与4.75kbps，得到的MOS分值非常接近。FS1016的分值只有2.925030，介于2.4 kbps与AMR之间，虽有较高的码率但算法体制不合理，是造成音质差的重要原因。同时，还注意到32kbps的码率是样本中最高的，但得到的平均MOS分值却比16kbps和8kbps的要低。32kbps采用的是ADPCM编解码方式，该编码方式的最大特点是采用非均匀量化，改善小信号量化性能，而对大信号则有一定的损害，从图4也可以看出，样本中语音幅度小部分所对应的MOS分值较高，比16kbps和8kbps的要略好，幅度大的部分对应的MOS分较低。因此，可以得出结论，PESQ算法对不同编码方式的语音质量差别敏感度高，能够准确客观反映不同编码方式的语音质量。

2.2 不同信噪比的PESQ性能分析

在实际通信系统中，各个通信网络的信噪比并不相同，特别是军事通信系统，往往存在人为干扰因素，PESQ算法对信噪比不同的样本评估性能也是需要考虑的方面。标准测试音样本和测试方法与上述对不同编码方式测试相同，但分析使用的待评估样本不同。待评估样本是在标准测试音样本中加入白噪声，控制标准测试样本与噪声样本的信噪比，得到不同信噪比的测试样本。

在实际通信过程中，信噪比越大语音的质量越好，语音的主观感觉越好，因此，使用PESQ算法计算得到的MOS分值应该越高。

测试选用的信噪比从-4db至30db，每间隔2db进行一次测试，每次测试仍然给出24个MOS分的平均值。测试结果如表2所示。

从表2中数据可以看出，MOS分值随着信噪比的增大而增大，证明了PESQ算法对不同信噪比的含噪测试样本，敏感度较高，性能较好。同时也可以看出，白噪声对语音质量影响较大，人的主观听觉感到舒服的MOS分值是2.5分以上。因此，在存在白噪声的语音中，信噪比需要达到20db以上才感觉语音质量好。

表2 不同信噪比样本PESQ测试结果

不同信噪比样本的PESQ-MOS分值曲线如图5至图7所示。

图5 不同信噪比PESQ-MOS分值图（一）

图6 不同信噪比PESQ-MOS分值图（二）

图7 不同信噪比PESQ-MOS分值图（三）

2.3 不同背景噪音的PESQ性能分析

在军事通信环境中，存在各种各样的噪声，都对语音质量造成了很大影响。不同噪音因为成分不同，人对不同频率的忍受程度不同，所以给人主观感觉也不相同［2］，因此，对不同背景噪音样本PESQ算法进行性能分析显得尤为必要。

测试采用的标准测试音样本和测试方法与上述两个测试相同，噪音样本从声学研究机构网上下载，含噪样本（待评估样本）文件的生成方法与不同信噪比的PESQ性能分析相同，含噪样本的信噪比为10db。噪声样本的数据采样率为19.98KHz，A／D为16bit。选用合成后的样本名称和所含噪音如表3。

表3 噪音样本名称及特点

各种样本合成前后的波形图如图8所示，左图为标准测试音样本波形，中间图为没有进行增益调整前的噪音样本波形，右图为合成后的含噪语音样本波形，信噪比为10db，图中只给出了具有代表性的8个样本的合成图。

为了验证PESQ算法是否能够真实贴近听者主观感觉，请了10名测试者参与测试验证［3］。具体方法是让参与测试的同学，在安静环境下细听上述15个待评估样本，分别打出主观感觉分，再根据得分从好到差进行排名，10名同学分别编号为1号到10号。主观感觉分排名统计如表4。

使用前述两种测试的PESQ计算方法，对待测试的15个样本文件进行PESQ算法测试，并计算每一种样本的平均MOS分值，得到的结果如表5所示。与表4进行对比发现，测试得到的MOS分从高到低的排名，基本和主观感觉排名一致，证明PESQ算法基本能够正确反映人的主观感觉，通过主观感觉进一步反映语音通话质量。但通过分析实验结果，得到PESQ算法在军事通信中的几个特点。

图8 不同噪声合成样本波形图

表4 待评估样本主观感觉统计表

表5 不同背景噪声样本PESQ测试结果

（1）MOS分从分数段的角度分析，分数段与分数段之间分差较大时，测试者的认同是一致。例如MOS最高的Volvo样本全部测试者都一致选择了第一，而MOS分第二第三的Leopard样本和Machinegun样本，虽然选择不是一致，但也是在第二与第三之间选择，其他的各个样本也出现了类似情况，这进一步说明了PESQ算法能够模拟人的主观感觉判断。

（2）在MOS分相差不大的样本之间，测试者的选择出现了不一致。例如同一个分数段的M109样本与Factory2样本，两者MOS分相差0.03，这时因为在主观感觉分别不大的时候，测试者的选择往往根据自己对声音的忍耐偏好进行选择，PESQ算法没有考虑到个人的偏好问题。

（3）人们对高频成分大噪音的忍受度要比其他噪音的忍受度低，但是PESQ算法是按全频段计算，没有考虑频率分布问题，所以造成与主管感觉有微量偏差。例如在测试中可以看到，测试者选择Buccaneer1样本排名都比Buccaneer2要低，但是测试的MOS分却要高，原因如图9和图10所示。Buccaneer1样本的频率分量要比Buccaneer2集中，特别是Buccaneer1样本在2800Hz到3000Hz之间，有一个很强的高频分量，这个分量在人主观听觉中的声音是类似于影片中鬼怪出现时的呼啸声，鬼怪式战斗机也是因此而得名。

图9 Buccaneer1样本频率分布图

图10 Buccaneer2样本频率分布图

（4）各个测试样本MOS分的高低分布基本和测试样本的幅度大小分布一致，语音幅度大，人的主观感觉相对较好，这也说明了PESQ算法考虑了人听觉的这一特点，与主观感觉基本符合。如图11-图13所示。

图11 不同背景噪声PESQ-MOS分值图（一）

图12 不同背景噪声PESQ-MOS分值图（二）

3 结束语

通过自行设计的实验，分析了PESQ算法对军事通信系统中不同样本的计算性能，重点对不同编解码方式、不同信噪比、不同背景噪音三种类型的样本进行测试。测试发现PESQ算法对语音质量差别敏感度高，计算速度快，分析性能较好，基本符合人的听觉主观感觉，符合军事通信系统评估要求。

图13 不同背景噪声PESQ-MOS分值图（三）

［1］A.W.Rix，M.P.Hollier，J.G.Beerend.Perceptual evalution of speech quality（PESQ），the new ITU standard for end—to—end speech quality assessment［J］.Journal of the Audio Engineering Society，2001.Part II psychoacousticmodel：45-47.

［2］Adrian E.Conway.Output—based method of applying PESQ tomeasure the perceptual quality of framed speech signals［J］.IEEEWireless Communications and Networking Conference，2004（4）：2521-2526.

［3］Malden Electronics.Speech Quality Assessment［J］.Communications Technology World，2004（9）：103-107.

Performance Analysis of PESQ Algorithm in Military Voice Evaluation

CHEN Xiao-xiang1，2，LU Bao-ti2，LIN Jia-yu1
（1.College of Electronic Science and Engineering，National University of Defence Technology，Changsha 410073，China；2.Command of Guangxi Corps，The Chinese Armed Police Forces，Nanning 530031，China）

Performance of PESQ algorithm inmilitary communication voice evaluation is analyzed by experimental method.The calculation performance of PESQ algorithm for different coding modes，different signal noise ratio and different background noise samples is emphasized.The result shows that PESQ algorithm can be evaluated correctly in military communication.

Performance Analysis；PESQ Agorithm；Encoded Mode；SNR；Background Noise

10.3969／j.issn.1002-2279.2014.01.011

TP391.4

：A

：1002-2279（2014）01-0035-06

陈晓翔（1982-），男，广西桂平人，工程硕士，主研方向：语音编解码，语音信号处理，通信理论。

2013-08-08