短波地空语音组网中VoIP语音质量评估
2012-06-25赵国栋李栓红黄国策
赵国栋,李栓红,黄国策,田 伟
(1.空军工程大学电讯工程学院,陕西 西安 710077;2.空军第三飞行学院,辽宁 锦州 121001)
在地空通信中,语音通信作为一种重要的指挥手段,能够实现指挥员与飞行员的直接对话,更好地完成战术配合,在地空通信中发挥着极其重要的作用。短波在远程语音通信中优势突出,但现有短波语音通信还存在对空指挥通信盲区、跨区飞行时难以实时了解飞行通信指挥情况等问题需要解决。
因此要解决这些问题,短波地面台站和各级指挥所的话音IP组网势在必行。引入VoIP技术不仅可以实现短波台站的共享、消除话音盲区,而且为话音的记录与监听,还为台站的扩展提供了方便。而且近年来随着网络的不断发展和普及,VoIP作为一种新兴的网络业务得到了广泛的运用,VoIP的QoS技术也得到了完善和发展,可以满足航空通信的需求。
承载网络的性能(包括时延、时延抖动、丢包率等)是影响语音质量的主要因素[1]。语音编码技术直接影响语音重构后的质量,特别是用于短波地空通信中,地面网络采用的VoIP技术,在到达电台后,语音解码重构、重构后的语音能否适应短波信道的传输、会造成多大程度的语音质量损失在很大程度上受到地面VoIP的编码技术的影响。
1 语音传输流程以及现有的编码技术
在实现短波地面台站和各级指挥所的话音IP组网后,语音从指挥席送到飞行器要经过地面有线IP网和短波无线信道,流程如图1所示。
图1 语音传输流程
现有的语音压缩编码技术[2-3]主要有脉冲编码调制(PCM)、适应脉冲编码调制(ADPCM)、低延时代码激励线性预测器(LD-CELP)、共扼结构代数码激线性预测(CSACELP)和多脉冲最大似然量化技术(MP-MLQ)。
语音编码技术比较如表1所示。
欧洲的单一欧洲天空计划(SERSA)最早提出在航空通信中采用VoIP技术,并很快得到了国际民航组织(ICAO)的认可,在2009年起草的ED-137文件中推荐采用的语音编码标准有G.711 A率和μ率,G.728和G.729[4]。在本文中将对这4种编码标准用于短波地空通信中的效果进行评估。
表1 语音编码技术比较
2 仿真环境的设置与实现
本文主要是研究不同编码技术对短波地空通信语音质量的影响,因此首先将地面网络理想化,暂不考虑网络性能对语音质量的影响。G.711 A率(A=86.7)和μ率(μ=100),G.728和G.729语音编解码[5]通过Matlab7.8软件编程实现。语音样本采用含有中年男子和女子的语音片段“a.wav”,时长为10.6 s,语音的时域和频域波形如图2、图3所示。
短波传输的仿真环境使用Matlab7.8的Simulink进行搭建。主要采用的技术和参数设置如下:
短波信道采用Watterson短波信道模型。短波传输以电离层为中继的特点决定了短波信道存在着多径时延、衰落、多普勒频移、频谱扩散、近似高斯白噪声和电台干扰等复杂现象。在此采用了Watterson短波信道模型[5],Watterson信道模型全面描述了短波信道的各种特性,经国际电信科学机构和实践的研究证明是一个非常好的短波信道模型。Watterson模型如图4所示。
图4 Watterson模型原理框图
Watterson模型利用N个抽头延迟线来等效N条路径。每个抽头延迟不仅都有独立的延迟τi,而且还具有一个增益函数Gi(t)与延迟了的信号x(t-τi)相乘。处理后信号的幅度和相位就进行了调整。Gi(t)是相互独立的,它反映了衰落、频谱扩散和多普勒频移成分。Gi(t)可以表示为
式中:下标i代表第i条路径;a,b表示对应路径的2个磁离子分量;via,vib为指数因子,反映了第i条路径2个磁离子分量的频率扩散和多普勒频移程度;Gia(t),Gib(t)代表第i条路径两个磁离子分量的幅度变量,是均值为零、相互独立的复低通高斯过程样本函数,反映了每条路径的衰落程度;Gi(t)代表了乘性干扰。另外短波信道中还存在着加性干扰,可分为两种类型:一类是高斯白噪声NG(t),服从均值为零的正态分布;另一类是冲激噪声NI(t),服从对数正态分布。那么,Watterson模型的输出信号可表示为
使用Simulink实现短波语音Watterson模型[7],模型如图5所示,首先将要发送的语音信号通过Wavread函数读入到M文件中,然后对获得语音信号进行Hilbert变换,得到实部和虚部正交的复信号,再通过To Frame模块将基于采样的格式转换为基于帧的格式,之后将信号送入模型的核心单元Multipath Fading和AWGN信道,最后再将格式转换为基于采样的格式,分离实部和虚部,输出到M文件中。
图5 短波语音Watterson模型的Simulink框架
参数设置时,在Multipath Rayleigh Fading Channel和AWGN Channel中设置信道的多普勒频扩(Doppler Spread)、多径延迟时间(Delay Vector)和各路径增益(Gain Vector)。采样速率为12000 Hz,载频为1800 Hz,采用双径模式(一条为主径,一条为多径),时延设为20 ms,衰落设为10 Hz,多普勒扩展为20 Hz,在AWGN Channel模块中设置信道的信噪比为10 dB。
3 仿真结果及分析
3.1 地面网络理想情况下的质量评估
首先要采用不同的语音编码技术对样本a.wav进行编解码,分别得到重构后的语音,再将重构后的语音送入短波电台在接收端接收到最终的话音,不同编码标准得到的话音如表2所示。
表2 不同编码标准对应的重构语音
编解码后的话音以及经过短波传输后的部分话音波形如图6~10所示。
图6 PCMAa.wav波形
通过PESQ模型[8],对经过编解码和短波信道后的语音质量进行评估。PESQ评估模型是一种基于输入-输出方式的客观评价模型,效果良好。与其他客观评估算法相比,PESQ评估模型不仅采取了听觉模型等比较先进的技术,同时也考虑了语音端到端的时延,对通信时延、环境噪声都有较好的稳健性。
PESQ评估模型是将原始语音和输出的语音信号经过电平调整、输入滤波器、时间对准和补偿、听觉变换之后,综合时频特性,得到PESQ分数,最后将得分映射到主观平均意见分(MOS)上,模型流程如图11所示,PESQMOS值为-0.5~+4.5,语音质量等级与MOS值(取值范围0~5)类似。不同的语音编码技术对应的PESQMOS值如表3所示。
表3 不同语音编码下的PESQMOS值
3.2 地面网络丢包率对语音质量的影响
丢包率是影响质量的重要因素之一,在此利用Matlab程序对丢包率进行人为控制,通过50次重复仿真,得到不同丢包率下4种编码算法的平均值如图12所示。
图12 不同编码下语音质量受丢包率的影响
通过仿真结果可以看到编解码后的语音质量评估值都能达到良好以上,而且G.711 A率和μ率编解码后的语音质量要明显好于G.728和G.729标准,但经过短波信道后,接收端的语音质量G.729,G.711 A率和μ率比较接近,G.728的值却相对较小。由图12可知,在丢包率小于3%前语音质量都未受到明显影响,当丢包率逐渐增大时G.728和G.729受影响较大,当丢包率大于7%以后4种编码技术下的语音质量急剧下降,语音质量损失严重,MOS值小于0.5,人耳识别困难。
以上结果说明,虽然经过G.728和G.729标准编解码后的语音信号具有较为相近的PESQMOS值,但G.729标准重构后的语音信号对短波信道的适应能力要优于G.728标准。G.729标准重构后的语音信号与G.711 A率和μ率相比虽然对短波信道的适应能力相对较弱,但相差不大,如果再考虑地面IP网络中语音包(ED137文件中推荐以20 ms的数据为一个语音包)的负载,G.729标准又相对占据了优势。因此,如果地面IP网络的带宽足够宽,建议采用G.711 A率或μ率,而如果带宽受限,则建议采用G.729标准。
4 小结
VoIP应用与航空通信领域,是近年来才提出的新课题,还未进入实用阶段。本文以短波地空通信为背景,通过仿真实验,为短波地空组网中地面VoIP话音编码的选择提供了参考意见。但由于短波信道采用的仿真环境与不稳定的真实传输环境还有差别,所以只能作为实际使用的参考。下一步的工作将以G.729标准为例,引入具体IP网络,研究时延、时延抖动对航空语音通信的影响权值,从而设计出更适合与航空语音通信的QoS保证技术,提高接收端的语音质量。
[1]章学静,何素娜,李金平.基于TMS320DM642的VoIP可视电话的关键设计[J]. 电视技术,2009,33(06):105-108.
[2]贾懋珅,鲍长春,李锐.8~64Kb/s超宽带嵌入式语音频编码方法[J].通信学报,2009,30(5):27-34.
[3]张继东,陆义宁.ITU-T中两种低码率语音编码系统的性能比较[J].电声技术,2001(12):6-8.
[4]ED-137,Interoperability standards for VoIP ATM components[S].2009.
[5]范睿,鲍长春,李锐.基于ACELP的嵌入式语音编码算法[J].通信学报,2007,28(10):48-54.
[6]张尔扬,王莹,路军.短波通信技术[M].北京:国防工业出版社,2002.
[7]权明波,朱小明,吴江.基于Watterson模型的短波信道的Simulink研究与仿真[J]. 无线通信,2007,242(3):20-22.
[8]ITU-T P.862.2,Wideband extension to recommendation P.862 for the assessment of wideband telephone networks and speech codecs[S].2007.