APP下载

基于用户体验的高清语音质量测评研究

2016-05-14杨治武

信息通信技术 2016年2期
关键词:通话声学高清

严 琦 安 岗 叶 阳 杨治武

1 中国联通研究院 北京 100032

2 中国电子科技集团公司第十研究所 成都 610000

1 什么是高清语音

1.1 高清语音的定义

人们在拨打电话的时候,会感觉到电话里的声音和面对面讲话时的差异性很大。这是因为我们的话音为了便于通过数字化的移动通信网络进行传输,进行了一系列的处理,如模数转换、语音编解码等(如图1所示)。

图1 语音通话端到端处理流程

在2G和3G时代,由于带宽较窄,且移动通信网通话效果受网络环境影响较大,移动终端中都采用了一种称之为自适应多速率编码(Adaptive Multi-Rate,AMR)的语音编码技术[1],虽然该技术压缩比较大,频谱利用率低,并且压缩后质量较差,但用于人的声音通话,效果还较为理想,这个时候的语音技术我们可以称之为窄带语音。

顾名思义,现在的高清语音就是一种宽带语音技术。随着LTE时代的到来,带宽呈几何级的增长,使得现在的语音通话可采用自适应多速率宽带语音编码技术(Adaptive Multi-Rate WideBand,AMR-WB),其采用了更高速率的语音编码方式,频谱利用率高,与传统的窄带电话相比,高清语音很大程度上提高了语音质量。

1.2 为何要采用高清语音

传统的2G和3G语音通话,因为带宽较窄,声音的频率范围被限定在300Hz~3400Hz,采样率也仅为8KHz,极大地影响了通话质量。但早期人们的通话主要以获取信息为主,人们只要能通过移动通信网了解到有用的信息即可,对通话的质量等并没有迫切的需求。但是随着4G网络建设的不断加大和建设速度的加快,人们已经远不满足于信息的获取,而更希望能通过对话得到面对面的真实体验,能提升用户体验的高清语音通话就应运而生。

AMR-WB高清语音的频率范围为50Hz~7000Hz,音频范围更为广阔,抽样频率为16KHz。相对窄带语音而言,其增加的50Hz~300Hz的低频率更好地提高了自然度、表现力和舒适度,而扩展的3400Hz~7000Hz的高频频率则可以更好地区分摩擦音、更易于理解,语音更自然、舒适。同样的语音通话,在高清语音模式下,由于音域更广、高低音分明,用户能享受到高清晰、立体声的效果(如图2所示)。

声学专家研究发现,人耳能接收到的声音频率范围实际为20Hz~20KHz。也就是说人们需要更宽的声音频率才能更好地理解对方的讲话,才能更好地表达情感,这也是为何高清语音比窄带语音更能带来现场感的原因。

图2 语音频率范围

2 高清语音的应用情况

实际上,高清语音在移动通信网络中的应用从3G时代就已经基本具备商用条件。目前,中国联通是国内唯一一家在其3G全网开通高清语音的运营商。而到了4G的LTE时代,中国移动、中国联通、中国电信三大运营商更是积极部署,并一致以VoLTE(Voice over LTE,基于LTE的语音通话)高清语音为解决方案[2]。

中国移动早在2014年就在杭州、广州、南京、福州、长沙五个城市开展了VoLTE试点验证,随后2015年2月完成了杭州的VoLTE商用布局,杭州成为了中国移动第一个具备VoLTE商用的城市,随后中国移动的VoLTE开始推广到其它一线大城市,并开始在全国布局。2016年,中国移动将实现超过260个城市的VoLTE商用,预计实现3000万客户的发展目标。

中国电信在2015年7月份正式发布了VoLTE发展路线图:2015年,进行技术试验及验证、技术规范和方案制定;2016年,开展大规模网络建设,在芯片、终端、网络、业务、互联互通和IT等方面测试联调;2017年底,使4G网络达到天翼3G网络同等覆盖水平,实现VoLTE商用。

中国联通的VoLTE起步比较慢,首批中国联通的七个外场试点包括北京、上海、广东、天津、湖南、湖北、河南,2015年12月30日才完成了第一个具备VoLTE商用的城市布局;2016年,北上广三地联通也陆续宣布具备VoLTE的商用条件,商用网络的建设将成为联通2016年的重点,预计2016年底联通将完成国内一线大城市的VoLTE的试商用。

3 高清语音质量测评研究

LTE网络的主要特点是全IP化,所有的应用都以分组数据的形式进行传播,语音业务也不例外,因此,在LTE时代,高清语音的测试会引入分组网络,与传统3G语音测试不一样[3]。高清语音质量测试主要包括声学测试和电学测试两部分。

3.1 声学测试方案简介

声学测试[4]偏重于各种声学参数,主要性能指标包括发送/接收灵敏度、发送/接收响应度、空闲信道噪声、回声控制、失真等,对LTE终端的整机声学指标进行全方位的测试。

现在声学测试已经非常成熟,并且在国际标准组织3GPP和行业标准组织CCSA中均对测试方法和测试内容进行了规定。在实际的声学质量测试中,对测试环境的要求也非常严格[5],需要特定的消声室以及专业的人工头和人工耳,而且耳廓、电声学特性必须符合ITU-T P.58建议中的相关要求。每款终端在设计时可采用Type3.3或Type3.4人工耳,测试过程中采用设计时选用的人工耳进行验证。并且期间人工头人工耳以及待测终端的摆放位置必须经过严格的校准才可以进行,这就要求声学测试必须由专门的测试机构来完成。

我国现在的终端做入网检测时部分声学指标由工信部进行强制测试,如频响等,但是对于运营商而言,一方面声学测试成本太大,另一方面运营商更加重点关注贴近用户实际使用场景、基于用户体验方面的测试,也就是电学测试。

3.2 电学测试方案简介

音频电学测试现在业内比较公认的是平均意见分MOS(Mean Opinion Score)测试[6],这是一种主观评价方法。在实际语音质量评价中,会选取数量较多的人根据预先约定的评估准则(参见表1)对语音质量进行打分,共分为5个等级,最终的平均分就是所测通话语音质量的MOS值,它反映了测评人员对语音质量好坏的一种主观判断。

表1 MOS分级别

但是在实际测试中这种方法既费时又费力,基于此,ITU标准组织制定了相关算法,以此来模拟众多人的主观评定,从而通过机器仪表的方式来完成MOS分的测算。现在主流的标准算法为POLQA(Perceptual Objective Listening Quality Analysis,客观听力质量分析)算法,该算法可以将人类话音的频率、响度等物理特性与人类心理上的感知特性的对应关系用数学模型来表示,即用客观数学模型的评价来模拟主观的评价,并且ITU组织在2011年正式发布为ITU-T P.863标准,其可覆盖现阶段所有的语音编解码和网络传输技术,能够比较真实地衡量语音质量。

具体测试时是对LTE终端3.5mm接口处的音频电信号进行分析和测试。

如图3所示,待测终端通过射频线与LTE终端综合测试仪进行连接来接入LTE网络,同时,待测终端通过特殊的音频线与音频分析仪相连,将3.5mm接口处的声音电信号传递给音频分析仪进行分析,依据选定的POLQA算法来计算出声音的MOS值和时延,从而确定音频质量。

图3 音频电学测试方案

在测试过程中,主要用到以下相关单元模块。

1)LTE终端综合测试仪。用于模拟多制式基站,通过射频线给被测终端运行测试用例提供无线测试条件和环境,包括射频环境和协议基础和流程,并且可添加3GPP规定的典型信道衰落模型。

2)音频分析仪。通过音频接口获取被测终端记录和播放的音频文件,并且依据选定的POLQA算法计算MOS值和时延。

3)IP网络仿真模拟器。模拟实际IP网络中可能存在的抖动和时延,测试添加特定的抖动和时延后被测终端的音频质量。

4)控制电脑。负责测试流程控制和测试例管理以及测试结果分析。

5)待测终端。支持LTE/WCDMA/GSM等典型网络制式,并具备CSFB(Circuit Switched Fallback,电路域回落)和VoLTE功能。

3.2 测试内容分析

由于LTE网络高带宽以及VoLTE语音全IP化的特点,测试时不但要考虑到基本的声码器验证,还需考虑到IP网络带来的抖动和时延给高清语音通话带来的各种影响,基于VoLTE的高清语音电学测试主要从以下几方面进行。

1)声码器验证测试。选取AMR-WB下典型速率的声码器验证测试,即23.85Kbit/s和12.65Kbit/s。

2)IP传输损伤下的语音质量测试[7]。VoLTE解决方案下,语音和数据一样均IP化,IP网络固有的抖动和时延特点下的语音质量测试,这个时候通过IP网络仿真模拟器引入抖动和时延,从而完成此时的MOS分测试。

3)数据业务并发下的语音质量测试。根据现有分组网络的特点,需区分轻数据业务和重数据业务下的语音质量测试。轻数据业务测试可以通过ping包方式进行,而重数据业务下的测试可以通过UDP方式进行。

4)切换发生下的语音质量测试。需测试在VoLTE和WCDMA网络之间发生SRVCC(Single Radio Voice Call Continuity,语音业务连续性)时的语音质量。

5)编码速率转换测试。AMR-WB为自适应编码,在实际现网中,语音编码速率会采用一个特定的编码速率集合来进行转换。如23.85 Kbit/s -12.65 Kbit/s -8.8 Kbit/s,因此需要测试在编码速率转换过程中,终端是否具备较好的语音质量。

通过以上分析可以看出,语音MOS分的测试存在各种特定的场景,不同终端在不同的场景下测试所取得的MOS,表现能力是不一样的,为能更好地对终端语音质量进行管控,需要按照MOS分对终端的测试情况进行分类。通过图4我们可以看出在不同MOS分下语音质量的分析情况。

图4 POLQA下不同MOS分数语音质量分析

可以看出,当MOS分大于4.0时,语音频率较为完整;在3.5~4.0之间时,个别语句的某些频率成分会有缺失,有较不明显的背景噪声;2.5~3.5之间时,会产生部分声音的缺失,频谱与原信号有较大区别;当MOS分小于2.5时,背景噪声非常明显,声音频率的缺失更加严重[8];因此,为保障终端的语音质量,我们在进行终端定制时需尽量选取MOS分值较高、得分较为理想的终端。

4 高清语音质量测评展望

今后基于用户体验的高清语音质量测评研究主要包括以下两方面。

1)基于EVS(Enhanced Voice Services,增强语音服务)声码器的全高清语音质量测试。EVS是专门为VoLTE语音解决方案而设计打造的下一代高清语音通话编解码方案,它能够使得手机的通话达到全高清效果。从图2中我们也可以看出,EVS编解码器的频宽范围是从50Hz到接近20KHz的声音都能够纳入其中,基本上已经涵盖了人类的听觉范围,这种全高清的语音通话效果远远超过现在采用的手机语音通话和各种OTT服务。

2)基于高铁环境下的语音质量测试[9]。截止2015年底,中国的高铁1.9万公里,占全国铁路16%,占全球高铁60%,并且时速高达250~380km/h,复杂的无线环境使得现有的高铁网络虽然网络覆盖较好,但是掉话率较高,通话效果不理想。而目前的高铁乘客主要是高收入人群,终端客户需要一个稳定、可靠、高清的语音环境,实验室中我们可以通过射频信道仿真器来模拟高铁环境下复杂的无线场景,配置相关网络参数,并辅以音频分析仪来实现高铁环境下的语音质量测试。

参考文献

[1] 温秋燕.VoLTE高清语音解决方案研究[J].数字技术与应用,2015(4):27-28

[2] 周晶,叶丹.运营商LTE语音解决方案研究[J].集成技术,2013(3):79-81

[3] 狄德海.WCDMA手机音频测试[J].中国测试,2009(1).125-128

[4] YD/T 1538 数字移动终端音频性能技术要求及测试方法[S].CCSA,2013:10-19

[5] 向罗勇,朱斌.TD-SCDMA、WCDMA、GSM终端音频一致性测试介绍及分析[J].现代电信科技,2011(8):34-37

[6] 姜先贵,李勇辉,朱斌等.VoLTE语音质量研究[J].邮电设计技术,2015(10):51-55

[7] 陈志伟,胡志国.IP网络语音质量评价方法研究[J].计算机与现代化,2013(2):185-188

[8] 许可.VoLTE语音质量评价方法及测试方案[J].电信网技术,2014(5):81-84

[9] 王晓东,王惠生,谢保锋.高速铁路GSM-R语音质量评估研究[J].铁路技术创新,2012(1):82-84

猜你喜欢

通话声学高清
高清大脑皮层发育新图谱绘成
微信上小额借款 请务必通话确认
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
教你玩转AV设备(一):4K高清播放机使用指南
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
《戊戌元日与友人通话》
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
安防慧眼——高清镜头发展趋势
视听与高清行情