APP下载

一种车载语音回声消除的方案设计

2021-03-02,,

机械与电子 2021年2期
关键词:音轨音源数字信号

,,

(华南理工大学机械与汽车工程学院,广东 广州 510640)

0 引言

随着汽车电子技术在整车的广泛运用,车载信息娱乐系统得到了极大的升级,而且国内汽车品牌近年来所推出的汽车,尤其是智能网联汽车,多在信息娱乐系统上搭载了语音功能[1],用来控制多媒体主机的部分功能或者通过语料识别后由车载主机来实现部分与车身节点CAN交互的功能控制[2]。但车辆在运行过程中,常碰到高车速或高噪音的路况,行车过程中碰到的环境复杂,不仅有车内外的自然杂音,同时还有中控系统自身的音乐声、TTS(text to speak)语音播报、蓝牙电话等声音。这些非使用人员输入的混合声共同构成了混合回声,会影响语音系统对人声下发指令的识别,所以需要对回声作消除处理[3]。通常,车内的麦克风(MIC)在录音之后,会经过一个信号转换和信号放大的过程,然后输入给语音系统的载体,即信息娱乐系统,再由信息系娱乐系统处理这些信号,最终识别后再进行动作。但是由于中控系统产生的回声,如不对其进行特殊处理,那么在用户输入车载语音命令的时候,就会被MIC一起收集,当人声和回声的信号被无差别地送入车机系统级芯片(SoC)时,就容易造成误识别或者无法识别的情况。另外,为了更好地采集到人声和提升用户体验,在MIC的选择和布置上需要另外考虑MIC的参数,选择适合车载语音使用的MIC[4]。

1 回声消除模块硬件构成

本文所设计的语音回声消除硬件方案选择讯飞的XF6020SYE芯片,该芯片需要配合信息娱乐系统主机一起使用,由主机进行供电。XF6020SYE在工作中主要有2个作用:一是允许4路的MIC模拟信号输入,经模拟数字转换器(ADC),将声音转化为数字信号,送入XF6020SYE做回声消除;二是主机内部自己的声音数字信号,称为参考数字信号,可支持4路参考信号(FL/FR/RL/RR),经过主机的数字信号处理(DSP)芯片处理之后,输入进XF6020SYE,接着XF6020SYE对该参考信号进行回声消除处理后,再把处理后的数字信号传送给主机DSP,最后经DAC重新转换成模拟信号后输出,这就构成了中控主机自己内部的回声消除过程。需要注意的是,这2种声音信号的处理过程在一个录音循环工作过程中是都会进行的。利用TDM[5](time-division multiplexing)技术可让多种信号按一定时序在一个通信线路上进行传输,以上就是按照TDM8的格式完成主机和XF6020SYE的信号传输。XF6020SYE进行回声消除的系统架构如图1所示。

图1 回声消除模块硬件框架

1.1 音频时钟的设置

由于XF6020SYE是主机SoC音频接口的从动设备,要求MIC信号的音频采样率必须与参考信号的采样率一致,另外需要车机为XF6020SYE提供音频时钟,车机主控芯片集成XF6020SYE时需要确保输入的MIC数字信号、车机参考数字信号以及输出的处理结果数字信号是同源时钟的。音频时钟设置情况如图2所示。

图2 音频时钟示意

1.2 麦克风信号要求

XF6020SYE属于四音区的降噪、回声消除模块,支持前排和后排左右共4个音区交互,允许输入4路的MIC信号。目前市面上有2种常见的MIC类型,即模拟MIC和数字MIC,但XF6020SYE只能处理数字信号,且XF6020SYE是从属于车载信息娱乐主机SoC的,而SoC同样只能处理数字信号[6],因此要想完成回声消除的全过程,无论选用哪种类型的MIC,都必须将声音信号以数字信号的形式输入。

2 麦克风参数

MIC参数会影响XF6020SYE模块回声消除的功能效果,因此有必要对影响较大的几个参数做重点说明。

2.1 麦克风相位差

MIC在车内的布置通常是成对出现的,这种在一定空间里按一定距离排列成组的有限个MIC称之为MIC阵列[7]。当任意一侧的乘客对MIC输入声音时,声音被阵列中的不同MIC收集到时是存在一定时差的,由于声音是一种波,因此需要考虑声波的叠加和抵消作用。目前,市场上支持车载语音的汽车往往采用至少双麦克的布置方式,因此有必要考虑MIC之间的相位差。左右2个MIC相位相同的波形如图3所示,当2个麦克通道处于同步相位时,会输入相同的振幅,因此也会转化成相同的数字信号输入进XF6020SYE,当左右2个MIC处于如图4所示的反向相位,即相位差为180°时,则MIC信号会相互抵消[8],可能导致无信号输入XF6020SYE。

图3 左右MIC相位相同波形

图4 左右MIC相位相反波形

因为XF6020SYE支持多音区的音源定位,尽可能地减小MIC的相位有利于获取完整的MIC信号,减少MIC信号损失[9],从而提高音源定位的效果。从测试的情况来看,若MIC之间的相位差超过5°,则音源定位准确率和语音识别率将下降至少5%。因此在人声频段范围内,应使MIC的相位差尽可能≤5°。

2.2 麦克风指向性

XF6020SYE具有音源定位功能,且内置的阵列算法可以将指向性的波束形成窄波束,从而只响应音源位置的声音并抑制该位置以外的杂音。因此XF6020SYE模块针对MIC的指向性有具体的要求。MIC的指向性一般有全方位指向和单方位指向[10],其中全指向性的MIC能够全方位360°接受声音,优势是当声波从MIC的各种角度射入时,都有几乎相同的收集灵敏度,因此可以减少在布置上的问题考虑,但缺点是容易将整个环境内的噪音也录入。单指向性的MIC则只接收特定方向传来的声音,或者说仅在MIC收音器正前方的一定角度范围内较灵敏,超出这个范围时则灵敏度减弱,因此单指向的MIC只要结合环境设定好一定的指向性角度,可以最大程度地抑制噪音录入,为后续的硬件降噪和回声消除做了一步提前降噪。因此,本文为了试验开展的便利性,直接选用全指向的MIC。

2.3 信噪比

信噪比指的是最大不失真的声音强度与同时发出的噪音强度之间的比率,常用S/N或者SNR表示,单位为分贝(dB)。信噪比的大小表征夹杂在声音信号中的杂音大小,其数值越大,则说明声音信号中的杂波越少,即声音还原的质量就越高。通常在选择MIC时,要求MIC的信噪比在60 dB以上。

2.4 总谐波失真

MIC在工作过程中,其电路往往会产生振荡,或者产生二次三次的谐波,谐波与原始输入的信号经过叠加,再输出的信号一般就和原始输入信号有一定的偏差,其中就包含了谐波的成分,而谐波成分信号与原始输入信号的比值,表示总谐波失真,通常用百分比来表示其大小[11]。总谐波失真一般难以避免,当总谐波失真<1%时,输出信号和输入信号的差距很小,人耳几乎辨别不出,但若>10%则人耳就可以听出明显的失真,这对录音系统来说是不能接受的。因此为了让输出的声音更接近原始输入声音,要求MIC的总谐波失真<1%。

2.5 麦克风选型

基于以上对MIC部分重要参数的叙述,本文选择MSM381A3729H9BPC型号的硅麦克风作为试验麦克风,来源于敏芯微,具有全指向性,其信噪比为65 dB,总谐波失真约0.1 %,在94 dBSPL下的频响范围为0~10 kHz。硅麦克风除了有全指向驻极体麦克风的优点之外,还有较好的一致性,表现在灵敏度一致性和相位一致性都较好,且可靠性高,温湿度长期性能好,因此比较适合用于车辆环境。

3 麦克风布置

MIC布置的位置一般由降噪芯片的算法决定[12]。通常实车MIC布置方式有2种可以采纳。第1种是4个MIC前后分布,如图5所示,分别布置在4个车窗上方安全把手位置附近,左右两侧对称,且要求前排2个MIC的高度相同,后排2个MIC的高度相同,而前后排的MIC间距则没有固定要求。

图5 分布式MIC布置方式

第2种是前后双麦克成组布置,如图6所示,即2个麦克成1组,2组MIC以车身中轴线对称分布,且要求同组MIC高度相同。

图6 成组式MIC布置方式

为了减少布置MIC所占用的空间并确保高度一致,本文前排将采用嵌入顶灯的方式布置,如图7所示,2个MIC之间的相对距离为8 cm。这种布置方式需要MIC嵌入顶灯的结构稳定,不易产生摇晃,而顶灯的布置方式只需要使MIC进声孔对着乘客呈一定小角度即可。考虑到不同身高乘客说话时声源高度不同,因此顶灯的MIC距离同向音源距离可考虑控制在30~50 cm。

图7 前排嵌入顶灯的MIC成组布置

4 参考信号

相对于人的声源所输入的MIC信号,参考信号是信息娱乐主机系统的所有音源信号,其中包括主机播放的音乐、电台、TTS语音播报以及蓝牙电话声音等。这些参考信号需要被送入XF6020SYE进行回声消除处理,仅保留人的声源信号,这样就能实现在多噪音环境中的语音唤醒、语音通话和语音打断功能。由于参考信号的质量取决于信息娱乐系统主机,因此在不同车型上XF6020SYE的回声消除可能会有不同的表现。对于参考信号,一般要求其信号要干净[13],避免高频混叠失真,避免非线性的失真(经外置功放处理过的参考信号通常存在非线性处理导致的非线性失真,若经过非线性处理,则需要将非线性处理后的声音作为参考信号),且主机的参考信号要尽可能和MIC信号同步送入XF6020SYE,两者的同步性越好,则对回声消除的效果就越好。

5 回声消除的工作原理

当信息娱乐系统内播放着音乐、电台或者其他媒体声音(统称为参考音源),且环境存在一定噪音,和人声音源共同视作人为音源,此时在使用语音时,回声消除的主要处理过程如下:人为音源和车机自身参考音源,会同时被MIC录入,此时2种信号都会被当做语音内容送入XF6020SYE模块,同时车载主机会单独将正在播放的媒体声音采样进而获取到参考音源的信号,参考信号和MIC收集的信号会同时进入XF6020SYE模块进行回声消除处理,其内部处理过程由编译的算法决定,但一般处理后只保留人声音源信号[14],最后再将人声信号送到主机的主控芯片用作唤醒语音引擎或打断语音,这样就完成了一轮回声消除和使用语音的循环。其原理如图8所示。

图8 回声消除的原理

6 回声消除实车效果测试

为验证XF6020SYE回声消除和降噪的效果,选择在实车上分别对有XF6020SYE和无XF6020SYE的录音进行分析,使用音频文件分析的软件可以查看对应的声波图。图9为无XF6020SYE时,主驾位置输入语音唤醒词语料,前排左右2个MIC的音轨,其中上下2行分别代表主、副驾MIC录下的音轨。由图9可以看出,没有经过XF6020SYE处理时,主驾输入声音,主驾MIC录下的声波强度在一些幅值处甚至比副驾MIC录下的弱,这些幅值代表了唤醒语音的关键词,出现这种情况,是不符合音源定位要求的,也就是说此时主驾输入唤醒词,容易出现音源定位在副驾。

图9 未经XF6020SYE处理过的主驾输入音轨

图10为有XF6020SYE时,主驾位置输入语音语料,前排左右2个音轨,其中第1行代表主驾MIC录下的音轨,第2行代表副驾MIC音轨。此时可以看出在声波强度的波峰处,主驾音轨的强度明显高于副驾,这是因为经过XF6020SYE处理后,对主驾的唤醒关键词声音信号进行了增益,且消除了噪音和回声,同时对副驾的MIC信号进行了抑制,有利于主驾位置唤醒语音并且准确定位音源位置。

图10 经XF6020SYE处理过的主驾输入音轨

用同样的方式,在副驾录音测试,音轨分别如图11和图12所示,上下2行分别代表前排左右2个MIC的音轨。由图11和图12可以看出,没有XF6020SYE时,在副驾输入语音,虽然副驾处录入的声波强度更强,但相比于主驾并没有特别显著的差异。

图11 未经XF6020SYE处理过的副驾输入音轨

图12 经XF6020SYE处理过的副驾输入音轨

而经过XF6020SYE处理之后,可以看出副驾的唤醒关键词声音信号被做了增益和消噪消回声处理,其信号强度明显大于主驾侧。

接着,在实车上分别对有XF6020SYE和无XF6020SYE的情况做语音唤醒率、定位准确率和文字识别率的测试,测试环境为空调3挡风速加播放多媒体音乐,此时车内静态环境噪音约为54~69 dB,浮动原因歌声本身有大有小。在主副驾分别进行唤醒操作,其中文字识别率的测试均在成功唤醒语音的前提下进行,音源定位准确率则是基于唤醒成功次数得出的。测试人发声后,在MIC周围测得此时音量大小约为77~79 dB,测试发现屏蔽了XF6020SYE后,唤醒率、音源定位准确率以及文字识别率均低于同等条件下有XF6020SYE的情况。尤其是识别率在进行信号降噪和回声消除处理前显著低于经过了处理之后,且副驾的音源定位准确率在无XF6020SYE时也明显低于有XF6020SYE时。测试结果分别如表1和表2所示。

表1 主驾位置测试结果

表2 副驾位置测试结果

7 结束语

本文介绍了一种基于XF6020SYE芯片的信息娱乐系统主机语音回声消除和降噪的方案。经过实车录音分析对比,可证实XF6020SYE模块具有对人声信号增益以及抑制回声和噪声的作用。从实际语音唤醒测试和文字识别率测试的结果来看,该方案对车载语音的唤醒率、音源定位准确率以及文字识别率有较明显的提升,从而提高用户使用车载语言的体验性,适合用于车辆环境。

猜你喜欢

音轨音源数字信号
数字信号在电子信息工程中的应用
AI在线分离歌曲中的伴奏
数字信号分析中存在的误区与解决对策
数字电子技术中的数字信号和数字电路
MIDI音源及其应用之研究
基于小波神经网络的数字信号调制方式识别
浅议现代计算机音乐制作中的音源
新手进阶:追求卓越录音品质
穷“屌丝”也玩情侣对唱
酷品社区