电视远场语音系统设计
2021-09-26冠捷显示科技厦门有限公司王衍军
冠捷显示科技(厦门)有限公司 王衍军
2014年亚马逊推出智能音箱Echo产品,将远场语音应用到传统音箱中,从而赋予音箱人工智能的属性。在其他应用领域也在尝试导入远场语音技术,比如教育机器人、汽车语音助手、白色智能家电、智能厨电等。近年来智能电视开始配置远场语音技术,带给用户更便捷的人机交互方式,真正实现解放双手,带来全新的交互体验。
1 硬件设计
电视产品远场语音系统硬件实现框架如图1,采用4个麦克风线性阵列,数字麦克风输出PDM信号给DSP处理,DSP采用的是一款中等成本专用32位DSP音频处理微控制器,可支持8通道音频输入的采样和处理,内置1MKB SRAM,工作频率高达250MHz,同时配备了闪存控制器,它允许用户更新程序而不需要将芯片从实际的最终产品中移除。两颗ADC ES7210将从功放输出回采的模拟音频信号转成IIS数字信号传输给DSP处理,麦克风采集到的PDM信号与回采的IIS数字信号经DSP算法处理,消除回声成分后得到有用的音频数据,再通过USB2.0传输给TV SOC,SOC再将音频数据上传到语音服务器,与数据库连接识别语意返回给SOC电视端按语音指令做出响应。
图1 硬件框架
1.1 麦克风选型
麦克风选型要符合语音算法厂商设计要求,国内常用的语音算法有科大讯飞、思必驰、腾讯、百度等,本文采用思必驰语音算法,要求的性能指标包括:(1)灵敏度>-42dBFS,测试条件1KHz 94dB SPL;(2)灵敏度一致性≤±1.5dBFS;(3)信噪比(S/N)≥63dBA;(4)总谐波失真(THD)≤1%(1kHz);(5)声学过载点(AOP)≥120dBSPL;(6)自由场频率(100-10kHz内)响应波动≤3dB。
本文采用背收音数字硅麦克风3SM222KMB1HA,灵敏度-26dBFS且误差在±1dBFS内、信噪比64dBA、总谐波失真小于0.2%、AOP 120dBSPL。此麦克风集成前置放大器和模数转换器,可提供电容式音频传感器的高信噪比输出。采用最常见的数字麦克风接口方式:特性脉冲密度调制器(PDM)输出接口,支持在一条数据线上同时连接两个麦克风,本文使用4个麦克风只需要两条数据线输出,简化输出数据线。
1.2 电视扬声器选型
电视正常播放过程中,声音的失真会影响消回声算法的处理,造成语音识别率低,所以电视选择的扬声器总谐波失真越小越好,要求的性能指标包括:左右扬声器50、70、100音量分别播放100-8kHz扫频文件,此时100-200Hz THD≤8%、200-400Hz THD≤5%、400-8kHz THD≤3%,一般扬声器在低频部分总谐波失真会比较高,建议通过功放端调节EQ,降低低频频段EQ曲线或是在语音算法中加滤波器滤除低频成份,同时在整机机构装配上减少机振以改善喇叭非线性失真。
整机机构装配上改善喇叭非线性失真对策实际案例:(1)左右喇叭本体靠近背板面各贴1PCS海棉(防止喇叭声音通过背板传导到麦克风);(2)Panel地侧贴附不织布,沿上边缘由中间往两边贴附(地侧喇叭出声位置,防止喇叭出声导致地侧共振的产生)。
1.3 回声信号采集电路设计
语音识别算法,需要外接回声消除电路,经算法消除回声成分后得到有用的麦克风音频数据,采样点优选功放后端。从功放后端采集到的模拟音频信号经两级滤波、分压后得到的信号需满足ADC ES7210输入幅值≤1Vrms要求。
1.4 PCB设计
本方案选用4麦克风线性阵列方案,PCB layout时相邻麦克风收音孔间距控制在35mm,麦克风电源滤波电容靠近麦克风供电引脚放置,clk信号走线两侧需铺铜进行包地处理,防止电磁辐射干扰。本方案采用背收音麦克风,麦克风收音面需要紧贴PCB且收音孔周围需增加接地环焊盘,防止声音通过PCB与麦克风之间间隙进入,影响麦克风模组气密性。PCB收音通道开孔直径使用麦克风厂家推荐的0.75mm。如图2所示。
图2 麦克风收音孔周围接地环及开孔
2 麦克风阵列结构设计建议
(1)人声能直达每个麦克风,避免遮蔽效应,即产品正常使用场景下,保证声源的直达声(非反射声)到达每个麦克的机会是均等的,建议:麦克风阵列装配应该尽可能朝向使用者,在产品装配或放置后,麦克风孔应该利于拾音且不被其它物品遮挡。
(2)麦克风组件应该装配于一个比较稳固的结构上,如果装配位置很薄,固定不牢会抖动,麦克风会在里面晃荡,这个时候会发现采集的音频里,就会出现一些很奇怪的磕磕碰碰的声音。
(3)声音到达麦克风的路径尽可能短、宽,要求谐振点频率在8KHz以上。对于背收音麦克风建议:塑料结构开孔直径≥密封层开孔直径≥PCB开孔直径≥麦克风进音孔直径,装配后塑料结构、密封层、PCB叠加总厚度≤5mm,越小越好。
(4)麦克风要远离干扰或震动。对于震动,建议麦克风板与塑料结构间增加密封层(如泡棉双面胶,软硬度可根据实际结构形式进行匹配验证),一方面可以防止喇叭声音通过塑料结构直接传递给麦克风,还可以提高麦克风的气密性。
(5)结构设计要避免喇叭本体结构引发的失真,喇叭要进行减震处理,避免结构震动对麦克风造成较大影响。
(6)喇叭腔体四周与其它机构件至少保留1mm的间距,振膜上方与机构件至少保留1.5mm的间隙,防止振膜碰到结构件产生振动和异音。
(7)避免整机结构内声音传播,即喇叭的声音不能在电视机结构内部泄露到麦克风,只能通过结构外的空气传播到麦克风,建议喇叭和麦克风放在不同腔体内或喇叭出声口应距离麦克风收音开口10cm以上,越大越好,也可以选用性能好的密封材料对腔体内麦克风部分进行密封,防止内部串声。
(8)IR/KEY/Wifi/BT等板子,不建议仅用卡勾固定,需用螺丝锁付防止震动。
3 麦克风模组相关测试
3.1 麦克风模组气密性测试方法
(1)在半消声室内将监听音箱放置在麦克风模组前方50cm位置,循环播放粉噪音频信号pink_noise.wav。
(2)调节监听音箱音量,使麦克风模组位置量测音压为63dB。
(3)在不堵孔情况下,保存麦克风模组录制的音频数据。
(4)使用阻尼、橡皮泥类材料分别密封各个麦克风收音孔,保存麦克风模组录制的音频数据。
(5)选取一段时间读取平均RMS振幅,比较堵孔前后差异。
(6)气密性规格:思必驰要求堵孔前后音压差>15dB。
3.2 麦克风模组唤醒率、识别率测试方法
(1)测试地点:20~30㎡左右的房间(确认混响状况),测试距离及角度:距电视中心位置1m、5m。
(2)环境底噪40~50dBA,语音指令声压级≈65dBA@1M,测量设备:声压计。测试人员:男生/女生分别测试一次。
(3)电视在无音频输出状态下(如主页面/节目菜单页面等),分别在不同距离测试远场语音唤醒、识别功能。
(4)播放电视节目音量level30(70dB左右),分别在不同距离测试远场语音唤醒、识别功能。
结束语:本文介绍了采用背收音式数字硅麦克风方案的电视远场语音系统设计,详细阐述了电视远场语音系统麦克风、扬声器的选型,回采电路及PCB设计注意事项,并结合设计产品完成相关测试。本产品带给终端用户更便捷的人机交互方式,真正实现解放双手,带来全新的交互体验。