浅析智能家居测试噪声录制回放方法
2022-01-17孙杰英孔睿迅黄伟彬许蕴盈
孙杰英 孔睿迅 黄伟彬 许蕴盈
(1.威凯检测技术有限公司 广州 510663;2.中国电器科学研究院股份有限公司 广州 510300;3.广东中创智家科学技术有限公司 广州 510663)
概述
噪声录制的方法手段各异,从最简单的使用带MIC的设备(例如手机、电脑等)直接在声源附近录制,到使用高精度MIC阵列通过特定的拓扑结构在消声室与声源通过特定的角度进行录制。同样噪声回放也存在不同维度的异同,最简单的使用具有扬声器的设备(手机、电脑等)直接播放声音文件,复杂的则需要与录制时候的环境、设备、距离等进行复杂的逻辑运算及解码后,在特定的环境使用特定的设备进行回放。上文中不同的录制回放手段,实现难度不同,在真实还原录制时声场环境时的表现也各异[1,2],下文则分别从录制手段、回放手段、回放性能等方面进行分析。
1 噪声录制分析
1.1 噪声录制环境
噪声录制环境主要指噪声录制场地的地点、内外部混响,本底噪声等。目前一般的噪声录制场地有设备使用环境(例如家居环境、咖啡厅等)、专业声学环境(消声室、半消声室、混响室等)、其它自然环境(公园、森林、车流附近等)。本文主要研究智能家居测试用噪声,所以下文主要分析典型的家居场景,在国内家居场景一般按功能分成客厅、卧室、厨房、卫生间等场景,主要分析这些场景及周围的一些声学参数及影响这些声学参数的因素。所以本文中典型家居场景分为浴室、客厅、卧室以及厨房这四个场景。下面从这几个场景特征来进行说明。
1.1.1 混响时间
最广泛使用来表征房间的声学特征的参数是它的混响时间,它表示的是声压衰减 60 dB 所需的时间。通用标准 ISO 3382-1[3]提供测量指南,通过ISO 3382-1[3]第6.2 条的扩展的方法来确定[4],然后平均各个麦克风的混响时间来确定总混响时间,见表1。
表1 典型家居场景的混响时间
1.1.2 场景底噪
场景中的本底噪声,一般和周围环境噪声及场景中的布置有关系,一般建议在45 dB左右。
1.1.3 场景大小
家居场景的大小各不相同,但是场景的大小会影响到混响等声学参数,也影响使用场景,表2约定了一般的典型场景大小。
表2 典型家居场景的大小
1.1.4 场景布置
这里一般指场景中的一些影响声音传输或者吸收的部分,例如窗帘、地毯等,也包含一般的功能性的物品,例如厨具、床等,见表3。
表3 典型家居场景的布置
1.2 噪声录制设备/系统
1.2.1 手机/PC等终端
这种方法操作非常简单,直接打开设备即可以录音,但是这些麦克风一般具有主动降噪的功能,在录制环境噪声时,部分噪声可能会被主动降噪算法所识别,会做些降噪处理,从而影响部分真实性。
1.2.2 录音笔等便携设备
同样的,录音笔录音操作很简单,但是录音笔一般对人声有加强作用而对噪声会有一定的抑制,从而保障更好的录音效果,但是在用到噪声录制或者交互人声的录制时,同样会存在失真的问题。
1.2.3 家电内麦克风或其它工业麦克风
直接使用被测物品或者其它同型号的工业麦克风测试思路非常直接,操作也很方便,但是用这些设备录制的噪声,回放后却不一定能保证无失真,因为这些麦克风的灵敏度和能录制的频率范围一般比较低,在录制时信息会有部分丢失,回放测试时针对性比较强,对于录制麦克风和测试麦克风不同的场景失真可能比较大,同时,由于部分家电为了加强语音识别的效果,会有部分降噪和语音增强的算法或者处理,这些也会导致录制的噪声失真。建议用于直接测试而不是录制需要回放的噪声。
1.2.4 高精度麦克风
这里主要讨论灵敏度高,无降噪等处理的高精度麦克风,这些麦克风的自噪声较低,频率范围比较广,灵敏度高,录制的单点噪声的信息量足够。这些麦克风一般价格相对比较昂贵,录制时需要配套其它的设备才能录制,录制时的距离角度等及回放的设备都会相应的影响还原的性能。
1.2.5 麦克风阵列
麦克风阵列使用多个麦克风通过一定的拓扑排列组合到一起来录制噪声源,麦克风阵列的结构和麦克风数量都会影响到录制的难度和方法,也影响噪声真实再现的难度。
波束还原技术[5]利用麦克风阵列能非常真实的还原声场,但是对于麦克风的数量要求非常多,实现难度较高。
1.3 录制的声源
本节主要讨论典型的家居场景的录制的声源,在录制的时候通过各种排列来模拟各种真实的使用场景,见表4。
表4 典型家居场景的声源
1.4 录制的布局
本节主要讨论典型的家居场景的点位,即典型家电的位置信息,见表5。
表5 典型家居场景的点位
2 噪声回放分析
2.1 噪声回放环境
噪声回放的环境影响最后回放的效果,在一般的家居场景回放、则会有家居场景的混响和环境噪声和录制的混响和噪声进行了叠加,最终的效果则可能和录制的噪声存在一定的差异。
2.2 噪声回放设备
噪声回放的设备一般是扬声器,可以是带扬声器的设备,例如手机电脑,单独的扬声器,也可以是扬声器阵列,一般来说,如果要真实的还原录制的噪声,则扬声器数量需要大于等于麦克风数量且扬声器需要能在全频范围内声场平坦,能无损的播放录制的声源。一般这种扬声器的要求很难达到,数量和拓扑结构也很难和录制的麦克风保持一致,在实际使用过程中会有一定的调整。
2.3 噪声回放方式
本节提到的噪声回放方法主要涉及以下两个方面,一个是音源的编码解码问题,另一个方面在于扬声器阵列的控制问题。
环绕声技术[6]使用了特殊的环绕编码器,允许将 5通道信号从特殊的调音台编码到 5.1 数字数据流。播放系统由一个特殊的解码器组成,允许再次分离5个通道并将它们分配到 5.1 扬声器播放系统上。这些系统兼容单声道和立体声,可以通过特定解码器处理较旧的 4 声道环绕技术。环绕声技术旨在创建声学图像,而不是接近原始录音和再现。
波场合成技术[5]应用惠更斯波的原理。将此原理应用于声学意味着可以使用扬声器阵列再现任何形式的波前,从而可以将虚拟声源放置在聆听区域内的任何位置。在实际使用中,有必要将扬声器放置在播放室的四周。为了生成逼真的声场,必须单独计算每个扬声器的输入信号。为此,必须单独记录每个单个声源。如果录音是在房间里完成的,录音室的特征也必须单独录制。然后在后期编辑过程和再现过程中混合和处理所有产生的音轨。然后在播放室的广阔区域内实现自然逼真的空间声音再现。这种方法的缺点在于所需的组件:复杂的录音系统、用于实时混合大量录制音轨的强大计算单元以及必须安装在听音室中的扬声器数量。
HATS录制再现[2]方式是为了再现使用人工头部技术记录的双耳信号。它改善了方向和距离的印象。四个扬声器通常围绕中心点等距放置在方形结构中,例如2米。在人工头部的左耳通道处测量来自两个左侧扬声器的传递函数用来均衡。以此结果设计了 IIR 和 FIR 滤波器,通过它们在回放期间对左侧、右侧扬声器的输入信号进行滤波,使得随后在人工头部左侧通道上测量的传递函数在频谱上是平坦的。
最小均方方法[1,7],通过八个记录声道记录和八个扬声器回放,以达到良好的再现效果。 该方法基于八个重要测试位置,例如 HATS 附近,主要是手机的麦克风位置。再现时相应八个点的录音声场的合理再现,在这些点之间也产生良好的再现精度。
声场记录技术[1,7](多点声场记录技术)是基于声音的优化空间不同点的场再现。优化标准基于复制的最小化每个麦克风位置的误差。基于这一原则,麦克风的位置可以在很宽的范围内选择声场再现最准确的空间。方法是这些位置可以适应要测试的设备类型,如果被测设备 (DUT) 集成了麦克风阵列的多点声场记录麦克风可以定位在 DUT 的麦克风区域。如果要测试免提设备多点声场记录麦克风位于免提设备区域。
3 噪声还原分析
3.1 声压再现精度
原声场和还原声场应该在声压[8]上保持还原,原声场与模拟声场对比,如表6可见,麦克风声压[2]的差异应该在±3 dB 范围内。
表6 声压对比
3.2 频谱再现精度
原始替代参考噪声记录的幅度曲线与再现宽带噪声的幅度曲线(均以 dB 为单位测量)应在 ±3 dB 范围内。以 50 Hz 到 10 kHz 的 1/3 倍频程和 ±6 dB 测量,所有麦克风的平均频谱精度应在 ±3 dB 以内。如图1和图2所示为原始声场和再现声场的频谱对比。
图1 原始声场频谱
图2 再现声场频谱
3.3 幅度和相位还原精度
在 100 Hz ~1 kHz 的频率范围内,复相干幅值应大于0.9,以 1/3 倍频程测量。
1~1.5 kHz 范围内复相干相位应在的 ±10 度以内和±30 度以内,以 1/3 倍频程测量,见图3、图4。
图3 100~1 000 HZ复相关幅度
图3 1 000~1 500 HZ复相关幅度
4 结论
噪声录制和回放的“真实”性依赖于实施方案的科学性和复杂度,综合考虑实施的复杂度和“真实”程度,标准[1,3]涉及到的噪声录制回放方法都已经形成了系统性的方法,实施和回放都比较方便,但是二者在应用领域存在一定的差异,HATS录制方法更适用于测试噪声的降噪等方面的性能,而最小均衡方法和多点还原对于还原智能家居设备的麦克风处的噪声存在一定的优势。