基于分布式传声器阵列的室内目标录音
2022-04-01李德龙
李德龙
(中国传媒大学传播声学研究所,北京 100024)
0 引言
人耳可以在嘈杂场景中跟踪辨别某一目标说话人的语音,这种现象称为“鸡尾酒会效应”[1]。目前针对鸡尾酒会效应问题的解决办法是盲源分离算法,典型代表为ICA 算法[2]及其频域延伸算法[3],该类方法不利用源信号和传输通道参数,根据输入源信号的统计特性,由观测信号恢复出源信号的各个独立成分,完成对目标信号的拾取与分离。但该类算法存在幅度和顺序的不确定性,受混响和其他声源的干扰较大,因此只适用于特定场景。为了减少混响干扰,有研究将盲源分离算法与去混响算法结合[4],但输出信号存在一定的失真。对于目标语音的提取大多基于规则拓扑的传声器阵列实现,通过阵列估计信号的波达方向(Direction of Arrival,DOA),结合语音信号的频谱平滑和谐波特性,可以解决频域ICA 算法次序不确定性问题[5],但在声源距离相近时会失效,存在距离限制。分布式传声器阵列具有空间覆盖范围广、拓扑结构灵活、容错率高的优点,无需估计DOA,没有距离的限制[6]。
在教室等多说话人同时讲话的室内场景中,由于声源的位置相对固定,房间脉冲响应可以通过测量获得。因此本文将分布式传声器阵列与一种基于房间脉冲响应实现的语音提取算法结合,实现对目标语音的提取和对干扰语音的抑制,通过主观汉语清晰度测量实验证明了该方法的有效性。
1 室内分布式传声器阵列语音拾取算法的设计
在实际环境中,传声器阵列阵元接收的信号是源信号经过幅度衰减、时间延迟及反射叠加后的信号,源信号与混合观测信号之间的关系如下:
式中:Xi(t)表示第i个传声器阵元拾取的混合观测信号,Sj(t)表示第j个源信号,hij表示第j个源信号到第i个传声器的房间脉冲响应。其中,房间脉冲响应包含了幅度衰减、时延及反射信息,可直接通过源信号与脉冲响应的卷积求和表示接收的混合信号。在声源和接收传声器位置固定的情况下,房间脉冲响应保持不变。
从矩阵角度给出卷积混合模型下的数学表达式。在时域内矩阵卷积运算的表达式如下:
式中:H(t)是系统函数矩阵,矩阵的每个元素均为声源到传声器的房间脉冲响应;S(t)为源信号时域矩阵,其中每个行向量均为一个声源信号;X(t)为传声器阵元拾取混合语音构成的时域矩阵。设定分布式传声器阵列阵元个数为16,声源个数为7,阵元拾取的混合信号为房间脉冲响应与源信号的卷积叠加,即:
由于语音信号具有短时平稳特性,需要将语音信号分帧加窗后再进行时频变换,即对语音进行短时傅里叶变换,将时域信号转换到时频域。短时傅里叶变换公式如下[7]:
式中:win表示本文所选择的窗函数,L表示STFT帧数,l表示STFT 滑动长度,τ为时间帧,fk是频域内的频点,n代表信号采样后的时间变量。采用汉明窗可以将窗边界处的信号平滑衰减,克服矩形窗的泄露现象,因此本文在后续加窗中均选择汉明窗对信号进行加窗。
若窗函数长度比房间脉冲响应的阶数大,时域卷积混合运算可以近似转换为频域内同一频点下的乘积运算[6]。满足该条件后,以某频点w0为例建立数学表达式,将时域卷积运算变换到每个频点下的乘积运算。
此时矩阵形式的频域方程为:
将分布式传声器阵列拾取的混合语音和测量的房间脉冲响应代入上述方程后,求解某一频点下的声源矩阵。其中系统函数矩阵为超定矩阵,需要借助系统函数矩阵的广义逆矩阵求解原理[8],进行超定方程组的求解。在完成所有频点的方程求解后,将求解完成的目标源信号矩阵通过短时傅里叶反变换即可实现对目标语音的提取。
2 室内分布式传声器阵列语音拾取实验
选择尺寸大小为10 m×6.4 m×4 m 的房间进行实验,模拟教室场景下多说话人同时讨论的情况。经测量,该房间的中频混响时间为350 ms 左右,满足小教室对于房间参数要求。设置声源个数为7,分布式传声器阵列阵元个数为16,整体布局如图1 所示。
图1 室内声源与阵列布局示意图
7 个声源分为1 名教师和6 名学生。其中学生位于前中后三排,教师位于最前排中央。由于日常授课场景中老师的高度高于学生,因此设置1 号扬声器高于其他扬声器。宋慧[9]得出结论,发音人的性别对于汉语清晰度的影响不具有显著性差异,因此音源性别保持男女比例基本均衡。扬声器位置和音源的性别信息如表1 所示。
表1 扬声器位置及音源信息
传声器阵列阵元个数设置为16,分为两组,每组为8 个阵元,一组分布于房间顶部,一组分布于房间墙壁。避免将阵列分布于地面,可以不改变房间原有布局,也不影响声源状态。采取针对目标声源就近布置阵元的原则,给出传声器阵元的具体位置如表2 所示。
表2 分布式传声器阵列阵元位置
实验所用传声器选择1/4 英寸预极化驻极体测量传声器。该传声器内置前置放大器,传声器采用恒流源供电方式。该传声器灵敏度较高,频响曲线平直,一致性较好;尺寸较小,便于移动,符合室内分布式传声器阵列拾音要求。
为了便于后续单音节字清晰度评测实验,实验音源采用预先录制好的7 张KXY 表[10]。KXY表包含汉语普通话所有可能音节,声韵母及声调出现概率与日常汉语交流一致。每张表有75 个音节,随机组合分为25 组,每组含有3 个音节,连续不具有语义。通过声卡控制7 个扬声器同时播放7 张KXY 表。搭建十六通道信号调理器对传声器阵列进行集成电路型压电式传感器(Integrated Electronics Piezo-Electric,IEPE)供电,多通道声卡与PC 进行音频交换,最后通过算法实现对目标语音的提取,整个系统框图如图2 所示。
图2 多通道语音增强系统框图
按照标准[11]利用分布式传声器阵列对7 个声源到16 个传声器阵元的房间脉冲响应进行测量。将测得的每一个房间脉冲响应作为系统函数矩阵的元素。共进行112 个房间脉冲响应的测量,以1号声源到1 号传声器为例,给出测量的房间脉冲响应时域波形图,如图3 所示。
从图3 可以看出,该场景下房间脉冲响应的截止点数为2 048 点。因此在进行时频转换时,将短时傅里叶变换窗长点数设置为4 096 点,可满足时域卷积方程与频域乘积方程的转化条件。通过系统函数及混合语音矩阵在频域不同频点建立超定方程组后,结合矩阵的广义逆求解原理完成超定方程组的求解。从求解获得的源信号矩阵中选择1号音源和7 号音源对应的频域矩阵作为目标音源,进行短时傅里叶反变换,可以实现对1 号音源和7号音源的语音提取。以7号声源作为目标声源为例,给出源信号、距离声源最近阵元拾取的混合信号、从混合语音中提取的目标信号时域波形图,如图4所示。从图4 可以明显看出,经本文系统从混合语音中提取的目标语音与源信号波形基本一致,对其他干扰音源有抑制效果。
图3 房间脉冲响应h11 的测量结果
图4 目标拾取语音时域波形对比图
3 检验实验
3.1 实验过程
以汉语单音节清晰度作为评测指标,测量目标语音的清晰度。将1 号扬声器和7 号扬声器播放的KXY 表作为目标语音,分别评测本文系统处理前后的汉语语音清晰度。处理前拾取的混合语音选择距离扬声器最近的传声器阵元拾取混合信号。
实验被试共11 人,男女比例基本平衡。被试熟悉汉语拼音规则,具有标准普通话能力且听力正常。实验开始前,使用测试信号对被试进行预实验训练使其熟悉实验流程。实验正式信号播放顺序为先播放算法处理前信号,再播放算法处理后信号。在听音室内进行实验,信号通过监听耳机重放,监听耳机经人工校准将声压级控制在70 dBA。
实验时,按照每3 个单音节字为1 个信号进行实验,每组信号间隔约8 s,供被试记录听到的信号。为了方便实验结果统计与计算,将声调以数字代替,阴平以数字“1”表示,阳平以数字“2”表示,上声以数字“3”表示,去声以数字“4”表示。例如,听到“红、带、退”,被试需要记录“hong2、dai4、tui4”。
3.2 实验结果
若被试记录的结果与实验信号播放完全一致则记为正确,否则为错误。通过三倍标准差对实验数据进行检验,剔除一名无效被试后对剩余的10位有效被试数据进行处理,计算出算法处理前后汉语单音节字的清晰度,结果如表3 所示。
表3 算法处理前后清晰度表
数据表明,经本文算法处理后的目标语音清晰度有一定提升。陈思宇[12]在语音可懂度实验中得出结论,在噪声干扰下,当清晰度达到40%左右,语句可懂度可以达到90%。这表明经本文系统拾取处理的目标信号可以满足语音可懂度的要求。
4 结语
本文利用分布式传声器阵列,在教室等多说话人场景中设计并实验了一套目标语音拾取系统,可以从混合语音中提取目标语音,抑制其他干扰语音。实验结果表明,处理后的语音清晰度有明显提升,可以满足汉语可懂度的要求。未来该系统可以在工程中落地应用,实现多说话人干扰场景下的目标语音拾取。