APP下载

基于主成分分析的激光麦克风的语音信号提取

2023-01-30孙学明张大华周志全赵张美胡荣磊

激光与红外 2022年12期
关键词:散斑灰度语音

孙学明,张大华,周志全,赵张美,胡荣磊

(北京电子科技学院,北京 100070)

1 引 言

激光麦克风是以激光为载波远程捕获声音的设备,由于其非接触、无损伤、隐蔽性强等优势,在军事、公共安全等领域有广泛应用。其基本原理是通过激光远程检测目标物体因声波激励而产生的微振动,再将微振动还原为声音。激光麦克风最早出现于20世纪80年代的美国[1],由激光发射器、接收器和信息处理模块组成,室内谈话激励窗户玻璃产生微振动,监听者以激光照射窗玻璃,反射光就携带了该振动信息,经接收器处理后就可以还原室内谈话。但该激光麦克风要求镜面反射,易受激光收发模块位置、反射物体表面平整度等条件限制,后被基于多普勒效应和光外差干涉的激光麦克风替代[2-],不受目标物体反射面限制且灵敏度高,是目前激光麦克风的主流。近年来,随着机器视觉技术的发展,又出现了一种基于激光散斑测量的视觉激光麦克风,利用高速摄像机记录声场中目标物体表面的激光散斑动态变化,从激光散斑视频中提取目标物体微振动信息,实现语音重建[7]。它的优点是结构简单,便于模块化,对大气波动不敏感,可以同时从多点提取声音,缺点是计算量大,提取时间取决于算法,并且重建语音质量受散斑颗粒大小与强度分布的影响。目前视觉激光麦克风的语音提取算法主要分为两类:一类是利用模板匹配、质心跟踪等方法计算像素位移[8-10],另一类方法是利用图像中像素灰度值的大小或方差变化提取语音信息[11-13]。文献[8]比较了基于高速视觉的振动测量与多普勒测振仪的优缺点和局限性,对两者在短距离和中长距离的灵敏度和适应性做了详细对比,证实高速视觉测振比多普勒测振仪灵敏度低但在数据采集方面具有优势。文献[9]~[10]研究了数字散斑相关方法测量物体表面振动误差最小时的最佳散斑图案模板尺寸,得出最佳模板尺寸在 30×30 像素到 100×100 像素的范围内。文献[11]提出了使用自适应选择种子点的像素灰度变化来恢复振动信息和音频信号,并将多个种子点的信息有效地融合在一起的新模型。文献[12]提出了基于像素灰度的方差从散斑图案中恢复声音,该方法允许从散斑图案的一个小区域中选择适当的像素,但要求这些像素灰度值在振动方向上呈线性分布。文献[13]应用光流法计算相邻两帧散斑图像之间位移实时恢复声音,但受数据采集时间与算法限制,只能实时恢复500Hz以下的音频信号。除此之外,还出现了只依靠图像纹理变化提取声音信号的视觉麦克风[14-15],但是文献[14]方法复杂,计算成本很高。文献[15]利用奇异值分解得到了音频信号,但没能给出合理的物理解释。文献[16]比较了过去出现的6种方法,但都是视频后处理方式。针对以上情况,本文提出应用传统的PCA法从高速激光散斑视频中提取语音信息,PCA法对像素选择没有过多限制,计算成本低,极大缩短了音频提取时间。而且可以选取视频前期部分图像数据,快速提取含有语音信息的主成分投影基,后续散斑图像直接在该方向投影即可实时获取语音信号。

2 原理算法

激光照射粗糙物体表面时,散射光因随机干涉在空间分布上形成明暗变化的颗粒图样,称为激光散斑。当物体受声波激励产生微振动时,激光散斑也会随物体形变发生人眼不易觉察的形变或位移。利用高速摄像机记录散斑的动态变化,体现在每帧图像上就是像素点的灰度随时间不断变化,当散斑颗粒大小满足一定条件时,部分像素点的灰度变化与声源的振动线性相关,只要能够找到这些像素点并计算出其灰度的时变,就可以提取声源的振动信息,重建语音信号。然而,由于激光散斑的随机性,当散斑图案因振动而变化时,图案的像素灰度变化有三种可能情况:或正或负,或者还有的根本没有明显变化。所以要从大量像素中选择性的挑出灰度线性变化且幅值较大的像素点并非易事,如文献[1]通过复杂的模型在空间上自适应选择的种子点的强度变化,将多个种子点的信息有效地融合一起再来恢复振动信息和音频信号。文献[12]通过在时间上计算相同像素点的灰度值方差变化并排序,最终融合相关性较大的部分像素点,根据它们的像素灰度变化重建音频信号。然而这些寻找种子像素点的过程本身就是要耗时的。本文提出PCA提取语音信号无需此过程,不仅能够直接得到散斑图像灰度的最大方差变化,还可以利用部分视频图像提取主成分空间含有语音信息分量的投影基矢量,实现语音信号的快速提取。

PCA是机器学习中的一种常见数据分析方式,可以提取数据的主要特征分量,常用于高维数据的降维,基本思想是通过正交化线性变换将高维数据映射到低维子空间而不丢失太多信息,目的是去除噪音和冗余,揭示隐藏在复杂数据背后的简单结构[17]。低维子空间的向量就是主成分,它是原有高维数据在新坐标系中的投影,第一主成分就是使原始数据方差最大的投影,第二主成分是方差次之与第一主成分正交的坐标轴上的投影,其他主成分依次类推。PCA法从激光散斑视频中提取声音的目的不是降维,而是从方差较大的主成分中寻找含有语音信息的分量。基本思想是将激光散斑视频中的每帧子图像视为高维空间中的一点,子图像的像素数就是高维空间的维度,像素灰度表示该点在高维空间中的向量,将激光散斑视频中所有帧的子图像构成的向量顺序堆栈成原始数据矩阵,利用PCA就可以计算出视频的主成分,这些主成分就是视频图像在新坐标系中按方差降序排列的正交投影,方差较大的主成分表示每帧图像灰度信息变化较大,这些变化与声源振动线性相关,对其进行音频转换和降噪处理,就可以重建语音信号。PCA法提取声音的具体步骤如下:

假设激光散斑视频共有n帧图像,首先在激光散斑视频中每一帧图像上相同位置截取子图像进行采样,如果采样区域内有p个像素点,则令这些像素点的灰度x构成一个p维向量X,然后再将n帧子图像的向量顺序堆栈成矩阵G:

G=[X1,X2,…,Xn]∈p×n

(1)

其中,Xi=[xi1,xi2,…,xip]∈p×1,而G的行向量则表示采样区域内某个像素灰度随振动的时变。

对数据集G进行PCA分析,即先将G中心化再求其协方差矩阵Σ,得:

(2)

对协方差矩阵Σ进行特征值分解得到特征值与特征向量Ei=[e1,e2,…,ep]∈p×1,将特征向量作为行向量按照特征值顺序排列得到特征向量矩阵P:

P=[E1,E2,…Ep]T

(3)

利用该矩阵对原始数据G进行线性变换即可得到主成分矩阵Y:

Y=PG=[E1,E2,…Ep]T[X1,X2,…,Xn]

(4)

其中第k主成分:

Yk=EkX∈1×n

(5)

按照k值升序各主成分方差变化依次变小,声源的振动信息就体现在前面方差较大的部分主成分中,将其转换为音频并滤波降噪即可重建语音信号。由于目标物体的振动幅度和表面粗糙程度不同,散斑图像像素信息变化程度也不同,所以不同材质目标物体或不同距离条件下,能够提取音频的主成分数目也不相同。PCA法从高速视频提取语音信号的流程如图1所示。

图1 高速视频提取音频信号处理流程Fig.1 Flow chart of extraction audio signal from high-speed video with PCA

3 实验与讨论

人类语音频率大约介于300~3400 Hz之间,根据奈奎斯特采样定理,重建可理解的语音信号,摄像机频率至少应在600 f/s以上,所以通常使用高速摄像机记录激光散斑变化。实验装置如图2所示。

图2 基于高速摄像机的激光麦克风系统示意图Fig.2 Experimental set-ups of laser microphone system based on high-speed camera

实验所用激光器是普通的650 nm半导体激光器,高速摄像机为百万像素的Mega Speed MS90K,配备Nikon180 mm的远焦镜头,计算机8G内存,CPU为CORE i7 2.20G,采用MATLAB R2018a进行数据处理。激光照射扬声器表面形成散斑,扬声器距离10 m,循环播放录音“北京电子科技学院”,时长2 s左右,声级范围41~65分贝(图3(a))。

图3 扬声器循环播放时的声级和扬声器表面激光散斑和采样区域Fig.3 Sound level of the loudspeaker during cyclic playback Laser speckle and sampling area on the loudspeaker surface

3.1 语音信号重建及影响因素分析

激光照射循环播放录音的扬声器振动膜,在其不断振动的粗糙表面形成时变的激光散斑,高速摄像机帧率3000 f/s,拍摄一段声音循环周期内的散斑视频。以图1流程提取音频信号,采样区域30×30像素(图3(b)),所有像素灰度构成900维度的列向量,对散斑视频所有帧图像向量堆栈成的数据集进行主成分分析,在主成分空间投影可得到900个新的分量,前面的分量就是主成分。

提取第一主成分并转换为语音信号,重建的语音信号确为扬声器播放语音且可以清晰分辨。分析其他主成分发现,前100个主成分皆可提取出语音信号,只是随着主成分序号增加,高阶主成分分量方差变化减小,所含语音信息明显减少,噪音增大,恢复的语音清晰度明显降低,高于100的主成分分量重建的语音信号人耳几乎不能分辨,原始语音、不同主成分分量提取的语音波形和语谱图比较见图4。对于重建语音信号,这些主成分已没有实际意义,只需要从第一主成分恢复语音信号即可。

图4 原始语音信号及不同主成分分量提取语音信号的波形图与语谱图Fig.4.Waveform and spectrogram of original signal andextraction signal from different principal components

采样区域的像素数量p越大,像素灰度越趋向高斯分布,PCA方法越有效,重建的语音信号质量越好,但p增大也随之导致计算量增加而影响计算效率,同样以时长2 s,3000 f/s扬声器振动膜反射的激光散斑视频为研究对象,采样区域大小分别为5×5、10×10、20×20、30×30,从第一主成分提取语音信号,比较发现随着像素数量增大,语音清晰度越高,但增加到一定程度后,语音清晰度不再有明显变化,而提取时间指数增长(图5)。如果对语音质量没有要求,只为理解语意,5×5像素的采样区域即可满足要求。

图5 不同采样区域第一主成分恢复的语音信号Fig.5 Extraction signals from first principal component in different sampling areas

扬声器作为激光照射的目标物体时重建的语音信号清晰度较高,但对于其他的目标物体,由于材质和厚度不同,相同声波激励下产生微振动的振幅也不同。高速摄像机以3000 fps帧率记录距扬声器5厘米声场中纸巾、A4纸、植物叶片、15 mm石膏板等物体表面的激光散斑视频,利用PCA提取音频信号,采样区域30×30像素,第一主成分恢复的语音信号波形和语谱图如图6所示。

图6 不同材质物体第一主成分恢复的语音信号Fig.6 Voice signals reconstructed by first principal component of different materials

可以看出越轻薄的物体,被声波激励的微振动振幅越大,恢复的语音信号质量越好。即使较厚的石膏板为反射物体,重建后语音信号虽然噪音很大,但语意仍可被理解,由此可见PCA法提取声音的实效性。

3.2 快速语音提取的PCA方法实现

主成分是原始数据在新空间坐标系中的投影,投影基向量是原始数据协方差矩阵的特征向量。由于声波激励的物体微振动振幅一般在微米级别以下,高速激光散斑视频的各帧图像变化很小,人眼几乎无法分辨。可以推断,当原始数据集的样本数量达到某一阈值时,主成分空间的特征向量应该趋于稳定。为了验证这一推断,我们将高速激光散斑视频的前1000、2000、3000、4000帧中的像素采样区域组成数据集,分别提取这些数据集的第一主成分的特征向量,为方便观察,我们降低了维度,采样区域10×10像素(图7)。

图7 不同训练集下的第一主成分本征向量Fig.7.Eigenvectors of first principal component in different training sets

可以发现,四种不同数量样本构成数据集的第一主成分的特征向量变化趋势几乎一致,除1000帧图像样本的特征向量在小范围(如50~60之间)变化趋势相反外,当样本数量大于2000时,第一主成分方向的特征向量趋于恒定,样本数量不再影响主成分的特征向量。由此得到PCA快速提取音频信号的方法,将高速视频开始部分的帧图像作为原始数据集,提取主成分空间的第一特征向量E1,t时刻的图像向量Xt直接向该方向投影,即可得到含有振动信息的主成分分量Yt:

Yt=E1Xt∈

(6)

快速提取流程见图8。

图8 PCA快速音频提取流程图Fig.8 Fast audio extraction process with PCA

为观察样本数量对快速提取语音信号的影响,我们分别以高速激光散斑视频的前1000、2000、3000、4000、5000和6000图像构建数据集,提取第一主成分的特征向量作为投影基,后续散斑图像向该方向投影快速提取音频信号,通过谱减法降噪后重建的语音信号波形图见图9。发现除训练样本数量为视频的前1000帧图像序列时提取的语音略有失真外,训练样本数量只要在2000帧以上都几乎完美的重建了语音信号。由此看出快速提取方法与视频后处理方法得到的语音信号几乎没有区别,都具有很高的清晰度,而快速提取法可以提高计算效率,实时获取音频信号。

图9 不同数量样本图像快速提取音频信号的比较Fig.9 Comparison of audio signals extracted quickly with different numbers of training samples

4 结 论

本文提出了一种基于高速视觉的激光麦克风语音信号提取算法,将PCA用于微振动信息提取。对从高速激光散斑视频中提取语音信号进行了理论分析和实验验证,相比于其他算法,PCA对于激光散斑颗粒大小、采样区域像素灰度分布没有过多限制。该算法流程简单,计算成本低,处理时间短,存在多个可用于提取语音信号的主成分,通常以第一主成分重建的语音信号最为清晰。若只是要求重建人耳可分辨恢复的语音信号,则只需以声源附近的轻薄物体为目标,高速摄像机高于1000 f/s的帧率,采样区域10×10像素即可。基于PCA的无监督机器学习算法特性,进一步提出了选取高速激光散斑视频开始部分帧图像作为训练集,提取含有语音信息的第一主成分分量的特征向量,后续视频帧直接向该方向投影可快速重建语音信号,该方法在远程监听、微振动检测等方面具有实际应用价值。

猜你喜欢

散斑灰度语音
采用改进导重法的拓扑结构灰度单元过滤技术
基于灰度拉伸的图像水位识别方法研究
激光显示中的彩色散斑测量研究
激光投影显示散斑抑制方法研究
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
用于检验散斑协方差矩阵估计性能的白化度评价方法
基于最大加权投影求解的彩色图像灰度化对比度保留算法