基于稀疏分解的音频信号智能识别
2022-09-07刘彦
刘 彦
(青岛市技师学院 山东 青岛 266229)
0 引言
在科学技术不断发展的时代背景下,音频信号识别技术的应用范围逐渐扩大,无论是声音信息检索领域,还是在计算机应用领域,其都发挥着重要价值[1]。针对音频信号识别技术的研究,郑伟哲等[2]提出了一种多尺度注意力融合机制,利用卷积循环神经网络降低声音时频噪声,实现了对声音信号的有效识别,但是其识别精度受时频影响较高,在适用性方面表现出了一定的局限性;孙梦青[3]以数字音频为研究对象,通过音频的时频域信息实现了对乐音的有效识别,但是同样地,其也存在识别效果稳定性较低的问题,当音频中的噪声含量较高时,其识别精度会大大降低;傅靖等[4]建立了基于PRA接口的录音自动识别调度下令系统,通过AVSR双模态语音识别模型去噪原始音频信号,有效提取音频特征,音频识别结果具有较高的精度,但是对于精度要求在50 ms以内的识别要求,难以实现有效满足。通过对上述研究成果进行分析不难看出,受客观环境的影响,声波中的噪声是影响音频识别结果的关键因素[5]。
稀疏分解作为一种在图像和信号处理中得到广泛应用的算法,将其应用到音频信号智能识别,具有巨大的开发空间[6]。稀疏分解可以使信号处理更加简洁化,通过自适应的线性组合行为对信号的特征进行有效提取,使信号剔除噪声干扰影响因素。将稀疏分解的表示形式作为音频信号的表征,通过迭代匹配信号的方式获取最终信号结果,提升音频信号去噪性能。为此,本文提出基于稀疏分解的音频信号智能识别方法研究,并在对比实验测试中分析验证了识别效果的可靠性。借助本文的研究,希望可以为音频信号识别相关领域的研究和应用提供有价值的参考。
1 音频信号智能识别方法设计
1.1 基于稀疏分解的音频信号去噪
考虑到影响音频片段识别精度的主要因素为音频中噪声信号的干扰[7],为此,本文首先对音频进行去噪处理。假设含有噪声的音频信号数学模型为
其中,f表示含有噪声的音频信号,fr表示原始无噪声的音频信号,fz表示噪声信号。
由于原始无噪声音频信号本身是具有特定的结构特征的[8],因此,本文构建了能够与之匹配的过完备原子库,其可以表示为
其中,E(f)表示原始无噪声音频信号的短时平均过零率,sgn 表示符号函数,g表示声压波在声道中共振函数,xi和xi-1分别表示相邻的音频信号序列。
利用式(2)构建的过完备原子库对含有噪声的音频信号进行稀疏分解时,本文主要利用了fr结构特性与E(f)中原子特性的相关性。由于噪声信号结构与E(f)中任一原子不存在相关性,本文对f进行稀疏分解时,E(f)与fr的内积将远远大于E(f)与fz的内积,以此为基础,分解出的原始无噪声音频信号可以表示为
其中,fr1表示在初代系数分解中得到的原始无噪声音频信号,p表示音频信号的脉冲频率,a表示信号的幅度值,sim拟合函数。
在经过一次稀疏分解后,音频信号中仍存在未被分解的原始无噪声音频信号[9]。为了确保稀疏分解结束时能够实现对噪声的完全过滤,本文引入了残差阈值参数作为稀疏分解算法的匹配原子依据。利用残差阈值参数完善过完备原子库的匹配效果,将残差阈值参数作为稀疏分解的终止条件,以此减少选择匹配原子的工作量,提高稀疏分解的效果。过完备原子库最后分解得到的原始无噪声音频信号存在
其中,frn和frn-1分别表示稀疏分解的终止时与终止前一次分解的原始无噪声音频信号,k表示残差阈值参数,该值的大小根据音频信号的识别精度要求设置。通过这样的方式,有效分解音频信号固有的稀疏结构特征,提升多通道的信号去噪效果。在对过完备原子库匹配完成对音频信号的去噪处理,获取音频信号之间的相关性,为后续音频信号起止时刻识别提供数据计算依据。
1.2 音频信号起止时刻识别
在得到无噪声的音频信号后,本文结合高频内容(high frequency content,HFC)实现对音频片段信号起止时刻的识别,根据信号不同频带能量的差异,对其进行差异化赋权。以此为基础,权重值越大,对应的高频分量越多,识别帧为音频片段起始点的可能性就越大。其中,对高频部分进行加权处理的计算方式可以表示为
其中,H(fr)表示加权处理后的高频信号,y(fr)表示音频信号的振幅,wm表示高频信号的权重,d表示频带宽度,m表示高频分量在频带上的分布。
按照这样的方式,以每个高频信号的峰值作为音频片段的起始时刻,当高频信号回落携带能量与其他时刻相同时,则认为此时为音频信号的终止时刻。可能会出现单个的频带携带的能量远远大于其他时刻的情况,此时则表明该时刻为音频信号的起始时刻,对应的,终止时刻的判断与单个高频信号的判断方式一致,由此实现对音频信号起止时刻的准确识别。
2 实验测试
本文将郑伟哲等、孙梦青和傅靖等提出的方法作为测试的对照组,开展了实验分析测试。通过对比4种方法的识别效果,对本文设计音频信号智能识别方法的准确性做出客观评价。
2.1 测试数据准备
为了确保测试数据对于不同识别方法的公平性,本文测试的音频数据为自主录制,按照采样率为40.0 kHz的通过标准,共采集了30组共88个音频信号,形成的数据组分别编号为CSYF001、CSYF002、…CSYF030。在此基础上,采用随机选择的方式取其中一组数据构建多样本字典。在具体实施过程中,分别取88个音频信号的第i帧,所有数据集共同构成样本字典,图1为对音频信号中各帧信号的提取方法。
在上述基础上,本文随机选择了200个音频片段进行实验测试,音频的平均时长为320.0 ms,最长时长为396.0 ms,最短时长为265.0 ms,对应的平均信号帧数数目为722个,最多信号帧数数目为1 006个,最少信号帧数数目为521个。随机选择其中180个音频片段作为训练数据,20个音频片段作为测试数据。在此基础上,统计4种方法对音频片段的测试识别结果。
2.2 测试结果
在上述基础上,测试的20个音频片段中包含信号数量14 400个,其中,中文音频信号数量为9 250个,英文音频信号数量为5 150个。本文对识别结果的分析分别对中文音频信号和英文音频信号的起始终止时刻识别情况3个角度进行,其中,具体的时刻识别情况见表1和表2。
表2 英文音频信号起始终止时刻识别情况统计表
从表1中可以看出,在测试的4种方法中,郑伟哲等方法对中文音频信号起始终止时刻的识别结果误差主要分布在±50~±100 ms之间,其中,误差低于±50 ms的占比为40.75%,但是识别结果误差在±100.0 ms以上的占比达到了13.98%,处于较高水平,表明其识别准确性仍存在一定的提升空间;孙梦青方法的识别结果与之相比有所提升,但是也表现出了同样的问题,识别结果误差在±100.0 ms以上的占比达到了12.30%。傅靖等方法的识别结果中,误差在±100.0 ms以上的占比明显下降,仅为8.99%,对其识别误差的主要分布情况进行分析,误差低于±50 ms的占比与郑伟哲等和孙梦青方法相近,为40.71%,主要误差分布在±50~±100 ms之间,占比达到了50.30%,对本文方法的识别结果进行分析,其中误差在±100.0 ms以上的占比仅为5.72%,误差低于±50 ms的占比达到了51.30%,明显高于3种对比方法。测试结果表明,本文设计的音频信号识别方法可以实现对中文音频信号片段起始时刻的高精度识别。
表1 中文音频信号起始终止时刻识别情况统计表
从表2 的数据结果中可以看出,在4种测试方法中,准确性均出现了不同程度的下降,其中郑伟哲等、孙梦青和傅靖等提出识别方法中,误差在±100.0 ms以上的占比分别达到了18.44%,16.76%和13.35%,均处于较高水平,误差低于±50 ms的占比分别为36.99%,38.25%和36.95%,相比之下,本文方法识别结果的波动性相对较低,其中,误差在±100.0 ms以上的占比为6.94%,仍然在10%以内,误差低于±50 ms的占比为50.15%,同样为测试结果的主要构成。表明本文提出的方法也可以实现对英文音频信号起始和终止时刻的准确识别。
3 结语
传统情况下以人耳为基础的音频信号起始时刻识别方法主观性较强,且识别结果缺乏一定说服力。本文设计了一种基于稀疏分解的音频信号智能识别方法,借助稀疏分解的方式实现对音频中噪声信号过滤,为音频信号的准确识别提供了可靠基础,大大提高了对音频信号起始和终止时刻识别的精度。通过本文的研究,希望可以为音频信号识别或声音识别等相关工作的开展提供有价值的帮助。