APP下载

基于时频域信息提取的数字音频乐音识别仿真

2021-11-17孙梦青

计算机仿真 2021年7期
关键词:数字音频频域乐音

孙梦青

(华北水利水电大学,河南 郑州 450000)

1 引言

计算机科技和网络科技在高速发展,数字音乐信息的信息量也随着不断增大,用户对数字音乐信息的需求也日益增长。互联网的发展使人们越来越方便快捷的接触到了数字媒体,对娱乐产品也提出了更高的要求,数字音频的获取变得更加容易。如何从海量的数字音乐中快速获取蕴含着用户所需情感与较高音质的音乐,已成为当前待解决的问题之一。

文献[1]提出一种音式阶的合理性模识别方法。首先根据频率域和时间域确定转录音符,通过谐振滤波器获得瞬时频率与中心频率之间存在的差值,在此基础上引入频谱图、谱平滑性和调和性估计建立HMM模型。再利用对阈值的合理运算,完成数字音频的识别与校对。该方法识别能对数字音频进行识别,但是该方法对乐音处理信号量杂乱无序现象不具有改善作用,无法完成音式阶有效识别。文献[2]提出一种基于鲁棒音阶特征和测度学习SVM的音乐和弦识别方法,能够降低人声对和弦进程的影响,且恢复和弦所对应的谐波信息。对频谱中和弦相对应的谐波信息和人声信息建立模型,构建双目标优化问题,使和弦所对应的谐波信息进行有效重建,同时去除人声。对谐波信息进行降维处理,获得鲁棒性的音阶轮廓特征。运用测度学习的方法得到马氏距离,再将其进行合理替换,促使支持向量机的判别函数包含有数据的空间分布信息,现实和弦识别的目的。该方法对音频信号的杂乱现象有的很好的抑制作用,但是音符识别效果不理想。

上述两种方法在对音频进行提取时的准确率较低,不能够很好的去除干扰。此次研究方法通过数字音频标准音的匹配滤波器,进行去噪处理,根据Goertzel算法将离散谱线能量归一化处理,从而在更大程度上实现乐音的高效识别。

2 数字音频时频域信息提取

电子乐器数字接口与音乐乐谱文件中均不具有真实的声音数据,所以能将音乐文件作为字符串做进一步处理[3]。但在部分格式的音乐文件中存在少许真实的声音数据,需对其进行信号分析,提取相应特征并进行处理。

基音作为语音信号中较为重要的一部分,是根据声音信号中声源振动形成的周期性特征,基音周期所描述的是声源振动频率的倒数。音频信号中基音的高低与音频文件中音调的高低是相互对应的,因此对其进行特征提取极其重要[4]。

音频信号的主要特征分别是时域特征与频域特征两部分。时域特征能够对时域波形进一步处理分析,从而获得时域参数,其中具有短时平均能量、过零率以及线性预测系数等。

短时平均能量作为在较短音频信号帧内的采样点信号聚集,以此作为平均能量,它会随时间的增长而增加,可以准确的展现出信号在时域中的主要特征,其表达式为

(1)

在式(1)中,x(n)所描述的是音频信号帧内存在的第n个信号值,w(n-m)所描述的是长度为N的窗口函数,t所描述的是信号时域取值。

信号过零次数所描述的是信号幅度值由正变负或由负变正的次数[5]。短时过零率是指短时段内信号通过零值的次数,其表达式为

(2)

在式(2)中,x(n)所描述的是第m个音频信号帧内的第n信号值,w(n)所描述的是长度为N的窗口函数。在x(n)≥0的情况下,那么sign[x(n)]=1,若与其相反,那么sign[x(n)]=0。

线性预测系数能将有限参数的数学模型进行线性近似作为音频信号x(n)(1≤n≤N),其参数作为x(n)的有效特征,x(n)作为模拟音频信号x(n)的数学模型,其表达式为

(3)

在式(3)中,x(n-N)所描述的是音频采样时的信号,P所描述的是模型的阶数,{ak}所描述的是线性预测系数。运用延时信号采样值进一步实施加权处理,并叠加生成音频信号序列x(n)(1≤n≤N)。线性预测系数能够准确地呈现出音频信号不同的变化,可以作为通用的音频信号特征。

频域特征主要根据音频信号实施傅立叶转换,然后将原始信号转变至频域后[6]。再对其中所包含的数据信息进一步分析,从而提取到准确、有效的频域参数。其中具有能谱特征。平均功率、功率谱以及熵特征等。

熵特征作为度量音频信息复杂程度的重要标准,其表达式为:

(4)

在式(4)当中,M(i)所描述的是将音频帧额频带进行区分,使其成为N个频率子带后,其中的第i个能量。

Mel作为成立在傅立叶转换和倒谱分析的情况下的系数。音频帧信号通过傅立叶经转变后,之中的频谱宽度是音频采样频率的二分之一。合理将其进行划分,将整体频带分割成N个子带,并运算出其中的总体能量,从而生成短音频帧的N个Mel系数[7]。通过上述公式能对时频域信息进行有效提取。

3 数字音频乐音识别

3.1 临近半度音阶的频率比值

在一段音频中,出现一组连续的乐音,可以判断其是依据大部分高低不同的音符按照时间顺序组成的。音符的频域主要是根据基音频率与泛音频率形成的,其中基音频率能够准确判断乐音的声线高低,泛音频率能够准确判断声线的音色。泛音是根据基音频率的各个整数倍频率形成的,两者间存在的谐波幅度比不发生改变[8]。因此,采用合理的方式运用音符的特定频谱特性,可以较好的完成对音频的有效识别,其具体算法如图1所示。

图1 音频识别算法

乐音信号通常作为一种状态不稳定的信号,其处理方式也与传统处理方法大不相同。但它可以保证在较短时段内的频谱特性趋于稳定,从而得出其具有短时平稳的特性[9]。

十二平均律通常被称为1/12的倍频程,能对音阶进行有效分割,一个频程的音高为八度音,然后把频程划分为12个半度音阶,在乐音符合十二平均律的基础上,用数学表示为:每2个临近半度音阶的频率比值为2的1/12次方,其表达式为:

(5)

式(5)作为临近半度音阶的频率比值。

3.2 数字音频标准音的匹配滤波器

伴随网络信息科技的快速发展,数字化音乐也随之大量增加,如何对其进行有效识别十分重要。首先将数字音频标准音通过匹配滤波器进行转化,去除干扰。大幅度提高音乐制作效率,同时确保了音乐的品质和效果[10]。

根据Goertzel算法可以获得整体数字音频的标准音,以及较多基音频率基础上的频谱幅度值。利用C4#信号的标准音绘制的离散频谱,如图2所示。

图2 离散频谱

(6)

最终,将序列翻转过程中转换成M=26路分支的标准音匹配滤波器,与26个标准音模板相对应。在该过程中,根据n=0,1,…,N-1、j=1,2,…,M,得出滤波器的单位冲击响应表达式即

hj[n]=Sj[N-1-n]

(7)

通过式(6)、式(7)得出,匹配滤波器能够高效地对数字音频中冗余噪声处理,去除外界因素的干扰,使音质更加生动、悦耳。

3.3 基于频谱关联性的识别方法实现

当所输入的数字音频信号通过时域管理后被划分成多个单音信号,此信号再根据Goertzel算法合理运算后得出离散频谱序列,再依次经过M=26路分支的标准音匹配滤波器[12]。卷积后的序列中心点n=N-1进一步实施采样和输出,并以此代表信号之间相互关联的度量,将采样所得的最大数值路匹配滤波器相互对应的音符进行有效输出,并以此作为输入信号的接收与识别,基于此得出的采样输出结果如式(8)所示

Si[n]*hj[n]|n=N-1=rij[0]

(8)

从式(8)中可知,将采样输出的整个过程进行相关运算,并以此作为输入信号和数字音频标准音信号的频谱,两者间的相互关联内容的度量。故将此相关性度量称之为检测乐音与识别乐音的凭据。

Si[n]所描述的是输入单音信号Xi(t)的离散频谱序列,当ri是Si[n]通过Xi(t)相对应的标准音匹配滤波器处理后的采样输出值,rj所描述的是Si[n]通过其它标准音匹配滤波器处理后i≠j的采样输出值,将离散谱线能量归一化,那么可得出以下公式为

(9)

在经过归一化处理后,所输入的单音信号频谱与标准音频谱两者之间存在相互关联性,可以实现对数字音频乐音的识别。

4 实验与分析

为了验证基于时频域信息提取的数字音频乐音识别方法的音符识别准确率和抗干扰效果,将研究方法设置为实验组,将文献[1]、文献[2]方法作为对照组,在相同的实验环境下进行对比实验。

4.1 实验环境设置

实验涉及的参数如下:

表1 实验参数设置

将英国传统儿歌《Twinkle Twinkle Little Star》的《小星星》中 12 个单音符音乐片段作为实验样本,并对源音乐进行数字频谱音符提取。图3是源音乐的信号波形,横坐标表示的是音频数据信号点,纵坐标表示经过归一处理的信号幅值。

图3 数字频谱音符提取结果

4.2 音符识别准确率

为了得到研究方法的音符识别性能,在仿真中,首先设置两个匹配阈值,分别为能量高阈值和能量低阈值,再运用研究方法分别对两者相互对应的音乐起点与终点的音符进行检测。检测准确率越高,对音符的识别精度越高。在能量中,阈值将作为平均能量,数值取值为1,高阈值的取值为0.4,之间的距离取值范围是1.2~0.1。低阈值的取值为0.15,之间的距离取值范围是0.95~0.1。

针对数能量而言,其中的阈值也将作为平均能量,数值取值为1。高阈值的取值为0.9,之间的距离取值范围是1~0.02,低阈值的取值为0.85,之间的距离取值范围即0.95~0.02。能量阈值与数能量阈值的最佳参数及相应的音符识别准确率如表2和表3所示。

表2 能量最优阈值和总准确率

表3 数能量的最优阈值和总准确率

从表2和表3中能够看出,运用研究方法对能量阈值相对应的音符识别准确率高于80%,数能量阈值对应的音符准确识别率高于85%。可以得出,研究方法的音符识别准确率高,是因研究方法充分利用了音符的泛音分量,进而增加了检测结果的可靠性。

4.3 不同方法去噪效果对比

为了验证研究方法音频去噪效果,基于上述实验环境,与对照组进行音频去噪对比实验。在实验样本中选取连续的40个音频采样点,幅度波动越小,说明去噪效果越好。具体实验结果如图4所示。

图4 不同方法音频识别效果

从图4的音频识别结果图来看,文献[1]、文献[2]方法的音频识别幅度波动范围较大,且波形较不稳定;而研究方法的音频识别幅度较小,介于-5~5/V,且波形较为稳定。说明研究方法较传统方法去噪效果好,音频识别稳定。是因研究方法通过匹配滤波器对数字音频进行转化,能较好地去除干扰,所以音频识别效果好,为音频乐音识别提供了有利依据。

综合上述实验结果可以得出基于时频域信息提取方法音频识别的准确率更高,并且具较强的抗干扰性能。

5 结论

音频信号识别在音乐数据库检索技术和计算机自动谱曲等多个领域中都具有较高实用性。此次研究方法首先对乐音信号进行时频域信息提取,并且采用Goertzel算法获得整体数字音频的标准音,在通过匹配滤波器进行进一步处理,能够有效去除外界因素干扰以及在运算时的复杂度。实验证明,研究方法能有效提高有音无音在识别准确率,且精确度高,具有良好的抗噪性能和优质的鲁棒性。

猜你喜欢

数字音频频域乐音
乐音疗法与疗养康复效果的相关性研究
基于体域网技术的数字音频实时传输系统设计
那一刻
一种海上浮式风电基础频域动力响应分析新技术
一段乐音的“诞生”
智慧农业物联网节点故障处理分析
数字音频技术在广播电视工程领域中的应用
计算机网络技术在电子信息工程中的运用
用心聆听学会区分
两种常用漂浮式风力机平台动态特性分析