基于卷积神经网络的电子音乐辨识模型

2021-12-09胡淑娟

微型电脑应用 2021年11期

胡淑娟

(仙桃职业学院教育学院, 湖北仙桃 433000)

0 引言

网络技术的快速发展令互联网中产生大量视频与音频等多媒体数据[1]，电子音乐为网络上最为普遍的多媒体音频。电子音乐辨识作为音乐信号处理的核心问题之一，在歌曲识别、音频匹配与推荐等方面均具有关键作用。针对网络数据的海量性特性，研究一种可在海量音频中准确快速地获取感兴趣的电子音乐是当前音频识别领域中的热点研究问题。

文献[2]提出一种双向卷积神经网络的音乐识别模型。该模型构建双向卷积神经网络结构，提取音乐细节特征，将细节特征合并成一维特征向量。但该模型无法去除电子音乐内的噪声含量。文献[3]提出一种直接利用视音频特征进行识别的算法，该算法融合BoW、GIST、颜色矩特征、颜色直方图和音频特征进行识别，但该方法无法分辨电子音乐类型，辨识精度较低。

针对当前普遍使用的音频辨识变模型无法分辨电子音乐类型，辨识精度较低等难题，设计基于卷积神经网络的电子音乐辨识模型，并通过实验验证该模型的实际应用性能。

1 基于卷积神经网络的电子音乐辨识模型

1.1 电子音乐信号预处理

依照信号理论能够得到[6]，电子音乐信号的谐波成分在谐波矩阵A上仅分布在分散的数个频率成分上，同时在时间尺度上电子音乐存在显著的重复性，由此得到矩阵A存在内在的低秩特征，也就是电子音乐和弦波信息分布在低维子空间内[7]。电子音乐非谐波成分E矩阵内聚集各种不同类型噪声，由于不同类型造成变化的频繁性存在一定稀疏特性[8]，基于此可利用秩函数构建谐波成分模型，利用零范数构建稀疏噪声模型。由此可将灰度低秩矩阵定义为一个双目标优化问题，描述为式(1)。

(1)

在式(1)内引入大于零的折中因子λ，由此以单目标优化问题替代式(1)所示的双目标优化问题,如式(2)。

(2)

式中，多描述的优化问题实质上是1种多项式复杂程度的非确定性问题，基于此，需确定合适的可取代秩函数与零范数的函数。以确保优化问题整体具有全局最优解为目的[9]，要求确定取代函数为原函数凸包络。而矩阵的核范数表示矩阵内全部奇异值相加的结果，可理解为是矩阵秩函数的凸包络，矩阵内非零元素相加的结果可利用矩阵的1范数表示，一般情况下可经其作为矩阵的稀疏算子，即0范数的凸包。基于此可将式(2)所示的单目标优化问题转化为式(3)所示的凸优化问题。

(3)

式(3)所示的凸优化问题可通过增广拉格朗日乘子法解决，由此能够获取最优解电子音乐谐波信息矩阵A，其为电子音乐原始信号频谱重建后的谐波频谱。重建后的谐波频谱内可分离稀疏噪声，并重建了频谱的低秩信息，由此可知，频谱矩阵A内具有一定鲁棒性。将去除噪声后的电子音乐文件制作成波形图，利用卷积神经网络实现电子音乐辨识。

1.2 基于卷积神经网络的辨识模型构建

1.2.1 典型卷积神经网络

输入层、卷积层、下采样层、全连接层标和输出层共同组成标准卷积神经网络[10]。

卷积层与下采样层结合是卷积神经网络提取目标特征的主要结构[11]，将去除噪声后的电子音乐频谱波形图作为输入层输入信息，可用T表示。以Xi表示卷积神经网络第i层的特征(X0=T)。在Xi为卷积层的条件下，描述为式(4)。

Xi=f(Xi-1*Ki+bi)

(4)

式中，Ki和bi分别表示可训练的卷积核和偏置量；*和f(x)分别表示卷积运算和激活函数。

使用较为普遍的激活函数有sigmoid函数、tanb函数以及ReLu函数等[12]。综合考虑不同激活函数性能，选取ReLu函数作为卷积层激活函数，描述为式(5)。

f(x)=max(0,x)

(5)

ReLu函数的主要优势主要体现在其可令卷积神经网络部分神经元输出为0，由此令卷积神经网络产生稀疏选性，降低计算过程的复杂性；同时ReLu函数可显著提升卷积神经网络的分类能力，降低参数间的依赖性，在一定程度上改善卷积神经网络过拟合问题；ReLu函数的导数仅为1或0，可改善卷积神经网络误差反向传播过程中的梯度消失问题。

下采样层对卷积层获取的各特征图内n×n区域的像素实施采样处理，降低特征图尺寸。普遍使用的采样处理过程可分为上限值采样与均值采样[13]。在Xi表示下采样层的条件下，上限值采样与均值采样表示为式(6)、式(7)。

Xi=f(WiPmax(Xi-1)+bi)

(6)

Xi=f(WiPmean(Xi-1)+bi)

(7)

式中，Pmax(x)和Pmean(x)分别表示上限值采样操作和均值采样操作;Wi和bi分别表示取值与偏置值。

下采样层的主要功能是以保留原始特征信息为基础，进行特征图降维处理，防止出现维数灾难，提升变形鲁棒性；同时利用下采样层还可压缩特征图，令计算过程难度下降。

通常情况下，全连接层处于卷积层、下采样层同输出层之间，可将其定义为一个同浅层神经网络功能相似的多层感知机，其主要功能是将分布式特征表示映射至样本标记空间内，并在卷积神经网络模型表示能力迁移过程中发挥防火墙功能[14]。

输出层为一个解决多分类问题的分类器，采用由Logistic回归模型在多分类问题方面演化处的Soft Max分类器。考虑Logistic函数仅可实现二分类功能，因此Soft Max分类器在继承Logistic函数回归的基础上，通过多项Logistic回归完成多分类任务。用y表示Logistic回归内的多分类标签，其取值范围为不小于2，训练样本集合为k个被标签的样本，描述为式(8)。

T={(x1,y1),(x2,y2),…,(xk,yk)}

(8)

式中，yi∈{1,2,…,k}和xi分别表示分类标签与样本集合。

j表示不同电子音乐类型，判断j的概率值，表示单个电子音乐频谱波形图归为第k类标签概率的表达式为式(9)。

P(y=j|x)(j=1,2,…,k)

(9)

式中，能够表示回归样本集合转换为k维度的概率向量，概率向量的函数为式(10)。

(10)

(11)

式中，1{yi=j}表示若yi=j，则两者均为1，相反两者均为0。损失函数迭代次数的提升可优化Soft Max分类器参数[15-16]，提升参数准确定，实现不同电子音乐频谱波形图样本的准确辨识。

1.2.2 卷积神经网络优化

标准卷积神经网络对图像进行一层层的映射，直至最后只将输出层作为特征提取结果[17-18]，这一过程中在中间层丢失大量关键图像特征，降低辨识精度。针对这一问题，结合层间特征融合思想，在输出层输出特征提取结果过程中输出输入图像在卷积神经网络内每一层的映射结果，选取主成分分析法对提取的全体输出特征实施降维处理，将其融合为多层深度特征。同时，在下采样过程中将上限值采样与均值采样相结合，即利用混合采样的方式充实采样层的多样性。利用混合采样模式能够同时得到上限值采样与均值采样获取的特征值[19-20]，得到更为丰富的图像，提升卷积神经网络辨识的稳定性，混合采样模式的表达式为式(12)、式(13)。

(12)

Xi=f(WiTi+bi)

(13)

基于特征提取方式的优化能够改善标准卷积神经网络中单一输出层与采样层特征提取不全面的问题，可充分提取电子音乐频谱波形图的特征并实现特征融合，提升卷积神经网络辨识性能。

利用反向传播算法进行卷积神经网络训练，卷积神经网络经由正向计算与反向传播过程，持续优化权值与阈值，令自身均方误差函数持续下降，以满足卷积神经网络训练需求。

2 实验结果与分析

实验为测试本文设计的基于卷积神经网络的电子音乐辨识模型对于电子音乐辨识的性能，选取国际音频检测赛事中所有数据的音频数据集为实验对象，其中包含220首电子音乐(采样率与比特率分别为10 080 Hz和16 bits)。将实验对象内全部电子音乐手动标记的标签文件作为实际标签文件，将这些标签文件作为测试数据的生成依据以及本文模型电子音乐辨识结果的对比依据。

2.1 电子音乐预处理效果测试

利用本文模型对实验对象内的电子音乐进行预处理，研究对象中编号为22号的电子音乐预处理结果如图1所示。

分析图1得到，采用本文模型对研究对象进行预处理后，研究对象频谱波动更为平滑，这是由于本文模型中重建研究对象信号频谱内谐波信息，去除研究对象信号频谱内的噪声，对去噪后的研究对象进行辨识，可提升本文模型辨识结果。

(a) 预处理前

(b) 预处理后图1 研究对象预处理结果

2.2 模型训练过程测试

将研究对象内全部220首电子音乐分为两部分，分别定义为训练样本集和测试样本集，各样本集内电子音乐数量分别为160首和60首。在本文模型中输入训练样本集进行训练，本文模型训练过程如图2所示。

图2 模型训练过程

分析图2得到采用本文模型辨识研究对像过程中，卷积神经网络初次迭代时，本文模型拟合误差为0.067。随着本文模型迭代次数逐渐上升，本文模型的拟合误差呈逐渐下降状态。本文模型迭代次数提升至30次时，本文模型的拟合误差下降至0.01。在本文模型迭代次数上升至100次时，本文模型的拟合误差下降至0.008。随着本文模型迭代次数持续上升，本文模型的拟合误差保持在0.008，由此说明本文模型具有较快的训练效率，即本文模型具有较快的辨识效率。同时由图2可知，随着本文模型迭代次数逐渐上升，本文模型的拟合误差呈逐渐下降状态，拟合误差越小，表明拟合精度越高。这是因为利用Soft Max分类器优化迭代过程，使得损失函数迭代次数的提升可优化Soft Max分类器参数，进一步提升参数准确率。且ReLu函数可显著提升卷积神经网络的分类能力，降低参数间的依赖性，在一定程度上改善卷积神经网络过拟合问题，迭代次数的提升可进一步提升拟合精度。

2.3 不同方法下识别结果

为验证本文模型的有效性，将文献[2]模型和文献[3]模型作为对比对象，不同方法辨识结果如图3所示。

图3 不同模型辨识结果

分析图3得到，相比文献[2]模型和文献[3]模型，本文模型对测试样本集内各测试样本进行辨识，所得辨识率均高于98.5%，由此说明本文模型能够准确辨识测试样本，具有较高的辨识率。

2.4 模型采样方式对辨识率的影响

为研究模型下采样层不同采样方式对模型辨识率的影响，在本文模型其他条件完全一致的条件下，对比下采样层采用上限值采样、均值采样和混合采样时本文模型的辨识率如图4所示。

图4 不同采样方式下模型的辨识率

分析图4，本文模型采用上限值采样方法、均值采样方式和混合采样方式进行研究对象辨识的运行时间差距较小，低于2 s。说明不同采样方式对本文模型的辨识效率的影响并不显著。但本文模型采用混合采样方式进行辨识的辨识率均值达到98.5%，显著高于采用上限值采样与均值采样时的辨识率。由此说明混合采样方式可提升本文模型辨识率。

3 总结

本文设计基于卷积神经网络的电子音乐辨识模型，在电子音乐信息预处理后，利用优化后的卷积神经网络辨识电子音乐。实验结果显示本文模型能够准确辨识电子音乐，且具有较快的效率。在后续优化过程中主要针对如何利用多尺度池化的理念进一步优化卷积神经网络，令本文模型在保障辨识精度与效率的基础上，能够接受任意尺寸的输入图像。