基于深度神经网络的电子音乐音质评估研究

2022-11-09刘颖

微型电脑应用 2022年10期

刘颖

(咸阳师范学院，音乐学院，陕西，咸阳 712000)

0 引言

电子音乐是当前音乐领域中的一个主要音乐体系，随着电子乐器与播放器等设备的快速发展，电子音乐内乐器数量显著提升。电子音乐音质评估是判断电子音乐制作水平的主要评价指标[1]。

关于音质评估的研究有:李子晋等[2]以主观感知得分为基础提取出了表征音色的客观音频特征，并对其差值进行计算，得出音色相似性矩阵，实现了音质检测与评估。赵志成等[3]以音乐小节为依据划分了音乐信号,通过音乐信号的部分特征推断整体特征,基于李雅普诺夫指数验证音乐信号中的混沌特性通过检测到的音乐信号特征评估其音质。现有的音质评估方法在使用过程中存在音质评估精度较差的问题[2-3]。

为了改善这一问题，本研究提出基于深度神经网络的电子音乐音质评估方法。考虑电子音乐中最重要的要素为旋律[4]，因此在采用深度神经网络进行音质评估前，需先提取电子音乐主旋律，在电子音乐主旋律基础上分析影响电子音乐音质的各项因子，基于这些影响因子构建深度神经网络，提升最终评估精度。

1 基于深度神经网络的电子音乐音质评估方法

1.1 电子音乐预处理

电子音乐预处理过程由音频采样、归一化、分帧以及时频与变换等过程共同组成。一般情况下，电子音乐高于5 kHz的谐波分量占比较低[5]，因此在对电子音乐实施降采样处理时设定采样率为10 kHz，以此降低后续运算复杂度。电子音乐内音频信号具有短时平稳特性，需选取汉明窗对电子音乐音频信号实施分帧加窗处理，设定每帧信号取样点数量为320个。电子音乐信号时频转换采用短时傅里叶变换。

电子音乐由各个具有一定时值的音符组成，各音符的主要特性表现为具有相对稳定的频谱。这说明电子音乐内各音符在语谱图上为一系列以段间差异显著、段内差异微弱为特征的频谱段。基于此，可选用度量距离算法实施音符分割处理。作为综合数据段间均值与方法的距离度量方法，利用度量距离算法能够确定电子音乐音频段落间的差距。设定数据窗长为5帧，利用式(1)可描述度量距离算法DIS表达式：

(1)

式中，μ1表示前一段电子音乐音频特征的均值矢量，μ2表示后一段电子音乐音频特征的均值矢量，tr(∑1)表示前一段电子音乐音频特征协方差矩阵的迹，tr(∑2)表示后一段电子音乐音频特征协方差矩阵的迹。在2段电子音乐音频间特征均值差异较为显著、段内特征方差较为微弱的条件下，度量距离可描述2段电子音乐音频间距离，两者之间为正比例相关[6]。

采用短时幅度谱确定特征参数。经由依帧滑动数据窗确定关于帧数t的度量距离函数DIS(t)：

(2)

计算DIS(t)内全部的极大值点，设置DIS(t)均值的阈值为T1，删除

考虑电子音乐中既包含浊音段，也包含非浊音段，因此在切分后需利用浊音段检测算法判断浊音段与非浊音段。浊音段的频谱方差显著大于非浊音段，因此在确定电子音乐中浊音段时可采用频谱方差作为特征参数。

通过上述电子音乐预处理过程可有效降低电子音乐旋律定位虚警率，利用度量距离算法实现音符切分，通过方差法确定电子音乐浊音段。在此基础上,利用维特比算法跟踪浊音段主导基频轨迹，同时利用基频辨别模型确定电子音乐主旋律。

1.2 主旋律提取

在确定电子音乐内各浊音段主导基频轨迹后，利用基频辨别模型判断当前主导基频轨迹为主电子音乐还是伴奏，将不属于主电子音乐的基频轨迹删除。

不同的电子乐器有不同的音色与音质，这主要是由电子乐器声音的频谱决定的，也就是由声音基因与不同次谐波的相对强度决定的。

考虑人类听觉特性的梅尔频率倒谱系数是可体现声音谱包络特征的参数[8]，利用神经网络构建基频辨别模型。同时电子音乐声频均包含谐波结构，因此电子音乐频谱具有近似稀疏性，以某段电子音乐为样本，提取其中的主导基频F0，并通过梳齿滤波器采集对应声源的谐波谱，将提取信号的梅尔频率倒谱系数输入基频辨别模型确定对应基频是否为电子音乐声。电子音乐主旋律提取的详细过程如下。

(1) 利用主导基频F0构造出式(3)所示的梳齿滤波器：

(3)

其中,梳齿滤波器频率单位为0～5 kHz，式(3)中K和b(f)分别表示0～5 kHz范围内谐波数量和梳齿滤波器基本波形。

(2) 利用梳齿滤波器对信号幅度实施滤波处理，获取F0对应的谐波谱，并采集其对应的梅尔频率倒谱系数参数。

(3) 将梅尔频率倒谱系数输入基频辨别模型，确定F0是否为电子音乐声基频。

(4) 统计各浊音段内电子音乐基频的帧数，若统计结果大于此浊音段总帧数的1/2，即可确定此浊音段的主导基频轨迹为电子音乐主旋律。

1.3 因子提取

一般情况下，与电子音乐音质具有紧密相关性的因子主要有声源特性、音响器材的信号特性、声场特性、听觉特性、立体感等类型。梁惠恩[9]采用层次分析法分析了电子音乐音质的多种影响因素，计算了不同影响因子的权重，基于该研究结果，确定了电子音乐音质的15个影响因子，在提取出的电子音乐主旋律中选取图1所示的15个影响因子作为电子音乐音质评估模型的建模基础。

图1 影响因子

以确保评估因子间不具有线性相关性为目的，选取方差膨胀因子对图1所示的各项评估因子实施多重共线性检验。通常情况下，在方差膨胀因子高于15的条件下，不同因子对应的方差膨胀因子均低于15，由此充分表现出图1内所选的15个因子间不具有明显的线性相关性，因此可用于电子音乐的音质评估。

以保障深度神经网络正常训练为目的，需引入对照样本。生成与主旋律中样本点一致的随机对照点，将不同因子层内各样本点与对照点的属性值录入数据表内，生成样本集，样本集内各数据均包含图1内的15个因子属性值，将样本集内数据作为深度神经网络的输入数据。

1.4 深度神经网络评估模型构建

深度神经网络模型构建以开源项目Keras人工神经网络库为基础[10]。由于样本数量较少，因此选取包含4层全连接层、总计14层的深度神经网络模型。

图2 深度神经网络模型

图2的全连接层能够与人工神经网络内隐藏层的功能一致，4层全连接层的单元数(输出维度)分别为30、15、7和1。由于训练集内样本数量较少，维度较低，为了提升深度神经网络模型对电子音乐音质影响因子的表达能力，在第1层全连接层内扩展维度，经过3层全连接层后将输出收缩至一个单元的全连接层，输入电子音乐音质评估结果。

归一化层位于2个全连接层间，利用归一化方法对数据实施归一化处理的核心为一致化处理神经网络各层的输出与输入分布，确保各层间数据的分布固定化，防止出现训练速度过慢或过拟合的问题，详细操作过程如下：

激活层的主要功能为利用激活函数激活全连接输出结果。作为非线性的变换函数，激活函数可模拟脑神经元阈值激活特性，将非线性特征引入深度神经网络内，提升模型表达能力。激活层内包含ReLU函数和Sigmoid函数。前者为分段函数，可提升模型收敛速度与网络稀疏性;后者可将回归层的输入映射至[0,1]，主要应用在模型最后一层完成类别评估。经过Sigmoid函数处理后，深度神经网络输出值即电子音乐音质评估值。2个函数的表达式分别如下：

2 实验结果与分析

验证本研究所提方法的实际应用效果，进行实验分析。在互联网内选取500段电子音乐作为测试数据，该数据选自酷我电子音乐排行榜中的前500首电子音乐，该音乐集中的电子音乐的发表时间较新，且具有一定程度的代表性。从该音乐集的每首音乐中截取音乐特征较为明显的部分进行实验。从选取的电子音乐主旋律提取与深度神经网络建模效果两方面分别进行分析，所得结果如下。

2.1 电子音乐主旋律提取

设定电子音乐主旋律提取实验环境：信干比分别为0 dB和10 dB。信干比S/R计算公式如下：

(10)

式中，E1和E2分别表示电子音乐中电子乐器声音的能量和噪音的能量。

以旋律定位查全率、旋律定位虚警率、原始音高准确率、原始色度准确率和整体准确率为评价指标。将文献[2]和文献[3]方法分别定义为对比方法1和对比方法2。对比信干比分别为0 dB和10 dB的条件下本研究所提方法与2种对比方法的各项评价指标，结果如图3所示。分析图3得到，本研究所提方法在信干比分别为0 dB和10 dB的条件下的占比分别为0.09%和0.24%，与2种对比方法相比占比略低。由于本研究所提方法中判断电子音乐主旋律过程中有较低概率将电子音乐旋律判断为噪音，因此本研究所提方法的旋律定位查全率略低于对比方法1。但这种误判概率较低，因此本研究所提方法的旋律定位虚警率明显低于2种对比方法。整体准确率是最主要的评价指标，本研究所提方法在不同信干比的条件下整体准确率分别达到了87.33%和78.5%，高于2种对比方法。综合对比之下，本研究所提方法提取电子音乐主旋律的性能优于2种对比方法。

2.2 深度神经网络建模效果

为验证本研究所提方法中深度神经网络模型的构建效果，对比本研究所提方法和2种对比方法的建模效果。选取AUC值作为不同评估方法建模效果的评价指标。AUC值的取值范围为[0,1]，其值越大表示评估效果越好，其值≤0.5表示模型无法实现分类。

考虑到建模样本较少，因此采用k-fold交叉验证，具体过程如下：将样本集内全部样本任意划分为k份，同时实施k次循环，每次选择第k份样本用于检验，其余样本用于训练。大量研究资料显示10-fold交叉验证可获取更优的效果，因此本研究所提方法采用10-fold交叉验证。不同方法内模型10-fold交叉验证结果如图4所示。图4中，虚线为10-fold交叉验证内各次检验对应的受试者工作特征曲线(ROC曲线)，实线所描述的是10次交叉验证的平均ROC曲线。

图3 电子音乐主旋律提取结果

分析图4得到，本研究所提方法、对比方法1和对比方法2建模的平均AUC值分别为0.918 7、0.8718和0.867 6。本研究所提方法的平均AUC值显著高于2种对比方法，由此说明本研究所提方法建模效果更好。

(a) 本研究所提方法

3 总结

本研究提出了基于深度神经网络的电子音乐音质评估方法，在电子音乐主旋律基础上分析电子音乐音质影响因子，将其作为电子音乐音质评估模型的建模基础，构建深度神经网络模型评估电子音乐音质。实验结果显示,本研究所提方法中深度神经网络具有较好的建模效果，可提升模型应用效果。但本研究仍存在一定的局限性，未考虑到不同音乐类型音质评估的因子，后续研究中可以针对多种音乐类型音质的影响因子进行研究，以进一步提升音质评估技术的全面性。