APP下载

基于CGABC-SVM 的多特征融合音乐分类算法研究*

2023-08-02韩彬彬王义军

计算机与数字工程 2023年4期
关键词:蜜源特征提取正确率

韩彬彬 程 科 王义军

(1.江苏科技大学计算机学院 镇江 212000)

(2.中铁隧道集团三处有限公司 深圳 518051)

1 引言

近年来,电子音乐的发展达到了一个前所未有的高度,拥有了更加便捷的传播途径和良好的储存媒介。通过对电子音乐进行合理且有效的分类,可以使用户能快速搜索到喜欢的音乐,也使音乐推荐系统能进行更加精准的推荐。设计出能准确识别音乐类别的模型可以取代大量的人工标注工作,具有十分重大的意义。目前在众多对音乐分类方法的研究中,主要可以分为两个方面:音乐特征提取和分类模型选择。传统的音乐特征可分为韵律学特征[1]、音质特征[2]、基于谱的相关性特征[3],单一的特征具有音乐信号表达不准确的问题。在分类器方面,神经网络和极限学习机属于经验风险算法,对训练样本要求较高,而且容易出现过拟合或欠拟合。SVM 对样本要求较低,但是参数很难确定,会直接影响分类精度[4~6]。

本文提出了一种基于CGABC-SVM 的多特征融合音乐分类方法:提取四种不同类型的特征组成多特征融合矩阵,使用交叉全局人工蜂群算法来优化SVM 的参数,构建CGABC-SVM 分类模型。结果表明,本文提出的分类方法的准确率优于对比音乐分类方法。

2 音乐特征提取及融合

2.1 基频特征

基频即基音频率,是韵律学特征中一个非常重要的特征参数,可以反映出演唱环境、情绪状态等信息。常见的特征提取方法有自相关函数法、平均幅度差法、线性预测法等[7~8]。本文采用自相关函数法提取基频特征,短时自相关函数的定义如式(1)所示。

式中:xi(m)为第i帧语音信号,N为帧长,k为时间延迟量,Ri(k) 为第i帧自相关函数值。

2.2 共振峰特征

共振峰特征属于音质特征,其产生和共鸣物理结构有关,可以很好地反映出音乐片段中的情感信息和节奏信息。本文采用线性预测分析方法(LPC)[9]来提取共振峰特性。其传递函数如式(2)所示。

式中:G为增益,p为输出线性组合的个数,ai为线性预测系数。

2.3 MFCC(梅尔频率倒谱系数)

梅尔频率倒谱系数(MFCC)是根据人耳听觉原理提出的一种基于谱的音频特征参数[10]。相比其他音频特征,具有高辨识率、强抗噪性、鲁棒性好等特点。MFCC利用的是在1000Hz以上时,人耳对声音的感知与频率成非线性关系。这种非线性关系,可以用式(3)来近似表示。

式中:f为频率,单位为Hz。关于MFCC 的具体计算流程如图1所示。

图1 MFCC特征提取流程

Mel 滤波器组由m 个三角滤波器组成,其频率响应定义如式(4)所示。

式中:m为滤波器数量,(f)

m为第m个滤波器的中心频率[11],其中。

2.4 RASTA-PLP(相对谱-感知线性预测)

感知线性预测(PLP)是将临界频带、强度响度转换、等响度预加重相结合,进而提取音频相关信息。传统的PLP 特征在提取过程中会出现频谱变化较快的问题,在临界频带分析之后加入低端频率非常低的带通滤波器进行滤波就可抑制这种快速变化[12]。相对谱-感知线性预测的提取流程如图2所示。

图2 RASTA-PLP特征提取流程

本文选用Log-RASTA 滤波器,其传输函数如式(5)所示。

2.5 多特征融合

在音乐分类中,单一音频特征具有音乐信号表达不完整的问题。本文提取四种特征进行多特征融合,将各个特征提取结果分别进行归一化处理,再以列向量的形式进行组合,构建多特征融合矩阵,从而实现对音乐信号更加全面的描述,具体如表1所示。

表1 音频特征参数

其中,基音频率属于音乐的韵律学特征,提取其最小值、最大值、极差、平均值、标准差、平均绝对斜度、上四分位数、中位数、下四分位数、内四分极值,共10 维。共振峰属于音质特征,选取前三个共振峰的平均值、中位数、变化范围、均方差、平均变化率,共15 维。MFCC 和RASTA-PLP 属于基于谱的相关性音频特征,MFCC特征由MFCC系数、一阶差分参数、二阶差分参数和帧能量构成,共40 维;RASTA-PLP 特征由频谱相关系数和倒谱相关系数构成,共30维。

多特征融合相比于单特征提取,可以更加全面地描述音乐信号,进而提高音乐信号分类准确率。

3 基于CGABC-SVM的音乐分类模型

3.1 支持向量机

支持向量机(Support Vector Machine)是由Vapnik 等提出的一种基于监督学习的非参数化数据分类器,在小样本、非线性、高维空间中具有较好的分类性能[13]。SVM的目标是找到一个超平面,使输入的数据能最大化地分离,从而实现对数据的精确分类。

在音乐信号分类中,SVM 也得到了广泛的应用。因为音频特征数据属于比较复杂的非线性分布,所以不能在低维度找出一个线性的边界,而是需要把数据从低维度映射到高维度,再找出合适的边界进行音频数据的分类。从低纬度到高维度的映射过程可以通过向量积的方式来实现,计算两向量积的具体方法称之为核函数[14]。在非线性分类下,SVM的约束优化问题可以转化为如式(6)所示。

分类函数如式(7)所示。

式中:αi为拉格朗日乘子,C为惩罚因子,b为阈值,K(xi,yi) 为向量内积。本文选用的核函数是高斯径向基核函数,它可以把特征数据映射到无穷维,表达式如(8)所示。

式中:δ为径向基宽度。

由上述公式可以看出,惩罚因子C和核函数径向基宽度参数δ的选取对SVM 分类器影响很大,可以直接影响到分类精度。

3.2 基于交叉的全局人工蜂群算法

选用合适的寻优算法寻找使分类效果较好的参数对(C,δ),然后利用此参数对构建SVM 分类模型,可以有效地提高分类精度。文献[15]提出了采用人工蜂群算法(ABC)优化SVM 的控制参数以提高分类正确率的方法。

人工蜂群算法(ABC)是一种群体智能模型,模仿采蜜时不同种类的蜜蜂之间,根据分工不同进行不同的活动,最终找到最优蜜源,也就是最优解[15]。但是,传统的人工蜂群算法也存在着一些问题,比如在进行寻优过程中,容易造成局部最优解,导致出现“早熟”现象。针对这一现象,可以使用基于交叉的全局人工蜂群算法(CGABC)来寻找最优解,其核心思想是将遗传算法(GA)和人工蜂群算法(ABC)相结合,在人工蜂群算法的寻优过程中引入种群的交叉算子,在一定程度上提高蜂群的多样性,进而提高算法的全局搜索能力[16~18]。

遗传算法中的交叉操作是利用遗传学原理,通过个体间进行基因交换、重组,形成新的个体,将父代的优秀基因遗传给子代,这样可以在一定程度上提高算法的寻优能力。本文使用二项交叉的方式,交叉操作如式(9)所示。

式中:cr为交叉系数(取值一般为0.3~0.6),为全局最优解,β为随机值(0~1.5)。

每一个分量会产生一个0~L之间的随机数rand,若rand小于cr,则接受目标对应的分量,否则保留当前对应的分量。选择合适的交叉系数后,通过上式可以避免迭代过程中出现提前收敛的情况,提高算法的寻优能力和开发能力。

3.3 CGABC-SVM 模型

本文采用交叉全局人工蜂群算法(CGABC)来优化SVM 中的参数对(C,δ),构建CGABC-SVM 分类模型。设置SVM 中的参数对(C,δ)为蜜源,音乐信号分类的正确率作为算法的适应度函数值,利用CGABC 找到最优解(C,δ),在此基础上构建SVM分类模型,实现对音乐类型的准确判别。具体的流程如图3所示。

图3 CGABC优化SVM 参数流程

1)初始化算法参数和蜜蜂种群信息。

2)设定CGABC 算法的适应度函数值为SVM模型的分类正确率。

3)开始迭代过程,采蜜蜂根据已有蜜源的位置进行邻域搜索,寻找新的蜜源位置,计算公式如(10)所示。

式 中:i,k∈1,2,3,…,N和j∈1,2,3,…,D,φij=rand(-1,1)。当采蜜蜂找到新的蜜源后,会根据蜜源的适应度利用贪婪原则选择较好的蜜源。

4)采蜜蜂邻域搜索结束后,按照式(9)与当前最优蜜源采用二项交叉的方式进行交叉操作,然后根据贪婪原则选择新蜜源。

5)观察蜂计算蜜源被选择的概率,如式(11)所示。

式中:N为蜜源的数量,fiti为蜜源i的适应度。同时观察蜂变为采蜜蜂进行邻域搜索,将搜索结果按式(9)与当前最优蜜源采用二项交叉的方式进行交叉操作,然后根据贪婪原则选择新蜜源。

6)如果蜜源到达一定的开采次数之后,适应度仍然没有提高,就放弃该蜜源。相应的,采蜜蜂会变成侦察蜂,侦察蜂通过式(12)搜索新的可能蜜源。

式中:φ=rand(-1,1),和是第j维的下界和上界。

7)记录当前最优蜜源,判断是否达到迭代停止的条件,是则执行步骤8),否则执行步骤3)。

8)利用得到的最优蜜源(C,δ) 建立SVM 分类模型。

4 实验结果与分析

4.1 实验流程

基于CGABC-SVM 的多特征融合音乐分类流程为:首先,将音乐样本分为训练样本和测试样本两类,并对其音乐信号进行多特征提取并融合为95 维的特征向量;然后,利用交叉全局人工蜂群算法来优化SVM 中的参数对(C,δ),结合训练样本的特征参数建立音乐分类模型。具体流程如图4 所示。

图4 基于CGABC-SVM的多特征融合音乐分类流程

4.2 实验数据

为了测试基于CGABC-SVM 的多特征融合音乐分类方法的效果,本文选择不同种类的电子音乐作为实验对象。实验使用的所有音乐训练集和测试集均是在网易云音乐平台根据音乐类别标签下载的,格式为MP3,先把MP3 格式的数据转化为wav 格式,再进行多特征提取、融合。音乐片段被标注为摇滚、民谣、轻音乐、爵士和乡村五个类别,各类别的训练样本和测试样本数量如表2所示。

表2 实验数据集

4.3 实验结果

采用基于CGABC-SVM 的多特征融合音乐分类方法对表2 中的数据进行训练和测试,得到的结果如表3 所示。由表中数据分析可得,在所有的测试集中,音乐信号分类的平均正确率为87.81%,其中分类效果最好的是民谣和轻音乐两类音乐,正确率分别达到了90.48%和92.38%,分类效果最差的是乡村音乐,正确率仅达到了78.51%。

表3 分类结果

为了能深入分析模型的分类结果,本文根据实验结果统计得到了五种音乐类型各自的分类结果混淆情况,具体数据如表4所示。表中元素aij表示标签为i的音乐样本集经过本文方法分类后被判定为类别j的样本数量,通过表中结果可以很直观地看出音乐片段在分类过程中产生的部分混淆情况。根据表4 中混淆数据可以猜测乡村音乐分类正确率较差的原因可能是因为其本身的音乐风格与其他类型音乐有很多相似之处,导致其测试集的6.67%和7.62%都被误判为了民谣和爵士。

表4 分类详情

4.4 分类方法对比

为了测试基于CGABC-SVM 的多特征融合音乐分类方法的优越性,采用相同的实验环境和数据,设计单一音频特征、融合特征分别与CGABC、ABC、PSO 优化参数以及默认参数的SVM 模型相结合,一共八组对比实验,具体对比结果如表5和图5所示。

表5 准确率对比

图5 各分类方法对比

由表中数据分析可得,在各种分类模型中,使用单一音频特征(MFCC)得到分类模型的正确率平均要比使用多特征融合得到的分类模型低3.5%,证明了提取不同类型的音频特征并融合可以更好地反映出音乐的特质,从而提高分类模型的分类精度。从分类器的选取角度来分析,无论是使用单一音频特征,还是多特征融合,CGABC-ABC 分类模型都是各个模型中分类效果最好的,平均正确率可达到87.81%。

5 结语

本文提出了一种基于CGABC-SVM 的多特征融合音乐分类方法,在音乐特征提取和分类模型选择两个方面进行了不同程度的改进,提高了音乐分类的正确率。利用多特征融合的方法,使特征向量更能充分反映音乐特质,同时使用CGABC 算法对SVM 的参数进行优化,解决SVM 参数优化问题。本文采用多组不同的音乐分类方法进行比对实验,结果表明,基于CGABC-SVM 的多特征融合音乐分类方法明显优于其他分类方法,可以高精度地识别各种音乐信号。

猜你喜欢

蜜源特征提取正确率
林下拓蜜源 蜂业上台阶
门诊分诊服务态度与正确率对护患关系的影响
基于Daubechies(dbN)的飞行器音频特征提取
指示蜜源的导蜜鸟
Bagging RCSP脑电特征提取算法
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
基于MED和循环域解调的多故障特征提取
人工蜂群算法及应用新探