基于音乐特征向量空间的音乐情感识别方法研究
2020-11-23李璐
摘要:本文选取MIDI音乐文件作为样本,基于音乐心理学理论建立音乐特征与情感的映射模型,利用BP神经网络进行音乐情感的计算机识别训练,测试结果表明该模型基本达成预期效果,具备良好适用价值。
关键词:音乐情感;音乐特征;BP神经网络
中图分类号::TP391 文献标识码:A 文章编号:1005-5312(2020)26-0054-01 DOI:10.12228/j.issn.1005-5312.2020.26.039
一、音乐情感识别建模
1.模型建立。基于音乐情感识别原理确立音乐情感认知流程:首先以数学模型、音乐心理学理论为基础,从中抽象出输入、输出向量的数学含义;其次是结合对输入向量的需求,从MIDI音乐文件中提取出特征信息、完成情感标注,完成输入向量各分量的计算;最后是通过大量数据训练完成数学模型参数的调整,确定情感认知模型①。
2.音乐特征向量空间定义。音乐特征是认知、识别与表现音乐情感的载体,当前以下三种音乐特征:一是基本特征,包含速度、力度、音高与音色;二是音乐语言表现方式,包含旋律、节奏、和声等;三是整体特征,包含风格、调式、曲式等。基于映射模型进行音乐特征参数的定义,共包含九个特征子集,其中音高特征子集包含音高、音高变化量、变化频率、音域四项参数,力度特征子集包含声级和声级变化两项参数,速度特征子集包含速度与速度变化两项参数,音程分布子集的参数为是否协和,旋律方向子集以旋律方向为参数,调式调性子集包含有无调性、调式两项参数,时值特征子集的参数为长短音符对比,节奏紧张性子集以音符密度为参数,节奏稳定性子集以节奏突变度为参数,由此建构起音乐情感识别系统。
二、音乐情感特征的提取与识别方法
1.音乐特征提取。首先,从基本特征提取入手,利用平均音高表示乐曲的音高水平,设Pi为乐曲中第i个音符的音高,n代表乐曲中涵盖的音符数量,其公式为:
以乐曲中的小节为基本单位,利用音高变化表示音高变化幅度,设Bari为第i个小节的音高平均值,N为乐曲中包含的小节数量,其公式为:
利用音域衡量乐曲音高的广度、评价乐曲的表现力,设P1,P2,…,Pn为第1~n个音符的音高值,其公式为:
利用时值表示音符持续时间,音强表示音符力度。其中时值的计算公式为:
其次,从音色入手,音色能够间接反映出乐曲所传达出的情感。在建构起音色与情感间映射关系的基础上,结合音乐信号的频谱分布图建立其与音色术语、乐器与适合表达的情感或场景间的联系,以基频为主的频谱分布图为例,其音色术语包含纯净的、简单的两种类型,分别对应音叉、竖笛乐器,用于表达单纯的或简单的、欢快的情感或场景。
再次,从力度提取入手,选取平均力度、力度变化两个特征进行力度描述,其公式分别为:
接下来分别完成旋律方向与节奏的识别,设D为乐曲中全部音符的音长之和,Di为第i个音的音长,其公式分别为:
最后基于MIDI文件中的可选指令分别完成调号、调性的识别算法定义。
2.基于BP神经网络的识别机制建立。在BP网络学习过程设计上,表示为:开始——初始化权值、阈值——给定输入向量、目标输出——求隐含层、输出层各单元输出——求目标输出与实际输出的误差——判断是否满足要求,是则结束,否则修改权值、阈值,开始新一轮计算。基于BP神经网络建立音乐情感分类识别机制,首先进行输入、输出层设计,将输入层节点数目设为8个,输出神经元节点数目设为3个,则五种情感类型分别表示为(0,0,1)、(0,1,0)、(0,1,1)、(1,0,0)和(1,1,1);其次进行隐藏层设计,节点f数(x目)?为117个;再进行网络结构设计,采用8×17×3结构,以作为隐藏层、输出层的激活函数,确保输出结果恰好落在(0,1)之间;最后进行网络训练参数的设定,最大循环次数、误差期望值分别为2500和0.001,以traingdx函数、均方误差性能函数分别作为训练函数和性能函数。
基于MATLAB7.1实验环境观察BP神经网络的运行结果,选取25个MIDI格式的音乐片段作為测试样本,测得其分类精度与识别能力均保持较高水平,准确率达80%。
★基金项目:江西省文化艺术科学规划项目《基于BP神经网络的音乐情感识别研究》研究成果,项目编号:YG2018106。
注释:
①唐霞,张晨曦,李江峰.基于深度学习的音乐情感识别[J].电脑知识与技术,2019,(11):238-243.
作者简介:李璐(1981-),女,汉族,江苏徐州人,研究生,讲师,研究方向(从事工作):音乐学。