声乐演唱中音色的评价标准在客观评价软件算法中的运用*
2017-01-29黄阿罗李
黄阿罗李 莽
(1.四川音乐学院,四川 成都 610021;2.电子科技大学,四川 成都 611731)
声乐演唱中音色的评价标准在客观评价软件算法中的运用*
黄阿罗1李 莽2
(1.四川音乐学院,四川 成都 610021;2.电子科技大学,四川 成都 611731)
本文首先研究了声乐演唱中主观音色评价的普适标准,然后论述了如何将这些标准进行量化和编码表达,以输入智能客观评价软件的方法。文中简要叙述软件中核心算法的工作原理和实现方法,以及最终的测试结果。本文的核心是建立主观评价与机器客观评价的关联关系,使得声乐演唱的智能评价结果符合主观评价标准,以进一步推进声乐智能评价系统走向准确和实用化。
声乐演唱;音色评价;主观评价;客观评价
声乐演唱的客观评价是研究采用计算机对演唱录音进行处理的方式,将声音作为随时间变化的物理量,提取其物理特征并完成对声音的客观评价的智能信息技术。针对声乐演唱的声音处理技术目前也是信号与信息处理国际学术界研究的热点,并取得了长足的发展。客观分析和评价软件可以运用到声乐比赛打分环节中,减少人为的偏见和疏漏,也可应用到声乐学习的过程中,为演唱者提供实时的辅助,以及时纠正演唱中的不当之处,帮助其调整到最佳的声音状态。可以预想,机器客观评价将有可能成为声乐专业领域中一个强有力的工具。
本文就将探寻一种智能的方法来仿真音色的主观感受。为此,本文采用了先进的人工神经网络的智能算法来完成对音色效果的机器学习和自动辨别。具体将采用多层感知器来建模神经网络,将人脑对音色的感受编码为数值向量,而在人工神经网络各层的节点上完成表达,完成主观感受的算法定义。从而可以通过节点向量模式识别方式,完成音色评价。
本文设计的客观评价软件将借鉴目前国际上先进的智能语音分析算法来实现。学术界大量的研究和语音处理领域的大量工程应用已经取得了很好的实验结果,因而确保了该软件具有优异的性能,且开发思路符合声音演唱的专业特征。软件的使用分为学习和判断两个阶段,软件在学习阶段一方面需要输入主观评价标准的编码内容,另一方面需要大量的样本来训练算法的多层感知器。训练的过程是有导师的,即提供答案的。训练是算法迭代运算的过程,直至算法收敛到稳定地节点权值。大样本训练的结果是获得了一个客观评价标准的表格,它可能以节点权值定义的矩阵或关系数据的形式给出并存储于计算机中。软件在训练学习完成之后才算已经准备完毕,可以进入测试阶段了。
在这一过程中,研究关键在于评价准则问题,即确保客观评价的准则符合主观标准。显而易见,声乐归根到底是一种人文艺术,信息技术只是声乐评价的一个辅助工具,评价的准则一定是人本位的,是主观的。于是,如何将声乐艺术主观评价的普适部分物化、算法化,而使其具有对基于信息技术的声音客观评价软件的控制能力,已变成为声乐智能分析中急需解决的问题。换句话是说,这一问题就是如何完成主观评价的规则与客观分析软件的连接。这就是本文研究的问题和动机。
本文首先讨论声乐演唱中音色的主观评价标准,我们将去除个性化的内容,提炼出一些普适公认的标准。进一步再讨论如何将这些标准物理化、数学化,最终令其转化为信息技术中可以控制代码运行的一组标准控制码。然后简要介绍了声音客观评价的核心算法工作原理,以及声乐演唱定制的声音处理软件,论述了主观准则在处理软件中如何贯彻和控制,最终让机器完成符合主观标准的声乐评价。论文最后给出了软件实验的结果和分析。
一、声乐演唱中音色的主观评价标准及其应用
目前声乐演唱的评价过程大都是人为的,其评判结果都可能带有各自的偏好和个性特征。但在艺术为众人接受的同时,也很大程度地具有共性审美标准。声乐演唱专业发展到现在,审美同一性是显而易见的。因而事实上已经在相当大的程度上形成了较为统一的评判标准,不仅仅多数评价者的主观审美趋向于这样一种统一标准,而且大众取向也影响并认可这样的标准。这样的同一性是艺术固有的特征,也是本文研究在客观评价中贯彻统一的主观标准的可行性前提。因而这部分研究的目的十分明确,即在建立客观评价系统之前,我们应明确主观和客观两种评价方式的标准是统一的,且均基于声乐基础理论并与传统声乐演唱共性审美的听觉标准相吻合。
在声乐的评价系统中,音调、音色和节奏是主要的参考指标。如果我们将声音看作是一个时间序列,这样的参考指标则是最易于物化的时间序列特征参数。在目前的客观评价方式中音准和节奏都已经有比较多的研究,并已经编写出软件应用于一些娱乐活动或比赛参考中。而音色这个指标因为其建模的难度研究较少,也尚无一个比较准确的评价软件。
本文的核心问题集中于声乐演唱的音色评判。但音色是典型的具有多样性的模糊评价指标,而且相对于音准和节奏来说更难以提炼出其物理模型。这也是本文研究的难度所在。
通常情况下,通过正确的发声训练,有正常嗓音条件的声乐学习者都能完成相应难度的作品。但每个人都有属于自己的独一无二的嗓音,每个人的先天嗓音条件和训练过程的好坏不同都会造成唱出来的音色有或多或少的差别。比如那些声带宽长和有力量的嗓音与声带细窄、力量柔弱的嗓音哪怕是经过完全相同的训练过程,最终的音色都可能是有极大差别的。在共性审美中有力量、辉煌的音色能引起更多的青睐,而细、暗的音色则不那么受欢迎。这是本文所构建主观评价准则模型时考虑的规则之一。第二,同一个人演唱不同音区的音符也具有不同的音质。同一声区的音质更相近。除了先天条件以外,不同的喉头位置、不同程度的呼吸都会产生不同的音色效果,通常,喉头位置低且稳定的音色更宽厚和富有金属感,而喉头位置高且不稳定的音色就细窄、暗淡。有良好呼吸支持的声音稳定、结实,而呼吸支持浅的声音则虚弱、摇晃,缺乏稳定性。以上两点是本文评价音质优劣的两个主要方面,我们会采用不同的数值编码去表达这两个指标的好坏,并采用声乐专业经验加权来获得一个最终的编码模型,再将其与多层感知网络的节点状态向量对应起来,以模拟主观的音色感受。在此过程中我们要对数值的方差进行归一化,而且对其均值进行调整找到好坏的中间点,平衡正负数值,以为最终训练完成对音色的感知奠定基础。
在如上过程中,识别问题是评价的核心问题和先决步骤。识别方法是采用对声音波形进行数据分析的途径。分析方法主要是准则研究、数据建模与算法研究、软件设计等方面。其中最主要的问题是算法研究部分。学术界已广泛开展了识别算法的研究,目前先进的处理算法采用人工神经网络的方法,通过建立一个基于人工神经网络的非线性模型,设计相应的算法,采用训练序列完成其中参数和权值的计算。基于人工神经网络进行样本训练之前首先要对主观评价标准进行整理和标准化,并进行量化和数学表述。这一过程建立在主观评价标准基础上,首先对每个音色中各种特征进行初步的预分类。比如,好的音色里包含有良好的泛音、干净的基音,声音的振幅小而快,听觉上是“密度大”、“明亮向上”的声音形象,而差的音色则会是不规则的泛音和杂乱的基音,声音的振幅大而慢,听觉上就会觉得“笨重”或者“虚弱向下”。有的声音又介于好和差之间,又要区分到底“好”的因素多还是“差”的因素多,好音色中泛音的因素占了多少,基音的因素占了多少,还有一些无法描述的感觉占了多少,即应当不仅仅给出定性的结果还要给出量化的数值指标。因而我们在构建模拟神经网络时都要把每个维度都考虑进去,进行量化并完成数学表达。网络训练的过程就是将主观评价与网络特征量相联系在一起,完成单一或复合特征的提取。提取出的特征与人工神经网络的节点连接状态匹配相连,不同的音色特征对应不同的节点状态,经过多次学习训练之后,就形成了和主观评价相一致的一套节点状态和特征量。
从原理上讲,人在进行主观评价活动的时候,不同的音色会带来不同的神经反应。比如听到刺耳的、泛音振动比较杂乱的声音时,神经系统里就会有相应的部分激活、发热。而听到声音位置高、泛音振动有规律的声音时,神经系统中的激活、发热的部分就会区别于听到另一种声音。也就是说不同音色造成的不同程度的紧张感和舒悦感。在神经元的连接点是有区别的。这些不同的神经元的状态,各个突触之间不同的连接形式都是客观评价方式可以参照的具体数据。这些数据被量化到具体的算法中,首先对单个声音进行评价,即某个声音在短时值的饱满度、明亮度的分数如何。接着再看这个声音在延长过程中的保持度如何,声音色彩上有无衰减和增强,向上向下的程度有多少。对这些状态作出整体评分后,再看演唱两个音的过渡状态如何。在一个音向另一个音转换时,有多少音色参数上的改变,有了对连接过程的评分,才能进行到对长乐句的评价。而单个音的评价和对长句子的评价是有各自相应的算法,并不是单个音的简单相加。因此,对过渡音的评分就需要更多的参数来描述,如泛音振动幅度的变大变小、尖锐度的变高变低、饱和度的变浓变淡等。涉及到的维度越多,评价的精确性就越高。在进行总体音色的评分之后,对每一种音色特征也可作出具体评价,比如声音亮度、饱和度、柔和度、金属感、穿透力等主观评价中常用的评价角度。而各个音色特征对应相应的声乐技术点,比如声音的穿透力评分高的,就对应歌唱呼吸运用良好。在两个音的连接中,声音穿透力分数下降,就对应歌唱呼吸动力减弱。声音亮度分数高,就对应声音位置高。声音饱和度分数高,就对应歌唱腔体打开充分。这个阶段可称为反馈或修订阶段,这在声乐教学的课后练习中可以起到“老师”的作用。这个“老师”可排除自身的其他状态等原因,准确且不辞辛劳的起着指导作用。本文主要以前期的音色特征的评分为主,以此为基础,反馈阶段可作为下一步的延伸研究。
本文设计的客观评价软件算法中使用到的模型是卷积神经网络。该网络也被广泛应用于图像处理和自然语言处理当中。目前在这些领域都有较为成熟的成果,它们与音色特征提取在算法上有相通之处,但参数设定、训练过程等又有各自的特点。接下来本文就将介绍具体实施过程及可能发生的结果。
二、客观评价算法原理
在构建这个模拟神经网络之前,我们需要获取数据和并做好准备。为此我们进行了一系列的数据采样,使用的数据集包括录制的不同程度的声乐学生演唱的声音以及一些歌唱家的录音,并通过人工的打分来设定这些声音音色的优劣,进行一个数值评价。这个数据集包含多个音色样本,及其对应的评价权值。该数值应当是平衡的,例如,采用0作为音色的中间质量,正数作为优质等级,负数作为反方向质量等级。我们对这个数据集进行预处理最终整理为样本训练序列。我们还可以分出一部分作为检验序列,其比例关系可以根据具体样本数量来定。预处理之前我们定义一些重要的参量:
记录长度:我们通过添加特殊标记,确定规格化的数据长度,长于这个长度的需要截短,短于这个长度的需要补齐。
音色种类的大小:这个参数是为了确定我们音色向量嵌入层的大小,以及最终的总音色向量维度。
算法阶数:这个参数是确定我们希望卷积核每次覆盖几种音色。卷积核的总数量就是算法阶数的倍数。
激活参数:使用该参数来控制神经元的激活程度。我们只在训练的时候启动,在测试的时候禁止它。
以上参量确定之后就进行预处理,分以下几个步骤进行:
(1)从原始数据文件中导入样本数据,原始数据就是经过截取后的声音录音文件;
(2)数据清理,包括杂音的处理等,这需要一些信号处理中的滤波算法;
(3)记录归一化,将每组录音填充到规格化的长度,并完成标记;
(4)构建索引表,将每种不同的发音映射到零到音色长度之间,使得每个句子就变成了一个整数的向量。
预处理为我们准备好了数据。然后进入信号处理过程,这部分内容采用十分专业化的算法。它包含模型构建、核心算法和后处理算法三个部分。
为了更加准确的提取出音色特征,首先需要对运行模型作出构想,我们构建模型的主要目的是为了对不同的音色特征进行分类提取,以此给出音色的评价值,这部分又叫嵌入层操作。每个音色的表示是一个向量,可能是有单一描述或者多维度描述的组合,分别对应单一特征和复合特征。这部分的作用是将音色索引映射为低维度的音色向量表示。它本质是一个我们从数据中学习得到的音色向量表,其表达是嵌入矩阵,这个矩阵是我们从数据训练过程中得到的。
经过上述的数据准备和分层构想之后,进行第二步,即中间层操作,完成对连续两个音的发声效果做总体评价。这部分主要采用基于卷积运算的信号处理算法,我们使用的卷积核具有不同的尺寸。这样每个卷积核经过卷积操作之后产生的张量是不同维度的,所以我们需要为每一个卷积核创建一层网络,最后再把这些卷积之后的结果合并成一个大的特征向量。
第三步是后处理操作,主要是对结果进行平滑,以避免过度在乎某一个特点。这一步是目前最常用的来正则化卷积神经网络的方法。其原则就是按照一定的概率来“禁用”一些神经元的发放。这种方法可以防止神经元共同适应某一种音色特征,而迫使它们单独学习更多有用的特征。
在整个过程中我们为了控制误差,可以定义损失函数来进行误差度量。如果我们把整个迭代过程看作一个优化过程的话,这个函数就是优化的极小化目标函数。本文分类问题的标准损失函数我们采用交叉熵损失函数。详细技术内容不在这里赘述。
三、实验效果
在我们的实验过程中,基本实现了初步的声乐演唱中的音色评价,尤其是特征很明显的泛音振动效果,有和主观评价较为一致的评价结果。声音抖动厉害,振幅很大的样本,普遍评分较低,而声音位置高、泛音振幅小、声音穿透力强的样本,普遍评分较高。样本中有歌唱家的声音采样,也有学生的采样,他们唱的音为同样的音高和同样的语言,客观评价评分中分数高的声音不一定是有名气的歌唱家,有可能就是一名普通声乐学习者,而有名气的歌唱家如果采用的样本是状态不佳的样本,或者歌唱家本身演唱水平也比较普通,只是因为其他原因而名气较大,评分也会很低。这些正是客观评价的优势所在,关键的问题是软件评价的结果和声乐专业主观评价结果是一致的。
实验中对演唱者本身嗓音条件的评价不稳定,输入的标准采用的是和大众审美相一致的标准,在实验中,歌唱状态和声乐演唱技术会遮盖一些本来音色的特征,也就是说,后天有针对性的训练可以有效的弥补天生嗓音条件的不足,如天生嗓音细的声音,可以通过共鸣腔体的调整以及强大的呼吸支持来增强声音的穿透力和饱满度,客观评价的分数也会很高。客观评价系统目前是在情感之外评价纯粹的声音特征,还没有考虑情感、风格等因素的影响,但随着研究的深入,情感和风格也可以建模,评价系统也将日趋完善。
四、结语
本文论述了声乐演唱主观评价标准以及如何在客观评价软件算法中实现。同时本文简要描述了软件算法中模拟神经网络的构建过程。软件成功完成了声音样本的基本音色特征提取。软件通过样本训练和实测,能够对不同音色的泛音质量、声音饱和度、亮度、穿透力等主要特征作出分类和定量评价,实际试验证实其对声乐演唱的音色可以做出和主观评价标准较为一致的评价。此软件有望催生声乐客观评价的实用化产品,应用到日常的声乐教学中,成为声乐演唱评价体系的重要补充。■
[1] Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification.Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP 2014), 1746-1751.
[2] Kalchbrenner, N., Grefenstette, E., & Blunsom, P. (2014). A Convolutional Neural Network for Modelling Sentences. Acl, 655-665.
[3] Santos, C. N. dos, & Gatti, M. (2014). Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts.In COLING-2014 (pp. 69-78).
[4] Johnson, R., & Zhang, T. (2015). Semi-supervised Convolutional Neural Networks for Text Categorization via Region Embedding.
[5] Zhang, Y., & Wallace, B. (2015). A Sensitivity Analysis of (and Practitioners’Guide to) Convolutional Neural Networks for Sentence Classi fi cation,
[6] Nguyen, T. H., & Grishman, R. (2015). Relation Extraction: Perspective from Convolutional Neural Networks. Workshop on Vector Modeling for NLP,39-48.
[7] Sun, Y., Lin, L., Tang, D., Yang, N., Ji, Z., & Wang, X. (2015). Modeling Mention , Context and Entity with Neural Networks for Entity Disambiguation,(Ijcai), 1333-1339.
[8] Shen, Y., He, X., Gao, J., Deng, L., & Mesnil, G. (2014). A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval.Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management - CIKM ’14, 101-110.
[9] Santos, C., & Zadrozny, B. (2014). Learning Character-level Representations for Part-of-Speech Tagging. Proceedings of the 31st International Conference on Machine Learning, ICML-14(2011), 1818-1826.
[10] Zhang, X., Zhao, J., & LeCun, Y. (2015). Character-level Convolutional Networks for Text Classi fi cation, 1-9.
四川省哲学社会科学重点研究基地西南音乐研究中心资助项目研究成果(xnyy2015033)
黄阿罗(1980-),女,四川达州人,四川音乐学院声乐系副教授,硕士生导师,主要研究方向:声乐演唱;李莽(1989-),男,四川成都人,电子科技大学硕士研究生,主要研究方向:信号与信息处理。