音乐声的音色感知特征与图像的纹理特征的关联研究

2020-06-29张筱艺刘京宇钱亚红蒋玉暕

复旦学报（自然科学版） 2020年3期

蒋伟，张筱艺，刘京宇，钱亚红，蒋玉暕

(1. 中国传媒大学现代演艺技术北京市重点实验室，北京 100024； 2. 中国传媒大学视听技术与智能控制系统文化和旅游部重点实验室，北京 100024； 3. 中国传媒大学信息与通信工程学院，北京 100024)

音乐和图像是人们认识感受世界的两种重要媒介，二者单独作用于人时能让人产生相应的心理感受.不仅如此，音乐和图像同时作用于人时会相互影响，例如恐怖片之所以这么恐怖离不开诡异配乐的影响，如果配上欢快的音乐就会大大破坏恐怖的感觉.周海宏[1]以联觉为切入点，研究了音乐能表现的对象，得出结论：音乐能够表现视觉对象，也就是说音乐和视觉图像之间存在一定的关联关系.也有很多研究者研究了音乐与图像最重要的特征之一——颜色之间的关联.Palmer等[2]采用主观评价实验的方法，证明了音乐和颜色之间存在强烈的关联关系，并认为这种关联关系是以情绪作为中介的.张聪聪[3]同样认为音乐和颜色具有以情绪为中介的关联关系.已经有大量研究表明音乐和图片之间是有关联的，而音色和纹理分别作为音乐和图片的两个要素，它们之间是否也存在关联关系呢？

Langlois等[4]对音乐和纹理之间的关系进行了研究，认为音乐和纹理之间存在强烈关联，并认为音乐和纹理的关联与音乐和颜色的关联不同，不仅与情绪有关，还与其他的因素有关.上述所有关于音乐和图片关联的研究都是定性研究，定量研究方面的研究文献目前还未见报道.同样也未见文献具体研究音乐的音色特征和图片纹理特征之间的关系.为了进一步研究音色和纹理之间的关联关系，本文借助主观评价实验得到音色感知特征以及音色和纹理之间的匹配关系数据，然后用皮尔逊相关系数来验证音色感知特征和纹理之间是否存在关联.如果存在关联，把音色感知特征值和纹理特征值以及二者间的匹配关系输入逻辑回归、随机森林、多层感知器神经网络3种算法进行建模，来预测纹理和音色感知特征之间的匹配关系.

1 音色特征和纹理特征的提取

1.1 音色特征的提取

本文使用5维音色感知特征：明亮-暗淡、干瘪-柔和、尖锐-浑厚、粗糙-纯净、嘶哑-协和，来描述人对音色的感知.这5维音色感知特征来自之前的研究成果，文献[5]详细介绍了具体的实验步骤以及分析过程.为了得到各音色素材的音色感知特征值，本文将进行主观评价实验，要求被试对每个音色素材的音色感知特征打分.具体实验内容见第2节.

1.2 纹理特征的提取

为了筛选主观评价实验用的纹理图片并对纹理和音色的匹配关系建模，提取了如下的44维纹理特征.1) 灰度共生矩阵(Gray-Level Co-occurrence Matrix, GLCM)[6]：提取对比度、同质性、相关性和能量的均值和标准差，共8维.2) 分形维数(fractal dimension)[7]：共1维.3) 5阶高斯马尔科夫模型(Gaussian Markov model)纹理特征[8]：共12维.4) Gabor滤波(Gabor filtering)[9]： Gabor滤波后的均值、惯量和熵，共3维.5) 小波特征(wavelet feature)[10]：进行2维小波变换提取到2层水平近似分量，1层和2层的水平、垂直、对角近似分量，并对各分量计算均值和标准差，然后对得到的特征向量进行归一化，共14维特征.6) Tamura纹理特征[11]：粗细度(coarseness)、对比度(contrast)、方向度(directionality)、线性度(line-likeness)、规则度(regularity)和粗糙度(roughness)，共6维.

分析音色和纹理的相关性时将用到的Tamura纹理特征是Tamura等[11]在1978年提出的1种基于人类对纹理视觉感知的纹理特征提取方法，主要由以下6个特征组成.1) Coarseness(粗细度——粗还是细)：构成纹理图像的纹理基元的尺寸或者重复次数.2) Contrast(对比度——高对比度还是低对比度)：图像中灰度级的动态范围及边缘的锐度.3) Directionality(方向度——有方向还是没方向)：图像具不具有明显方向.4) Line-likeness(线性度——线状的还是斑点状的)：纹理基元的形状是线型的还是斑点型的.5) Regularity(规则度——规则还是不规则)：构成纹理的基元是否规则，基元的位置是否规则.6) Roughness(粗糙度——粗糙还是平滑)：如果触摸这个纹理，触觉上感觉更粗糙还是更光滑.

2 主观评价实验

2.1 筛选纹理图片

为了进行主观评价实验，首先需要得到适合进行主观评价实验的纹理图片.本文使用的纹理图片由Brodatz纹理库[12]中的111张纹理图片筛选得到.具体的筛选过程主要包括： 1) 去掉亮度过亮或过暗的图片，降低亮度对实验的影响；2) 去掉携带明显语义信息的图片，如图1所示；3) 用剩余图片的44维纹理特征进行系统聚类(system clustering)[13]和多维尺度(Multidimensional Scaling, MDS)分析[14].

图1 携带语义信息的图片的示例Fig.1 Examples of images with semantic information

系统聚类[13]也叫层次聚类，数据中每个样本都是初始聚类簇，然后一步步合并距离最近的两个样本.本文采用平均距离的方法计算距离，即

(1)

多维尺度分析[14]将样本放在1个相对低维的l维空间中，并保持任意两个样本在l维空间中的距离与原始距离相同，距离一般采用欧氏距离进行计算.假设样本a和b在l维空间中坐标为Xa=(Xa1,Xa2,…,Xal)和Xb=(Xb1,Xb2,…,Xbl)，则两点间的欧式距离为

(2)

得到的聚类谱系图和MDS分布图分别如图2，图3所示，根据得到的结果进行筛选.筛选时主要基于聚类分析的结果，尽量保证筛选的图片覆盖所有的类别，并在多维尺度图上分散分布.

图2 纹理图片的聚类谱系图Fig.2 Clustering pedigree chart of texture images

图3 MDS的分布图Fig.3 Distribution diagram of MDS

图3中实心的点即为选中的纹理图片在空间中的分布位置，可以看出选中的图片基本覆盖整个空间，可代表各种类型的纹理图片.图4是最终筛选出的18张纹理图片.

图4 筛选出的纹理图片Fig.4 Filtered texture images

2.2 主观评价实验

筛选得到纹理图片后，通过主观评价实验得到音色和纹理的匹配关系以及各音色素材的音色感知特征值.因此本文的主观评价实验主要包括两个部分：第1部分是音色感知特征的标注；第2部分是音色和纹理的关联.

为了排除音高、响度等因素对音色感知和匹配的影响，实验采用72种音色素材，每段素材只包含1种乐器的最常用音区内的音阶，因此音阶变化不会对音色特征有太大影响.为保证响度均衡，通过响度平衡实验对素材响度进行归一化处理.这些音色素材中包含36种中国传统乐器(如二胡、琵琶等)、12种中国少数民族乐器(如马头琴、葫芦丝等)以及24种西洋乐器(如钢琴、小提琴等)，基本可代表典型乐器的音色.两部分实验的被试是相同的，共32人，其中男生11人，女生21人，年龄在20～30岁之间，都具有一定的听音经验.

在第1部分音色感知特征标注的实验中，让被试对各音色素材的5维音色感知特征按照9级尺度进行评价，得到音色素材的5维音色感知特征值.

第2部分音色和纹理关联的实验要求被试在听音色素材的同时，在屏幕上展示的18张纹理图片中，挑选出3张与所播放音频音色匹配的纹理图片和3张不匹配的纹理图片，从而得到该音色对应的匹配和不匹配的纹理图片.

2.3 主观评价实验的数据分析

2.3.1 数据处理

为了验证音色和纹理之间是否具有相关性，本文用每种音色的感知特征值与其匹配(或不匹配)的纹理的特征值进行相关性分析.音色的感知特征值来自于音色感知特征标注的主观评价实验，考虑到使用的音色特征是感知特征，因此，使用Tamura纹理特征这一基于心理学提出的纹理特征来进行相关性分析.

(3)

式中：上角标Y(N)表示匹配(不匹配).同理，与音色素材m不匹配的纹理的6维平均特征值TCm,N,i(i=1,2,…,6)为

(4)

对主观评价实验得到的音色感知特征标注值运用系统范畴法进行处理，得到心理尺度的音色感知特征值，文献[5]详细介绍了处理过程.使用心理尺度的音色感知特征值进行相关性分析和建模.

2.3.2 皮尔逊相关性分析

图5是纹理特征值对音色特征值变化的散点图，横轴是音色素材m的某个音色特征，纵轴是音色素材m对应纹理的某个平均特征.

图5 纹理特征值对音色特征值变化的散点图Fig.5 Scatter diagram of texture eigenvalues changing with timbre eigenvalues

从图5中可以看出，部分音色特征与纹理特征之间存在比较明显的关联关系，并且匹配与不匹配的相关性是相反的，如与嘶哑-协和匹配的纹理的粗细度随着协和程度的增大而增大，而与嘶哑-协和不匹配的纹理粗细度随着协和程度增大而减小.

进一步用皮尔逊相关系数分析音频的5维音色特征和对应的匹配(不匹配)的6维纹理平均特征值之间的相关性，结果如表1所示.

表1 音色特征与纹理特征的相关系数Tab.1 Correlation coefficient between timbre and texture features

(续表)

从表1可以看出，一些纹理特征与音色特征具有较强的相关性，如：粗细度与干瘪-柔和、粗糙-纯净、嘶哑-协和，对比度、粗糙度与明亮-暗淡、尖锐-浑厚，相关系数的绝对值最高达到0.75.粗细度与明亮-暗淡，方向度与各个音色特征，线性度与尖锐-浑厚，粗糙度与纯净-粗糙之间也存在着不太明显的相关关系.

整体来说，越柔和、纯净、协和的声音匹配的纹理基元的大小越大，越暗淡、浑厚的声音匹配的纹理的对比度越小、粗糙度越小.从以上数据来看，音色与纹理之间确实存在较为强烈的关联关系.

3 音色与纹理关联的建模

3.1 建模的数据准备

把主观评价实验得到的数据整理成如表2所示形式，即单个样本包括某音色素材的音色感知特征值和对应的32名被试选择为匹配(或不匹配)的纹理图片的各特征的平均值，计算方法同式(3)，(4).匹配标签是待预测值即模型输出，音色感知特征和纹理特征是模型输入.因此本文建模用到的数据样本数为72(条音频)×2(匹配/不匹配)=144.

表2 数据格式Tab.2 Data format

建模前先对音色感知特征和纹理特征进行归一化，即

(5)

式中：xi是样本i的特征值；xmin是特征的最小值；xmax是特征的最大值.

3.2 音色与纹理的匹配模型

使用音色感知特征和Tamura纹理特征输入逻辑回归(Logical Regression， LR)[15]、随机森林(Random Forest， RF)[16]和多层感知器(Multilayer Perception， MLP)神经网络[17]算法建立音色和纹理的匹配模型.

建模时随机抽取数据集中80%的数据作为训练集，剩下20%作为测试集，用不同的随机数训练并在测试集上进行10次测试，取10次测试集评价指标的平均值进行对比，采用二分类问题常用的评价指标：精准率(precision)、召回率(recall)和AUC(Area Under Curve)进行评价.

使用音色感知特征和Tamura纹理特征建立的3种匹配模型的结果如图6所示.

又对训练集数据进行10折交叉验证.随机建模10次并进行交叉验证，每个算法得到10×10个AUC值，取100个AUC的平均值作为评价指标，结果如表3所示.

从图6可以看出，各个模型的精准度都比较理想，逻辑回归算法的精准度达到0.9.表3中3种算法的10折交叉验证的AUC的平均值均在0.9以上.综合图6和表3的结果，逻辑回归算法的建模结果略好于随机森林和多层感知器神经网络的.可能是由于纹理和音色感知特征之间的关系近似于线性关系，并且本文数据量和特征量较少，因此逻辑回归作为1种更加简单的线性算法，更适合于本文的数据.但不论是哪种算法，模型的精准度都在0.708以上，说明使用音色感知特征和纹理特征来判断二者之间是否匹配是可行的.

图6 3种匹配模型的评价结果Fig.6 Evaluation results of three matching models

表3 10折交叉验证的AUC平均值

Tab.3 Mean AUC of 10 fold cross validation

算法AUC逻辑回归0.919随机森林0.916多层感知器神经网络0.812

4 结语

本文研究了音色感知特征和纹理之间的匹配关系，并建立了二者的匹配模型，主要有以下几点贡献：通过皮尔逊相关系数证明了纹理与音色的关系中，粗细度与干瘪-柔和、纯净-粗糙、嘶哑-协和，对比度、粗糙度与明亮-暗淡、尖锐-浑厚具有较强的相关性；机器学习算法预测音色感知特征和纹理特征之间的匹配关系是可行的，其中逻辑回归算法建立的模型效果最好，精准率达到了0.9；本研究是音色和纹理的关联关系的基础研究，可以为视觉和听觉感知关联、音乐可视化、图像可听化、音乐与灯光的交互、画面自动配乐、视觉辅助听音训练等提供理论支持.