APP下载

基于非负张量分解的音频分类方法

2015-06-05杨立东匡镜明

关键词:张量特征参数正确率

杨立东,谢 湘,王 晶,匡镜明

(1. 北京理工大学信息与电子学院,北京 100081;2. 内蒙古科技大学信息工程学院,包头 014010)

基于非负张量分解的音频分类方法

杨立东1,2,谢 湘1,王 晶1,匡镜明1

(1. 北京理工大学信息与电子学院,北京 100081;2. 内蒙古科技大学信息工程学院,包头 014010)

为了提高音频数据分类正确率,提出一种通过非负张量分解(NTF)的分类方法. 音频信号经过预处理后,提取声学特征和感知特征参数,然后构建非负的3阶音频张量,其各阶分别对应特征、帧、样本;其次,通过NTF得到每一类音频的核张量与因子矩阵,让测试样本构建的张量与各类型音频的因子矩阵的转置进行张量乘,得到对核张量的近似;最后,通过Frobenius范数进行相似性度量,完成分类. 使用古典音乐、流行音乐、语音、噪声4种类型的音频数据测试分类效果. 结果表明,平均分类正确率在85%,以上,说明该方法可以有效地完成音频分类.

音频分类;非负张量分解;特征提取;因子矩阵

随着互联网、人工智能等相关技术的不断发展,我们进入了大数据时代.大数据的典型特点之一就是数据类型众多,其中音频数据是重要组成部分,但是相比文本、图片、视频等类型数据,音频处理的技术手段还有很大提升空间.

音频分类是音频检索、识别、分割等音频深度处理的前提,其实质属于模式识别[1],早期主要用于语音、音乐的分类,例如百度音乐就按照音乐的风格、乐器、流派等进行音乐种类的划分.目前音频分类还被应用到环境噪声/声音检测的声学场景分析.音频分类主要包括特征提取和分类两个过程.常用的音频特征主要包括声学特征、感知特征和心理声学特征3种.声学特征主要由时域和频域参数组成,包括短时平均幅度、短时自相关系数、信号带宽、频谱质心、线谱对等.感知特征则是根据人耳听觉特性提取的特征参数,其主要有美尔频谱倒谱系数(melfrequency cepstrum coefficient,MFCC),以及对应的1阶、2阶差分系数用于体现动态特性,感知加权线性预测(perceptual linear prediction,PLP)系数等,这类特征参数具有较低的互相关特性,所以在语音识别中应用比较广泛.心理声学特征参数主要包括响度、粗糙度、尖锐度等,用于客观上描述不同声音信号所造成的主观感受的差别程度,它可以定量地反映听觉感受的差别,消除个体的影响[2].比较成熟的分类器主要包括高斯混合模型(Gaussian mixture model,GMM)、隐马尔科夫模型、人工神经网络等,Benetos等[3]提出了利用非负矩阵分解(nonnegative matrix factorization,NMF)的方法进行分类,在分类过程中采用有监督的训练,得到音频类型对应的基矩阵,测试音频数据进行映射后,根据余弦相似度量准则进行分类,取得了较好的分类结果.本文采用常规声学特征和感知特征作为音频数据特征参数,利用非负矩阵分解的高维扩展——非负张量分解(non-negative tensor factorization,NTF)方法完成音频分类.

1 特征提取

在音频分类过程中提取的特征参数应该能很好地体现音频数据的本质属性,并且具有一定的鲁棒性.音频数据首先经过预滤波、A/D转换、预加重、分帧、加窗等预处理后,被分为具有短时平稳特性的帧结构,若干帧数据可以构成一个音频片段,体现音频的长时特性.提取特征时既可以直接从帧结构中提取,也可以从片段中提取.而且为了使最终的特征具有较好的鲁棒性,从音频数据的开始、中间、结尾3个不同区域各提取相同帧数的特征参数,然后通过kmeans方法进行聚类.

把同类型的训练数据通过上述方法完成特征提取后,构造一个该类型的张量.本文构建的是一个3阶非负张量,第1阶为每帧的特征参数(未使用片段特征),第2阶为每个样本选择的帧数,第3阶为每种类型音频训练样本的个数.这样,一个特征×帧×样本的3阶音频张量就构造完成了,其结构见图1.

图1 3阶音频张量Fig.1 3-order audio tensor

在训练阶段构造的是一个3阶张量,但是在测试(分类)阶段,待分类的样本构造的其实是一个2阶张量(矩阵),因为其第3阶的样本个数为1,是一个特殊的3阶张量.

2 分类方法

音频分类方法主要包括基于规则的方法、基于距离的方法、基于统计模型的方法,其中基于统计模型的方法是主流方法. 近期非负矩阵分解的方法也应用到了音频分类,并取得了良好的分类效果,非负张量分解方法是非负矩阵分解的扩展.

2.1 非负张量分解

张量可以认为是多阶阵列或者多维矩阵.同奇异值分析(singular value decomposition,SVD)、主成分分析(principal component analysis,PCA)、独立成分分析等采用矩阵分解的方法相比,张量分解可以保留多线性模型的有用信息,尤其是不同特征之间的关联信息,而且可以挖掘信号内在的隐含信息,从而保留综合信息,所以张量分解能够比矩阵分解更有效地反映信号的多维结构.21世纪之后,张量分解开始在信号处理领域得到广泛应用,并且在图像处理领域取得了很大的成果,近10年来张量分解也逐步应用到了音频处理领域.张量分解主要有Tucker分解、CANDECOMP/ PARAFAC(CP)分解、以及从非负矩阵分解发展而来的非负张量分解.

非负张量分解后的模型具有明晰的物理意义,并且容易具有唯一性[4].设一个N阶张量其非负张量分解为

式中:为核张量(Jn<In),它保留了原张量的主要信息,并具有一定的稳定性[5];为因子矩阵,其可以认为是张量在每阶上的主分量,且Un之间不要求彼此正交,但是核张量、因子矩阵中的元素都是非负的[6];×1为张量的第1阶矩阵乘,其定义为:若N阶张量

张量的矩阵乘结果也是一个与原张量同阶的张量,即式(2)中的X和G都是N阶张量.

2.2 NTF分类方法

本文中采用有监督的分类方法,也就是在训练阶段,针对每种类型的音频训练样本进行单独训练,从而生成对应该类的核张量

式中:M为音频的种类数目;Xi为第i类训练样本构造的数据张量;iG为对应第i类的核张量.

在分类时,每一个测试的音频数据构造一个阶数和训练样本一样的张量testY,让其和每一类音频对应因子矩阵的转置做张量的矩阵乘,生成一个投影张量

然后把Zi与训练时候生成的G分别进行比

testi较,把该测试数据归类为具有最大相似性的音频种类.本文相似性采用公式(5)进行判别,即

式中||·||F为Frobenius范数.最终根据argmin完成分

i=1,2.··,M类.利用NTF完成测试样本分类的框图,如图2所示.

图2 利用NTF分类的框图Fig.2 Diagram of classification by using NTF

进行非负张量分解时本文采用文献[7]中的交替最小二乘法(alternating least squares,ALS),该迭代算法具有收敛快的优点,可以提高分类效率.

3 实验分析

3.1 实验及结果

实验中采用的音频数据来源于网络上下载的古典音乐、流行音乐(这两种音乐是根据百度音乐里面的分类下载的)、自己录制的语音及噪声,共分为4种类型.音频数据的采样频率是44.1,kHz,精度为16位,单声道(如下载的不符合该格式,需要转换),每种音频数据都截取1,min的长度作为样本.古典音乐样本共有80条,流行音乐样本共有80条,语音样本共有90条(汉语发音,包括男声和女声,内容为演讲和对话),噪声样本共有90条(包括自然噪声、人为噪声).随机把每种类型80%,的样本作为训练样本集,剩下的作为测试样本集.每个样本通过预处理后可以得到帧结构,其中预加重系数为0.97,采用汉明窗进行分帧,帧长度为30,ms,帧移为15,ms.从样本的开始、中间、结尾各选取70帧数据,分别提取每帧数据的特征参数,包括短时能量(1个)、频谱质心(1个)、MFCC(13阶)、△MFCC(13阶),共28个特征参数.然后对3个不同区间的70帧数据的特征参数利用k-means进行聚类,生成4种类型音频的非负张这4个张量中的元素要求都是非负的.分别用ALS对张量进行非负分解,就可以得到每种音频对应的核张量和因子矩阵.在实验中,113J=,210J=,31J=(为了保证核张量的阶数、每阶的维数与测试样本所构成的张量一致,此处令31J=),得到核张量

把每种类型音频数据剩余的20%,作为测试样本,包括古典音乐样本16条、流行音乐样本16条、语音样本18条、噪声样本18条.这68条样本通过同样的处理,构建一个3阶非负张量(实际是一个2阶张量)Y进行张量的矩阵乘,可以得到各类型的映射张量

利用Frobenius范数求解id,最终把测试音频数据归类为id最小的那一类.把该实验重复5次,也就是每次把训练样本和测试样本随机进行抽取,再进行分类,最终的平均分类结果如表1所示.

表1 利用NTF方法的音频分类混淆矩阵Tab.1 Confusion matrix of audio classification by using NTF

因为非负张量分解的分类方法是由矩阵分解发展而来,所以本文参照NMF分类方法[8],对上述音频数据进行训练和分类,最后使用余弦相似测度(cosine similarity measure,CSM)完成分类,得到的正确分类率与使用NTF所得结果进行比较.另外,GMM是音频分类中最经典方法之一,把使用GMM进行分类的结果也同时和NTF进行比较,结果见图3.

图3 NTF与NMF、GMM平均分类正确率比较Fig.3Comparison of mean classification accuracy rate among NTF,NMF and GMM

为进一步验证NTF的音频分类性能,本文调整实验过程中训练集和测试集所占数据集的比例,测试集中音频的平均分类正确率,实验结果如表2所示.

表2 不同测试集的平均分类正确率Tab.2 Mean classification accuracy rate for different test datasets

3.2 性能评价

由表1可以看出,NTF方法针对音乐的分类正确率要高于语音和噪声,噪声的分类正确率最低,主要是因为构建非负张量过程中,使用的特征参数大部分是MFCC,而MFCC并不能很好地体现各种噪声的本质属性,说明针对特定的音频类型应该选取不同的特征参数[9].例如,文献[10]里采用高过零率比作为特征进行语音和音乐的分类.语音的分类正确率低于音乐,主要是因为音频数据样本建立非负张量时,从样本的开始、中间、结尾各抽取70帧提取特征参数再进行聚类,音乐在各个时间段特征变化不显著,而语音样本由于存在大量静音帧,所以在不同时段抽取的帧结构稳定性比较低.

由图3可以看出,使用NTF的平均分类正确率高于NMF和GMM,说明NTF更能反映音频数据内在的隐含信息,也就是经过分解后保留了数据样本的内在关系和具有区别其他类型的本质属性.

从表2中的数据比较可以得出,NTF在训练样本变少的情况下,性能依然比NMF和GMM好,但是随着训练样本减少到总数据集的30%,时候,3种方法的分类正确率都大幅下降.主要是因为用于训练的数据少了,导致欠训练情况,生成的分类器模型鲁棒性变差,造成最终的分类性能恶化.

4 结 语

本文提出了一种利用非负张量分解作为分类器的分类方法,在利用声学特征和感知特征构建非负张量之后进行分解,使用Frobenius范数进行相似性度量,最终获得较高的分类正确率.

本文侧重考虑了分类方法对分类正确率的影响,而对于音频分类的另一个关键环节——特征提取没有进行深入讨论,提取什么样的特征参数,或者提取后如何进行参数的选择,从而对分类效果更加有利,是下一步需要关注的问题.

[1] Xing Ling,Ma Qiang,Zhu Min. Tensor semantic model for an audio classification system[J]. Science China Information Sciences,2013,56(6):1-9.

[2] 王 娜,陈克安. 心理声学参数提取及其在目标识别中的应用[J]. 计算机仿真,2008,25(11):21-24. Wang Na,Chen Ke’an. Psychoacoustic parameters extraction and its application in target recongnition[J]. Computer Simulation,2008,25(11):21-24(in Chinese).

[3] Benetos E,Kotropoulos C,Lidy T,et al. Testing supervised classifiers based on non-negative matrix factorization to musical instrument classification[C] // Proceedings of 14th European Signal Processing Conference. Florence,Italy,2006:1-5.

[4] Panagakis Y,Kotropoulos C. Music genre classification via topology preserving non-negative tensor factorization and sparse representations[C]// Proceedings of 2010 IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ,USA,2010:244-252.

[5] 夏建平,周激流,何 坤,等. 基于小波变换和Tucker分解的彩色图像数字水印[J]. 计算机应用研究,2010,27(2):798-800.Xia Jianping,Zhou Jiliu,He Kun,et al. Color image watermark based on DWT and Tucker decomposition [J]. Application Research of Computers,2010,27(2):798-800(in Chinese).

[6] Cichocki A,Zdunek R,Phan A,et al. Nonnegative Matrix and Tensor Factorizations[M]. Chichester,WS,UK:John Wiley & Sons,2009.

[7] Acar E,Kolda T,Dunlavy D. An Optimization Approach for Fitting Canonical Tensor Decompositions[R]. New Mexico,USA:Sandia National Laboratories,2009.

[8] Benetos E,Kotti M,Kotropoulos C. Applying supervised classifiers based on non-negative matrix factorization to musical instrument classification[C]//2006 IEEE International Conference on Multimedia and Expo. Toronto,Canada,2006:2105-2108.

[9] 杨立东,王 晶,谢 湘,等. 基于Tucker分解的音频分类研究[J]. 信号处理,2015,31(2):221-225. Yang Lidong,Wang Jing,Xie Xiang,et al. Based on Tucker decomposition to audio classification [J]. Signal Processing,2015,31(2):221-225(in Chinese).

[10] Bengolea1 G,Acevedo1 D,Rais M,et al. Feature Analysis for Audio Classification[M]. Switzerland:Springer,2014.

(责任编辑:樊素英)

Audio Classification Method Based on Non-Negative Tensor Factorization

Yang Lidong1,2,Xie Xiang1,Wang Jing1,Kuang Jingming1
(1. School of Information and Electronics,Beijing Institute of Technology,Beijing 100081,China;2.School of Information Engineering,Inner Mongolia University of Science and Technology,Baotou 014010,China)

To improve the accuracy of audio classification,a classification method based on non-negative tensor factorization(NTF)was proposed.Firstly,acoustics features and perceptual features were extracted after preprocessing of audio signal.Then,a 3-order non-negative tensor was constructed,the orders being features,frames and samples,respectively.Secondly,core tensor and factor matrixes of each class of audio were obtained by using NTF.Next,test tensor was multiplied by transpose of factor matrixes of each class to obtain approximate tensor of core tensor.Finally,audio samples were classed by using Frobenius norm similarity measure.Experiments including classical music,popular music,speech and noise were provided to demonstrate the performance of audio classification.Results showed that the mean classification accuracy rate is above 85%,which proves that the proposed method can class audio effectively.

audio classification;non-negative tensor factorization;feature extraction;factor matrix

TN912.3

A

0493-2137(2015)09-0761-04

10.11784/tdxbz201507041

2015-03-12;

2013-07-06.

国家自然科学基金资助项目(61473041);内蒙古高校科研基金资助项目(NJZY13139).

杨立东(1978— ),男,博士研究生,副教授,yld_nkd@imust.cn.

谢 湘,xiexiang@bit.edu.cn.

猜你喜欢

张量特征参数正确率
个性化护理干预对提高住院患者留取痰标本正确率的影响
定义在锥K上的张量互补问题解集的性质研究*
偶数阶张量core逆的性质和应用
冕洞特征参数与地磁暴强度及发生时间统计
四元数张量方程A*NX=B 的通解
门诊分诊服务态度与正确率对护患关系的影响
一类结构张量方程解集的非空紧性
基于交通特征参数预测的高速公路新型车检器布设方案研究
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究