APP下载

基于张量模型的暴力音频检测研究

2016-03-02梁家欣李海峰马琳

智能计算机与应用 2016年1期

梁家欣 李海峰 马琳

摘 要:针对传统方法忽略时序信息的问题,提出了一种基于张量模型的暴力音频分类技术。该方法首先对音频样本提出矩阵特征,然后把同一类型的样本特征组成一个张量特征。采用ALS算法对张量进行分解,然后提出一个基于张量模型的分类器。实验结果表明,张量模型的特征对暴力音频分类问题具有一定提高效果,证明了保留时间维度上的信息是有意义的。

关键词:时序信息;特征矩阵;张量;ALS分解

中图分类号: TP391 文献标识码: A 文章编号:2095-2163(2015)04-

Abstract: Due to traditional method ignoring the temporal information, a new technique of audio classification based on tensor model is proposed.The method extracts the features of the audio samples in matrix form and then composes a tensor feature of the matrix feature belonged to the same category.And ALS algorithm is used to decompose the tensor, and then a classifier based on tensor feature is proposed.Experimental results show that the tensor feature has been effective on the detection of violence audio, and it proves that the temporal information is meaningful.

Keywords: Temporal Information; Feature Matrix; Tensor; ALS Algorithm

0引 言

随着互联网的发展与多媒体的普及,信息科技与网络便捷给人们的生活带来很大影响。网络上的音视频如果没有经过检测,则不可避免地会有一些暴力信息流入,对于未成年等特定人群来说,这些信息会对其行为习惯等产生负面影响。传统的方法是对用户上传的音视频进行人工审核,而由于网络多媒体数量大,人工方法会浪费大量人力,因此,需要一种算法可以自动识别暴力内容。音频是多媒体信息的重要组成部分,且暴力场景中经常采用特定音频事件来渲染气氛,可以在一定程度上影响视频的暴力程度判定。因此暴力音频的检测是非常有必要的。

由于大多数音频信号的特征都是基于帧粒度提取的,因此对于每一个样本,提取的原始特征是由帧的特征序列组成的矩阵,传统方法往往需要将矩阵转换为向量特征再进行分类。简单的做法是对每个特征的时间序列求统计值,一般取均值或方差等[1]。而这种方法会破坏原始数据的内在信息,只有利用高维数组,才能建立复杂模型来捕捉现实事物的信息。本文针对电影中所包含的音频暴力片段,研究了基于张量模型的分类方法,提出一个新的基于张量特征的分类器,验证了时间维度对音频分类的意义[2]。

1张量基础

张量是一个多维数组,即向量和矩阵的自然推广,例如一个向量 为一阶张量,一个矩阵 为二阶张量。一个N阶张量记作 ,并称 为张量的第n个指标,如图1是一个三阶张量 。

1.1 张量的矩阵化

一个纤维定义为除某一个指标外,其他指标都固定而得到的向量。每个指标对应张量的一个模式。若X的第n个指标 变动而其他指标固定,则所得的 维向量称为张量的模-n向量。例如矩阵的列是模-1纤维,行是模-2纤维,其他高阶张量的纤维可以理解为“矩阵的行和列”的高阶的形式。假定从张量中提出的纤维都为列向量[3]。

张量的矩阵化或者展开,是将N维数组重排序成一个矩阵的过程。设N阶张量 的模式-n展开记为 ,是将模式-n纤维重排,作为展开后矩阵的列。

1.2 张量的相关计算

对于给定的成分数目,从效果来看,交替最小二乘(Alternating Least Square)是一类比较有效的算法。大量实验证明,ALS算法在计算代价和结果质量上有着很好的权衡,并且易于实现,保证收敛,易拓展到高阶张量,内存消耗少,综合考虑优于其他算法[4]。

1.5 ALS算法

交替最小二乘法是基于将目标问题降为规模较小的子问题迭代求解的思想。所求的参数在不同的分组,通过固定除一组外的所有组,得到一个新的仅依赖于所留的自由变量的损失函数,使之最小化。该算法用同样的方法进行其他分组的计算。迭代计算,交替从一组到下一个,直到损失函数或参数的变化小于一个预定义的收敛准则。因为所有的步骤都是在最小二乘意义上的优化,损失函数不可能在任何一步增加,相反,是趋于最小的[5]。

其中,初始化方法可以是随机的或者取 的前T个奇异向量,n=1,...,N。终止条件包括,目标函数不再下降(或下降幅度小于一个阈值),系数矩阵不再改变(或变换程度小于一个阈值),目标值接近零,超过最大迭代次数。

张量分解不止是具有更多下标的矩阵分解——多重线性代数是一种结构更加丰富的线性代数。矩阵和张量具有完全不同的几何性质,这归结于矩阵是线性变换和二次型,而张量是多重线性映射和多元多项式。由于考虑到了多维模式的内在表达,张量分解可以挖掘更多隐藏信息[6]。

2 基于张量模型的音频分类方法

研究用张量特征进行分类的基本思路是,对每一类样本构建变换空间[7],把变换后的特征系数建立高斯模型,再将测试样本的特征变换到子空间中,得到一个向量特征,求其高斯概率密度,最后由贝叶斯准则确定预测类别。

2.1 特征提取

由于暴力样本中包含语音较少,因此没有选用声音质量或韵律学相关的特征,而主要提取了频谱和能量的相关特征。所提取的特征如表1所示。

考虑到数据量较大且保留每一帧的特征并没有较大意义,在此对相邻帧的特征向量求均值,这样得到的特征矩阵可以较准确地表达时序信息,更加具有意义。在实验中,每个音频包含n个向量特征,每个向量特征有m维,则每个音频可以得到一个n*m的矩阵特征。假设某一类音频数量为s,则提出所有音频的矩阵特征后,可以得到一个s*m*n的张量特征。这样,就得到了一个类别的张量特征[8]。

基于此,即对一个类别的张量特征进行处理,而不是对每个样本特征进行变换,其优点是可以利用类别的整体信息,减小由于个体差异带来的噪声的影响,变换后的特征更能体现出该类别的本质属性。

2.2 张量特征分解

对每一类样本的张量特征进行分解,得到三个可以近似表示原张量的矩阵,可以作为下一步分类算法的预处理。ALS算法首先要解决的问题是CP分解 中的T,而T的取值通常做法是尝试不同的值,直至获得满意结果,如果有较强的应用背景和先验信息,可以预先制定。在下面的实验中,选取了T=1,2,3...,来选择具有最佳效果的T值。

对某个类别的张量特征分别分解,可以得到A,B,C三个矩阵,其中,A为I*T的矩阵,B为J*T的矩阵,C为K*T的矩阵,需要的存储空间为T*(I+J+K),而原张量需要的存储空间为I*J*K,所需存储空间明显下降。这里用A,B,C三个较小的矩阵近似表示了原张量,是分类器的预处理过程。

2.3 基于张量特征的分类器设计

研究设计的分类器主要是构造两个子空间,然后分别对这两个子空间中的训练样本特征建立高斯模型,测试时求出投影后的测试样本在两个高斯模型中的概率密度值,较大者即为预测类别。

2.3.1 训练过程

训练过程的主要思想是,将预处理得到的三个矩阵进行计算,得到一个子空间和对应的系数矩阵,由于研究是对不同类别音频的特征张量分别处理,因此会得到两个子空间和两个系数矩阵,然后对这两个系数矩阵分别建立高斯模型,这个模型就是需要求取的训练模型。求解实现过程如下所示:

(1)求子空间。对 做QR分解, ,此时 是大小为(KJ)*T的归一化列正交矩阵,

(2)求系数矩阵。由于张量的展开 ( ),又 ,则 ,其中 为T*I的矩阵。因此, 是 在基 下的表示,由于 是标准正交基,若已知向量v,可求其在基 下的表示 。

这里可以理解为,先将张量展开,得到一个矩阵,接着分解为一个基矩阵和系数矩阵的乘积 。其中 是Q的列, 是H的行。原特征矩阵的每一列是每个样本的特征,可以表示为基向量 的线性组合,其系数是H的对应列。基矩阵即子空间,而系数矩阵的每一列是原特征向量化后投影到子空间中的向量。

这两个特征矩阵,就是经过处理的样本特征,每个样本的特征由J*K的矩阵变换为大小为T的向量(I为样本数,J为特征维数,K为时间),视为一个降维过程。对这两类特征分别建立单高斯模型,

(8)

此时得到了训练模型, 是均值, 是协方差矩阵。对每个类别都重复此过程,得到所有类别的训练模型。

2.3.2 测试过程

测试的主要思路是,每个类别都得到一个高斯模型后,将测试样本分别投影到这两个子空间中,得到两个不同空间中变换后的特征。将变换后的特征分别代入两个高斯模型中,得到其概率密度,较大者即为预测类型。具体实现步骤是:

(1)将测试样本的特征矩阵V,按列连接起来得到一个特征向量v。

(2)将该特征向量投影到某个类别的基矩阵定义的子空间上, 。

(3)把投影后的特征向量代入每个高斯模型中,得到 。

(4) 即为预测类别。

3 实验与分析

3.1 数据集介绍

本文所使用的数据库来自MediaEval 2013 Workshop所提供的数据库中的部分音频。数据库中包含了15部Hollywood电影,其中提供了电影镜头的暴力和非暴力标记。这里主要选择了5部电影,包括,Armageddon,BillyElliot,Eragon,KillBill和ReservoirDogs。音频剪辑时,应尽量使其成为具有单一语义的片段。由于MediaEval数据库中已提供暴力非暴力镜头的标注,基于该标注,尽量选取不同类型的声音,再根据人工测听,筛选出有代表性的,不同类别的暴力非暴力音频进行实验。另外,要考虑每个音频片段的长度,太长会包含不同的声音事件,太短则不能完整的表达语义。由之前学者研究可知,每个音频片段的长度为2s时,具有较好的结果[9]。最后得到的数据集中,暴力音频共300个,非暴力音频共302个。采用4折交叉验证的方法进行实验。即,随机选择452个样本作为训练集,其中包括227个非暴力样本和225个暴力样本,其余150个样本作为测试集,具体包括75个非暴力样本和75个暴力样本。

3.2 实验过程及结果分析

音频信号的采样率为16kHz,预加重系数为0.97,采用汉明窗进行分帧,帧长为40ms,帧移为15ms,每帧包含640个采样点。预处理后,对每一帧提取出上述49个特征,作为一帧的特征向量。然后将该样本的所有帧的特征向量组成一个特征矩阵。在本实验中,只是保留每个样本的前129帧,即特征矩阵大小为49*129。

接下来,将对每一类样本建立张量模型,考虑到如果保留所有帧,会增加计算量且没有意义,因此以相邻三帧为一组求特征向量均值,最后得到的张量特征大小为I*49*43(I是样本大小),T取值为1-30,分别进行实验。结果如表2所示,当T=4时,具有较好的结果。

4 结束语

本文使用基于张量模型的分类方法对爆炸、枪击、尖叫等具有代表性的暴力音频事件进行了检测,保留音频的时间信息,构造张量特征,对每一个样本的特征矩阵进行投影降维,并提出基于张量模型的分类方法。总体来讲,本文提取的特征及处理方法是有效的,能够产生较好的识别结果。但该方法主要是研究基于帧粒度的特征,没有考虑其他粒度特征,因此接下来的工作应考虑张量模型分类方法能否结合多粒度特征,不仅保留时间维度上的信息,还能体现出一个声音事件或一个音频样本的高层语义特征。

参考文献

[1] GIANNAKOPOULOS T, PIKRAKIS A, THEODORIDIS S. A multi-class audio classification method with respect to violent content in movies using Bayesian Networks[J]. Multimedia Signal Processing .mmsp .ieee Workshop on, 2007,(10):90 - 93.

[2] 张丽梅, 乔立山, 陈松灿. 基于张量模式的特征提取及分类器设计综述[J]. 山东大学学报(工学版), 2009, (1):6-14.

[3] KOLDA T G, BADER B W. Tensor decompositions and applications.[J]. Siam Review, 2009, 51(3):455-500.

[4] FABER N, BRO R, HOPKE P K. Recent developments in CANDECOMP/PARAFAC algorithms: a critical review[J]. Chemometrics & Intelligent Laboratory Systems, 2003, 65(1):119-137.

[5] 张晓飞. 解张量分解问题的信赖域交替最小二乘法[D].南京:南京师范大学,2014.

[6] CICHOCKI A, MANDIC D, PHAN A H, et al. Tensor decompositions for signal processing applications: From two-way to multiway component analysis[J]. Signal Processing Magazine IEEE, 2015, 32(2):145 - 163.

[7] 杨立东, 王晶, 谢湘,等. 基于张量分解模型的语音信号特征提取方法[J]. 北京理工大学学报, 2013, 33(11):1172-1175

[8] BENETOS, KOTROPOULOS E, et al. Non-negative tensor factorization applied to music genre classification[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2010, (8):1955-1967.

[9] EYBEN F, WENINGER F, LEHMENT N, et al. Affective video retrieval: violence detection in Hollywood movies by large-scale segmental feature extraction.[J]. Plos One, 2013, 8(12):e78506.