网络媒体大数据流异构多模态目标识别策略

2017-02-21文孟飞刘伟荣

计算机研究与发展 2017年1期

文孟飞刘伟荣胡超

1(中南大学信息科学与工程学院长沙 410083)2(中南大学信息与网络中心长沙 410083)3(医学信息研究湖南省普通高等学校重点实验室(中南大学) 长沙 410083)4 (湖南省教育科学研究院长沙 410005)(wmfdcf@126.com)

网络媒体大数据流异构多模态目标识别策略

文孟飞1,4刘伟荣1胡超2,3

1(中南大学信息科学与工程学院长沙 410083)2(中南大学信息与网络中心长沙 410083)3(医学信息研究湖南省普通高等学校重点实验室(中南大学) 长沙 410083)4(湖南省教育科学研究院长沙 410005)(wmfdcf@126.com)

如何对海量的网络媒体大数据进行准确地目标识别，是当前的一个研究热点和难点.针对此问题提出一种利用媒体流时间相关特性的异构多模态目标识别策略.首先基于媒体流中同时存在音频和视频信息的特征，建立一种异构多模态深度学习结构；结合卷积神经网络(convolutional neural network, CNN)和限制波尔兹曼机(restricted Boltzmann machine, RBM)的算法优点，对音频信息和视频信息分别并行处理，这种异构模式可以充分利用不同深度神经网络的特点；然后生成基于典型关联分析的共享特征表示，并进一步利用时间相关特性进行参数的优化.3种对比实验用来验证所提策略的效果，首先将策略与单一模态算法进行对比；然后再在复合的数据库上建立对比实验；最后在网络视频库上建立对比实验，这些对比实验验证了策略的有效性.

目标识别；深度学习；卷积神经网络；限制玻尔兹曼机；典型关联分析

网络技术的发展使互联网上各种结构化、非结构化的海量大数据应运而生[1].如何建立起一种高效、准确的网络大数据目标识别策略已成为国内外学者的研究热点[2].现今互联网上85%以上已捕获的都是非结构化的文件、图像、视频、点击流和地理空间数据[3].迫切需要找寻网络大数据的共性规律，实现网络大数据的特征提取和目标识别[4].机器学习是目标识别的主要方法，目前已经从浅层学习发展到深度学习.

浅层结构模型通常包含单层或双层的非线性特征变换[5]，如高斯混合模型(Gaussian mixture model, GMM)[6]、条件随机场(conditional random fields， CRF)[7]模型、支持向量机(support vector machine， SVM[8])模型以及含有单隐层的多层感知机(multi-layer perceptron， MLP)[9]模型等.浅层结构能有效地解决许多简单的或具有明确约束的问题，但需要依靠人工来抽取样本的特征，难以将其扩展到视频的特征提取[10]，而且浅层模型的自纠错能力比较有限[11].

针对上述问题，Hinton等人[12]于2006年提出深度置信网络(deep belief network, DBN)结构和非监督贪心逐层训练算法，可表征复杂高维函数，提取多重水平的特征，获得更多的有用信息[13].

深度学习的2种典型结构为限制波尔兹曼机(restricted Boltzmann machine, RBM)和卷积神经网络(convolutional neural network, CNN).RBM在语音识别体现了较好的优势[14]，而LeCun等研究者[15]使用CNN在处理识别图像信息取得了比其他学习方法更好的结果.

目前，随着互联网的发展以及视频编解码技术的成熟，视频数据呈现出爆炸式的增长[16].出现了如优酷、土豆、Youtube等资源丰富且访问量巨大的视频网站，为视频数据的目标识别提出了新的需求.目前已经有将深度学习方法应用到视频数据目标识别的若干研究成果[17-19].

上述的研究成果往往针对视频的视觉信号进行单一模态的处理.但对于一段视频来说，视觉和听觉信号都能够为目标识别提供重要的信息.因此出现了结合各种不同的模态之间的有效信息的多模态学习方法.如Leonardi等人在文献[20]中使用了底层的视觉和音频特征来检测足球视频中的进球镜头.文献[21]使用多模态方法并行处理人物口型和所发出的音节.

目前这2种多模态学习方法都采用同一种深层结构处理音频和视频信号.但在多模态方法中使用不同深层结构将会取得更好的效果.如RBM对声音的识别具有较好的识别效果，而CNN对时间相关的动态视觉信号有较强的鲁棒性[22].

基于以上讨论，本文提出一种针对媒体大数据流的异构多模态目标识别策略，综合RBM的语音识别能力和CNN的图像处理能力，并建立RBM和CNN的共享关联表示，以更有效地识别视频中的目标.在对视觉信号进行处理时，进一步利用视频中相邻2帧的时间相关性，优化神经网络多层结构的参数，提高目标识别的准确度.

1 异构多模态深度学习的目标识别策略

多媒体数据中目标识别的关键是能够获取数据的主要特征.网络资源中的多媒体视频数据具有较大的复杂性与多样性.仅仅利用视频数据中单一模态进行处理往往难以得到较好的效果.使用多模态结合的方法提取数据特征能够更有效应用于媒体数据流的特征提取：将视觉图像和音频数据分别作为2种模态输入，并行进行处理，同时得到2种模态的高层特征，进而通过最大化2种模态之间的关联性建立模态间的共享表示，可得到更好的识别效果.

由于视频信息中视觉信息和听觉信息的特点不同，本文建立了多模态的异构深度学习框架，该框架结合了不同类别的深度网络分别对视觉信息和听觉信息进行处理，而不同类别的深度网络会对视觉信息和听觉信息分别具有各自的优势.这种处理将会增加结构的复杂程度，但是可针对不同模态的数据提取出更有效的特征，从而增加目标识别的精度.本文分别利用RBM和CNN处理视频数据流的音频信号和视频图像信号.

RBM是一种特殊形式的玻尔兹曼机，可通过输入数据集学习概率分布随机生成神经网络，具有较好的泛化能力.而由多个RBM结构堆叠而成的深度信念网络能提取出多层抽象的特征，从而用于分类和目标识别.

本文我们采用RBM模型进行音频处理，RBM的结构如图1所示，整体是一个二分图的结构，分为2层，一层为可见层(visible units)，一层为隐层(hidden units)，可见层也称为输入层.

Fig. 1 Structure of RBM图1 RBM的结构图

Fig. 2 Multiple convolution operation and sample process of the convolutional neural network图2 卷积神经网络多层卷积运算和采样过程图

RBM的隐藏向量h和可见向量v之间存在对称性的连接Wi,j，但是隐藏向量之间或者可见向量之间没有连接.该模型通过模拟热力学能量定义了基于h，v的联合概率分布，如式(1)所示.由于同层变量之间没有连接，因此根据联合概率分布可方便计算出每一个单元的激发概率.

-lgP(v,h)∝E(v,h)=

(1)

其中，c，b为偏置参数向量，W为RBM连接权值矩阵，E(·)为RBM能量函数.

根据式(1)，可定义隐层和可见层的概率分布：

(2)

(3)

(4)

每一个单元的激发概率为

(5)

(6)

CNN是多层感知机(MLP)的一个变种模型，是近几年来快速发展并引起广泛重视的一种高效识别方法，它是从生物学概念中演化而来的.20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而LeCun等人以此为基础提出了CNN[15].

一般来说，CNN的基本结构包括2层：1)特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征.一旦该局部特征被提取后，它与其他特征间的位置关系也随之确定下来.2)特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等.特征映射结构采用sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性.此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数.卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与2次提取的计算层，这种特有的2次特征提取结构减小了特征分辨率.其具体结构图如图2所示:

(7)

子抽样层Sl在每个出入位面上使用Kl×Kl平滑滤波：

(8)

首先将视频模型描述为视听双模态，其中该模型的信号是视频帧和与视频帧同步的连续声谱.本文采用了基于稀疏理论深度自动编码器的异构多模态深度学习策略.

深度自动编码器是一种利用无监督逐层贪心预训练和系统性参数优化的多层非线性网络，能够从无标签数据中提取高维复杂输入数据的分层特征，并得到原始数据的分布式特征表示的深度学习神经网络结构，其由编码器、解码器和隐含层组成.

基于稀疏理论的深度自动编码器[10]对原始自动编码器的隐含层添加了约束条件并增加了隐含层数量，能提取高维数据向量的稀疏解释性因子，保留原始输入的非零特征，增加表示算法的鲁棒性，增强数据的线性可分性，使物体边界变得更加清晰.

该识别模型分为输入层、共享表示层以及输出层.

1) 输入层.为视频资源的2个模态，即声谱和视频帧，其中声谱采用RBM训练，视频帧采用CNN训练.

2) 共享表示层.这一层的关键是找到特征模态的转换表示从而最大化模态之间的关联性.本文采用典型关联分析(canonical correlation analysis, CCA)的方法寻找声谱波和视频帧数据的线性转换从而形成性能优良的共享表示.

其中，CCA是一种先将较多变量转化为少数几个典型变量，再通过其间的典型相关系数来描述2组多元随机变量之间关系的统计方法.有助于综合地描述2组变量之间的典型相关关系.基本过程是从2组变量各自的线性函数中各抽取一个组成一对，它们应是相关系数达到最大值的一对，称为第1对典型变量，类似地就可以求出第2对、第3对，……，这些成对变量之间互不相关，各对典型变量的相关系数称为典型相关系数.所得到的典型相关系数的数目不超过原2组变量中任何一组变量的数目.

3) 输出层.这一层为声谱和视频的重构.还原视频信息的同时，识别视频中的物体.

2 基于视频时间相关特性的参数优化

2.1 视频相关性描述

视频是由一系列图像所组成，图像中目标识别的方法可以用来对视频进行识别，一段视频可以分解成很多帧，同一视频中连续的2个视频帧很有可能表示同样的内容，视频的这种特性我们称之为相关特性.将这视频的这种特性用于视频的目标识别，可以使识别效果得到很大程度的提高[22].

利用视频的时间相关性来提高识别准确性已成功用于视频的动作识别[23].实验表明具有时间相关性视频卷积网络的识别效果明显比采用视频单帧进行训练的卷积网络效果优越.

2.2 利用视频相关特性的优化

CNN中在每个卷积层和子采样层之后都运用了一个非线性函数tanh(·)，最后使用经典的全连接层输出识别标签向量，我们引入了softmax层，向量的概率计算为

(9)

在普通CNN对视频的处理过程中，我们从视频的全部图像帧中抽取一部分作为训练样本，{(xn,yn)}n=1,2,…,N，xn代表二维的输入图像，yn为分类或识别的标签.对CNN网络中的相邻帧参数θ，以最小化似然函数L(θ)为目标，优化参数θ.似然函数L(θ)的表达式如下：

(10)

为达到这个目的，采用随机梯度下降算法对式(10)中的参数θ进行训练，从训练样本中取一个随机样本(x,y)，计算出梯度∂L(θ)∂θ后，按照式(11)更新参数θ.

(11)

得到的新参数θ能使CNN对视频中目标识别的性能更准确.其中λ是根据实验选择的学习率.

为了使CNN更好地训练θ，以达到更好的识别正确率，我们利用视频中存在的时间相关性进一步对似然函数L(θ)进行优化.

Lcoh(θ,x1,x2)=

(12)

其中，δ为边缘尺寸，是一个提前选取好的参数，例如δ=1.

Fig. 3 Parameter optimization by utilizing the coherence图3 利用相关特性优化学习参数示意图

上述的CNN自身对目标识别的任务和使用视频时间相关性对网络进行优化是同时进行的，最后我们得到一个优化后的参数：

(13)式(13)最小的参数θ即是我们要训练的θ值.在式(13)中，为了限制参数的数量，为相关似然函数Lcoh(θ,x1,x2)设置了相同的γ，如可令γ=1.

2.3 基于时间相关的异构多模态深度学习算法

基于时间相关性的异构多模态的结构如图4所示，我们将视频中的2个模态视频和音频分别采用CCN和RBM进行处理得到相应的识别标签向量.

RBM网络的输入为与视频帧相对应的同步连续声谱，我们采用深度自动编码器的学习模型对音频进行处理，该学习模型仍然与第1节类似，分为输入层、共享表示层以及输出层.

1) 输入层.为视频资源的2个模态，即声谱波和视频帧，其中声谱采用RBM训练，视频帧采用CNN训练.

2) 共享表示层.这一层的关键是找到特征模态的转换表示从而最大化模态之间的关联性.与第1节不同的是，该共享层的视频部分的特征由并行CNN产生.本文采用CCA的方法寻找声谱数据的线性转换从而形成性能优良的共享表示.

3) 输出层.为该深度学习模型的识别标签向量.

RBM的目标是最大化训练样本集V中的概率之积：

(14)

CNN的优化目标则是最大化式(9)中的概率，基于时间相关的异构多模态深度学习算法的目的就是对参数w，θ优化RBM和CNN的联合概率：

(15)

具体的算法如算法1所示.

算法1. 利用时间相关性的学习参数优化算法.

输入：标签数据(an,xn,yn),n=1,2,…,N,非标签视频数据an,xn,n=N+1,N+2,…,N+U；

输出：神经网络的参数w,θ和识别标签label.

Repeat：

Step1. 取一个随机标签样本(an,xn,yn)；

Step2. 针对音频输入an，执行一次梯度下降迭代优化RBM的连接参数w；

Step3. 对视频输入帧中连续的xn,yn和似然函数L(θ,xn,yn)，执行1次梯度下降迭代；

Step4. 对视频输入帧中不连续的xm,xn和相关似然函数Lcoh(θ,xm,xn)，执行1次梯度下降迭代；

Fig. 4 Structure of heterogeneous multimodal deep learning based on temporal coherence图4 基于时间相关的异构多模态深度学习结构图

Step5. 针对音频输入an，再执行1次梯度下降迭代优化RBM的连接参数w，选择参数w，θ最大化式(15)中的联合概率.

Until迭代误差小于设置的阈值.

上述算法就是通过交替更新目标识别任务的声谱识别和视频图像帧识别的参数来实现优化，在视频图像帧中同时利用了连续帧和非连续帧的特征进行优化,以达到提高识别效率的目的.

3 实验与分析

为了验证本文提出的异构多模态深度学习的目标识别方法的性能，构造了3组对比实验:组1的测试数据来自于单一的数据库，主要说明异构架构结合多种神经网络的有效性；组2的测试数据来自不同的数据库，主要说明算法的适应性；组3的测试数据来自视频网站的电影视频，说明算法的实际应用性.

对比实验采用了高性能双CPU服务器硬件配置，带有128 GB内存，并配备一块双GPU加速卡.基于caffe开源平台进行深度学习异构平台的搭建，使用了其中的CNN工具，并加入了多层RBM神经网络和共享的关联分析.

3.1 对比实验1

为说明异构深度学习架构的有效性，将本文提出的异构多模态策略与分别基于单一神经网络CNN和RBM的算法进行对比.选用BANCA[24]数据库中的视频作为测试数据来源,该数据库由26个被测对象(13个男性和13个女性)的发音视频组成.每个被测对象记录24段视频，每段视频大致延续15 s.在这段视频中被测对象要么读数字，要么读他们自己或别人的名字与地址.某些片段会加入噪声.

对每个被测对象的24段视频，其中8段作为训练组，16段作为测试组，对比的结果如表1所示.由表1可以看出，基于异构多模态的神经网络架构的深度学习目标识别结果比基于单一网络的深度学习的目标识别结果有了显著提高.

Table 1 Comparison of Neural Network Algorithms withDifferent Structures Based on BANCA

3.2 对比实验2

为了说明算法的适应性，在这组实验中分别采用来自不同的数据库作为测试视频的声音和图像帧信息，使用的数据库如下：

1) Stanford Dataset.该数据库是来自于斯坦福大学的一个网络数据库.我们选用其中的语音数据部分，使用库中23名志愿者朗读从0～9的数字、从A～Z的字母和从TIMIT标准语音库里挑选的语句，以作为声音训练和测试数据.

2) Olivetti Faces.该数据库是纽约大学的一个人脸数据库，由40个人的400张图片构成，即每个人的人脸图片为10张.每张图片的灰度级为8 b，每个像素的灰度大小位于0～255之间，每张图片大小为64×64.使用图片构造被测视频的图像帧,采用人工设定视频中的人脸视频与语音数据的对应关系.视频帧中的帧1，4，5作为标签数据，其余的图像作为非标签数据.

此外，为了验证算法的有效性，我们将所提出异构多模态深度学习方法同已有的近邻取样、支持向量机和传统的卷积神经网络和玻尔兹曼机等目标识别方法进行比较.我们将所用图像和语音数据平均分成6组，分为训练组L和测试组T，进行如下操作：1)L=1，T=5; 2)L=2，T=4; 3)L=5，T=1,测试结果如表2所示:

Table 2 Comparison of Algorithms Based on StanfordDataset and Olivetti Faces

由实验结果可以看出随着训练集的规模增大，所有目标识别方法的测试精度都得到了显著提高.跟传统的4种目标识别方法相比，由于本文提出的异构多模态深度学习方法能够抽象学习目标与时间相关的特性信息，能不依赖大量对象集进行目标识别训练，所以异构多模态深度学习方法能始终获得最高的训练精度.在训练组较小L=1，T=5时，异构多模态深度学习方法的测试精度是90.35%;在训练组较多L=5，T=1时，测试精度提升了8.51%，误差率只有1.14%.

3.3 对比实验3

此外，我们利用以下3种具有复杂场景和多种表情动作的视频数据集以验证本算法的有效性：UCF sport actions, Hollywood2和YouTube action.这些数据集提取自实际场景，具有场景复杂、待识别目标具有移动性、目标捕捉困难、面对干扰较大等特性.

由于使用了带有GPU的高性能服务器，所有的算法在训练后都可以在连续播放5～10帧的时间内完成目标识别.而本文所提出异构算法所需要的时间略高，较所有算法的平均时间大约高出7%，但仍然对所测试的视频基本上可以满足实时性的要求.

在本次实验中我们利用较多训练组L=5，T=1来验证目标识别精度.比较结果如表3所示.由仿真结果可以看出在更复杂的场景下，所有4种方法的目标识别都更加困难.特别是针对高度复杂的好莱坞电影场景，目标识别精度最高只有63.86%.

Table 3 Comparison of Algorithms Based on UCF, Hollywood2and YouTube Action

由于4种数据集场景具有较大的干扰，所以具有滤波作用的玻尔兹曼机方法和异构多模态深度学习方法具有更高的识别精度.此外本文提出的异构多模态深度学习方法能够抽象的学习目标与时间相关的特性信息，特别适用于移动场景目标的识别，能始终获得最高的目标识别精度.

4 结束语

本文针对网络媒体数据中同时包含音频信号和时间相关的视频图像信号的特点，提出一种异构多模态目标识别的策略，结合RBM和CNN分别处理媒体数据的音频和视频信息，并进一步根据视频帧之间的时间相关性优化神经网络的参数，所提出的策略将2种模态特征进行共享学习表示.通过结合2种模态之间的特征，对视频数据进行更为准确的目标识别.本文给出的算法实验和比较结果，显示了本文算法的有效性与优越性.在下一步的研究中，将会考虑更为复杂的视频场景和充分的噪声干扰，并考虑不同分辨率视频信息的融合，以增加算法在实际应用场景的识别能力和适应性能.

[1]Yu Wei, Li Shijun, Yang Sha, et al. Automatically discovering of inconsistency among cross-source data based on Web big data[J]. Journal of Computer Research and Development, 2015, 52(2): 295-308 (in Chinese)(余伟, 李石君, 杨莎, 等. Web大数据环境下的不一致跨源数据发现[J]. 计算机研究与发展, 2015, 52(2): 295-308)

[2]Chen X W, Lin X. Big data deep learning: Challenges and perspectives[J]. IEEE Access, 2014, 2: 514-525

[3]Li Guojie. The scientific value in the study of the big data[J]. Communications of CCF, 2012, 8(9): 8-15 (in Chinese)(李国杰. 大数据研究的科学价值[J]. 中国计算机学会通讯, 2012, 8(9): 8-15)

[4]Lowe D G. Object recognition from local scale-invariant features[C]Proc of the 7th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 1999: 1150-1157

[5]Deng L, Yu D. Deep learning: Methods and applications[J]. Foundations and Trends in Signal Processing, 2014, 7(34): 197-387

[6]Zivkovic Z. Improved adaptive Gaussian mixture model for background subtraction[C]Proc of the 17th Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2004: 28-31

[7]Quattoni A, Collins M, Darrell T. Conditional random fields for object recognition[C]Proc of the Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2004: 1097-1104

[8]Suykens J A K, Vandewalle J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300

[9]Morgan N, Bourlard H. Continuous speech recognition using multilayer perceptrons with hidden Markov models[C]Proc of Int Conf on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1990: 413-416

[10]Le Q V, Zou W Y, Yeung S Y, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 3361-3368

[11]Arel I, Rose D C, Karnowski T P. Deep machine learning-a new frontier in artificial intelligence research[J]. IEEE Computational Intelligence Magazine, 2010, 5(4): 13-18

[12]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507

[13]Liu Jianwei, Liu Yuan, Luo Xionglin. The research and progress of deep learning[J]. Application Research of Computers, 2014, 31(7): 1921-1930 (in Chinese)(刘建伟, 刘媛, 罗雄麟. 深度学习研究进展[J]. 计算机应用研究, 2014, 31(7): 1921-1930)

[14]Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97

[15]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324

[16]Cheng Dongyang. Multimedia content analysis based on unsupervised feature learning[D]. Shanghai: Shanghai Jiao Tong University, 2014: 1-93 (in Chinese)(程东阳. 基于无监督特征学习的多媒体内容算法研究[D]. 上海: 上海交通大学, 2014: 1-93)

[17]You Qingzhen. The radio face recognition method based on the deep learning[D]. Harbin: Harbin Institute of Technology, 2012: 3-20 (in Chinese)(由清圳. 基于深度学习的视频人脸识别[D]. 哈尔滨: 哈尔滨工业大学, 2012: 3-20)

[18]Wang Y S, Fu H, Sorkine O, et al. Motion-aware temporal coherence for video resizing[J]. ACM Trans on Graphics, 2009, 28(5): 127-127

[19]Zou W, Zhu S, Yu K, et al. Deep learning of invariant features via simulated fixations in video[C]Proc of the Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 3212-3220

[20]Leonardi R, Migliorati P, Prandini M. Semantic indexing of soccer audio-visual sequences: A multimodal approach based on controlled Markov chains[J]. IEEE Trans on Circuits and Systems for Video Technology, 2004, 14(5): 634-643

[21]Ngiam J, Khosla A, Kim M, et al. Multimodal deep learning[C]Proc of the 28th Int Conf on Machine Learning. New York: ACM, 2011: 689-696

[22]Mobahi H, Collobert R, Weston J. Deep learning from temporal coherence in video[C]Proc of the 26th Int Conf on Machine Learning. New York: ACM, 2009: 737-744

[23]Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]Proc of the Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 568-576

[24]Bailly-Baillie`re E, Bengio S, Bimbot F, et al. The BANCA database and evaluation protocol[G]LNCS 2688: Proc of the 4th Int Conf on Audio-and Video-Based Biometric Person Authentication. Berlin: Springer, 2003: 625-638

Wen Mengfei, born in 1975. Associate professor. PhD from Central South University, postdoctor of Hunan Provincial Research Institute of Education. His main research interests include automation control, computer science and multi-agent system.

Liu Weirong, born in 1976. PhD. Associate professor of Central South University. Member of CCF. His main research interests include computer science, machine learning, big data, cooperative communication and cooperative control.

Hu Chao, born in 1980. PhD from Central South University. Associate dean of Information and Network Center of Central South University. His main research interests include computer science, network management and regional medical informationization (huchao@csu.edu.cn).

A Heterogeneous Multimodal Object Recognition Strategy of the Massive Network Data Flow

Wen Mengfei1,4, Liu Weirong1, and Hu Chao2,3

1(SchoolofInformationScienceandEngineering,CentralSouthUniversity,Changsha410083)2(InformationandNetworkCenter,CentralSouthUniversity,Changsha410083)3(KeyLaboratoryofMedicalInformationResearch(CentralSouthUniversity),CollegeofHunanProvince,Changsha4100834(HunanProvincialResearchInstituteofEducation,Changsha410005)

It is a research hot to achieve the object recognition of the massive network media data nowadays. To address the problem, an object recognition strategy is proposed to handle the massive network media data flow which adopts heterogeneous multimodal structure while utilizing the temporal coherence. Firstly, based on the video and audio co-existing feature of media network data, a heterogeneous multimodal structure is constructed to incorporate the convolutional neural network(CNN) and the restricted Boltzmann machine(RBM). The audio information is processed by restricted Boltzmann machine and the video information is processed by convolutional neural network respectively. The heterogeneous multimodal structure can exploit the merits of different deep learning neural networks. After that, the share characteristic representation are generated by using the canonical correlation analysis(CCA). Then the temporal coherence of video frame is utilized to improve the recognizing accuracy further. There kinds of experiments are adopted to validate the effectiveness of the proposed strategy. The first type of experiment compares the proposed strategy with single-mode algorithm. The second type of experiment illustrates the result based on composite database. Finally the videos coming from real websites are extracted to compare the proposed strategy with other algorithms. These experiments prove the effectiveness of the proposed heterogeneous multimodal strategy.

object recognition; deep learning; convolutional neural network (CNN); restricted Boltzmann machine (RBM); canonical correlation analysis (CCA)

2015-08-03；

2015-12-16

湖南省教育科学“十二五”规划重点资助项目(XJK014AJC001)；国家自然科学基金项目(61379111,61672539,61202342) This work was supported by the Key Project of Educational and Scientific Foundation of Hunan Province During the 12th Five-Year Plan Period(XJK014AJC001) and the National Natural Science Foundation of China (61379111,61672539,61202342).

刘伟荣(frat@csu.edu.cn)

TP391