融合视音频特征的视频广告表现力识别
2019-03-06马云峰张喜龙戴永恒
程 俊,吉 祥,马云峰,张喜龙,戴永恒
(中国电子科学研究院,北京 100041)
0 引 言
互联网和智能终端的飞速发展,使得互联网上的视频数量急剧增长[1-3],视频广告作为与商业直接相关的数据近年来发展迅速,其制作数量与日俱增,各大厂商花费巨资打造视频广告,以提高品牌的影响力和产品的销售额,广告视频的表现力强,会迅速给观众留下深刻的印象,提升产品的知名度,给厂家带来丰厚的利润,反之,对产品的销售提升则没有太多帮助。
视频广告的表现力识别目前尚未得到深入的研究,视频广告表现力通常取决于广告的构思和设计,凭借主观经验决定,缺少客观的、定量的分析,而视频的颜色等视觉特征和视频广告中的音频特征等往往可以客观反映视频本身的表现力,因此,本文采用视频广告自身的视音频特征定量的分析视频广告的表现力。
本文的利用视频本身具有的视音频特征来识别视频的表现力,具体流程如图1所示:首先,收集视频广告作为数据库,将这些视频的点击率和上传时长进行处理得到视频表现力的真值,把这些视频分为训练集和测试集;其次,提取视频的视觉特征和音频特征;第三,融合训练视频的视音频特征和真值进行SVM训练,得到训练模型;最后,利用训练好的模型预测测试样本的视频表现力,将预测得到的视频表现力与真值进行比较,得到视频广告识别准确率。本文的实验结果表明,视频广告自身的特征可以对视频广告的表现力进行定量的识别,多种特征的融合识别率要高于单独使用一种特征。
图1 本文的视频广告表现力识别流程
1 建立视频广告数据库
我们选择了103个视频广告作为实验数据库,这些视频包括汽车广告、食品广告、饮料广告、首饰广告、酒类广告和公益广告等多个种类。其中50个视频作为训练样本,构成训练集,其余53个作为测试样本,构成测试集。同时我们采集了每个视频截止到某一天的访问量和上传时长,将每天的平均访问量作为该广告视频表现力的指标,将大于110次点击率/天指标的视频广告标签置为1,表示视频的表现力较高,将小于等于110次点击率/天指标的视频广告标签置为-1,表示视频的表现力较低。
2 提取视觉特征
本文对视频广告库中视频的视觉特征进行了提取,这些特征包括BoW特征、GIST特征、颜色矩特征和颜色直方图特征。
BoW特征[4]:BoW特征全称为Bag of Words(词袋)模型,是目前应用最广泛的视觉特征之一,本文采用基于SIFT(尺度不变特征变换)[5]算子的BoW特征, SIFT特征由David Lowe在1999年提出,该特征为图像中的兴趣点,在图像缩放和旋转时候具有不变性,另外,对光照和噪声等也具有相当的鲁棒性,所以在计算机视觉中应用广泛。在提取SIFT特征时候,第一,对图像进行高斯平滑滤波,高斯核宽参数为0.5,对滤波得到的图像进行卷积,得到图像金字塔,其次,对金字塔进行差分,得到图像显著点,并将其周围区域称为显著区域,由此我们可以得到一系列的显著点。第三,将图像显著点的显著区域按照主方向和垂直方向分成16个区域,在每个区域中统计方向直方图,将每个方向直方图的数值量化到0到255之间,这样就得到一个SIFT描述向量。然后,利用K-means算法对所有视频的SIFT特征进行聚类,统计每个图像拥有的SIFT特征属于每个类别个数,将这些个数排列为一个向量作为该BoW特征。
GIST特征[6-7]:GIST特征是图像的全局描述特征,他可以表示图像的一些重要统计信息。该特征可以编码图像中垂直和水平线条的数量和强度,这些信息可以用于图像匹配中,一般是通过在几个不同方向和尺度上的对图像卷积一个定向滤波器实现。此处的定向滤波器可以使Gabor滤波器。我们按照[5-6]中的方法提取每个视频中图像的GIST特征,然后对这些特征在所有图像上进行平均得到该视频的GIST特征。
Color moment:颜色是彩色图像最重要的特征之一,Color moment不需要颜色空间量化,是一种简单有效的颜色表示方法, 由于颜色分布信息主要集中在低阶矩中,所以我们采用颜色的一阶矩(mean)、二阶矩(variance)来表示该特征。
颜色直方图特征:提取视频中每帧图像RGB三通道上的颜色信息,然后将三个通道颜色信息向量首尾串联起来得到该帧的直方图向量,视频的颜色直方图特征为所有帧的颜色直方图向量平均值。
3 提取音频特征
视频中也包含音频信息,为了提取音频特征,我们首先将视频转化为音频格式的文件,然后利用MIR工具箱[8]对音频文件提取了音频特征。这些音频特征可以表示音频文件中的节奏、音调、音量、音色等信息。
4 融合视音频特征对广告视频进行识别
在获得视频的视觉和音频特征后,将这些特征的首尾相接,作为融合后的视音频特征用于视频表现力训练中。首先利用训练集中视频的视音频特征和真值标签输入到SVM中训练分类器,然后将测试集中视频的视音频特征输入到训练好的模型中,得到预测标签,将预测得到的标签与测试视频的真值对比,计算得到准确率。
5 实验及结果
本文中,总共103个视频广告参与了实验,这些视频包括酒类广告、汽车广告、食品广告、饮料广告、公益广告等种类,其中,50个视频为训练集,53个视频为测试视频。实验分为两个阶段,第一个阶段是训练阶段,利用SVM对训练视频的视音频特征和视频表现力标签进行训练,得到分类模型,SVM采用LibSVM[9]程序进行测试。第二个阶段是测试阶段,利用训练好的SVM模型对测试视频的视音频特征进行分类,得到测试视频的预测标签,将预测标签和测试视频的真值进行比较,获得视频表现力的识别准确率,融合视音频特征的识别准确率如表1所示。同时,为了对比融合结果,分别单独采用Bow特征、GIST特征、颜色矩特征、颜色直方图特征、音频特征进行了SVM训练和测试,得到每种特征的识别准确率,如表1中所示,结果表明,融合视音频特征进行视频广告表现力识别的准确率要高于单独使用一种特征,同时也表明,计算机利用视频广告自身的特征可以很好的广告的表现力进行识别。
表1 融合视音频特征的视频广告表现力识别
6 结 语
本文提出了一种新颖的融合视觉和音频特征进行视频广告表现力识别的方法,该算法模型经过视音频特征和表现力标签的训练后,可以很好的对测试广告视频的表现力进行预测,为广告视频表现力的识别提供了定量、客观的方法,同时,多种视音频特征融合识别可以从不同方面描述视频广告的表现力,得到了比单独使用一种特征更高的识别率。