基于音视频特征的电视广告单元分割技术
2012-03-15汪玉山
汪玉山,史 萍
(中国传媒大学 通信与信息系统,北京 100024)
随着互联网的高速发展和电视网络技术的普及,电视广告在商业信息的传递中占据着很重要的位置,电视广告检测和匹配也一直是视频检测领域的一个重点和难点。对于广告投放商而言,电视广告检测可以确定其广告在电视台的播放情况,确保其利益;对于视频网站而言,广告的检测可以帮助他们更有效地编辑和发放视频;对于广告制作商,电视广告检测可以用来收集和研究有创意的广告,以制作出新的广告;对于普通观众来说,检测电视广告有助于他们找到需要的广告信息或跳过广告直接查看自己感兴趣的电视节目等。
目前人们主要利用音视频特征来实现广告检测和广告匹配。文献[1]利用了音频特征来进行电视广告的检测和视频的分类,取得了较好的效果。文献[2]中融合视频的视觉特征和音频特征,利用基于向量机的方法进行广告检测,取得了很好的效果。文献[3-5]综合采用音频短时能量、镜头检测和字幕检测,也较好地实现了广告段落的检测。上述研究大多集中在电视广告段落的检测和识别方面,而一个电视广告段落通常包含多个广告单元,对于广告的检测和广告的匹配来说,广告单元的分割有着很重要的意义。本文通过研究电视广告的特点,提出了一种基于音视频特征的方法,将视频镜头检测和静音检测结合起来,较好地实现了广告段落中的广告单元分割。
1 电视广告的特点
电视广告通常是以广告段落的形式播出,一般都插播在不同的电视节目之间。与电视台播放的其他节目比较,电视广告的色彩更加丰富,镜头变化频率会很明显的偏高,在镜头的表现手法上较多地使用了渐变,音频的能量相对较高,波动性较大。
一个广告段落通常由若干个不同的广告单元组合而成,广告单元之间的切换在音视频上都会有所变化。在视觉的表现上,画面出现切变(如图1所示),在有些广告的结尾处会出现静止帧,有些广告结尾处会出现此广告的商标和名称。音频上的表现如图2所示,在一个广告单元内部,音频的能量会保持相对稳定的一个状态,而在广告单元与单元之间切换时,音频能量骤减,会出现短暂的静音段。
由上述分析可知,在广告单元的边界处,视频的变化表现为画面的切变,音频的变化表现为音频短时能量相对其他位置会很低,通常会伴随着小段的静音出现;而在各个广告单元内部,这两个特征是不会同时出现的。因此,通过对视频切变镜头的检测和静音的检测即可确定广告单元的边界。
2 基于音视频特征的电视广告单元分割
2.1 算法原理
根据广告段落的音视频特征,本文采用了如图3所示的方法来实现广告单元的自动分割。首先,将电视广告分成视频流和音频流,通过视频分析检测切变镜头,通过音频分析检测静音位置。镜头是视频的基本单位,广告单元的分割是建立在镜头检测的基础之上。广告单元与单元之间的切换,以画面的切换为主要标志,所以能否检测出广告单元的切变镜头对于广告单元的分割准确度有着重要的影响。音频方面,广告单元的切换以小段静音为标志,如果能精确地检测出静音位置,对于广告单元边界的确定十分重要。最后在匹配处理上,选取在静音处的镜头切变帧作为广告单元的结束帧,从而实现对广告段落中的广告单元的分割。下面,将介绍本文所采用的镜头检测方法和静音检测方法以及在得到镜头切变位置和静音位置后的匹配处理方法。
2.2 镜头检测
视频镜头的转换方式一般分为两种:切变和渐变。在实际的电视广告段落中,广告单元与单元之间的转换方式通常都是切变,而渐变都是出现在广告单元内部,因本文旨在分割广告单元,所以只研究切变镜头检测。
目前,切变镜头的检测算法主要有基于像素差的方法、基于统计量的方法、基于直方图的方法、区域块的方法等[6]。在基于直方图的方法中,切变镜头检测在正确率在90%以上,且对于小的运动和噪声不是很敏感,所以本文采用了基于直方图的镜头检测方法并对其进行了改进。
改进的基于直方图的镜头检测算法采用直方图差作为基本特征和判决条件,采用自适应阈值作为镜头突变的判别准则,设置了滑动窗口,这样可以有助于自适应阈值的提取,同时也可提高镜头检测的效率和准确度,消除了固定阈值的局限性。
1)直方图特征提取
由于灰度直方图平均差可以放大相邻帧间的差别,所以本文将采用直方图平均差法来检测视频镜头,直方图平均差的计算公式为
式中:Hi(j)代表的是第i帧中第j列的灰度值;Di是第i帧与第i-1帧的直方图平均差之差。则当Di大于设置的阈值后,就判定为切变。
2)自适应阈值的选取及算法过程
在不同的视频片段中或同一视频片段的不同镜头转换处,帧差会有很大不同。若采用固定阈值来判别,误检和漏检的可能性会很大,造成镜头检测的局限性,更好的方法是根据不同的镜头变化情况自适应地选取阈值。通过实验发现,同一镜头内的帧差相差不大,基本围绕在此镜头帧差的平均值上下,而镜头边界处的帧差要明显大于此镜头的帧差平均值,所以选取帧差平均值来自适应得到镜头阈值。为了能更好地选取自适应阈值,本文使用一个滑动窗口,计算窗口内的帧差并取其平均值作为阈值,在窗口内判定是否发生切变,然后将窗口向后滑动,直到检测完所有的视频帧。
本文采用了改进的基于直方图的镜头检测方法来进行广告段落中的镜头检测。考虑到在广告视频中一个镜头的长短关系,本文中定义滑动窗口大小为11,将帧差平均值乘一个系数作为阈值,在对于广告视频的反复实验后,本文的阈值系数取值在8~9之间比较合适。实验结果证明,这种方法对于切变镜头检测具有不错的效果。
2.3 音频检测
在视频广告里面,音频数据的变化相对视觉的变化更加剧烈,对于广告视频的检测更具有代表性。目前,在音频处理上人们更多的是考虑音频的短时特征。常用的音频特征大致分为三类:时域特征、频域特征和声学感知特征[7]。其中时域特征,如短时能量、短时过零率、短时自相关系数和短时平均幅度差等,仅仅利用音频信号的时域上的信息,提取方法简单而且高效,短时能量和短时过零率可以直接用于静音检测。
在电视广告段落中,广告单元与单元之间切换时会伴随小段静音的出现和音频的切变。经过试验样本观察,广告单元之间的静音持续时间最短在20 ms左右。所以将音频短时帧长设定为20 ms,并提取音频帧的短时能量和短时过零率作为静音检测的参考特征。其中,短时能量(STE)和过零率(Zn)的计算公式分别为
由图1可以看出,广告单元结束位置音频短时能量和短时过零率相较于其他位置较低,所以,检测出短时能量低的位置和短时过零率低的位置作为静音出现的位置。实验结果表明,短时能量和短时过零率可以较好地检测出音频段中的静音位置。
2.4 匹配处理
在得到镜头切变位置和静音位置后,需要进行匹配处理。选取同时满足切变帧和静音帧的图像帧作为广告单元的切换帧,并由此得到每一个广告单元的起始帧位置,达到广告单元的分割效果。在实际检测过程中,由于选取的最小静音帧长为20 ms,当广告单元间的静音段过长,例如持续了60 ms,则会检测出3个静音帧,此时只能选取其中1帧作为静音帧,否则会造成重复错误;还有可能存在切变帧与静音帧没有完全对应的情况,此时在匹配的算法实现上,得到与静音帧最近的切变帧即作为广告单元的切换帧。
3 实验结果
本文对上述方法进行了实验仿真,实验样本来自中央电视台和北京电视台播出的电视广告段落。通过镜头检测、静音检测和匹配处理后,得到每个广告单元的起始帧,实现了广告单元的分割。实验结果如表1广告单元分割结果所示。
表1 广告单元分割结果
实验结果表明,这种音视频结合的检测算法对于广告段落中的广告单元分割来说具有较好的效果。其中漏检主要是因为广告单元与单元之间衔接的音频过快,未能检测出静音段,所以没有达到预期效果,而误检是因为一个广告播放完后,播放其商标的信息时,前后都出现了静音段,所以将其商标信息误认为是一个独立的广告单元。这两种情况在日常的广告播放中不是经常出现,但是也不可避免地遇到,所以需要对此方法进一步改进和完善。
4 总结
随着流媒体数据的日益盛行,视频广告的研究将会引起人们更多的关注,随着科学技术的发展,视频广告检测算法也肯定会日益完善。本文对视频和音频的双重分析后,通过镜头检测和静音检测,较好地实现了视频广告段落中广告单元的分割。实验结果表明,该方法是有效的,但是,也有其局限性,对于广告单元与单元衔接不具有明显静音的位置未能检测出来,而对于广告单元内部出现静音段时则会造成误检,所以,广告单元的分割算法还有待改进。在今后的研究中,需要采用更多的音视频特征来区别不同的广告单元,以求更好地实现广告单元的自动分割。
[1]DUXANS H,CONEJERO D,ANGUERA X.Audio-base automatic management of TV commercials[C]//Proc.ICASSP 2009.[S.l.]:IEEE Press,2009:1305-1308.
[2]杨厚德.视频广告的自动识别与检测[D].北京:北京交通大学,2011.
[3]葛菲.基于内容的电视广告检测技术研究[D].北京:中国传媒大学,2010.
[4]葛菲,史萍.基于内容的电视广告段落检测系统[J].电视技术,2010,34(9):106-109.
[5]葛菲,史萍,姚彬,等.广告段落分割系统中的字幕检测[J].电视技术,2010,34(2):25-28.
[6]张亮.鲁棒的广告视频检测算法的研究[D].北京:北京交通大学,2007.
[7]冯哲.基于内容的视频检索中的音频处理[D].上海:复旦大学,2004.