APP下载

SIFT算法在新闻视频检索中的应用

2022-07-28吕华玮亓振军

数字传媒研究 2022年4期
关键词:关键帧播音员新闻节目

吕华玮 亓振军

1.2.山东省广播电视监测中心 山东省 济南市 250014

1 简 介

随着我国社会经济发展迅速,广播电视制作、传播水平突飞猛进,作为传播国家方针政策及丰富大众精神文化生活的重要平台,广播电视节目特别是新闻节目的安全播出对我国社会的发展具有重要意义。为了提升广播电视安全播出水平,作为广播电视监管部门必须对广播电视新闻节目进行有效的监测。因此,能够将电视频道播出的新闻视频节目中包含的新闻片段完整地拆分出来,对我们来说至关重要。

播音员镜头检测是将新闻视频拆分成故事的关键步骤。然而,现有的主播镜头检测方法与频道相关,缺乏鲁棒性,无法满足对大规模广播中各种新闻视频进行有效管理的要求。

2 播音员镜头检测算法

新闻播音员镜头检测是一个具有挑战性的研究方向,目前常见的解决方案为模板匹配和回归检测。

2.1 算法原理

由于新闻节目视频的特殊性,经过调研,新闻节目视频的拆分点通常伴随着播音员镜头的出现,在观察不同电视台播出的多种类型新闻广播节目后,我们可以发现播音员镜头就是由一位或两位新闻播音员坐在播音室里进行新闻播报的镜头组成,它通常是一条新闻的开始。由此看出广播电视新闻视频中播音员镜头具有一些普遍的规律。

(1)播音员镜头由一到两个播音员组成,同一个播音员在新闻的播音员镜头中会出现多次,同一播音员镜头相似度较大,且具有同一个播音员从出现到结束镜头之间的时间间隔比较大的情况。

(2)镜头中播音员一般正面朝向观众,上半身都在镜头中。不同的镜头中,播音员的上半身一般只存在一些由于播音员的微小动作导致的差别。

(3)在一个新闻节目的播报过程中,播音员的服装是不变的,但播音员镜头的背景画面可能有较大区别。

根据上述规律,我们在监测广播电视新闻节目时,可以借助计算机视觉技术对新闻视频进行检测,完成播音员镜头检测任务,通过检测播音员的视频帧图像来智能拆分新闻视频节目。

2.2 关键帧提取

首先,我们对新闻节目视频进行镜头关键帧提取,然后利用人脸检测对提取的镜头关键帧进行过滤,去除检测不到人脸的镜头关键帧,同时记录镜头关键帧中人脸的个数和人脸的区域,对于能检测到多于一个人脸的镜头关键帧,通过人脸之间的空间关系判断是否可能为包含两个播音员的镜头关键帧。

2.3 SIFT 算法

SIFT (Scale-Invariant Feature Transform)是一种计算机视觉上用来检测和描述图像局部特征的算法,SIFT 特征描述不受图像方向、亮度和缩放比例的影响,受视角影响和噪声干扰较小。计算结果具有更高的稳定性。当图像中物品比较单一时,也可以产生丰富的特征信息以完成图像描述任务。SIFT具有高效性,生成特征向量速度相比其他算法较快。

SIFT 特征点检测方法是:第一步,对图像在空间尺度上不断下采样的同时,进行高斯模糊处理,是图像在不同尺度规模下完成高斯金字塔表示;第二步,使用DOG 函数检测极值点,在局部像素点内计算中间点与相邻点的差值,从而确定极值点;第三步,通过计算高斯金字塔图像窗口内像素的梯度从而确定每个关键点的方向,以保证图像的旋转不变性;第四步,通过上述步骤得到每个关键点的尺度、位置以及方向信息,从而进行SIFT 特征点匹配工作。

2.4 人脸检测算法

为了快速地在所有镜头关键帧中检测出有人脸的关键帧,过滤掉不存在人脸的关键帧,我们利用了AdaBoost 算法。AdaBoost 算法是可以从基于Haar 型特征的弱分类器空间中自动挑选出若干弱分类器组合成强分类器的统计学习方法。利用AdaBoost 算法学习瀑布型人脸检测器算法是准确率很高的算法。

3 播音员镜头检测算法实现

电视频道播出的新闻节目视频,包含多个新闻片段,如何利用计算机多媒体技术准确地将多个新闻视频完整拆分出来,从而为广播电视监测监看提供便利。

首先,我们对每个镜头提取一帧作为关键帧。一个镜头往往需要多个关键帧表示,但是考虑到播音员镜头都比较稳定,一个关键帧足以表示视觉信息,所以我们固定提取镜头中间一帧作为关键帧。另外,考虑到播音员镜头的出现伴随着一条新的新闻条目的出现,我们只需要考虑候选新闻条目切换点后的镜头。

镜头中的播音员一般都是正面朝向观众,所以可通过检测关键帧中是否存在人脸来过滤掉不可能存在播音员的关键帧。人脸检测除了可以去除大部分不可能含有播音员的关键帧外,还能通过定位人脸在关键帧中的位置计算出提取视觉特征的区域以及检测SIFT 特征点的区域。

其次,对镜头关键帧的某些特定区域提取视觉特征后,对镜头图片进行人脸检测,得到人脸的位置,并使用检测出人脸部分的SIFT 特征点,与其他镜头关键帧中的SIFT 特征点中进行匹配,若匹配到的SIFT特征点足够多,则将该镜头视为待定播音员镜头,一定数量连续的待定播音员镜头视为待定播音员镜头关键帧组。在选择待定播音员镜头中,我们发现同一播音员镜头开始到镜头结束相隔时间较长,若发现待定播音员镜头关键帧组的数量多于设定阈值,则视为播音员镜头关键帧组,否则判定其不是播音员镜头关键帧组。

为提高计算速度,较少计算量,我们对比图像相似度,使用的方法是计算图像基于颜色直方图,通过比较两者的相似性得到图像相似度。相似度高的图像继续进行SIFT 特征点匹配,否则跳过SIFT 特征点匹配。

图1 算法流程图

第三,我们运用SIFT 技术进一步准确判定关键帧。只使用颜色特征对关键帧判定并不充分,应同时使用SIFT 关键点匹配技术来比较两帧,看它们是否含有同一位播音员。

根据新闻直播经验,不同播音员镜头的背景差别较大,但其衣着服饰大致不变。且新闻播报期间身体变化幅度较小,不会有较大动作,SIFT 算法可以准确匹配图像关键点。不同的新闻播音员数量不同,通常会有1-2 个播音员,当同时有2 个播音员播报新闻时,不仅会存在2 个人同时出镜的画面,也会有两者单独出镜的画面,由于SIFT 的尺度不变性,2 个播音员的镜头仍然可以和一个播音员镜头匹配上,因此出现2 个播音员的镜头在镜头关键帧匹配时可以不考虑播音员在镜头中的大小,只要面部和服饰匹配即可。综上所述,利用新闻播音员镜头特点结合SIFT 关键帧匹配技术,可以从视频中找到同一播音员的一组连续镜头关键帧。

我们利用颜色特征和SIFT关键点将相似的带人脸的关键帧聚合在一组中,在进行SIFT关键点匹配之前先用颜色特征来比较相似度,如果颜色相似度大于某个预定义的阈值,再进行SIFT 关键点匹配,以节约计算时间。同时根据同一个播音员的镜头在新闻中出现的间隔比一般新闻镜头的时间长,计算一组相似关键帧中任意两帧间的最大间隔t,如果t 小于一个预定义的阈值,则认为它们不可能是包含播音员的镜头关键帧,可以丢弃不再考虑。这样,我们可能得到若干组含有单个人脸的候选播音员镜头关键帧组SCi,i=I,…,l,以及若干个含有两个人脸的候选播音员镜头关键帧组TCi,i=I,…,h。利用下列规则找出最终的新闻播音员镜头关键帧:

(1)如果I=0,则没有检测到播音员镜头关键帧;

(2)如果I=1,则新闻节目中只有一个播音员,SC1 中的所有关键帧为播音员镜头关键帧;

(3)如果I>1,h=0,则把处理中相互匹配的SIFT 特征点数最多的那组关键帧判断为播音员镜头关键帧;

(4)如果I=2,h=1,则新闻节目中有两个播音员,SC1 和SC2 中的所有关键帧为单人播音员镜头关键帧,TC1 中所有关键帧为同时包含两个播音员的镜头关键帧;

(5)如果I>2,h≥I,则在TC 中选出一组TCi,在SC 中选出两组SCj 和SCj+I,使他们之间的相互匹配的SIFT 特征点最多。这样,对于包含两个播音员的新闻节目,匹配结果中SCj和SCj+I 为单人播音员镜头关键帧集合,TCi 为同时包含两个播音员的镜头关键帧集合。

最后,通过人脸检测技术,叠加SIFT 关键点匹配,我们能够准确找到所有播音员镜头关键帧,最终将含有单个播音员关键帧的镜头作为播音员镜头。

4 实验结果

为了检验上述播音员镜头检测算法的准确性和鲁棒性,我们从实际生产环境中选择了6种不同类型的新闻视频进行测试,包括中央1 台《新闻联播》《新闻30 分》,山东卫视的《山东新闻》,浙江卫视的《浙江新闻》,还有体育新闻和网络新闻,实验环境为2.50GHz Intel(R)Xeon(R)CPU Linux 服务器。实验详情见表1。

表1 中列举的新闻中播音员出现的位置、姿态和大小等因素是不同的,可以对播音员检测算法进行较为系统的测试。其中,Ns,Nr,Nf和Nm指标由m/n组成,m表示只包含一个播音员的镜头数量,n表示包含两个播音员的镜头数量,Ns指标表示实际新闻中包含一个或两个播音员的镜头数量;Nr指标表示通过播音员检测算法检测到正确的播音员镜头数量;Nf指标表示播音员检测算法的误检数,Nm指标表示通过播音员检测算法漏检的播音员镜头数。其中召回率和准确率的计算公式为:

从表1 中可以看出,该播音员检测算法对于大多数主流新闻节目的播音员镜头检测工作具有较高的准确性和较快的计算速度。对于体育新闻中漏检的一个播音员镜头,原因是背景过于复杂,可以通过对一个镜头多次提取关键帧的方法解决。

表1 播音员镜头检测结果

表2 列举了本文实验结果与其他文献中播音员镜头算法实验的召回率和准确率结果对比,可以看出本文算法性能优于其他已有的播音员镜头算法。

表2 其他播音员镜头算法对比

结束语

综上所述,我们在计算机多媒体技术辅助下,运用SIFT特征点匹配算法,在人脸检测的基础上,充分利用广播电视新闻节目视频中播音员这一特有镜头,能够将新闻节目视频片段逐一拆分出来,形成单一独立的视频片段,为广播电视监测人员监看提供便利,从而实现新闻节目的监测。

猜你喜欢

关键帧播音员新闻节目
基于图像熵和局部帧差分的关键帧提取方法
自适应无监督聚类算法的运动图像关键帧跟踪
新闻播音员做好各类配音工作需要掌握的技巧
浅谈播音员主持人语言的纯洁性
纸媒是怎么做起一档新媒体音频新闻节目的
融媒体时代电视新闻节目传播路径与策略
融媒体电视新闻节目的传播策略研究
人体运动视频关键帧优化及行为识别
基于误差预测模型的半自动2D转3D关键帧提取算法
民生新闻节目主持人“平民化”的正确表述