基于内容的视频检索技术探索与研究

2018-09-27陈成星

大经贸 2018年6期

关键词：关键帧信息检索特征提取

陈成星

【摘要】本论文主要讨论了镜头分割、关键帧提取的算法，是一篇基于内容的视频检索技术研究，着重研究了视频分层结构的有关步骤及算法以及视频内容特征的提取。

【关键词】关键帧信息检索近似匹配特征提取

1 视频检索概念及特点

1.1视频检索的概念

基于内容的视频检索（CBVR）是指根据媒体的内容语义及上下文联系进行检索。CBVR需要利用图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法作为基础技术。CBVR不仅是基于内容的，而且是一种信息检索技术。

1.2视频检索的特点

1、从视频数据中提取信息索引

基于内容的检索突破了传统的基于关键词检索的局限，它直接对视频内容进行分析，抽取特征和语义，利用这些内容特征建立索引，并进行检索。

2、基于内容的视频检索是一种近似匹配

对内容的描述不是一种准确的描述，因此，CBVR采用相似性匹配的方法逐步求精，以获得查询结果，即不断减小查询结果的范围，直到定位于要求的目标。这一点与常规数据库检索中的精确匹配方法不同。

2 传统的视频检索体系结构

我们知道传统的视频检索技术主要包括镜头检测、关键帧提取或镜头集类、特征库的建立以及匹配算法等，主要提取视频特征。传统的方法是先对视频完全解码，再分割镜头并提取关键帧，最后提取特征，这样就会产生计算量比较大，影响视频检索效率，而对特征的描述也是使用比较直观抽象的语言，交互性较差。

3 视频内容的分层结构

视频包含着丰富的内容。一般对视频采用分层的表达方式表示视频。一个视频可以表示为场景、镜头、帧几个层次，视频分层结构如下图。视频可以先分为场景，场景可以分为镜头，帧是视频最基本组成单元。将视频分为场景的处理叫做场景检测，将场景分为镜头的操作叫镜头分割，镜头分割是视频层次化的基础。

4 提取镜头的有关步骤及算法

视频数据可以按照由粗到细的顺序划分为四个层次结构：视频（Video）、场景（ Scene）、镜头（Shot）和图像帧（Frame）。整个视频结构构造过程分以下三个步骤：从视频流中提取镜头、从镜头中选择关键帧和从视频流中构造场景或组。

4.1从视频流中提取镜头

镜头是视频数据的基本单元，视频处理首先就需要把视频自动地分割为镜头，以作为基本的索引单元，这一过程就称为镜头边界的检测。它是实现基于内容的视频检索的第一步，其核心处理是镜头切变检测。

1、基于颜色的特征方法

（1）模板匹配法

模板匹配法又称对应像素法，模板匹配法是将两帧对应像素差的绝对值之和作为帧间差，当帧间差大于某个阈值t时，则认为有镜头的切换。模板匹配法的缺点是，由于与像素的位置密切相关，因此对噪声和物体运动十分敏感，容易造成误识别。也有人提出将各帧划分为8×8像素的子块，并对每个块取平均，再用这个平均值对前后帧的对应子块进行比较，这种方法对小的噪声和运动不敏感。

（2）直方图法

直方图法是使用得最多的计算帧间差的方法，它丢失了颜色的位置信息，因而抗噪声能力要比模板匹配强。颜色直方图法的缺点是，两幅图像可能内容完全不同但直方图相似，也容易造成误识别。一种改进的方法是将图像划分成若干子块分别对各子块进行匹配。

（3）基于边缘的方法

由于在镜头切变时新旧边缘应在不同的位置，所以可先提取两幅图像的边缘，计算新边缘在旧边缘的基础上增加和减少像素比例，当大于某一个阈值时便认为发生镜头切换。缺点是计算量大，当边缘不明显时效果差。

2、光流检测法

另外还有一种光流检测法，该方法的原理是镜头切换时无光流，而镜头运动应适合某种特定的光流类型。它能将渐变切换与镜头的运动区分开来，但计算复杂且在光照变化很大情况下检测失败。

3、基于模型的方法

Hampapur等人通过对视频制作过程的研究，提出了一种可用于镜头边界检测的视频编辑模型。它的缺点是，建模过程比较复杂，需要对每种切换类型建立模型。这种方法适用于专业领域。

4、几种改进的算法

双阈值比较法：当两帧间差在阈值d1和d2之间时，便认为潜在渐变开始，将差值开始累加，直到累加和大于d2时认为有渐变，当帧间差小于d1时认为渐变结束。这种方法对渐变检测有较好的效果，但对镜头的缓慢运动仍可能会造成误识别。

滑动窗口检测法：先以待检的帧作为中心开一个窗，计算各帧与邻帧的帧间差，若该帧的差值大于窗口内的其它所有帧的差值，且大于第二大差值的某倍数，则认为是发生切换。

用双重窗口法可进一步改进以减小搜索量，先選取一个大的窗口，取平均值，将大于均值一定倍数的差值作为候选切变帧，再以候选切变帧为中心取小窗口，检测具体位置。大窗口可避免误检并减小搜索量；小窗口可避免大运动造成的漏检。

由于在很多情况下，人们仅对图像中的某一区域感兴趣。因此，先进行图像分割，仅利用某一区域的信息进行检索。近几年来这一领域的研究逐渐引起了人们的兴趣。

4.2从镜头中选择关键帧

关键帧（也称代表帧）是用于描述一个镜头的关键图像帧，它通常会反映一个镜头的主要内容。关键帧的使用大大减少了视频索引的数据量，同时也为检索和浏览视频提供了一个组织框架。关键帧的提取原则是“宁滥勿缺”。关键帧选取的方法有以下几类：

1、基于镜头的方法

一段视频分割成镜头后，将每个镜头的首帧（或首帧与末帧）作为镜头的关键帧。该方法实现起来比较简单，无论镜头的内容如何，关键帧的数量都是一定的（1帧或2帧），但效果不是很稳定，因为每个镜头的首帧或末帧不一定总是能够反映镜头的主要内容。

2、基于内容分析的方法

这种方法基于每一帧的颜色、纹理等视觉信息的改变来提取关键帧，当这些信息有显著变化时，当前的帧即可作为关键帧。张宏江等人依据帧间的显著变化来选择多个关键帧，首先把镜头的第一帧作为关键帧，然后计算前一个关键帧与剩余帧之差，如果差值大于某一阈值，则再选取一个关键帧。这种方法可以根据镜头内容的变化程度选择相应数目的关键帧，但所选取的帧不一定具有代表意义，而且在有镜头运动时，容易选取过多的关键帧。

帧平均法和直方图平均法统计所有帧的像素值或直方图平均，取最接近平均值的帧作为代表帧。

3、基于运动分析的方法

Wolf通过光流分析来计算镜头中的运动量，在运动量取局部最小值处来选取关键帧，它反映了视频数据中的静止，视频中通过摄像机在一个新的位置上停留或通过人物的某一动作的短暂停留来强调其本身的重要性。Wolf的这种基于运动分析的方法可以根据镜头的结构选择相应数目的关键帧。如果先把图像中的运动对象从背景中取出，再计算对象所在位置的光流，可以取得更好的效果。

合成法将镜头中的所有运动转换拼接成一个合成帧作为关键帧。

4、基于聚类的方法

聚类提取的方法首先要确定一个初始类心，然后根据当前帧与类心的距离来判断是归为该类还是作为新的类心，再将镜头中帧分类后取各类中离类心最近的帧作为关键帧。另外，Zhao提出了一种基于最近特征线（Nearest Feature Line，NFL）的端点检测算法用于选取关键帧。该方法的主要原理是用某些特征点的连线（特征线）近似并代表某个类的所有特征样本轨迹，而这些特征点就是关键帧。

4.3从视频流中构造场景或组

计算镜头间的相似性（实际是关键帧间的比較），选择合适的聚类算法进行分析。按时间顺序和关键帧的相似程度可分为场景，也可以只按关键帧的相似程度进行分组。

结束语

本文主要讨论了镜头分割、关键帧提取的算法，但还有许多的问题有待解决和面对，如应选取更为有效的视频特征，现有的颜色、纹理等特征还不能有效表示视频的内容，为了提高镜头和场景检索中的查全率和准确率，应该选取更为有效的视频特征，这就给我们未来的研究提出了方向。

【参考文献】

[1] 陈尧，张青荣.基于内容的视频检索技术研究[J].产业与科技论坛，2017，16（14）：46-48.

[2] 李向伟，康毓秀.基于内容的视频检索与挖掘关键技术研究[J].软件，2014，35（08）：26-31.

[3] 陈秀新.基于内容的视频检索技术浅析[J].信息技术与信息化，2011（02）：56-58+75.