基于语义的视频检索关键技术综述

2012-01-19孔英会刘淑荣张少明范启跃

电子科技 2012年8期

关键词：关键帧检索语义

孔英会，刘淑荣，张少明，范启跃

(华北电力大学电气与电子工程学院，河北保定 071003)

基于语义的视频检索关键技术综述

孔英会，刘淑荣，张少明，范启跃

(华北电力大学电气与电子工程学院，河北保定 071003)

随着大量视频的出现，视频内容检索是当今多媒体应用的一个重要研究方向。现有的视频检索技术多是基于低层特征，这些低层特征与高层语义概念相差较多，严重影响了视频内容检索系统的实用性。由于低层特征和高层语义概念间的语义鸿沟，如何从视频内容中提取人类思维中的语义概念，正成为目前视频内容检索中最具有挑战性的研究内容。文中介绍了语义视频检索出现的背景和国内外最新研究动态，分析了现有方法的优缺点，对现有的关键技术进行综述。

语义鸿沟;语义视频检索;底层特征;高层语义概念

随着多媒体视频数据在捕获、存储、传播方面取得的重大技术进步，人们可以方便快捷地获得大量的数字视频，并且出现新的视频应用。如何从网络数据资源中，实现对含有丰富时空信息的视频数据检索成为人们关注的焦点问题。

早期的图像数据库沿袭了传统的数据库检索方式，采用文本进行检索。这种对视频手工建立关键词用文本描述信息的方式，已不适应视频信息检索的要求。主要原因在于:(1)视频内容丰富，仅使用几个关键字很难将其内容描述清楚。(2)依靠人工对视频数据进行内容概括并标注，其工作量大、成本高、效率低、可扩展性差。(3)人工标注的主观性强，同一段视频，而不同的标注者可能标注不同，也可能不是同一段视频不同的标注者对其标注相同，由此可能引发矛盾和混乱。因此传统的方法不能满足人们实际应用的需要。

人们习惯用语义概念检索自己需要的视频，但由于底层特征和高层语义概念之间存在语义鸿沟，在语义概念层次进行视频内容的描述和操纵面临较大的困难。如何从视频内容中提取人类思维中的语义概念，成为目前视频内容检索中具有挑战性的研究内容［1］。

尽管随着人工智能、图形处理、多媒体技术等技术的发展，前人也做了大量相关工作，基于语义视频检索系统的查全率、查准率有了一定的提高，但离真正的实际应用还有较大的距离。存在以下不足:(1)视频的特征信息提取不全面、不准确。有些特征效果不好，不能准确地实现高层语义映射。(2)不能有效地降低视频底层特征和高层语义概念间的语义鸿沟，直接影响检索精度。(3)视频图像中包含大量的语义信息，并且这些信息之间存在复杂的关系，因此需要一个具有强大的表达能力的方法;其次，由于图像理解的主观性，视频图像语义的表示方法需要一定的模糊和非精确性，用以支持视频图像的相似度检索。

1 国内外研究动态

视频信息检索是多媒体领域的重要研究课题，是跨越图像处理、计算机视觉、模式识别、人工智能以及数据库等领域的交叉学科，是对文本、图像、声音等多种媒体形式的综合分析和查询。当前视频信息检索的研究主要集中在两大类:一类是基于视频低层特征的样例或样图查询(Query by Examples);另一类是基于视频描述信息的语义查询(Query by Keywords)。第一类属于基于样本视频或图片的查询，是利用用户给出的查询样例，提取样例视频和数据库视频的低层物理特征，并根据一定的相似度度量，通过计算二者之间的相似度得到用户所需的查询结果。第二类属于基于关键词的查询，是通过对视频库中的视频数据进行高层语义分析，通过用户提供的查询关键词对视频内容进行检索。这两类视频检索方法分别从低层物理特征和高层语义特征两个方面，对视频内容进行分析和检索，是视频检索领域两个重要的研究方向。从2001年至今，诸如CMU、IBM等研究机构已相继提出了一些优秀的高层语义提取算法，并且取得了较好的研究成果［2］。典型的视频检索系统主要有:

(1)QBIC(Query By Image Content)系统。其允许用户使用例子图像、用户构建的草图和画图及其选择的颜色和纹理模式、以及镜头和目标运动等图形信息，对大型图像和视频数据库进行查询。

(2)Visual Seek系统。是美国哥伦比亚大学研究的一种在互联网上使用的基于内容的检索系统。Visual Seek同QBIC一样提供了多种查询方法:根据视觉特征、图像注释、草图等。

(3)VideoQ系统。是哥伦比亚大学的一个研究项目，它扩充了传统的关键字和主题导航的查询方法，允许用户使用视觉特征和时空关系来检索视频。

(4)Photo Book系统。由美国麻省理工学院媒体研究室研究的Photo Book系统，能够支持相似性图像的检索，可以利用人脸、形状、纹理、相片簿等分别对人脸图像、工具和纹理进行基于内容的检索。

2 视频检索系统关键技术

视频语义检索模型主要包括底层特征提取模块、底层特征向高层语义映射模块、视频语义查询模块［3］。

2.1 底层特征提取模块

该模块主要包括:视频镜头检测、关键帧提取、特征提取3种关键技术。

视频镜头检测是将视频自动地分割为镜头以作为视频基本的索引单元，因此镜头的自动分割是视频结构化的基础。视频镜头的边界变换分为两大类:突变(cut)和渐变(Gradual Transition)。目前已经提出的算法，从方向上可分为两类:(1)非压缩域。(2)压缩域。在非压缩域，典型的镜头边界检测算法包括像素差异法、统计量法、直方图法、基于边缘及运动特征的方法及基于编辑模型的方法等［4］。由于现在多数视频都是压缩的，所以在压缩域进行镜头检测是一个趋势。压缩域视频则表现为3种类型的帧，分别为I帧、P帧和B帧。I帧为主要信息携带者，其表现为DCT系数，DCT系数又分为直流系数(DC)和交流系数(AC)，文献［5］提出了一种基于RS理论的压缩域镜头分割算法。该算法首先根据MPEG压缩标准，从视频流中提取DCT系数;经预处理得到每一帧的DC系数;最后依据DC系数建立镜头分割信息系统模型，通过RS理论的划分与属性约简得到视频镜头。

关键帧提取模块。由于镜头中包含大量相同或相似的视频内容，存在冗余性，可以在每个镜头中提取最具代表性的、反映该镜头主要内容的若干帧来代替这个镜头，这些帧称为关键帧。通过关键帧的提取，可以用微小的数据量把一个镜头的静态特性表示出来，从而在视频检索中大大地减少数据量，为视频索引浏览和检索提供合适的摘要减少了视频操作的数据处理量。

试验用“水洗”低K(K≤80 mg/kg)MoO3费氏平均粒度较大，经过两种不同工艺试验结果见图2、图3。

典型关键帧的提取算法有:(1)基于镜头边界的方法。(2)基于视觉内容的方法。(3)基于镜头运动的方法。(4)基于运动分析的方法。(5)基于聚类的方法。这些方法各自有优缺点，根据不同的应用环境和应用要求，选择合适的方法。

近年来又提出了一些新的方法和改进的方法，文献［6］提出了一种类模糊C均值聚类的关键帧提取算法，用该算法提取的关键帧不仅可以充分表达出视频的主要内容，而且还可以根据内容的变化提取出适当数量的关键帧。缺陷是需要首先设定一个最初聚类中心。文献［7］是对文献［6］进行的改进，提出一种基于无监督聚类的自适应阈值改进算法。

特征提取模块。是对前一模块的关键帧，提取视觉特征和非视觉特征。其中视觉特征主要包括颜色、纹理、形状及运动等的低层视觉特征，以及提取场景、行为等高层语义特征。非视觉特征包括音频特征、文本特征等。现阶段主要对视觉特征的研究居多，其中底层视觉特征分为全局特征和局部特征，常用的全局特征有颜色特征，纹理特征、形状特征等。常用局部特征，例如SIFT特征，将图像中关键点的局部表观信息作为图像的特征。全局特征和局部特征的结合，视觉特征和非视觉特征的结合，能有效提高视频检索的检索效率和准确率。

图1 视频语义检索模型

2.2 底层特征向高层语义映射模块

底层特征空间包括视觉特征和非视觉特征，这些特征一般可以从视频数据中直接提取。语义概念空间对应于人们通常思维中的高级语义概念。从认知层次角度进行视频语义划分的语义概念，主要包括事件、场景/地点和对象3类。但底层特征对用户不可见，只有将其映射到高层语义概念空间，才能使用户识别，它们之间无法直接用数学模型完成映射转换，这两个空间之间存在着难以直接跨越的语义鸿沟，如何解决语义鸿沟是视频语义检索研究的重点。

底层特征向高层语义映射模块主要使映射变换模型的构建，即语义概念分类模型的构建。提取视频语义的主要方法包括概率统计方法、统计学习方法、基于规则推理的方法、结合特定领域的等方法。

(1)概率统计方法。将视频语义对象提取看作是待提取视频语义对象的分类问题，利用模式分类方法来尝试跨越语义鸿沟。语义检索的随机方法关注的是模型概率特性，其核心思想是用随机数学方法来描述对象的不同特征并存此基础建立多媒体概念模式分类器。随机模型中加入学习/识别模块，主要是为了能反映媒体内容本质的非确定性［8］。

(2)统计学习方法。支持向量机(Support Vector Machine，SVM)基于统计学习理论，建立在计算学习理论的结构风险最小化原则之上。其目的是在高维空间中寻找一个超平面作为两类的分割，以保证最小的分类错误率。此类模型在只有小训练样例集的情况下，分类效果较好。

文献［9］先提取训练图像库的底层特征信息，然后利用SVM对所提取的特征进行训练，构造多分类器。在此基础上，利用分类器对测试图像自动分类，得到图像属于各个类别的概率。文献［10］提出一种基于主动学习SVM分类器的视频分类算法。该算法分为两个步骤:首先分析并提取与视频类型有关的10维底层视觉特征;然后用SVM分类器建立这些底层特征与视频类型之间的联系。

(3)基于规则推理的方法。基于规则推理的方法考虑直接从系统外给定分类标准，因此语义概念的种类固定，难以满意地描述视频内容中大量随机出现的语义概念。文献［11］通过分析足球视频的语义结构，按照足球比赛转播、视频编辑的一般规律，结合视频特征的时空关系，定义足球视频主要的语义规则，从而提出了足球视频语义事件的分析框架结合基于专业知识的规则推理，达到有效分析足球视频语义的目的。

(4)结合特定领域。通过限定、缩小视频领域(Narrowing the Donmin)是目前跨越语义鸿沟的有效方法之一。限定特定的领域后，语义概念和事件的随机性就被缩小了，简化了底层和高层之间的语义映射关系。例如在影片语义分析领域，Rasheed等结合影片的特点只用4个视觉特征将电影分为悲剧、动作、戏剧和恐怖片几种类型，达到影片语义分类的目的［12］。

完全手工标注的不足之处在前面已经提到过，基于机器学习的标注方法采用统计学习领域的最新研究成果，为低层特征和高层语义特征之间建立了映射，基于机器学习的方法通过对手工标注的训练视频数据的学习，建立各语义概念的模型，然后用该模型对未标注的视频数据集进行分类，标注对应的语义概念［13］。文献［14］利用机器学习对视频的视频类型层标注，关键帧图像层标注和图像中的物体层标注4个层次进行研究。

2.3 视频语义查询模块

视频语义查询模块使用户通过查询接口输入相应的查询语义，系统应能在视频语义库中进行信息匹配，并将查询结果返回用户。用户根据本次查询结果与自己期望结果间的相关性，向系统提交相关反馈信息。相关反馈在信息检索中是一种指导性学习技术，用以提高系统的检索能力。近几年，人们对相关反馈有了很深的研究，许多新颖的算法被提出，主要有3类:第一类是以Rui为代表的权重调整算法［15］;第二类是基于支持向量机的反馈方法［16］，是在每次反馈过程中对用户标记的正例和反例样本进行学习，建立SVM分类器作为模型，并根据该模型进行检索;第三类是基于Bayes准则的相关反馈方法［17］，其基本思想是根据用户反馈的信息进行统计判断。

2.4 语义词典的应用

在视频检索系统中，利用文本标注对图像进行检索是比较常用的方法，但一般的系统都是先对标注作简单的文字匹配，然后提交相应的结果。文本标注和用户输入二者文字不同，而语义一致，这种方法就无法检索到相应的内容，虽然有些系统能对这类同义词作例外处理，但却无法穷举所有的情况，更无法对更高层次的语义作检索。

许多研究者把语义词典引入到基于语义的视频检索中来［18］，实现图像语义关键词的扩充，提高了检索的全面性。WordNet是一个英文词汇的语义本体，它以认知同义词集合为单位来组织词语的关系。其中词语的关系包括上下位关系、整体部分关系、同义反义关系等。正是由于wordNet的这种构建方式，越来越多的研究者将其引入到了信息检索领域。文献［19］描述了一个基于本体词汇的三维模型语义检索的方法，该方法首先对一个三维模型库的词汇进行语义上扩充，然后基于关键词进行检索，而不是简单的文字匹配。

3 结束语

介绍了语义视频检索技术的国内外研究动态及研究内容和方法，总结和归纳了现有研究方法的不足。在特征提取方面，现阶段的研究主要集中在视觉特征的提取，继续提出一些新的特征是一个研究方向，同时将视觉特征和音频、文本特征有效地结合是下一阶段研究的重点，这样才能全面、准确地表达视频的内容。如何有效选择特征，及对特征的的融合，是研究的另一个重点方向。

底层特征向高层语义映射模块中视频标注和语义扩展，这个问题一直是语义视频检索的瓶颈，有待进一步的研究和深化。目前视频检索中用的语义概念还主要针对对象语义，对场景语义、行为语义和情感语义的研究还较少，这些语义的不断丰富，有利于视频内容的语义细化描述，建立层次语义的检索，进而使得视频检索更接近和满足实际应用。

［1］魏维，游静，刘凤玉，等.语义视频检索综述［J］.计算机科学，2006，33(2):1 －8.

［2］AMIR A，ARGILLANDER J O，BERG M，et al.IBM research TRECVID －2004 video retrieval system［C］.MD，USA:NIST TRECVID 2004 Workshop，Gaithersburg，2004:15 －16.

［3］张治国，刘怀亮，马志辉，等.基于高层语义的视频检索研究［J］.计算机工程与应用，2007，43(18):168 －180.

［4］印勇，侯海珍.基于直方图帧差的自适应镜头分割算法［J］.计算机工程与应用，2010，46(9):186 －189.

［5］李向伟，李战明，张明新，等.一种新的基于RS理论的压缩域镜头分割算法［J］.计算机应用研究，2009，26(4):1588－1590.

［6］张亚迪，李俊山，胡双演.类模糊 C均值聚类的关键帧提取算法［J］.微电子学与计算机，2009，26(2):89 －92.

［7］李全栋，陈树越，张微.一种改进的无监督聚类的关键帧提取算法［J］.应用光学2010，31(5):741 －744.

［8］韩智广，吴玲达，谢毓湘，等.基于贝叶斯网络的视频静态语义探测新方法［J］.武汉理工大学学报，2009，31(18):179－181.

［9］廖绮绮，李翠华.基于支持向量机语义分类的两种图像检索方法［J］.厦门大学学报:自然科版，2010，49(4):487 －494.

［10］袁勋，吴秀清，洪日昌，等.基于主动学习SVM分类器的视频分类［J］.中国科学技术大学学报，2009，39(2):473 －478.

［11］彭利民，周毅.基于规则推理的足球视频语义事件分析研究［J］.广州体育学院学报，2008，28(2):91 －94.

［12］RASHEED Z，SHEIKH Y，SLLAH M.The use of comdutable features for film classification ［J］.IEEE Transactions on Circuits and Systems for Video Technology，2005，15(1):52 －64.

［13］贺莉娜.视频语义特征提取的研究［D］.北京:北京交通大学，2008.

［14］袁勋.层次化视频语义标注与检索［D］.安徽:中国科学技术大学，2008.

［15］RUI Yong，HUANG T.Optimizing learning in image retrieval［J］.Proceedings of Cornputer Vision and Pattern Recognition，2000，1(13 －15):236 －243.

［16］HONG Pengyu，QI Tian，HUANG T.Incorporate support vector machines to content－based image retrieval with relevant feedbank［EB/OL］.(2000 －03 －10)［2004 －11 －14］http:/www.ifp.uiuc.edu.

［17］施智平，李清勇，史俊，等.集成视觉特征和语义信息的相关反馈方法［J］.计算机辅助设计与图形学学报，2007，19(9):1138－1142.

［18］SARA M，MOHAMMADREZA E，LILLY S A.Developing context model supporting spatial relations for semantic video retrieval［C］.International Conference on Information Retrieval and Knowledge Management:Exploring the Invisible World，CAMP'10，2010:40 －43.

［19］阮佳彬，杨育彬，林金杰，等.基于本体词汇的三维模型语义检索［J］.计算机科学，2009，36(2):152 －154.

A Survey on Semantic-based Video Retrieval Key Techniques

KONG Yinghui，LIU Shurong，ZHANG Shaoming，FAN Qiyue
(School of Electrical and Electronic Engineering，North China Electric Power University，Baoding 071003，China)

With the emergence of much video，video content retrieval becomes an active research direction in the multimedia applications.Most of the existing video retrieval technologies are based on low-level features.These features are quite different from the semantic concepts.It seriously influences the practicality of the video content retrieval system.The gap between low-level features and high semantics is difficult to narrow，so how to extract semantic concepts in the human thought from video is becoming a most challenging research of the video content retrieval.This paper introduces the background of semantic video retrieval and the latest and dynamic research at home and abroad，analyzes the advantages and disadvantages of the existing methods and summarizes the existing key technologies.

semantic gas;semantic video retrieval;low-level features;high-level semantic concept

TP391.3

1007－7820(2012)08－150－04

2012-03-05

孔英会(1964—)，女，教授。研究方向:视频检索，图像检索。刘淑荣(1985—)，女，硕士研究生。研究方向:视频分析与视频检索。