媒资管理系统中新闻节目高效检索的研究

2016-06-23沈兵虎练益群

电视技术 2016年2期

关键词：关键帧人脸识别新媒体

张　赟，沈兵虎，练益群

(浙江传媒学院浙江广播电视技术研究所，浙江杭州 310018)

媒资管理系统中新闻节目高效检索的研究

张赟，沈兵虎，练益群

(浙江传媒学院浙江广播电视技术研究所，浙江杭州 310018)

摘要:提出了一种基于多特征融合的新闻节目高效检索方法。该方法充分利用媒资管理系统中新闻视频的文字描述和关键帧的图像特征，能够实现视频节目快速、准确的检索，提升新闻检索的性能。将文字描述、人脸和场景图像作为搜索项，通过Fisherfaces和LBP算子相结合的人脸识别算法，以及基于重要性加权的局部直方图匹配算法，实现样例图像与关键帧的匹配。实验结果表明，该方法能够提升媒资管理系统中新闻节目检索的准确度和效率，满足新媒体时代节目快速制作和发布的要求。

关键词:媒资管理系统；多特征；人脸识别；关键帧；新媒体

电视台是以内容生产为主的机构，以浙江广电集团为例，每年生产的节目总时长约为1万小时，其中，新闻类节目约占20%。如何高效地管理和利用电视台内海量优质的新闻资讯已经成为当前重要的研究课题。近年来，国内大多数电视台开始利用媒资管理系统[1](以下简称“媒资系统”)实现海量视频节目的数字化保存，其主要目标是便于媒体信息的再利用、检索和共享，并逐步实现传统媒体向新媒体的融合。当前，媒资系统主要采用基于文本的内容组织和检索方式[2]。该方法实现简单，效率较高，其检索性能主要取决于编目内容的详尽程度。然而，在新媒体平台上，新闻节目大多以粗编目为主，其内容描述比较简单，因此难以通过文字描述检索到节目的具体内容。例如，如果没有把领导人的名字列入内容描述，就无法检索到某领导人曾经参加过会议的重要镜头。此外，如果内容描述过于复杂，会增加编目的时间和成本，也会造成检索结果过多和准确性的降低。

为了解决基于文字检索方法的不足，近年来许多学者研究了大量基于特征匹配的检索方式。张志伟[3]提出了基于人脸识别的媒资视频检索技术。王瑶[4]等人提出了基于多尺度训练库与多特征融合的人脸识别。然而以上方法仅解决了人脸识别的关键问题，没有能够很好地与媒资系统相结合，且效率不高，难以实用。史云静[5]等人提出了基于HSV空间的直方图相似性度量方法检索目标图像，利用局部二值模式作为检索特征，然而该方法仅考虑颜色这一底层的特征，难以检索具有语义的内容，如人物、场景等。

在传统的媒资系统中，新闻节目大多具有固定的结构(主持人口播+新闻故事)，能够根据故事单元分割成多个片段，其中节目层和片段层包含了表示其重要信息的关键帧图像。“一图胜千言”，关键帧图像包含了大量信息，如人物、场景、重要标识等。因此，通过对关键帧图像的分析和匹配，能够获取文字描述以外更丰富的信息，是文字描述的有效补充。为了提升当前媒资系统的检索性能，本文针对新闻节目提出了基于多特征融合的高效检索方法。

1多特征融合的新闻检索

图1　新闻节目检索系统流程图

1.1人脸检测

在新闻节目中，人物是非常重要的线索，如重要领导人、名人、主持人等，这些人物通常会出现在媒资系统的关键帧中。在媒资系统中，新闻视频大多以低码保存，分辨率和清晰度不高，且人脸姿势和方向多变，这些都增加了人脸检测的难度。首先针对新闻视频的人物特征，建立人脸检测分类器。本文采用基于不变特征量的Adaboost算法[6]，通过多个级联的基于Haar特征的弱分类器构建出强分类器，实现人脸的准确、实时检测。如图2所示，首先从媒资系统中采集包含人脸的样本图像，其中正样本5 000个，负样本5 000个，然后采通过Haar特征训练得到新闻节目中的人脸分类器，其中级联分类器共22层，每层最低正确率为99.5%，错误接受率为50%。最后将待检测的图像进行灰度化和直方图均衡化处理，利用训练得到的人脸分类器进行多尺度的人脸检测。

图2　人脸检测的流程图

图3给出了部分人脸检测的结果。可以看出，在非正脸和包含多张人脸的复杂场景下，也能取得较好的检测效果。大量实验结果表明，人脸检测的准确率大于95%。为了更好地实现人脸识别，在包含多张人脸的图像中，根据检测区域的大小和位置，选取尺寸最大且位置显著的人脸作为当前的检测结果。

图3　人脸检测的结果

1.2人脸识别

为了实现新闻中重要人物的识别，如领导人、名人、主持人等，建立重要人脸特征库。如图4如示，对每个待识别的人物，首先从新闻图片中选取3～6个包含其人脸的图像，然后检测出人脸区域，并归一化成大小为50×50的图像块，最后根据人物的类别赋予对应的标签。Fisherfaces[7]和LBP[8]是当前广泛使用的人脸识别算法。Fisherfaces结合了Fisher线性判别和PCA，将高维空间的样本投影到低维空间，然后采用Fisher线性判别得到人脸的最佳分类特征集合。该方法要求每个人至少8～10张样本图像作为训练集才能达到较好的识别率，然而在新闻节目中很难为每个人物找到大量不同角度的图像进行人脸特征训练。为了在样本数量少的情况下实现人脸识别，引入局部二值模式(LBP)算子实现少量样本甚至单样本的人脸特征训练和识别。为了提高人脸识别的准确性和稳定性，提出了Fisherfaces和LBP相结合的算法实现人脸特征的训练和识别。各算法准确率比较如表1所示。

图4　人脸识别训练库

表1　人脸识别的准确率比较　%

分别采用Fisherfaces和LBP算子对每个人的人脸样本数据进行训练，得到人脸识别模型Model_F和Model_L。给定一个检测到的样本人脸，其识别结果为两者的加权平均，如式(1)所示。为了确定a的值，本文选取了200个人脸数据进行训练，通过最小二乘的方法拟合出a的权值为0.39，即LBP对人脸识别的权重略大。实验表明，在检索样本少的情况下，LBP算法能够起到更大的作用。

Model(I)=a×Model_F(I)+(1-a)×Model_L

综上所述，落叶松林降雨再分配过程中水化学特性与降雨相比，pH值、Mg2+含量在各分配过程中下降；Ca2+、Mn2+含量升高；Zn2+含量在穿透雨及坡面径流中下降，其它过程升高；Fe2+含量在穿透雨及树干径流中下降，其它过程升高；含量在穿透雨中升高，其它过程下降。

(1)

1.3图像特征匹配

一般说来，新闻节目中经常会出现标志性的背景画面，如会议、演播室、外景、采访等。为了实现新闻节目中基于场景画面的准确检索，提出一种基于颜色直方图和纹理特征相结合的图像检索方法。与传统的基于全局直方图匹配的算法不同，本文提出了基于重要性加权的局部直方图匹配的方法，能够避免颜色相似但空间分布差异较大的情况。重要性加权的局部直方图匹配算法描述(伪代码)如下：

输入：样例图像S，目标图像T；

输出：相似度Dh(0-1)；

初始化：

Diff_sum= 0

i= 0；N=100

重复：

if(min(HDist(Si+Δt,Ti))>AvgHDist)

Diff_sum+=λ;

i++;

直到：i=N

Dh=Diff_sum/N

首先将源图像S和目标图像T均匀划分为10×10的方格，然后对每个方格内的图像与S对应位置的八邻域方格分别计算直方图距离，并取最小值作为该方格的局部直方图距离，如图5所示，再将T中每个方格的直方图距离与所有方格的平均直方图距离相比较，若大于其阈值，则进行计数。为了体现图像不同位置的重要性，进行加权计数，对于最外部两圈方格，λ=0.5，其余位置的方格λ=1.0。最后，若计数值小于方块总数的45%，则说明相似。样例图像S和目标图像T平均直方图距离的计算，如式(2)所示

(2)

图5　基于重要性加权的局部直方图匹配示意图

为了进一步提升基于直方图匹配的检索的性能，采用分块LBP算法提取样本图像S和目标图像T的纹理特征。并通过χ2距离度量两个纹理之间的距离De(i)，具体细节请见文献[9]。为了融合直方图和纹理特征，需要对特征量进行归一化，表1中的算法已经对直方图距离Dh进行了归一化。对于纹理特征距离，首先计算出样本图像S与所有待匹配的关键帧Ki(i=1,2,…,N)之间纹理相似性距离De(i) (i=1,2,…,N)的均值E和标准差σ，然后对所有距离进行归一化，如式(3)所示

(3)

最后通过对所有特征距离进行加权处理得到总的特征距离D(i) (i=1,2,…,N)，如式(4)如示

D(i)=αDh(i)+(1-α)De(i)

(4)

为了让颜色特征在图像检索中占据更大的权重，设置α为0.68。最后对特征距离D(i)按照从小到大进行排序，并将排序前50的检索结果返回。

2实验结果及分析

本文以浙江传媒学院的媒资管理系统中近两年的地方电视台新闻编目数据为基础，开发了如图6所示的软件系统，用户能够以关键词、样例图像作为输入，根据人脸、颜色、纹理等多特征融合，从媒资数据库中方便、快速地搜索出感兴趣的新闻内容。

图6　新闻检索系统软件主界面(截图)

采用查准率和查全率来测试检索系统的性能。针对人脸特征和图像特征分别选取200个样例图像进行测试，将新闻节目的起始时间作为过滤条件，统计时间区间内所有符合要求的节目数量。从而计算出对应的查准率和查全率。表2给出了基于人脸特征和图像特征的所有样例图像的查准率和查全率的平均值。统计数据表明，本文提出的检索方法具有较高的准确率和查全率。

表2人脸特征和图像特征检索的准确率和查全率%

比较项人脸特征图像特征准确率9591查全率9290

图7、8给出了基于人脸特征的检索结果，其中左侧是样例图像，右侧列出了与样例图像相匹配节目的关键帧。如图7所示，由于在编目中通常不会著录主持人姓名，此时只能以样例图像为输入进行搜索。本文的方法对于这类比较规范的人脸图像能够达到99%以上的准确率。图8以地方领导人图像为输入进行检索，从检索结果可以看出，本文的方法能够准确检索出领导在不同姿势和背景下的关键帧图像，具有一定的准确性和自适应性。在编目系统中若某领导的姓名已经著录，基于样例图像的检索可以进一步过滤文字检索的结果，得到该领导出镜的所有新闻场景。

图7　基于人脸识别的主持人搜索结果(截图)

图8　基于人脸识别的地方领导人搜索结果(截图)

图9、10给出了基于直方图和纹理特征的检索结果。其中图9的样例图像是某个固定背景的会议场景。可以看出本文的方法能够检索出拍摄角度发生变化时的场景，具有一定的稳定性。图10的样例图像是有关农田的场景，通过直方图和纹理相结合的方式，能够检索出与样例图像相似的天空和农田场景。实验表明本文的方法优于全局直方图的方式，能够综合考虑颜色和空间信息。

图9　基于颜色特征匹配的搜索结果(截图)

图10　基于颜色和纹理特征匹配的搜索结果(截图)

3小结

结合现有媒资系统，提出了基于文字、人脸、图像等多种特征相结合的新闻节目检索方法。实验结果表明，本文的方法具有准确性和实用性，能够显著提高媒资系统的检索性能，适应新媒体发展的需要。主要局限性在于提出的方法主要适用于新闻，今后将进一步研究更具一般性的特征用于更多类型节目的检索，如综艺，电视剧等，采用基于多核加速和GPU的特征匹配算法来进一步提高海量视频节目的检索速度。

参考文献：

[1]侯佳佳. 媒体资产管理系统中编目和关键帧提取的研究与实现[D]. 北京：北京邮电大学， 2012.

[2]杨强，马森. 基于语义的新闻视频检索系统设计[J]. 电视技术， 2010， 34(4)： 90-92.

[3]张志伟. 基于人脸识别的媒资视频检索技术的研究与实践[D]. 北京：北京邮电大学， 2013.

[4]王瑶，王正勇，何小海，等. 基于多尺度训练库与多特征融合的人脸识别[J]. 电视技术， 2015， 39(1)：121-126.

[5]史云静，郑海波，韩小萱，等. HSV下的基于图像内容的监控视频检索方法[J]. 电视技术， 2015， 39(4)： 16-20.

[6]VIOLA P A ，MICHAEL J. Rapid object detection using a boosted cascade of simple features[C]//Proc. CVPR 2001.[S.l.]：IEEE Press，2001：511-518.

[7]BELHUMEUR P， KRIEGMAN D. Eigenfaces vs. fisherfaces： recognition using class specific linear projection[J]. IEEE transactions on pattern analysis and machine intelligence，1997，19(7)：711-720.

[8]AHONEN T， PIETIKAINEN M. Face recognition with local binary patterns[C]//Proc. European Conference on Computer Vision. Berlin，Germany：Springer，2004：469-481.

[9]殷珍珍. 基于颜色和纹理特征的图像检索算法研究[D]. 郑州：河南工业大学， 2013.

张赟(1984— )，助理研究员，主要研究视频、图像编辑与处理，计算机视觉；

沈兵虎(1953— )研究员，主要研究广播电视技术、媒资管理；

练益群(1955— )女，教授，主要研究广播电视技术、媒资管理。

责任编辑：时雯

Research on efficient retrieval of news videos in media asset management system

ZHANG Yun， SHEN Binghu， LIAN Yiqun

(InstituteofZhejiangRadioandTVTechnology，ZhejiangUniversityofMediaandCommunications，Hangzhou310018，China)

Abstract:In this paper, an efficient news retrieval method is proposed based on multiple features， which makes full use of word description and features of keyframes in MAM (Media Asset Management System)， achieves fast and accurate retrieval， and improves the performance of news retrieval in MAM. We take the text description and images which contain important faces and scenes as input for video retrieval， and then match the input image with keyframes in MAM by applying the algorithm for face recognition based on Fisherfaces and LBP operators， and the local histogram match algorithm based on the weighted importance. Experimental results show that the proposed method can enhance the accuracy and efficiency of news retrieval in MAM， and meet the requirements for rapid production and release in new media age.

Key words:media asset management system；multiple features；face recognition；keyframes；new media

中图分类号：TP391

文献标志码:B

DOI：10.16280/j.videoe.2016.02.017

基金项目：浙江省自然科学基金项目(LY14F020050)；浙江省公益技术应用研究计划项目(2014C33091)；浙江广播电视技术研究所2015年度科研项目(2015004)

作者简介：

收稿日期：2015-08-05

文献引用格式：张赟，沈兵虎，练益群.媒资管理系统中新闻节目高效检索的研究[J].电视技术,2016，40(2)：88-92.

ZHANG Y， SHEN B H， LIAN Y Q.Research on efficient retrieval of news videos in media asset management system[J].Video engineering,2016,40(2)：88-92.