基于人脸识别的影视剧镜头自动标注及重剪系统

2017-07-19郎玥周霁婷梁小龙张文俊

上海大学学报（自然科学版） 2017年3期

关键词：影视剧人脸识别人脸

郎玥,周霁婷,梁小龙,张文俊

(1.上海大学上海电影学院,上海 200072;2.腾讯公司优图项目组,上海 200030)

基于人脸识别的影视剧镜头自动标注及重剪系统

郎玥1,周霁婷1,梁小龙2,张文俊1

(1.上海大学上海电影学院,上海 200072;2.腾讯公司优图项目组,上海 200030)

利用基于深度学习的人脸识别技术,建立了一种基于人脸识别的影视剧镜头自动标注及重剪系统,用于实现影视剧重编辑过程中对镜头片段更好地管理、查找和重剪.先对输入的影视剧视频进行镜头检测和分割,获得并建立分镜参数.在此基础上,对镜头中出现的所有人脸进行检测和切割,并采用预先训练好的包含350多位明星特征的模型库予以身份识别,聚类后实现镜头的演员标注.该系统也可依据指定演员对影视剧进行搜索,并将其中所有包含该演员的片段自动重剪在一起.实验结果表明,该系统镜头分割模块的平均召回率达到95%以上,对45◦以内的人脸识别率达到92.45%,且具有良好的鲁棒性.

人脸检测;人脸识别;镜头分割;深度学习

基于内容的图像检索一直是数字媒体技术与应用领域的研究热点之一,特别是基于人脸识别[1]的图像检索技术的应用近年来倍受各方关注[2].诸如Facebook的DeepFace[3]、香港中文大学的DeepID[4]、谷歌公司的GoogleNet[5]等前沿的人脸识别研究项目,都将深度学习应用于人脸识别中,使人脸识别的准确率不断提升.阿里巴巴的人脸支付“Smile to Pay”、谷歌眼镜的“Name Tag”、微软的“How-old”等进行了大量的人脸识别技术应用探索与市场开拓.

人脸识别在静态图像中的应用技术已日趋完善[3-7],而视频中的人脸识别技术尚处于起步阶段,目前已有的应用也多集中在视频中的人脸追踪和定位上[8-10].为了在影视剧重编辑过程中实现智能化管理,以及自动重剪,同时也针对影视剧迷们对特定明星镜头的检索与重剪的应用需求,本工作将基于深度学习的人脸识别技术应用到影视剧的镜头检索当中,建立了基于人脸识别的影视剧镜头自动标注及重剪系统,极大地减少了影视剧镜头检索、剪辑的时间和人工成本,开拓了人脸识别技术应用的新方向.同时,本工作在构建镜头分割模块时,对现有的基于视频边缘变化率的镜头分割技术进行了改善,提出了自适应阈值加滑窗的双重判别法,以有效提高镜头分割的准确率.

1 基于人脸识别的影视剧镜头自动标注及重剪系统的设计

本工作建立的基于人脸识别的影视剧镜头自动标注及重剪系统主要包含镜头分割、人脸库训练、人脸检测、人脸识别、人脸验证5个模块,旨在通过人脸信息对影片镜头进行查找和重剪,系统流程框图如图1所示.本系统预先对大量知名的国内外演员的面部特征进行了训练,建立并得到一个通用的演员面部特征库.用户在输入要检索的视频对象后,可以选择对全部镜头进行出场人物标注,或者输入要查找的目标人物姓名,对包含特定人物的镜头片段进行查找和重剪.

图1 影视剧镜头检索及自动重剪系统框图Fig.1 Flow chart of shot retrieval and automatic recut system

1.1 自适应阈值加滑窗的双重判别镜头分割方法

镜头分割是对视频进行处理的基础步骤.为了对视频进行结构化处理,需要将经由视频编辑软件编辑之后的视频还原为多个单独的镜头,其主要任务是找出镜头边界的定位.目前已有的镜头边界检测算法不具有普适性,因此镜头分割的方法选择还需根据实际应用需求来确定.

本工作所处理的视频对象为影视剧(电影、电视剧).影视剧的镜头切割绝大多数为切变或黑场过渡,其镜头切换的频率一般要远高于广告、歌曲MV、新闻等其他种类的视频.由于影视剧中同一场景下的色调往往较为统一,镜头切换也常为中景切特写、全景切中景等,其相邻两帧的灰度直方图变化并不剧烈.因此,综合此特点与实际需求,本工作选用了基于边缘变化率(edge change ratio,ECR)的方法对影视剧镜头进行边界检测.

由于镜头变化会引起相邻帧图像内容结构上的不连续性,图像中的边缘变化也会在镜头变化时大幅增加,即上一帧中出现的边缘并不会在下一帧中出现.所以,图像边缘变化率可以作为镜头变换的重要指标.该特征对亮度信息有很高的不变性,且与人类的视觉认知最贴近.

边缘变化率的定义为

为了减少镜头运动对边缘检测的影响,可以将图像进行灰化,对两帧连续图像之间进行总体的运动补偿.随后用Canny算子对图像轮廓进行提取,得到图像的边缘信息,并对边缘先腐蚀后膨胀.反色后进行图像相与运算并统计消失和新增的边缘像素数目,求解每一帧的ECR值.

对于阈值的选取,由于影视剧画面运动时快时慢的特点,单一阈值不能满足通用性的需求,往往会出现漏检的现象.为此,本工作提出了自适应阈值加滑窗的双重判别法,来判断镜头变化的帧号.经过对大量影片的测试实验,将自适应阈值设为aEavg,其中Eavg为视频序列中所有帧的边缘变化率平均值,a,b分别为小于1的阈值系数,即当第k帧计算所得的边缘变化率Ek>aEavg+b时,判断第k帧为新一个镜头的第一帧.

此外,由于每个镜头中起始帧的图像边缘变化率会远大于其前后的相邻帧,利用这一特性,本工作提出了一种简单的改进式滑窗检测方法对初步检测结果进行补充.

(1)首先设定一个步长为2m+1的滑动窗口,使待检测的第k帧位于窗口正中央位置;

(2)计算窗口中每一帧的边缘变化率Ek;

为了解决影视剧黑场过渡的检测问题,设定边缘像素数为0,即遇到黑帧时,E值为1.记检测到的切换点帧号为Fck,若Fck+1−Fck=1时,则舍去Fck+1不作记录.采用此方法可以有效跳过黑场过渡和渐变镜头的变化过程,避免重复记录.

1.2 影视剧的演员标注与检索

1.2.1 基于深度学习的人脸特征库建立

基于视频的人脸识别多基于几何特征、统计特征和局部模式,也有少部分基于人脸3D模型,其识别效果及效率并不尽如人意[11].

本工作选用腾讯BestImage项目组的Deep_UFACE模型对人脸库进行训练,率先将基于深度学习的人脸识别技术应用到视频人脸识别中.Dee_UFACE模型使用深度卷积神经网络(deep convolutional neural networks,CNN)进行训练,在国际权威人脸识别数据库LFW(Labeled Faces in the Wild)上的识别率已经达到99.65%,且对遮挡和小幅的姿态变化均有较好的鲁棒性[12].相较其他模型,Deep UFACE模型仅需输入一张用于训练的人脸图像,即可获得高达98.5%的识别率,在实际应用中具有明显优势.

在本工作所建立的系统中,首先建立一个演员列表,对其中的每个演员使用多张不同角度、光线、造型的照片进行人脸训练,以获取每个演员的面部特征值.完成训练后,这些特征信息会保存在云端服务器,用户只需输入待检测的影视剧,就可以选择进行全部镜头的人物信息标注,或进行单个人物的查找.对指定人物的查找完成后,可选择自动将包含该人物的所有镜头重剪成为新的明星cut片段.

1.2.2 影视剧人脸检测及面部图像裁切

当使用Deep UFACE模型进行人脸识别时,对输入的每帧图片只能识别出其中最大的一张人脸.为保证镜头中所有人脸都能被识别出,本系统预先对输入的影视剧进行了人脸检测,并切割出人物面部的图像.

首先,对输入的帧序列图像进行人脸检测,获取静态图像中每张人脸的坐标定位参数.人脸检测时所定位到的面部坐标范围较小,通常不能包含下巴、额发、耳朵等区域.为保证裁切出的面部图像的完整性,可以将定位到的人脸坐标范围在上下左右4个方向各扩大15%,并对扩大后的坐标范围进行边界约束,使其不超出原始图像范围.将裁切得到的人物面部图像按镜头存放,以便后续的识别和验证使用.

1.2.3 影视剧镜头演员信息的标注

在人脸标注模块中,由于视频序列具有画面连续性特征,对于帧率为24帧/s的影视剧影片,采取每隔4帧抽取1帧的方式,以减少计算开销.由于影视剧的镜头剪辑频率一般不会低于1 s,按照本工作的抽帧模式,每秒至少会抽取到7帧图像进行人脸检测,既满足了减少计算时间的需求,又保证了不会出现漏检.实现视频人脸标注模块的整体框图如图2所示.

图2 人脸标注功能框图Fig.2 Process schematic of face tagging function

在标注过程中,系统会将裁切出的人物面部图像与云端服务器储存的演员特征信息进行比对,并依次返回5名置信度最高的演员候选人.当第一候选人的置信度高于73%时,则判定该面部图像确为此演员.若无候选人置信度高于73%,则人脸识别失败.对所有面部图像的人脸识别完成后,按镜头进行人物去重,并对每个镜头的演员信息进行标注.

1.2.4 影视剧镜头按演员检索并自动重剪

为满足影视剧迷们对特定演员镜头的检索及重剪需求,本系统实现了人脸检索及自动重剪功能,具体框图如图3所示,其中虚线部分为可选择的按演员自动重剪功能.用户只需输入要检索的演员姓名,即可对影视剧中出现的人物进行身份验证,以实现自动检索和重剪.

图3 人脸检索及自动剪辑功能框图Fig.3 Process schematic of face verification and automatic editing function

利用本系统进行演员检索时,顺序地取同一镜头中的人物面部图像,与云端储存的该演员的特征信息进行人脸验证.当相邻的4帧中同时出现两次及以上验证成功时,则判定该镜头中出现了待检索演员,验证成功,直接转入下一镜头继续进行人脸验证.若当某一镜头中所有的面部图像均验证完毕,且未验证成功,则判定该镜头中并未出现待检索演员.所有镜头验证完毕后,输出所有验证成功的镜头号,并将这些镜头自动重剪成为新的影视剧片段.

2 实验结果

本工作收集了国内外350多位明星、演员的高清正脸照片,每人3∼5张.首先对这些照片进行明星人脸特征库的训练,得到每个人的面部特征信息用作后期检索比较.本工作中的实验视频均为720p以上清晰度,实验环境为经典的Linux系统Ubuntu 10.04.

2.1 镜头分割算法的实验结果

镜头分割效果的质量评价指标有3种：召回率V(recall),查准率P(precision)及F1指数.召回率是指检测到真正镜头分割的概率;查准率是检测到的分割点中属于真实分割点的概率; F1指数是代表召回率和查准率的综合指标,只有当V和P都较高时,F1指数才会相对较高.三者的定义分别为

式中,C为正确检测到的分割点个数,M为未检测到的分割点个数,F为错误检测到的分割点个数.

实验选取了8段典型的国内外电影、电视剧片段进行镜头分割测试,包括剧情片、动作片、文艺片、动画片等多种类型,其中文艺片和部分剧情类影片多为小空间对话类场景,镜头摇移较为平缓,其E值曲线峰谷值间隔较为稀疏且分界明显,平均值Eavg较小(见图4).而动作片及大场景美剧等视频中画面背景较为复杂,人物众多或色调昏暗,常出现大幅度或快速镜头摇移,其E值曲线波动较剧烈,平均值Eavg较大,难以一眼判别镜头分界位置(见图5).从实验结果可见,本工作提出的镜头分割检测方法对两类视频均有效.

图4 《同桌的你》片段边缘变化率Fig.4 ECR of“My Old Classmate”

由于不同视频类型的边缘变

化率有明显差异,在参数a,b,m的选择上,根据实验经验设置阈值开关.当视频的平均边缘变化率Eavg>0.40时,默认参数a=0.45,b=0.45,m= 2;当Eavg6 0.40时,默认参数a=0.30,b=0.77,m=5.用户也可根据不同视频的实际情况对参数进行微调.测试结果如表1所示.

图5 《末日孤舰》片段边缘变化率Fig.5 ECR of“The Last Ship”

表1 镜头分割测试结果Table 1 Test results of shot segmentation

除此之外,为了验证本工作提出的双重判定法的有效性,分别用对应参数对各视频分别进行了单独自适应阈值和单独滑窗阈值的分割实验.从表2可以看出,双重判定法对于视频分割的准确率(尤其是召回率和F1值)有显著提升.

表2 《谍中谍》片段不同阈值方法测试结果Table 2 Test results of“Mission Impossible”by different thresholds methods

实验结果表明,基于图像边缘变化率的自适应阈值加滑窗双重判别法,对于各种类型的影片都有较好的检测效果,其平均召回率达到95.92%,且对于大场景的复杂画面也有良好的适应性.

2.2 影视剧中演员人脸识别的测试实验结果

本工作对包括2.1节镜头分割中测试视频在内的119个镜头进行了人物的人脸识别.对视频画面中出现的所有除了纯侧脸和背影外的人物面部的测试结果进行了统计,以人次为单位(即每个人物在所有镜头中出现的次数之和),统计数值如表3所示.识别效果以检出率P=×100%来检验,其中D为检测成功的人次,H为人工识别出的人次,S为成功识别出演员身份的人次.×100%,识别率R=

表3 演员人脸识别的测试结果Table 3 Test results of actor recognition

实验结果表明,本方法对于夹角45◦以内(包括水平和垂直夹角)的演员面部有较高的识别率,而侧脸超过45◦甚至接近90◦纯侧脸的演员被识别出的概率相应降低.此外,本系统对于同一场景出现多名演员的情况也具有良好的适应性,即使主演站在虚化的背景中,也有较高的检出率.如在同时出现多名主演(见图6)、主演同时出现在前景和模糊背景中(见图7)的情况下,不同人脸均可被检测及识别出.

图6 多名主演同时出现在前景的检测结果Fig.6 Test result of actors appear in the foreground

图7 主演同时出现在前后景的检测结果Fig.7 Test result of actors appear in both foreground and background

本系统对于动画片中的人物检索也有一定的适用性,且对角色的剧烈表情动作、小面积遮挡(如眼罩、帽子等)均具有良好的鲁棒性.图8为成功检测并识别出的一些特殊人脸图像.

由于Deep_UFACE模型在训练过程中大量使用了亚洲人的面部图像,其对亚洲人种的人脸识别准确率极高.因此,在实验影视剧片段中,仅部分欧美剧如《末日孤舰》中出现了少量误检现象.误检原因分析为实际演员与误检演员长相相近,且该片段中的面部表情与训练库中误检演员的表情较为相似.误检情况如图9所示,其中(a)为该镜头中正确识别出的演员及图像, (b)为错误识别出的其他演员.实验结果还表明,对指定影视剧进行候选演员列表限制,即仅在参演该影视剧的演员中进行人脸识别,可以有效防止误检现象的发生.

图8 特殊人脸图像的检测结果Fig.8 Test results of special face patches

图9 同一镜头中的正确识别和误检情况对比Fig.9 Contrast of correct and false identified ID in the same shot

在漏检和识别失败的视频图像中,就漏检的原因分析总结为面部背光、色调过暗、同时有水平和垂直方向大于45◦的夹角、关键部位遮挡、人脸过小且处于虚化位置等.

同时,本系统中的人脸验证模块只对指定人脸进行匹配验证,一旦某镜头中确认出现该演员后,就会直接跳入下一镜头进行检索,不用遍历该镜头中的所有帧.在对同一视频进行实验时,人脸验证模块平均用时仅为人脸识别模块的1/15左右.人脸验证模块的部分结果截图如图10所示,其中左侧为输入的要查找的演员ID及训练图像,系统会返回包含该演员的所有镜头号,并将镜头号自动重剪在一起,右侧为查找到的镜头示例.

图10 按演员检索视频镜头结果示例Fig.10 Sample results of retrieve video shot by actor

测试结果表明,本工作所提出的基于人脸识别的影视剧镜头自动标注及重剪系统,能够准确检测出影视剧镜头分割的分界点,并以镜头为单位,对出场演员进行标注和查找,以有效降低人工对影视剧进行管理及重编辑的成本.本系统预期的应用方向包括大数据时代的海量影视剧镜头管理、基于演员对影视剧进行重编辑、按镜头进行演员及语义标注、基于关键帧的影视剧海报自动生成等.

3 结束语

针对电影、电视剧按演员进行检索和重新剪辑的需求,本工作建立了一个基于深度学习人脸识别技术的影视剧镜头自动标注及重剪系统.实验结果表明,所提出的自适应阈值加滑窗的双重判别法对于镜头分割准确率有显著提升,且本系统对于各种类型的影视剧甚至是人物类型的动画片均有很高的识别率,且对小面积遮挡和角度变化具有鲁棒性.下一步将就面部漏检、识别失败等情况进行预处理优化研究,并就视频的场景语义展开分析研究.

参考文献：

[1]Zhao W,Chellappa R,Phillips P J,et al.Face recognition：a literature survey[J].ACM Computing Surveys,2003,35(4)：399-458.

[2]Bhele S G,Mankar V H.A review paper on face recognition techniques[J].International Journal of Advanced Research in Computer Engineering&Technology,2012,1(8)：339-346.

[3]Taigman Y,Yang M,Ranzato M A,et al.Deepface：closing the gap to human-level performance in face verification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).2014：1701-1708.

[4]Sun Y,Wang X,Tang X.Deeply learned face representations are sparse,selective,and robust[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015：2892-2900.

[5]Schroff F,Kalenichenko D,Philbin J.Facenet：a unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015：815-823.

[6]Zhou E,Cao Z,Yin Q.Naive-deep face recognition：touching the limit of LFW benchmark or not?[EB/OL].(2015-02-20)[2015-11-23].http：//arxiv.org/pdf/1501.04690vl.pdf.

[7]孟一飞,袁雪,魏学业,等.基于样本扩展和线性子空间特征提取的单样本人脸识别[J].应用科学学报,2013,31(5)：488-494.

[8]严严,章毓晋.基于视频的人脸识别研究进展[J].计算机学报,2009,32(5)：878-886.

[9]Gorodnichy D O,Granger E,Radtke P,et al.Survey of commercial technologies for face recognition in video[R].Ottawa：Departmant of National Defence(Canada),2014.

[10]Granger E,Radtke P,Gorodnichy D,et al.Survey of academic research and prototypes for face recognition in video[R].Ottawa：Department of National Defence(Canada),2014.

[11]Lei Y,Bennamoun M,Hayat M,et al.An efficient 3D face recognition approach using local geometrical signatures[J].Pattern Recognition,2014,47(2)：509-524.

[12]Face Analysisl Tencent Youtu[EB/OL].[2015-10-11].http：//bestimage.qq.com/faceanalyze.html.

本文彩色版可登陆本刊网站查询：http：//www.journal.shu.edu.cn

Automatic annotation for film and Television drama shots and recut system based on face identification

LANG Yue1,ZHOU Jiting1,LIANG Xiaolong2,ZHANG Wenjun1
(1.Shanghai Film Academy,Shanghai University,Shanghai 200072,China; 2.Tencent Inc.,Tencent-BestImage,Shanghai 200030,China)

This paper proposes an automatic editing system named Star Cut based on face recognition using deep learning and a video shot detection technique.The purpose is to establish a system for management,retrieval,and automatic recut of film and TV shots.First,the system with over 350 faces of pop stars and actors using a U-face model is trained to learn facial features.The system uses the change rate of edges to detect shot edge.After shot segmentation,the system uses the pre-trained face models to identify faces in the input film or TV drama shot by shot.Users can either choose to recognize all figures in these shots or just choose selected one to recut all the shots containing him/her together automatically.The recall rate of shot segmentation is above 95%,and the recognition rate of faces in an shooting angle of 45◦is 92.45%.Test results show that the proposed system has good robustness.

face detection;face identification;shot segmentation;deep learning

TP 391.41

1007-2861(2017)03-0353-11

10.12066/j.issn.1007-2861.1713

2015-11-23

国家自然科学基金资助项目(61303093);上海市教委科研创新基金资助项目(14YZ023)

周霁婷(1980—),女,博士,研究方向为数字多媒体通信等.E-mail：zjting@shu.edu.cn