APP下载

多特征融合的视频镜头分割*

2018-07-26辛可嘉

电讯技术 2018年7期
关键词:度量直方图边界

来 毅**,2,辛可嘉,刘 颖

(1.西安邮电大学 通信与信息工程学院,西安 710121;2.中国科学院 光谱成像技术重点实验室,西安 710119)

1 引 言

随着视频采集设备的广泛应用,视频数量呈爆炸性增长,如何快速有效地从海量视频数据中找到用户感兴趣的视频内容,是视频深度应用中急需解决的主要难题之一[1]。镜头是指视频中两个剪接点之间的片段,即没有场景变化的一段连续画面,其内容通常具有很高的相似性。镜头变换有突变和渐变两种类型。突变时,镜头直接切换到下一个镜头,视频内容差异明显,易于检测。渐变则是前一个镜头的尾帧缓慢地被下一个镜头的首帧所代替,是一个持续多帧的变化过程。渐变时帧间差异变化缓慢,致使渐变镜头难以准确检出,导致渐变镜头漏检。镜头分割,又称镜头边界检测,其目的是准确找出视频序列中相邻两个镜头的边界。镜头分割对于视频检索、快速浏览和高效压缩等多种应用具有重要研究意义和实际应用价值[2]。

国内外许多学者对镜头分割技术进行了大量探索和研究,在这方面已取得了不错的成绩,提出了不少关于视频镜头分割的算法[3-14]。Gao等[8]实现了一种新闻视频解析系统,该系统包含两个重要内容:一是通过无人值守的模糊c均值聚类算法来检测镜头边界,实现新闻视频的镜头分割;二是利用Graph-Theoretical聚类分析算法,将新闻视频镜头划分为新闻消息镜头和节目主持人预告镜头。Biswas等[9]联合局部相似度和全局特征,采用矩阵余弦相似度的方法检测镜头边界。Grana等[10]提出了一种基于线性模型的两步法实现镜头分割,即第一步搜索镜头中心位置,第二步则确定镜头长度。Mohanta等[11]利用基于局部特征的帧过渡参数和帧估计错误,实现镜头分割,该算法较少依赖于用户设置的参数,具有较好的鲁棒性。熊伟等[12]使用线性遍历的方法对视频内容进行粗镜头划分,通过比对每一个边界序列相邻碎片序列内容的相似度,对粗划分的内容进行合并,从而实现了用线性方法同时解决突变类镜头切换和渐变类镜头切换的镜头分割问题。王娟等[13]把镜头边界作为候选故事边界,采用镜头分割和镜头标定对原始视频进行划分。于俊清等[14]通过构造回放因子特征,改进了情感激励模型的事件检测性能,实现了足球视频精彩镜头的边界检测。唐剑琪等[15]根据相邻图像帧之间ORB(Oriented Fast and Rotated BRIEF)描述子的匹配程度来实现镜头分割,如果相邻帧ORB描述子匹配程度很小,则此相邻两帧所在处即为镜头边界。

虽然上述算法在镜头分割方面取得了较大进步,但在实际应用时,效果往往并不理想,比如会引起镜头边界漏检等问题,主要原因有两方面:一方面,闪光会造成视频底层特征的变化,引起帧间差异度产生巨变,容易造成与镜头切变的混淆;另一方面,对于持续时间长的渐变,会因为帧间差异变化缓慢而造成漏检。为此,本文提出了多特征融合的视频镜头分割算法。算法的主要思想是通过建立一种优化模型,融合空间差异度量和感知哈希度量两种重要视频特征,形成一种更加有效的镜头分割特征——像素差异度量;然后结合直方图差异度量,可有效判断是否发生镜头切换。实验结果表明,与两种传统镜头边界检测法相比较,本文方法取得了较好的检测效果,且具有较强的鲁棒性。

2 镜头分割相关特征

2.1 直方图差异度量

图像直方图是对一副图像所有灰度值的整体描述,可提供原图的灰度值分布情况。本文采用相邻两帧图像直方图的相似度作为两帧图像间的差异度,以此来判断是否发生镜头切换。直方图差异度量(Histogram Difference Metric,HDM)是一种衡量直方图相似度的常用方法。视频第t帧的HDM定义如下:

(1)

(2)

式中:ft是输入序列的第t帧,ft+1是输入序列的第t+1帧;Ht(k)是输入序列第t帧的直方图,Ht+1(k)是第t+1帧的直方图;L是视频图像直方图中颜色等级的数目。dHDM值介于0和1之间,越接近于1,两帧图像的直方图相似度越大,相似度越高;越接近0,相似度越低。

通过HDM可衡量视频两帧间的相似度。图1(a)给出了一段电影视频的HDM曲线图,其中横坐标表示视频帧数,纵坐标是该视频对应的帧间HDM。从图1(a)可以清晰看出,在整个序列中共有4个谷值,其他地方基本趋近于1。HDM表示直方图的相似度,该值越趋近于1,相似度越高。4个谷值是相似度比较低的部分,可能是镜头边界。采用HDM来度量两帧图像间的相似度,基本可满足镜头变换的判断。但对于结构不同而直方图相似的情况,这种仅仅依靠HDM分割的效果不佳,因此在下节介绍另外一种镜头分割特征。

(a)直方图差异度量HDM

(b)空间差异度量SDM

(c)感知哈希度量PHM图1 一段电影视频序列镜头分割相关特征Fig.1 Related features for shot segmentation of a movie video sequence

2.2 空间差异度量

空间差异度量(Spatial Difference Metric,SDM)最初应用于视频镜头分割[8],该特征可准确刻画视频相邻两帧间像素强度变化情况。具体而言,就是通过统计当前帧与参考帧间对应像素点差值不为零像素点的个数,以描述视频相邻两帧内容的相似程度。此值越小,说明这两帧图像越相似。视频第t帧的SDM定义如下:

(3)

(4)

式中:Ii,j(ft)和Ii,j(ft+1)分别是视频第ft帧和第ft+1帧在位置(i,j)处的像素值,W和H分别为视频的宽和高。dSDM可用来衡量两帧图像的相似度。通过将两帧图像相等时差异置0,而不等时置1,得到1的个数就是两帧图像像素值不相等的个数,最后进行归一化,得到两帧图像的空间相似度。dSDM值介于0和1之间,越接近于1,两帧视频内容相似度越小,差异度越大;越接近0,相似度越大,差异度越小。

图1(b)给出了一段电影视频的SDM曲线图,其中横坐标表示视频帧数,纵坐标是该视频对应的帧间SDM。从图1(b)可以看出,大部分地方两帧之间相似度集中在某个值附近,而在某些地方两帧图像间的dSDM突然变高。由镜头的定义可知,同一镜头的内容有高度的相似性,而如果差异度明显升高,则该时刻有可能就是镜头边界。另外在序列的第300~500帧之间没有陡然的变化,但其dSDM的值也居高不下。这就说明仅仅依靠dSDM来判断镜头边界,可能会有比较大的误差,因此将在下节介绍本文所采用的第三种镜头分割特征。

2.3 感知哈希度量

SDM通常会受到光线影响,因此单纯采用SDM进行镜头分割,通常会产生较大误差。本文采用感知哈希度量(Perceptual Hashing Metric,PHM),即先利用感知哈希算法[16]对图像进行编码,然后通过计算汉明距离(Hamming Distance,HMD),以比较相邻两帧图像的编码字符串,结果越接近,则图像内容就越相似。具体步骤如下:

Step1 缩小图像尺寸为M×N。对于图像进行缩放处理,以去除图像的细节信息,只保留结构明暗等信息。

Step2 简化图像的色彩度。将缩小的图像转化为灰度值,以此减小色度对于图像匹配的影响。

Step3 计算图像像素的平均值。遍历缩放后的整幅图像,计算其像素的平均值,即

(5)

式中:Gi,j(ft)是Step 2得到的灰度视频第ft帧在位置(i,j)处的像素值,M和N分别为Step 1中视频缩小后所得到块的宽和高。

Step4 对图像进行编码。将每个像素点的值和整幅图像的像素平均值进行逐一比较,大于平均值则置1,否则置0,即

(6)

Step5 计算汉明距离。将编码的数值按照相同次序进行排列,利用汉明距离来比较两幅图像的相似度,即

(7)

式中:⊕表示异或运算,hi,j(ft)和hi,j(ft+1)分别表示第ft帧和第ft+1帧图像特征码在位置(i,j)处的码字。当hi,j(ft)和hi,j(ft+1)对应的比特位不同时,则计算结果为1;当hi,j(ft)和hi,j(ft+1)对应的比特位相同时,则计算结果为0。

该特征计算方法原理简单,易于实现,可快速判断两帧图像的相似度。图1(c)给出了一段电影视频的PHM曲线图,横坐标表示视频帧数,纵坐标是视频的帧间PHM值。PHM可衡量两帧视频内容的相似度,当PHM大于某个值时,则认为两幅图不相似而发生了镜头切换。

3 多特征融合的视频镜头分割算法

SDM只考虑了像素强度的相似性,因此容易受到运动光线等因素影响,从而导致镜头分割错误。而PHM则是通过对感知哈希编码后的特征码计算其汉明距离,这在一定程度上可减少外界因素对其影响。因此,为了有效提高镜头分割的准确率,增强镜头分割特征对于镜头边界的区分能力,本文结合这两种镜头分割特征的优点,通过将SDM和PHM两种镜头分割特征进行线性优化融合,提出一种新的镜头分割综合衡量指标——像素差异度量(Pixel Difference Metric,PDM)。通过大量试验观察分析发现,SDM和PHM分别单独进行边界检测的结果只要进行线性加强,则基本能反映出视频镜头边界的真实位置。因此,本文建立如下PDM特征模型:

dPDM(ft,ft+1)=dSDM(ft,ft+1)+dPHM(ft,ft+1) 。

(8)

dPDM值介于0和1之间,越接近于1,说明两帧视频内容差异度越大;越接近0,则差异度越小。

图2给出了一段电影视频的PDM曲线图,其中横坐标表示视频帧数,纵坐标是视频的帧间PDM值,而该值则是根据式(8)所计算出来的。

图2 一段电影视频的PDMFig.2 PDM of a movie video sequence

由图2可知,虽然PDM在很多地方有密集不明显的陡变,但波动较小,在其大于某个值时,几乎和HDM对于镜头边界有相同的判断。然而,如果只利用PDM进行视频边界检测,仍然会出现检测效果不理想的情况。因此,为了更加有效地检测镜头边界,本文综合利用PDM和HDM两种视频特征,提出了如下的镜头边界检测模型:

(9)

式中:dPDM(ft,ft+1)是由式(8)所得到的像素差异度量,dHDM(ft,ft+1)是由式(1)所得到的直方图差异度量。T和K是固定阈值,实验中通过统计得到,取T=1.0,K=0.98。由式(9)可知,当HDM小于某个值,且PDM大于某个值时,即可认为发生了镜头切换。

4 实验结果与分析

为了验证所提出镜头分割算法的有效性,本文采用多种不同性质的视频序列分别对算法进行测试。实验中所采用的测试视频来自于电影片段、新闻视频和宣传视频。其中电影视频共41 400帧,分辨率是1 280 pixel×720 pixel,帧率是23 frame/s;新闻视频共37 500帧,分辨率是1 024 pixel×576 pixel,帧率是25 frame/s;宣传视频共18 000帧,分辨率是672 pixel×378 pixel,帧率是25 frame/s。

为了评估算法检测镜头边界结果的好坏,分别采用查全率Rrecall、查准率Rprecision和综合指标F等指标[17]进行评价,以衡量算法在镜头检测上的优劣。其定义分别如下:

(10)

(11)

(12)

式中:Nc是正确检测的镜头数,Nm是漏检的镜头数,Nf是误检的镜头数。基于Rrecall、Rprecision和F等性能指标,将所提出的算法与文献[10]、文献[12]和文献[13]进行比较。

表1给出了本文算法及其他3种对比算法在电影片段、新闻视频和宣传视频的测试结果。由表1中对电影视频的测试结果可以看出,本文算法的查全率和查准率分别为78.9%和92.3%,高于其他3种对比算法。这是由于文献[10]中搜索镜头中心位置的准确性较大地影响了镜头分割结果,因此其镜头分割结果不能令人满意;文献[12]在计算双向帧距离模型时,只简单采用了欧氏距离进行度量,无法适应视频内容和结构的复杂化,因此镜头边界检测准确率不高;文献[13]只考虑了视频帧全局特征,采用直方图比较法和模板匹配法进行镜头分割,导致分割算法性能不甚理想。本文提出通过融合直方图差异度量、空间差异度量和感知哈希度量等3种视频特征进行镜头有效分割,实现了视频帧间相似度的准确度量,从而可比较正确地判断是否发生镜头切换。新闻和宣传也有类似的实验结果。从表1的查全率和查准率等指标可知,在对3种不同性质的视频进行镜头分割中,本文算法的镜头边界检测性能都优于其他3种传统算法,可更加有效检测镜头边界。

表1 电影、新闻、宣传视频镜头分割结果比较Tab.1 Comparison of shot segmentation results for a movie,news,campaign video sequence

5 结束语

镜头分割是计算机视觉研究领域的一个热点和难点问题,传统视频镜头分割技术存在镜头易漏检或过检、分割效果较差等不足。为此,本文提出一种多特征融合的视频镜头分割算法。算法主要思想是通过建立一种优化模型,融合空间差异度量和感知哈希度量两种重要特征,形成像素差异度量,然后结合直方图差异度量,构建高效的镜头边界检测策略,实现镜头边界的有效检测。在3种不同性质序列上的对比实验结果证明了本文算法的有效性和可靠性。在后续工作中,将进一步研究更加有效的镜头分割特征。此外,本文是对非压缩的视频序列进行镜头分割,如何针对压缩视频进行镜头边界检测也将是需要进一步探索的问题之一。

猜你喜欢

度量直方图边界
符合差分隐私的流数据统计直方图发布
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
拓展阅读的边界
意大利边界穿越之家
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
用直方图控制画面影调
论中立的帮助行为之可罚边界
基于空间变换和直方图均衡的彩色图像增强方法
地质异常的奇异性度量与隐伏源致矿异常识别