APP下载

基于HVS和时域感知失真的感兴趣区域搜索

2013-08-02谭晶晶殷海兵

中国计量大学学报 2013年1期
关键词:人眼感兴趣时域

谭晶晶,殷海兵

(中国计量学院 信息工程学院,浙江 杭州 310018)

1 研究现状

随着视频的广泛应用,人们对视频质量的要求越来越高.原始视频经过压缩,传输,解码以后会受到各种噪声的影响,产生一定的失真.视频的感知质量与这些失真密切相关.基于人眼视觉系统(HVS)的视频感知质量的评价是目前研究的重点.在对人眼视觉系统的研究中,中心凹特性的应用是视觉感知质量研究的一部分.我们知道对图片中心凹的研究中,在图片的不同位置,人眼对其敏感性不同.在明亮条件下,中央2°的敏感性最高,而在中心5°的时候,敏感性相当于2°下降了50%;超过中心5°,敏感性急剧下降[1].基于此,我们需要知道在视频播放过程中,人眼的关注点,确定了视频帧中的关注点,才能进一步优化最终的视觉感知质量.

视频中运动物体的轨迹一直是人们研究的兴趣点.在评价视频序列时,一般把每帧图像分为感兴趣区域和非感兴趣区域.视频中,运动物体区域更容易被人眼跟踪.目前算法中存在很多基于物体运动特性的区域搜索[2-5].为了提取视频中物体的运动区域,一般会从空域特征和运动物体的时域特性两个方面进行探索.

空域方面,人们会区分图像的前景与背景,而运动的物体一般会作为视觉观察的前景,它更能引起人们的兴趣.

时域方面,通过建模得到视频序列的时域滤波器处理空域信息,最终得到感兴趣区域.视觉兴趣性不仅与运动有关,还与对比度、目标物大小、颜色等有关.在视频质量评价过程中,考虑到人眼的非对称行为特性(也就是说人眼更能记住不好的瞬间)[6],对于失真序列,播放时出现的失真大的区域同样会受到人眼的关注.因此,本文将基于时域的感知失真查找感兴趣区域.

考虑到人眼对运动和失真的兴趣性,同时有效的评价视频序列,需要对视频的特性和视觉的兴趣性进行分析.

基于此,本文将从视觉特性和时域感知失真出发,搜索人眼可能的感兴趣区域.

2 感兴趣区域搜索

视频播放过程中,人眼总是追逐运动的物体,并关注突然出现的人眼无法忍受的失真.人眼关注视频中某一点的持续时间大约为200~600ms[7],平均每秒钟有2~4个兴趣点[8].视觉兴趣点的选择一般是由人们经验获得,用于模拟人眼在观测视频时的眼球运动状态.

我们在文献[9]中采用全参考的视频质量评价方法,根据HVS特性分析LIVE数据库中[10]的sf1_25fps.yuv序列,计算测试序列的时域感知失真.文献[9]中,通过研究时域失真波动对视频质量评价的影响,发现时域失真波动比较大的地方同时也是运动存在的区域,如图1.因此时域失真波动程度在一定程度上可以反映出运动物体的区域.图2中分析了bs2_25fps.yuv测试序列的失真图像和其计算的时域失真图,可以看出,在失真比较大的区域,其时域失真波动也更明显.基于此,本文的主要内容是根据时域失真波动值fltt和时域感知失真值θt搜索失真明显或者存在容易引起人眼关注的运动物体.

考虑到纹理掩蔽效应的影响,我们将纹理掩蔽效应并入到时域感知失真中.因此,本文将分两部分介绍感兴趣区域搜索的主要内容.

1)纹理掩蔽效应

根据以往的研究发现,人们对图像中的边缘信息比较敏感.因此在对图像质量和视频的空域质量研究时,人们往往会把图片内容分为三个部分,即是边缘、纹理、平坦区域.考虑到视觉感知的影响,纹理信息对图片内容的掩蔽效应最好.

为了探索纹理掩蔽的影响,通过分析边缘强度的分布,提取出每一像素点在视觉感知计算时的重要程度.

常见的边缘检测算子有Roberts,Prewitt,Log等,考虑到边缘检测的准确度和算法的复杂度,本文计算边缘强度信息时采用Sobel算子计算原始图像的梯度场,并计算每一像素点的幅度场.Sobel算子的两个卷积模板显示如下:

计算时,分别从水平方向和垂直方向对原始图像进行卷积得到每帧图像的边缘强度值:

At为原始帧数据.边缘强度值可以体现出每帧图像每一像素点的边缘信息强度值.由于纹理具有很强的掩蔽效应,因此通过判断局部区域的边缘变化强度值来判断该区域的纹理变化强度.

本文考虑到局部区域的掩蔽作用,通过把每一帧图像划分为8×8块大小的区域,计算每一区域的强度值的分布情况.通过计算每一8×8区域数据的标准差值表示纹理强度local_tt(m,n).图3表示sf1_25fps.yuv序列第62帧的纹理强度值.原始图为图1中左图.

图3 sf2_25fps.yuv局部纹理强度图Figure 3 Texture strength map of sf2_25fps.yuv

从图3可以看出,蜜蜂右侧是图像中边缘纹理比较复杂的区域,同时其左侧的图像区域纹理相对简单.由于纹理区域的掩蔽效应相对于平坦区域的掩蔽效应较强,因此,考虑每一区域的数据特征根据公式(3)对局部纹理强度调整并归一化到[0,1],表示每一像素点的掩蔽效应的强弱.使其权值的分布更符合人眼的感知分布.

weight_texture表示掩蔽效应权值,local_tt表示局部纹理强度值.图4表示了计算得到的weight_texture值.

图4 weight_texture显示图Figure 4 Map of weight_texture

根据文献[7]得到的时域感知失真θt,调整后的时域感知失真值为:

t为帧序号.

2)感兴趣区域搜索

本文对感兴趣区域搜索主要是基于纹理掩蔽调整后的时域感知失真θ′t和时域失真波动fltt.

在计算时域失真波动时,我们考虑到当前计算帧和其前后各10帧的关系.通过基于预测运动矢量的全搜索运动估计的算法得到前后各10帧的运动矢量.根据每一帧的运动矢量得到每一帧对应的运动补偿图像.在20帧范围内,变化比较大的区域,我们认为是运动物体区域和失真较大的区域.时域感知失真的计算考虑到时域失真波动和视觉暂留等效应对感知失真的影响,也可以从一定程度上反映出时域分布上的失真较大的区域.因此在搜索感兴趣区域时,本文将这两个因素作为搜索的主要因子.

本次算法将对每帧图像进行自适应搜索.搜索结构描述如图5.

从图1和图2中可以看出,运动部分和失真大的部分,其时域失真的波动值都是比较强.但是失真波动较大区域不仅局限于运动区域或者人眼不能忍受的较大失真的区域.本算法初步设定阈值,提取出图片帧中fltt(x,y)>ε1的像素点,将其标定为1,得到标定区域Ω1.同时考虑到图片帧每一像素点的时域感知失真值,同样找出θ′t(x,y)>ε2的像素点,标定为1,得到标定区域Ω2.确定初始标定图Ω=Ω1∪Ω2如图6(b).图6(b)中显示出当前图片帧中存在很多失真波动或者感知失真值比较大的区域,人眼视觉系统对面积小的区域不如面积大的区域敏感.我们根据8连通区域的特征,根据某一像素点8连通区域内标定为1的像素点所占的比例大小,对初始标签图进行重新确认,得到初始连通区域,如图6(c)所示.根据人类知觉的选择性,删除小面积区域后,如图6(d).此时已经得到初步的连通区域,即人眼可能的感兴趣点.根据人眼视觉的整体性,需要对图6(d)进行聚类分析.即将选定的区域和θ′t关系重新搜索,确定新的搜索区域,得到图6(e).再次根据图6(e)得到的标签图,判断每一点8连通区域内显示为1的点所占的比例情况,再一次确定感兴趣区域的范围如图6(f).

图5 感兴趣区域搜索结构图Figure 5 Structure map of searching of interesting regions

图6 感兴趣区域搜索图Figure 6 Process map of searching of interesting regions

图7 结果图Figure 7 Text map of bs,mc,sf,tr

从图6可以看出该算法可以提取出可能的人眼感兴趣区域.

3 结果分析

在这一部分,主要介绍感兴趣区域搜索的在不同类型测试序列上的测试结果.本次算法在LIVE数据库[8]中 bs,mc,sf,tr等四种测试序列进行测试,bs序列的主要内容是蓝色天空和一些树,镜头是移动的,在这个失真序列中会在纹理区域和平坦区域突然出现比较大的、人眼不能忍受的失真.考虑到人眼的非对称行为特性,这一部分的失真会严重影响到人眼对整体序列的评分.因此,测试结果如图7(a),左侧图为原始失真序列,右侧图为选定的感兴趣区域.mc序列是一个玩具火车水平移动,同时作为背景的挂历垂直移动,本次测试随机选取了其中一帧,通过测试结果显示如图7(b),可以看出选出的区域同样是时域上变化比较大的区域.在图7(c)sf序列中,蜜蜂的移动是人眼关注的重点,因此,结果图很好地显示了搜索的准确性.在tr序列中存在比较大的移动物体,人眼会比较关注拖拉机的区域,但是在测试序列中,拖拉机的移动会伴随着比较大的失真,因此搜索到拖拉机区域失真大的位置能表示人眼的感兴趣区域.图7(d)的结果图很好的表示了感兴趣区域的位置信息.

通过4个序列的测试结果显示,该算法能很好地确定时域序列每帧的感兴趣区域部分,而不仅限于传统的运动区域的搜索.本文算法与传统的运动区域搜索算法不同的是,本算法的设计是服务于基于人眼视觉特性的视频质量评价模型的构建.从人眼的非对称行为、眼球的追踪,和观察的兴趣性等特性分析,搜索视频序列中可能的感兴趣区域,从而应用于视频质量评价算法,使客观的视频质量算法达到与主观评价算法较高的一致性.

4 结 语

本文主要是从视频序列失真角度出发,分析可能存在的感兴趣区域.通过分析测试序列帧的时域失真波动和时域感知失真搜索视觉感兴趣区域.从搜索区域结果图中可以看出该算法的可行性.该算法的提出是为了应用于视频质量评价.

[1]Duchowski A T.Eye tracking methodology:theory and practice[M].2nd ed.London Springer:2007:15-40.

[2]Huang S C.An advanced motion detection algorithm with video quality analysis for video surveillance system [J].IEEE Transactions on Circuits and System for Video Technology,2011,21(1):1-14.

[3]Kim T K,Im J H,Paik J K.Video object segmentation and its salient motion detection using adaptive background generation[J].Electronics Letters,2009,45(11):542-543.

[4]C'ulibek D,Mirkovic'M,Zlokolica V.Salient motion features for video quality assessment[J].IEEE Transactions on Image Processing,2011,20(4):948-958.

[5]Tian Y L,Hampapur A.Robust salient motion detection with complex background for real-time video surveillance[J].Application of Computer Vision,2005,2:30-35.

[6]Tan K T,Ghanbari M,Pearson D.An objective measurement tool for mpeg video quality[J].Signal Process,1998,70(3):279-294.

[7]Ware C.Information visualization:perception for design[M].2nd ed.CA:Morgan Kaufmann,2004:1-11.

[8]Meur O L,Callet P L,Barba D.Predicting visual fixations on video based on low-level visual features[J].Vision Research,2007,47(19):2483-2498.

[9]Tan Jingjing,Yin Haibing.Temporal distortion measure for visual quality assessment[J].Video Engineering(unpublished).

[10]Seshadrinathan K.,Soundararajan R.Study of subjective and objective quality assessment of video[J].IEEE Trans Image Processing,2010,19(6):1427-1441.

猜你喜欢

人眼感兴趣时域
更 正
基于复杂网络理论的作战计划时域协同方法研究
人眼X光
网络分析仪时域测量技术综述
人眼为什么能看到虚像
山区钢桁梁斜拉桥施工期抖振时域分析
一种用于高速公路探地雷达的新型时域超宽带TEM喇叭天线
闪瞎人眼的,还有唇
看人,星光璀璨缭人眼
编读往来