结合视觉显著性与眼跳概率模型的视频注视点序列预测
2019-10-09罗灵兵王祺尧
罗灵兵,冯 辉,胡 波,王祺尧
(1.复旦大学 信息科学与工程学院 电子工程系,上海 200433; 2.复旦大学 智慧网络与系统研究中心,上海 200433)
近年来,视觉注意力模型研究得到广泛的关注,因为这些模型能为包括图像分割、目标检测、视频摘要与压缩等[1]各类计算机视觉问题提供重要帮助.
视觉注意力模型研究的主要任务是找到场景(图像、视频等)中能吸引人的视觉注意力的区域.针对输入数据的不同,视觉注意力研究可分为基于图像与视频两类.目前,针对图像的视觉注意力研究较为成熟[1-2],而视频的注意力模型除了考虑单帧内容的显著性,还需考虑前后帧的动态变化,相关研究较少.根据模型输出的不同,视觉注意力模型一般被分为视觉显著图预测与注视点序列预测两类,前者是输出场景中能引起人的注意力的区域,而后者体现了场景中使人感兴趣部分之间的顺序性,反映出人获取信息的规律和逻辑,更能揭示人如何进行注意力的分配和选择[3].本文探究的是针对视频的注视点序列预测模型.
引起人视觉注意的机制的因素一般分为自下而上(bottom-up)的外源型因素与自上而下(top-down)的内源型因素[4].自下而上型主要基于场景的底层特征,如颜色、纹理、方向、亮度等,若是针对视频场景,则需要考虑时序特征,如运动等.自上而下型一般是指带有语义的高层特征,如人脸、各类物体等.传统的视觉显著图预测的研究一般是基于特征融合理论[5-6].如文献[7]将颜色、方向、亮度等底层特征通道提取出来并建立金字塔式结构进行特征融合.文献[8-9]将自下而上和自上而下两类特征同时融合.而这类模型无法真正衡量各类特征对视觉注意力的影响,而且使用的特征数目有限.也有部分研究基于人类视觉机制,通过模拟视觉刺激生成更符合人类感知的视觉显著图[10].
近年来,由于深度学习的兴起,大量基于深度神经网络的视觉显著图预测模型应运而生[11-12],并产生了较好的效果.其原因在于深度神经网络能同时提取出场景中的底层特征与高层特征,并完成自动融合,使其自动适配注视点信息,无需进行人工特征融合的过程.但是,目前大部分深度视觉显著图预测模型研究的都是基于静止图像,仅有少数是研究视频的显著性,例如文献[13]不仅手动地提取视频帧的图像特征,在考虑视频的时序特性时也只考虑了视频帧间简单的几维运动特征.
相较于视觉显著图预测模型,注视点序列预测模型的研究则更少.一类研究是基于信息最大化的原则来理解注视点的转移[14-15],但文献[14-15]并没有提出实际的计算模型.文献[3]通过最大化残差响应信息得到下一注视点的位置,但此类模型在图像场景中运用较多,在视频场景中并不完全适用.另一类是根据已有的视觉显著图来动态预测注视点序列.文献[16]将视觉显著图与返回抑制结合,使用了真实观测者的注视点密度图,验证了注视点的空间统计特性,但并未真正对注视点转移进行预测.文献[7]基于原始估计的视觉显著图,采用胜者全取与返回抑制结合的机制来生成注视点序列,但是其并没有考虑显著性随注视点改变的性质.还有一些其他的计算模型,如文献[17]提出使用隐马尔可夫模型对语义信息的转移进行建模,但最终注视点的选择还是采取文献[7]中的方法.
基于以上现状与问题,本文提出了一种针对视频并且同时考虑视频高层与底层特征的注视点序列预测模型.首先,采用隐马尔可夫模型(Hidden Markov Model, HMM)对注视点的转移进行建模.HMM是一种统计模型,它刻画了不可直接观测的状态随时间的转移.由于场景中需要预测的注视点位置序列具有动态时间特性且无法被直接观测,所以HMM的隐藏状态为注视点在场景中的位置.然后,本文使用卷积神经网络(Convolutional Neural Network, CNN)来预测视频的视觉显著图,并用其显著值描述观测概率,以表征注视点所在位置的场景区域能引起人的视觉注意力程度;用基于莱维飞行(Levy Flights)的眼跳概率模型建模HMM状态的转移概率.最后通过维特比算法(Viterbi Algorithm)找到最有可能的注视点序列.
本文提出的模型有以下几点优势: 1) 将视频的注视点转移建模为HMM,充分考虑了注视点转移过程中的动态特性,并且维特比算法能生成全局最有可能的注视点序列;2) 在CNN的输入信息中加入了前景运动特征,并同时考虑自上而下的高层特征与自下而上的底层特征,获得更准确的视频视觉显著图的预测;3) 采用基于莱维飞行的眼跳概率模型对注视点转移概率建模,充分考虑了人眼观察过程中的统计特性.
1 本文算法
图1 本文模型框图Fig.1 The structure of proposed model
本节将详细介绍视频注视点序列预测模型.如图1所示,将注视点的转移表示成状态不可观测的马尔可夫过程,状态转移概率采用基于莱维飞行的眼跳概率模型描述,通过基于CNN的视觉显著图模型,得到视频帧的视觉显著图,用于观测概率建模.
本节将按照以下两个部分展开: 第一部分主要介绍了HMM建模方法,包括变量定义、参数建模与注视点序列生成方法;第二部分将介绍CNN视觉显著图预测模型的设计细节等.
1.1 基于隐马尔可夫模型的注视点序列预测
隐马尔可夫模型被广泛应用于时间序列建模中,可以通过已有的观测对不可直接观测的状态序列进行推测.HMM中的变量可分为两组第一组是状态变量{x1,x2,…,xT},其中xt∈χ表示t时刻的系统状态,χ为状态空间.通常假设状态变量是隐藏的、不可被观测的.对于一段视频,某一帧的注视点的位置是无法直接观测的,所以本文将xt定义为t时刻观察者可能注视的像素点坐标.本文将整个视频横纵坐标进行等间隔采样,组成网格式的位置坐标点,注视点限定为在N个坐标点之间转换,即χ={s1,s2,…,sN}.第二组变量是观测变量{y1,y2,…,yT},其中yt表示t时刻的观测值.在本文的场景当中,yt∈{1,0},yt=1表示第t帧成功引起了人的视觉注意力.
1.1.1 HMM建模
除了结构信息,隐马尔可夫模型还需以下3组参数:
(1) 输出观测概率
模型根据当前状态获得各个观测值的概率,记作P(yt|xt=si),表示t时刻坐标si所在的区域是否能引起人的视觉注意力的概率.第t帧图像的视觉显著图中每个位置的显著值表示该位置能吸引人注意力的程度,显著值越大,表示该位置越能引起人的注意力,从概率的角度看,表明该位置有更大的概率引起视觉注意力.因此,本文将输出观测概率定义为第t帧图像显著图St中在坐标si处的归一化显著值St(si),记为:
P(yt=1|xt=si)=St(si).
(1)
这里与传统HMM不同的在于: 由于视频的动态特性,基于每一帧的视觉显著图是不同的,所以观测概率是时变的,而不是固定的.具体如何获取视频的视觉显著图,将在1.2节介绍.
(2) 状态转移概率
模型在各个状态之间转换的概率,记作P(xt+1=sj|xt=si),表示t时刻到t+1时刻注视点从坐标si转移到sj的概率.现有的视觉心理学研究[18]表明,注视点的快速转移(眼跳)与莱维飞行类似.莱维飞行是一种随机游走模型,具体表现在转移方向具有迷向随机性,转移步长具有厚尾分布的特性.基于以上特点,本文采用二维的柯西分布对注视点转移概率进行建模:
(2)
其中γ是柯西分布的参数,可根据实验确定.
(3)
其中d∈(0,+),由于步长d的分布是厚尾的,所以式(2)是一个莱维飞行.
(3) 初始状态概率
模型在初始时刻各状态出现的概率,记为π={π1,π2,…,πN},即在视频的初始帧的各个坐标点的注意力分布概率,本文将其定义为初始帧的图像显著图S1在各个坐标处的显著值:
πi=P(x1=si)=S1(si).
(4)
1.1.2 推断注视点序列
通过制定的状态空间与观测空间以及上述3组参数,本文确定了一个隐马尔可夫模型.给定一个观测序列y1:T={y1,y2,…,yT},假定视频的每一帧都成功引起了观察者的注意,目标是找到与此视频最匹配的状态序列,即注视点坐标序列.本文使用维特比算法生成该序列.
对于给定的观测序列y1:T={y1,y2,…,yT},要找到最有可能的注视点坐标序列x1:T,则需要最大化条件概率P(x1:T|y1:T),由于给定y1:T,则有:
P(x1:T|y1:T)∝P(x1:T,y1:T).
(5)
得到如下优化问题:
(6)
令
(7)
由概率图的条件独立关系与最大积原理,并进行迭代运算,得到最有可能的注视点坐标路径:
(8)
1.2 基于CNN的视频视觉显著图预测
在1.1节中,本文用视频帧的视觉显著图对HMM的观测概率进行建模,在进行观测概率建模时,采用了视频帧的归一化视觉显著值,所以本小节将主要介绍如何预测视频的视觉显著图.
运动的物体容易吸引人的视觉注意力[19].动态的视频场景相较于静态的图像场景更为复杂的原因之一在于视频场景存在移动的物体,即使其基本空间特征(如颜色、对比度等)没有很强的显著性,但是仍然可以吸引到人的注意,成为视觉注意力的显著区域.所以,首先本文受到文献[12]的启发引入了一种基于CNN的视频视觉显著图预测模型,然后以此为基础,在CNN的输入端加入了前景运动特征,并采用了迁移学习的思想,使之适用于视频序列,用于判别视频帧中的某一块区域是否显著.对视频帧的所有区域进行判别后,即可得到该帧的视觉显著图,并用此方法得到视频所有帧的显著图.
1.2.1 显著与非显著区块提取
图2 用于训练的显著性与非显著区块提取Fig.2 Extraction of salient/non-salient patches for training
观察者自由观看视频,通过眼动仪记录下基于视频每一帧的眼动数据.基于文献[19]中的方法,多名观察者观察该帧后形成多个注视点,每一个注视点在帧的范围大小内形成一个二维高斯图后,再将多个高斯图的值进行叠加,归一化后生成每一帧的注视点密度图,即视觉显著图,如图2所示.本文称视频一帧图像中的固定大小(如像素为d×d)的一块图像为区块(patch).若一个区块的中心所在的像素的密度值高于某一阈值,则认为该区块是显著区块,若低于某一阈值则认为是非显著区块.一个区块可用矩阵Rd×d×n表示,其中n表示区块所需要输入CNN的特征数量.如彩色图像有RGB 3个颜色通道,则可定义n=3,考虑到视频的动态特性,加入一维运动特征,所以n=4.本文采用式(9)来选取显著与非显著区块:
(9)
其中: label(Pi)表示区块Pi是否显著;xi为区块Pi的中心坐标;S(xi)表示区块Pi中心坐标处的视觉显著图中的值.本文将根据阈值Th对视觉显著图进行二分,大于该阈值的区域为显著区域,其余区域的为非显著区域.从显著区域和非显著区域中选取显著区块与非显著区块.如图2所示,黄色框为选取的显著区块,蓝色框为选取的非显著区块.
1.2.2 前景运动特征提取
为了考虑视频中能引起人注意的运动因素,本文在输入训练的样本区块特征中,加入了一个维度来表示运动特征.
视频图像通常由前景图像与背景图像构成.其中由于摄像机自身位置参数变化导致的整个图像变化被称为背景图像运动,即全局运动,由于所拍摄场景的物体运动而导致的图像变化被称为前景图像运动,即局部运动[20].由于人的注意力大部分是被前景图像运动所吸引,本文在提取前景图像运动特征时,采用了全局运动补偿的方法,以防止全局运动所带来的干扰.
首先,本文采用文献[21]中提出的方法,计算出一帧的某一像素点i的光流信息vO(i);第二,采用文献[22]的方法,计算出全局运动vG(i);得到前景图像运动特征向量:
vR(i)=vO(i)-vG(i),
(10)
其中
vG(i)=Axi,
(11)
这里:xi表示像素i的坐标;矩阵A为3×3的仿射矩阵,通过前后两帧的宏块进行预判与匹配,估计出矩阵A.
由于眼球在跟踪运动物体时,其最快的眼动速度不能超过80°/s[23],所以如果视频中产生较大的抖动,则会出现眼球无法跟踪得上的情况.为了防止这样的情况,本文最终得到第t帧的第i个像素点的前景运动特征值:
(12)
设视频的尺寸为(H,W),其中K启发式地取为:
K=max{H,W}/10.
(13)
1.2.3 CNN模型结构
本文所使用的CNN结构是基于AlexNet模型[24]的基本框架,由于AlexNet处理的是基于ImageNet数据库的1000类的分类问题,而本文所使用的CNN模型的目标是判断一个区块是否显著,处理的是一个二分类问题.所以,本文将模型的最后一个全连接层神经元个数设置为2,分别对应于二分类的两个类别,并将其与Softmax输出层相连,生成一个2维向量,分别对应于二分类中两个类别的概率,label为0表示非显著区域,label为1则表示显著区域.其中label为1的概率值作为该区块的显著值.
在训练初始化时,除全连接层8的参数进行随机生成外,其他层的参数采用AlexNet的参数进行初始化,并采用随机梯度下降算法迭代求解,训练阶段如图3(a)所示,通过1.2.1节与1.2.2节中的方法提取出显著与非显著区块,将其作为带标志的样本输入至CNN进行训练.
在预测阶段,如图3(b)所示,本文采用等步长滑窗的方式,从视频的每一帧图像中提取出待检测的区块,按1.2.1节与1.2.2节中的方法进行处理后,输入至训练好的CNN模型中,模型将会输出对应于每一区块的显著值.
图3 CNN训练阶段与预测阶段Fig.3 The training and predicting phase of CNN
1.2.4 视觉显著图生成
图4 加权高斯和的显著图Fig.4 Weighted Gaussian sums of the saliency map
CNN模型预测得到针对每一帧的滑窗区块的显著值.为了获得像素级的视觉显著图,本文基于每个区块中心,形成一个二维高斯函数值,再将该帧所有区块所形成的二维高斯函数值求加权和,如图4所示.权值则是每个区块预测的显著值,则得到第t帧的显著图:
(14)
2 实验设计与分析
本文首先预测基于视频帧的视觉显著图,再基于该显著图进行注视点序列的预测.所以本节给出了针对视觉显著图与注视点序列的仿真与分析,其中包括注视点转移步长的验证.
2.1 视觉显著图预测实验结果与分析
为了训练视觉显著图预测模型,本文实验使用了公开的眼动数据库HOLLYWOOD2[25],该数据库包含的视频场景主要采集自好莱坞各类电影,包含单人、多人、室内、室外等各种真实场景,包含1707段视频,对于每段视频有19个测试者的眼动序列被记录下来.本文从其中的823段训练视频中分别抽取了98491个显著区块与非显著区块进行训练,验证集则分别提取了32830个显著与非显著区块.区块的大小取为100×100像素,滑窗步长为20像素,生成视觉显著图的高斯标准差σ=5.
训练过程中,采用了0.001的初始学习率,块大小设置为128,求解方法采用随机梯度下降法,在进行到60000次左右的迭代次数之后,训练精度稳定在90.1%.
实验中比较的方法有GBVS[2],itti[7],Signature[26],SalNet[27],都是在视觉显著图研究领域中经典且效果较好的方法,其中SalNet是最近采用了深度神经网络的视觉显著图模型.本文引入AUC(Area Under roc Curve)与NSS(Normalized Scanpath Saliency)[28]方法计算预测的结果和真实眼动数据在位置上的相似程度.AUC计算的是阈值变化得到的ROC(Receiver Operation Characteristics)曲线下的面积,面积越大则结果与真实数据越相似.NSS衡量的是真实注视点在标准化后的预测的视觉显著图上所在位置的显著值的平均值,其值越高,代表预测结果越准确.
表1展示了本文的视觉显著图预测模型与对比算模型在AUC与NSS 2个相似性评价指标的实验结果.可以看到本文所提出的方法在该两项指标上相较于传统模型都有较明显的提高,原因在于传统模型没有考虑运动特征或者只考虑了运动特征中的光流信息,而本文算法考虑了前景图像运动特征;以及本文算法采用了深度CNN网络,其强大的特征提取能力也是其强于传统模型的原因.相比于同样基于深度神经网络的SalNet模型,同样由于前景图像运动特征的加入,使得两项指标分别提升为0.86%与2.50%.
表1 视觉显著图预测指标结果
视觉显著图预测的主要开销在于区块的显著性的预测.本算法以等长的滑窗步长进行区块划分,每个区块都要进行一次显著性测试,若视频帧的长边与宽边的区块数分别为W和H,视频需要参与测试的帧数为T,所以测试的时间复杂度为O(WHT).可见,视频分辨率越高,视频长度越长,则需要更长的测试时间.
2.2 注视点转移步长验证
图5 观察者真实注视点转移步长分布 与柯西分布拟合结果Fig.5 Step length distribution for human gaze shifts with fitting results by using a Cauchy distribution
注视点转移步长为前后的两个注视点在场景中的直线距离,如在图像和视频中,可用像素值来表示.本文从HOLLYWOOD2数据库的823条训练样本视频中提取了观察者真实眼动数据,并统计了帧数间隔为5帧的转移步长,并采用γ=5柯西分布分别进行拟合,结果如图5所示.可以发现,真实的注视点转移步长具有明显的厚尾分布特征,并且柯西分布能有效地刻画该分布特性.
注视是指将眼睛的中央窝对准某一物体的超过100ms,在此期间注视的物体成像在中央窝上,获得更充分的加工而形成清晰的像[4],视频的帧率在 20~30Hz.若帧数间隔过大,在预测的过程中会丢失较多信息,导致预测不准确;若帧数间隔过小,则会导致时间间隔不足以形成注视,预测过程不符合人眼注视规律.所以综合考虑,采用5帧的帧数间隔且γ=5,注视时间间隔在160~200ms.
2.3 注视点序列预测实验结果与分析
本文采用Hausdorff距离与平均欧氏距离作为衡量2个注视点序列的相似程度的指标.由于视频帧是严格等间隔的,所以可以通过视频帧的时间戳使得注视点序列严格对齐.Hausdorff距离计算2个集合之间最小距离的最大距离,对于长度为T的注视点序列X={x1,x2,…,xT}与Y={y1,y2,…,yT},xt,yt为图像像素位置坐标,Hausdorff距离表示为:
(15)
其中Ldiag为视频的对角线像素长度,以考虑不同视频存在的尺寸差异.
平均欧氏距离是相同时间戳的注视点位置之间的欧氏距离平均值,表示为:
(16)
Hausdorff距离度量了2个注视点序列的最大不匹配程度;平均欧氏距离评价指标能够在整体上衡量2条注视点序列的相似度.显然,Hausdorff距离和平均欧氏距离越小,表示序列相似程度越高,即预测越准确.
由1.2节的讨论,本文采用5帧的帧数间隔,且眼跳转移概率中参数γ=5.在比较注视点序列时,同一段视频所产生的序列与不同受试者的注视点序列进行比较,对比较的结果取平均值,以代表该视频上的评价分数.采用100段训练样本外的视频序列用于测试,并将所有测试视频的指标做平均,得到最终评价分数,其中每段视频有19位受试者的真实眼动数据.一般注视点转移采用WTA(Winner-Take-All)[7]的原则进行建模.所以基于1.2节预测的视觉显著图,分别采用WTA的方法进行注视点序列预测,与本文提出基于HMM的方法对比.
图6 真实注视点视觉显著图(上图)与预测注视点示意图(下图)Fig.6 Human fixation saliency maps(up) and the predicted fixations(down)
图6展示了测试视频中帧的真实注视点视觉显著图与本文模型所预测的注视点位置.从图中可以看到,在第25帧时,预测得到的注视点基本能与大部分真实注视点相吻合.在第50帧时,模型判断最有可能的注视点出现在两人握手的位置,虽然有部分观察者是注视两人的人脸,但大部分的注视点是在两人握手的位置,而模型给出的最终位置也与大部分人的注视点统一,更符合人注视点转移规律.
表2展示了本文模型CNN(HMM)与对比模型的结果,其中包括基于本文所提出模型预测的视觉显著图使用WTA的结果CNN(WTA).GBVS、Itti、Signature都是基于自下而上的底层特征的经典模型,所以在预测视觉显著图时较少能考虑到高层特征,而数据集中若出现不突出的人脸等物体则很难被这些模型所预测,这也是导致这些模型预测效果逊色于本文模型的原因之一.WTA的基本思路是选择视觉显著图中显著值较高的位置,这样的机制没有考虑注视点在转移过程当中步长的统计特性,所以在表示整体预测误差的平均欧氏距离指标上,即使采用了相同的视觉显著图模型,本文基于HMM的方法也明显优于WTA,原因在于基于HMM的建模囊括了注视点的动态转移特性,并采用动态规划的思想推断产生概率最高的注视点序列,与真实注视点序列更吻合.基于SalNet预测的显著图采用HMM方法预测的注视点序列比本文模型结果稍差,本文方法在Hausdorff距离与平均欧氏距离指标上分别提高10.4%与15.2%,原因在于SalNet与本文的CNN模型类似,都能利用视频的高层特征生成视觉显著图,但总体效果仍稍逊于本文模型.
表2 注视点序列预测指标结果
注视点预测主要通过维特比算法对隐马尔可夫模型进行解码,对长度为T的注视点序列,视频帧中可能的位置数为N,即预先在视频帧中划分的区块数目,视频分辨率越高则N越大.从式(7)与式(8)可以推得注视点的预测过程的时间复杂度为Ο(N2T),结合上文视觉显著图预测的执行分析,整体的测试时间复杂度与视频时长和分辨率有关.
3 结 语
针对视频的动态特性,本文提出了一种针对视频的注视点序列预测模型.首先,本文采用隐马尔可夫模型对注视点转移进行建模,充分考虑人类视觉心理学特点,采用基于莱维飞行的眼跳概率模型对转移概率建模,同时使用视频的视觉显著图对观测概率建模;其次,为了得到精确的视觉显著图,本文引入了一种卷积神经网络预测视频帧的视觉显著图;最后,实验分析表明本文提出的模型具有较好的预测效果.本文针对注视点转移概率的建模只是采用了较为简单的莱维飞行,不足以描述更复杂的人类注意力转移模式,如何对转移概率进行更精确、泛化能力更强的建模是后续研究的重点工作.