基于亮度感知的前景提取
2021-10-18周激流
彭 橦, 何 坤, 周激流
(1.四川大学电子信息学院, 成都 610065; 2.四川大学计算机学院, 成都 610065)
1 引 言
前景提取是从图像中分离出观察者感兴趣的语义对象.它是机器视觉、模式识别和对象跟踪的重要环节,被广泛应用于各个领域[1-2].研究者根据图像底层特征(边缘或者区域亮度/颜色分布等)提出了许多方法,如水平集[3]、Grabcut[4]等.由于图像内容的复杂性和特征的多样性,使得前景提取缺乏统一框架.
前景提取结果不仅依赖于算法本身,还依赖于图像特征.目前,用于前景提取的特征可大致分为“学习特征”和“人为特征”,其中“学习特征”主要是利用深度学习方法(如卷积神经网络[5]等)从训练集中自动提取可执行具体任务的不同尺度特征.其小尺度特征主要来源于低层网络,大尺度特征常常表示为高层网络参数.基于“学习特征”的前景提取算法[6]能有效提取图像特定前景(训练集中任意对象),但对新的前景(未参与训练),由于缺乏训练样本导致前景提取效果较差甚至失效[7].此外,“学习特征”的鲁棒性依赖于训练集容量[8],小样本学习的特征对扰动较敏感,反之,具有较好的稳定性.
针对新的前景,研究者常常采用“人为特征”从图像中提取前景.“人为特征”是指图像的低层特征,如像素相似性[9]、边缘[3]、区域颜色分布[10]等.从像素对亮度/颜色相似性出发,魔术棒[11]和随机游走[12]算法利用像素相似性建立前景提取能量泛函,通过计算能量泛函的最优值可有效提取卡通图像的前景.但纹理恶化了图像像素的相似性,使得对自然图像前景提取效果较差.图像前景形状的几何属性(周长和面积)是有限的,即任意前景具有封闭的轮廓曲线.研究者从前景几何属性出发,结合初始曲线运用演化理论提出了基于活动轮廓的前景提取模型,该模型在曲线内、外力共同作用下,驱使初始曲线演化并停留在前景轮廓处.曲线内力是指曲线的自身属性——曲率;外力常表示为图像特征:边缘[3]或前、背景亮度/颜色分布均值差异[13].由于边缘刻画了图像邻域像素的变化,所以该特征敏感于邻域大小(分析尺度),为了去除边缘尺度对前景提取的负面影响,将图像多尺度分解和活动轮廓相结合构建了图像多尺度前景提取框架[14],该框架利用从细到粗尺度边缘特征约束曲线演化,从适当尺度中提取图像前景.图像区域颜色的非一致性分布缩小了前、背景亮度/颜色分布均值差异,使得前景提取质量下降.为了去除颜色非一致性分布对均值的影响,运用前、背景区域颜色的分段逼近函数代替均值[15],在一定程度上提高了前景提取效果,但计算成本较高.为了改善计算效率,图像前、背景像素颜色被看作一个或者多个总体的随机样本,运用统计理论设计了前、背景颜色分布模型,如直方图[16]和高斯混合模型[4],联合图像边缘建立了前景提取图模型,将前景提取转化为图割问题.该模型综合考虑了图像边缘和区域颜色分布对前景提取的贡献,提高了前景提取质量.
前景提取是在图像整体认知基础上将感兴趣对象分离出来.“人为特征”仅仅描述了图像局部像素的变化或者统计特性,忽略了整体视觉效应.本文分析了图像亮度的视觉感知效应,结合水平集方法提出了一种基于亮度感知的前景提取模型.该模型由图像视觉感知和水平集方法两部分组成,其中图像视觉感知是从像素对的亮度视觉相关性出发,建立了图像像素集合的二元关系矩阵,联合区域内像素亮度的视觉相似性和区域间的差异性,设计图像亮度感知能量泛函,并运用瑞利熵求解能量泛函最优值.其解向量表示了亮度视觉的特征向量,主要描述了图像视觉区域及其对象轮廓信息.水平集方法部分主要是结合曲线曲率和图像亮度视觉的特征向量共同驱使初始曲线演化至前景轮廓.该模型将图像视觉特征和水平集方法结合建立了基于亮度视觉效应的前景提取框架,有利于从图像的整体认知基础上提取前景.相对于传统算法,由于该算法利用了图像整体视觉效应弥补了“人工特征”局部性的不足,提高了图像前景提取质量.
2 前景提取模型
人们观察一幅图像时,首先分析空间近邻像素的亮度/颜色相似性;其次结合区域内像素相关性和区域间像素的差异性,形成图像视觉区域;最后根据前景的区域组成,从图像视觉区域中提取前景.本文模拟了人类视觉的前景提取过程,对N个像素的图像u,联合亮度视觉感知和水平集方法,设计了基于亮度感知的前景提取能量泛函,最小化泛函可得前景蒙板.该模型可表示为
(1)
该能量泛函由两项构成,第一项C(R(u),v)表示图像亮度视觉区域能量泛函,其中R(u)表示图像空间近邻像素的亮度相似性,向量v描述了图像视觉区域;第二项S(v,φ)表征运用水平集方法从视觉区域提取前景蒙板,其中φ为水平集函数,φ≥0表示背景,反之为前景.
2.1 视觉感知
人们观察一幅图像时,根据像素的视觉相似性,结合区域像素的内聚性和区域间像素差异性,形成视觉区域.人眼对图像像素的相似性分析依赖于像素间的空间近邻性和亮度差异,如两像素距离较大,则视觉上它们的视觉相似性较低;反之较大.同理,若邻域像素的亮度差异较小,则视觉相似性较高.像素i,j的亮度相似性ωi,j可表示为
(2)
式中,F和X分别表示像素的亮度值和空间位置;σF和σX表示人眼视觉的亮度敏感性和感受野大小.
图像上任意像素对的视觉相似性可表示为二元关系矩阵如下.
(3)
假设图像u的论域Ω由A、B两个视觉区域构成,图像像素所属的区域记为向量v,其中vi<0表示像素i位于A区域;vi>0则表示位于B区域.根据图像像素集合的二元关系,结合视觉区域内像素的内聚性和区域间的差异性,图像视觉区域可表示为下列能量泛函的最小值.
(4)
为计算图像视觉区域能量泛函,设di=∑jωi,j,D=diag{di},则式(4)可进一步表示为
(5)
运用瑞利熵求解得
(D-R)v=λDv
(6)
(7)
(8)
2.2 前景提取
视觉区域向量主要描述了图像视觉区域及其前景轮廓信息,结合初始曲线利用曲线内部能量Eint(φ)和视觉区域能量Eext(v,φ)的共同驱动下,使得曲线逐步逼近前景轮廓.视觉区域的前景提取可表示为下列能量泛函的最小值.
S(v,φ)=μEint(φ)+Eext(v,φ)
(9)
曲线内部能量函数Eint(φ)表示为
(10)
图像前景形状的周长和面积是有限的,其外部能量函数Eext(v,φ)常常表示封闭曲线的周长L(φ)和区域面积A(φ),其测度可分别表示为
(11)
Eext(v,φ)=βL(φ)+γA(φ)=
(12)
式中,β和γ分别为曲线长度和区域面积测度的权重.
结合曲线内部能量函数和外部能量函数,视觉区域的前景提取能量泛函为
(13)
利用变分法求解上式能量泛函的极小化问题,可得
(14)
引入一个人工时间变量Δt,根据梯度下降法进行迭代计算,φ可通过以下方式更新
(15)
m为迭代次数.
3 实验与分析
图像视觉感知敏感于区域内像素亮度的视觉相似性和区域间的差异性.因此,从像素对的亮度视觉相关性出发,结合区域内以及区域间像素亮度的视觉相似性,求解能量泛函的最优解.该解向量除表示了亮度视觉的特征向量外,还描述了图像视觉区域及其对象轮廓信息.利用水平集方法,结合曲线曲率和图像亮度视觉的特征向量共同驱使初始曲线演化至前景轮廓,提取前景蒙版,以便获取前景.其算法流程如图1所示.
图1 算法流程Fig.1 Algorithm flow
为衡量算法分割结果和人工分割之间的区域对应程度[18],实验中常采用交并比(IOU)[19]和F测度[20]进行测评.IOU具体定义为
(16)
式中,FS表示实际提取结果;FG表示人工分割结果.
F测度定义为
(17)
P为准确率;R为召回率,具体定义如下
(18)
3.1 参数讨论
由式(1)可见,图像整体视觉效应影响着前景提取效果,其选取受视觉区域v的影响,而视觉区域v又同时受亮度敏感性σF和感受野大小σX的影响.以下分别讨论单一变量对前景提取效果的影响,其测评分数见表1,部分前景提取结果如图2所示.实验结果表明,感受野大小σX决定图像的平滑程度,亮度敏感性σF则影响前景轮廓的亮度感知程度.随着感受野大小σX的增大,图像的平滑程度加剧,特征变模糊,而随着亮度敏感性σF的增大,亮度感知程度下降,前景轮廓变不明显.但是,若感受野大小σX以及亮度敏感性σF过小,则前景提取结果容易受到前背景中纹理信息的影响,不利于曲线演化提取前景.根据实验结果分析,在尽可能保留图像中的细节以及利于曲线演化的前提下,本文选取σX=0.6和σF=0.5作为参数进行实验.
表1 不同参数的前景提取测评分数Tab.1 Assessment scores of foreground extraction with different parameters
图2 感受野大小和亮度敏感性对前景提取的影响Fig.2 The influence of receptive field σX and brightness sensitivity σF on foreground extraction
3.2 提取结果
为验证本文算法的有效性,将本文算法分别与水平集方法[21]、多尺度分割模型[14]、deep Grabcut[6]以及First Click Attention Network (FCA-Net)[22-23]方法相比较.传统水平集方法主要是根据图像中前、背景边缘像素的梯度跳变,利用给定初始封闭曲线演变实现前景提取;多尺度分割模型则依据不同尺度的特征变量提取前景;而deep Grabcut方法和FCA-Net方法均是采用卷积神经网络作为分割框架,通过对网络模型的训练获取图像高层次特征参数,实现前景提取.不同的是,FCA-Net方法采取多次人工交互的方式对分割后结果进一步改善.针对不同自然场景图像,以上5种方法的前景提取结果如图3所示.根据算法提取结果,将其与人工分割结果相比对,其测评分数见表2.
表2 不同算法对自然场景图像的前景提取测评分数
由实验结果分析,对于自然场景图像如图3(a)和(b),近似于卡通图像,前、背景具有明显差异,且所含纹理较少,其局部特征可近似于全局效应.但图3(a)中前景存在较多拐点,图3(b)前景与背景之间存在颜色相似性.相对于水平集方法和多尺度分割模型,本文算法利用全局亮度信息作为特征,受颜色相似性影响较小,能够有效分割出众多拐点,使得边缘细节保留较为完整,提取前景目标较为准确.但与deep Grabcut方法等深度学习方法相比较,本文算法对分割结果没有明显的提升.对于自然场景图像如图3(c)和(d),前景边缘轮廓较复杂,且前景存在较多纹理,但背景所含纹理较少.由于本文算法建立在全局像素间的相关性上而非局部,充分考虑到整体视觉效应以及亮度相似性对前景提取的影响,在一定程度上有效地降低了纹理以及弱边缘对前景提取的影响,其收敛效果较好.水平集方法和多尺度分割模型受纹理影响容易收敛于局部区域,导致分割效果相对较差,deep Grabcut方法则受训练样本的约束,对未经训练过的图像前景提取效果较差甚至失效.FCA-Net方法采取人工交互的分割方式,在一定程度上减少了训练样本对分割结果的影响.但其分割效果取决于所选择像素点的位置,在分割过程中容易丢失部分细节信息.
图3 不同算法对自然场景图像的前景提取结果
对于存在较多纹理和弱边缘的复杂自然场景图像如图3(e)和(f),前背景均存在较多纹理,且像素分布差异不平衡,目标整体性在提取时容易受到破坏.相对于水平集方法、多尺度分割模型以及deep Grabcut方法,本文算法仍能获得较好的分割结果,对图像过分割以及欠分割有一定程度的改善效果,较好的保留图像边缘信息,其提取结果的测评分数明显更高.但由于本文算法仅利用全局亮度信息作为特征,选取的图像特征较为单一,对于如图3(f)背景中具有强边缘的自然场景图像提取效果不佳.因此,相对于FCA-Net方法,文本算法仍有一定的提升空间.
4 结 论
本文提出了基于亮度感知的前景提取模型,该模型从全局像素相关性出发,一方面结合图像区域内像素亮度的视觉相似性和区域间的差异性,设计亮度感知能量泛函,求解表征亮度视觉的特征向量,该向量主要描述了图像视觉区域及其对象轮廓信息.另一方面,利用水平集方法能够较好的提取出目标前景蒙版,进一步提高了提取性能.该模型能较好的分割出目标对象,且对细节的表达能力较强,分割准确度较高.但该模型仅选取亮度信息构建视觉区域,未考虑图像其它特征,其分割效果仍有一定的提升空间.因此,本文下一步工作是结合图像颜色、纹理等信息构建感知模型,进一步提高前景提取效果.