交互式图像分割方法的现状与展望
2020-02-25盛腾
盛 腾
(西华大学计算机与软件工程学院 四川 成都 610039)
一、引言
目前随着多媒体图像的广泛应用,图像处理技术:图像分割、图像增强等等在当今起着越来越重要的作用。而在图像处理技术中,图像分割作为其他图像处理技术的基础和前提,在图像处理中具有非常重要的作用。传统图像分割通常是全自动的。但是由于计算机的理解能力有限,传统图像分割不容易从图像中提取具有高层语义信息的目标。因此,本文将面向需要用户有一定参与的交互式图像分割方法来研究。
二、基于种子点标记的方法
基于种子点标记的方法要求在图像前景或背景上标记一定数量的种子点,然后算法把这些标记点作为约束条件,使用优化算法从图像中寻找出目标,基于这种交互方法的分割方法有:图切法[1]、随机游走法[2]。
(一)图切法
图切算法能够保证获得标记方式所付出的代价和是全局最小的。目前国内外很多的交互式图像分割算法都是基于图切算法的。图切是基于图论的分割方法。该方法的主要思想是将标记目标和背景的部分作为约束,结合目标边界以及区域的特性,得到目标能量函数,通过计算图像全局最优解来获得对目标中未标记部分的分割。此过程中,目标边界以及区域的特性是可以看作为分割的另外约束条件。
但是,由于传统的图切算法需要对目标中的所有像素点都进行处理,所以图切具有非常高的计算复杂度。另外,当用户点击的前景和背景种子点较少时,在前景和背景的边界上容易出现错分割的情况。
(二)随机游走法
随机游走算法首次用在图像分割领域是在2001年,将随机游走思想用到了光谱图像的分割中。随后在2002年提出了一种新的基于成对相似性的图像分割算法。该算法利用相似性确定马尔可夫随机游走的边缘流和游走转移矩阵的特征值和特征向量之间的相似关系。2随机游走算法在2006年被进行了验证,并提出了基于随机游走算法的图像分割的文章。2008年又对该随机游走算法进行了改进,提出了一种针对医学图像的、非在线操作的加速随机游走算法。随机游走是一种通过求解联合图边界条件问题来实现图像分割方法。属于图论分割的方法,所以在该算法中,也将输入图像转换为一个等效的加权图,然后算法通过比较随机游走从每个未标记节点游动到给定节点的概率值,以最大概率为结果对图像中的节点进行分类,从而实现图像分割。根据标记种子点的类别不同,随机游走可以很简单的进行多目标物体的分割。
三、基于目标边缘关键点的方法
在基于目标边缘关键点的方法中,需要用户顺着目标边缘点下关键点来粗略标明边界,随后图像分割算法利用关键点特征对关键点连接的曲线进行调优,使曲线尽量贴近目标的真实边缘。由EM等人提出的活线法(Live Wire)[3]是这种方法的代表。
活线法是一种基于图割的算法,所以执行前,需要把目标图像作为一个图结构,将图像中的像素点作为图结构的节点,边缘相邻的像素点在图中存在连接边。首先在目标上选择一个起始点和一个目标点,然后活线法利用事先定义好的代价函数产生一条自起始点到目标点的最优路径。当起始点和目标点位于目标的边缘上时,该曲线就是目标边缘位于起始点和目标点之间的部分。所以,检测物体边缘的问题就转化为利用动态规划的方法或图搜索的方法寻找累积代价最小点的问题。
同逐个像素对比的方法相比,活线法在很大程度上降低了用户的交互量,但是该算法依然存在三个明显的缺点:1)该方法中用户仍然需要沿着物体移动一整圈才能完成分割,当物体边界复杂时,操作依然很繁琐;2)要求用户对目标物体有一个整体认识,在交互过程中不能将目标缩小或者放大;3)若发现错误,需要重新标注。
四、基于描绘目标轮廓的方法
基于描绘目标轮廓方式的分割方法在初始的时候要求用户提供一些包含有目标物体的封闭轮廓,然后利用一些优化算法把这些初始轮廓演化到理想的目标轮廓上,完成图像分割。基于图割的Grab Cut方法[4]是该类型方法的典型代表。
图割方法是一种基于Graph Cut的交互式图像分割方法,该方法在Graph Cut的基础上得到了两个方向上的提升:第一,图割方法对用户的交互模式进行了修改,用户需要画一个对象框或用套索工具将目标圈定就能够完成对目标的分割;第二,图割方法中运用迭代的思想。图割方法中将标定的背景部分作为背景采样区,将剩余的部分作为前景采样区来估计初始前景和背景的分布,并在迭代过程中利用上一次的分割结果不断地重新估计前景和背景的分布,从而使分割结果越来越精确。图割算法结合了迭代的Graph Cut算法和边界抠图(Border Matting)算法来处理目标物体边界处图像模糊和像素重叠的问题,并且能够从背景较复杂的图像中通过比较少的用户点击来得到还算理想的分割结果。此外,图割算法中提出了一种新的交互方式,该交互方式操作简单、步骤少,具有较好的用户体验。虽然图割算法具有多项优势,但其最大的劣势在于由于该方法中利用了边界抠图算法来处理目标物体边界处图像模糊和像素重叠等问题,所以该算法计算复杂,分割效率较低。
五、交互式图像分割的发展趋势与展望
目前深度学习在许多图像分割任务中取得了很好的效果,考虑到深度学习的优越性能,利用它来做交互式图像分割,可以减少用户交互的数量以及用户花费的时间,从而得到更高效的交互式分割工具。目前已经有好几篇文章研究了基于深度学习交互式图像分割方法。[5]提出了一种使用卷积神经网络的二维图像交互式分割方法。该方法中用户提供的交互是位于前景和背景中的一些点,这些点转化为基于前景点的距离图像和基于背景点的距离图像。原图为RGB三个通道的图像,加上这两个距离图像后一共五个通道,将这五个通道的图像作为全卷积网络(FCN)的输入以得到分割结果。因此在分割过程中,用户只需给几个点就能指导FCN的分割。[6]尝试处理另一种交互方式:根据用户的文字输入来更新图像分割的结果。该方法使用的CNN可看做由头部(编码器)和尾部(解码器)两部分组成,头部和尾部之间有一个中间层的特征图,在分割时,用户的交互用来对这个特征图进行更改,从而改变网络的输出结果。[7]Polygon RNN是针对二维图像中物体边缘的标注而提出的方法,其流程如下图所示,用户提供一个感兴趣的物体的边界框,该方法通过RNN来预测这个边界框中物体边缘上的一系列顶点,这些顶点所组成的多边形区域作为物体的分割结果。Polygon-RNN++[8]在Polygon-RNN的基础上做了许多改进,使对物体边界上的多边形顶点的预测更加准确,并有更高的分辨率。在网络结构上,把VGG网络换成了一个基于ResNet-50的网络。Polygon-RNN分别使用了两个网络来预测第一个顶点和后续顶点,Polygon-RNN++提出了一个统一的框架,把这两种顶点的预测结合起来,可以一起训练。它还使用了注意力机制,使预测下一个顶点时更加集中在上一个顶点附近的区域。