APP下载

基于可变形卷积的图像边缘智能提取方法

2021-04-19王文庆马晓华

西安邮电大学学报 2021年1期
关键词:尺度边缘卷积

王文庆,庞 颖,刘 洋,马晓华

(1.西安邮电大学 自动化学院,陕西 西安 710121; 2.火箭军装备部驻南京地区第二军事代表室, 江苏 南京 210023)

边缘提取技术是图像区域分割、目标区域识别和区域形状提取等领域的图像处理分析技术[1-2],是机器视觉系统中不可或缺的重要环节[3-4]。提取图像的区域和边缘是从自然图像中提取对象的范围和视觉感知上突出的区域信息,从而很好地保留图像的特征和重点区域信息。

早期的边缘分析和检测算法主要是建立在手工提取图像纹理和梯度联合概率运算的理论基础上,代表方法有Sobel算子[5]和Canny算子[6]等。如利用图像特征的联合概率分布实现边缘的提取[7];将图像的纹理、光照和亮度等局部特征输入到逻辑回归分类器中进行边缘判定,从而提高边缘提取能力[8]。然而,这类方法网络性能虽然得到了提升,但是其成本较高,步骤较为复杂,实时性不佳。近年来,以卷积神经网络(Convolutional Neural Network,CNN)为核心技术的深度学习已广泛应用于诸多领域,其强调自动分层特征学习的重要性,有效地提高了边缘检测的性能。比起传统神经网络只利用最终输出层特征,多尺度融合网络采用多尺度和多层级的特征学习方式,在视觉几何组16[9](Visual Geometry Group,VGG16)网络的基础上,显著提高了边缘检测效果,通过使用更丰富的卷积特征和鲁棒性更高的损失函数,提升了边缘检测性能。但是,多尺度融合网络中仍采用CNN模块,感受采样区域是固定的几何结构,导致几何变换和建模的特征提取能力有限。

可变形卷积网络[10]的提出,得到了计算机学界和视觉业界的广泛认可和关注[11]。第二代新型可变形卷积[12](Deformable ConvNets v2,DCNv2)网络中的卷积层,不仅学习空间偏移控制采样方式,而且引入幅度调制机制,学习每个采样点权重,通过应用更多可变形网络模块,进一步增强了整个网络的形变特征提取能力。因此,针对卷积神经网络边缘提取局限性的问题,提出一种基于可变形卷积的图像边缘智能提取方法。通过引入DCNv2网络,对空间采样的位置信息进行位移调整,该偏移不需要额外的监督信号,可在目标任务中学习得到。通过学习每个采样点所在区域权重,使得网络重点关注目标边缘区域信息,以期提高CNN对采样点变换学习能力和计算能力,从而提升边缘提取效果。

1 可变形卷积

图像中边缘提取任务受图像特征采集区域形状的影响非常明显,常规卷积固定采样位置造成卷积图像边缘层提取的图像特征能力较弱。相比而言,可变形卷积能够很好地学习到发生形变的物体,比普通卷积网络能够更适应物体形变,通过更有效的形变特征提取能力和训练使网络关注更恰当的图像区域[13]。

1.1 可变形卷积网络

可变形卷积不局限于规则格点,在常规的采样坐标上加上各采样点的偏移量(黑色箭头),偏移后的采样点通过对采样点区域是否为重点边缘区域学习,更新各采样权重[14]。偏移后的采样点颜色由浅至深代表权重由小到大。事实上,可变形卷积单元中增加的偏移量是网络结构的一部分,通过另外一个平行的标准卷积单元计算得到,进而也可以通过梯度反向传播进行端到端的学习。加上该偏移量的学习之后,可变形卷积核的大小和位置可根据当前需要识别的图像内容进行动态调整,其直观效果就是不同位置的卷积核采样点位置会根据图像内容发生自适应变化,从而适应不同物体的形状和大小等几何形变。

可变形卷积网络引入了空间几何形变的学习能力,以3×3卷积核为例,常规卷积与可变形卷积采样方式如图1所示。图1(a)中,常规卷积规律的固定形状为9个采样点。图1(b)中,给每个采样点增加一个偏移量,排列变得不规则。继续增加偏移量,可达到尺度变换的效果,形成空洞卷积,如图1(c)所示;增加偏移量也可达到旋转变换的效果,卷积核在当前位置附近可以随意采样,而不再局限于之前的规则格点,如图1(d)所示。

图1 常规卷积与可变形卷积采样

假设卷积核有K个采样点,wk和pk分别表示第k个点的权重和预先存在的偏移。当K=9且pk∈{(-1,-1),(-1,0),…,(1,1)}时,表示一个空洞率为1的3×3的卷积核。若x(p)表示输入特征图x中位置p的特征,y(p)表示输出特征图y中位置p的特征,则可变形卷积可定义为

y(p)=∑wkx(p+pk+Δpk)Δmk

(1)

式中,Δpk和Δmk分别表示第k个位置上可学习的偏移和调节参数,调节参数Δmk∈[0,1],Δpk是任意值。

3×3可变形卷积网络框架如图2所示。对于输入的特征图,同时用一个卷积生成与输入特征图相同尺寸通道为2N的偏移域和通道为N的调节标量。N根据卷积核的大小进行取值,比如,卷积核大小为3×3,N=9。图2中,上侧2N的2表示卷积核的每个点对应的偏移量(offset)有x、y两个方向,下侧N对应调节机制(weight),用于学习每个偏移后采样点的权重。

图2 3×3可变形卷积网络框架

可变形卷积不仅更新学习采样点的位置偏移,还学习了各采样点的权重。虽然可形变卷积学习到偏移量后,会按照学习的目标形状产生形变,可是依然有会采样点覆盖到非图像边缘内容的情况,影响网络的表现。为了减小背景噪声等非重点边缘区域对边缘特征输出的影响,可变形卷积通过学习各个采样点所在区域是否为目标边缘重要区域,重新赋予采样点权重值,重点关注图像边缘区域,从而减少非边缘区域的影响。

1.2 可变形卷积网络的特征感受区域

有效的特征感受区域[15]实际只占理论感受野中的小部分,如何能更准确获得图像特征感受区域并且可自适应性感受野学习,是重点的研究内容。

标准卷积与可变形卷积特征感受区域对比如图3所示。图3中左侧图为标准卷积中固定的感受野和卷积核采样点,右侧图为可变性卷积中自适应的感受野和卷积核采样点。左侧箭头指向为标准卷积感受区域,传统卷积滤波器中的感受野和采样点位置在特征结构图中为固定形状;右侧箭头指向为可形变卷积感受区域,可变形卷积滤波器中的感受野和采样位置可以随着物体的大小和形状进行自适应调整。

图3 标准卷积与可变形卷积特征感受区域对比

由图3可以看出,左侧的标准卷积因为固定形状采样区域,导致较多采样点覆盖到非边缘重点区域内容,影响网络,尤其是在图像边缘特征提取技术方面,标准卷积采样区域形状与图像边缘呈现的数据分布形状差异较大,导致采样点没有尽可能的覆盖边缘特征区域。相比之下,右侧的可变形卷积由于其自身对物体形状学习,学习偏移量后的采样感受区域更适应于物体形状,对于个别偏移后的采样点依然覆盖到非边缘特征内容的情况,可变形卷积网络模块通过学习各个采样点的位置,判断所采样区域是否为图像中目标边缘区域,从而赋予每个采样点权重值并进行筛选,重点关注图像边缘区域。

2 图像边缘智能提取方法

CNN架构仅在神经网络的池化层之前使用最终的输出层,忽略了中间层特征,因此,基于可变形卷积的图像边缘智能提取方法利用多尺度融合边缘提取特征[16](Richer Convolutional Features,RCF)网络进行多尺度边缘特征提取,并引入具有几何变化自适应能力的可变形卷积网络模块,增强卷积网络对图像形状的适应能力和边缘特征提取效果。

2.1 多尺度融合网络边缘检测模型

多尺度融合网络利用丰富的不同层次结构的特征,以及对象的多尺度和多层次信息对图像进行整体预测,通过所有卷积层(conv)的CNN特征,以图像到图像的方式进行像素预测。多尺度融合网络利用机器学习方式将来自不同阶段的信息结合起来,浅层特征可以为深层特征补充充分的细节信息,从而获得不同尺度的特征信息。

将一个VGG16卷积层模块作为边缘尺度骨干特征采集网络,分为5个层的阶段(stage)。stage1和stage2通过池化层得到不同边缘尺度的特征,主干特征采集网络利用全卷积结构进一步实现主干层的边缘尺度特征的自动采集和提取。多尺度融合网络通过stage1-stage5的卷积和下采样模块对每个stage进行学习,对VGG16中的每层分别使用1×1×21卷积压缩处理,将每个stage为单位相加,使每个stage输出一张不同尺寸的边缘特征图,再使用1×1的卷积进一步采集和压缩特征;利用反卷积(deconv)实现上采样,使每个stage都输出1张相同大小的边缘特征图;最后,对各层的多尺度特征使用1×1卷积层融合,并监督学习。多尺度融合网络边缘检测模型如图4所示。

图4 多尺度融合网络边缘检测模型

每个stage生成的边缘图都包含了不同层次的语义特征,对每个stage的边缘图融合处理,可以更充分体现出所使用模型的不同层次特征。将RCF网络与基于holistically方法的边缘提取网络(Holistically-nested Edge Detection,HED)网络相比,HED只考虑了VGG16每个阶段的最后一个conv层,遗漏了许多有用的边缘检测信息。而RCF网络使用了来自所有conv层的特征,使其更可能捕获跨越更大范围的对象或对象部分边界,输出的边缘图融合了主干网络每一层的特征。

2.2 融于可变形卷积的多尺度融合网络描述

将RCF多尺度的融合主干网络模块作为边缘提取方法,对边缘特征进行自动采集和提取。在多尺度融合网络的基础上,采用跨层融合特征图[17]的方式引入可变形卷积网络模块,增强主干网络对图像目标边缘特征形状的自动适应能力和边缘特征提取能力。

在RCF边缘提取网络的stage1-stage5中,stage4和stage5的边缘图与真值图(ground truth)最为接近,意味着stage4和stage5输出的边缘图与标签图之间的残差最小[18]。例如,stage1生成的边缘图使用了大量的低级特征和很少的语义特征,stage4和stage5生成的边缘图则使用了大量的语义特征和很少的细节特征。较高阶段位置由于网络深度的增加,网络性能较好,而较低阶段的边缘特征图包含了过多无关重点信息的噪声纹理,虽然含有更多位置、细节信息,图像分辨率更高,但由于经过的卷积更少,其语义性更低,噪声更多。深层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。

通过引入DCNv2可变形卷积网络模块,将主干网络分为两部分。第一部分,stage1、stage2和stage3与多尺度融合网络一样,采用传统的卷积和下采样组合的结构,充分提取边缘的低级特征。第二部分,stage4和stage5采用多尺度融合方式引入DCNv2,每层利用DCNv2进行特征边缘提取,更充分提取深层边缘特征,重点关注图像边缘区域,减少不相关内容对边缘特征提取的影响。

2.3 网络损失函数

在图像边缘检测[19]中,通常将边缘检测图片的每个像素边缘点的损失分类问题仅看作是边缘点与非边缘点的二分类损失代价问题。因此,将标签图的交叉熵分类问题作为每个图片的像素点分类的损失代价函数。为了提高边缘检测模型鲁棒性,利用阈值法[20]对标签图中的像素值进行归一化处理,将标签图变为边缘信息的概率图,并将概率值大于阈值的像素点作为边缘点,排除有争议的像素点。每个像素点的损失函数表示为

(2)

式中,

其中:Xi表示神经网络的激活值;W表示神经网络中可学习的参数;yi表示标签图中像素点是边缘点的概率值;超参数λ用来平衡正负样本的数量差;|Y+|和|Y-|分别表示正样本和负样本的数量。

网络中每个stage输出的边缘图像之间差异较大,各阶段损失的量级可能不一致,且融合阶段的损失应该占主要地位。为了平衡各阶段损失和融合损失之间的关系,采取降低网络中5个stage的损失比重,提高融合阶段损失比重。总损失函数可表示为

(3)

3 实验验证

3.1 数据集选取

为了防止模型出现过拟合现象,对BSDS500数据集[21]的图片进行剪裁、扩大、旋转等操作,使数据集增强。将BSDS500的增强数据集与PASCAL VOC Context数据集[22]进行混合,选取混合后的5 264张图像及其标注作为训练数据集,选取BSDS500数据集中200张图像作为测试集进行训练。

3.2 两种方法的对比实验

根据精确率、召回率和F1-score等3个评价指标,分别对比RCF方法和所提方法的性能。两种方法的评价指标对比如表1所示。

表1 两种方法的评价指标对比

由表1可以看出,相比于RCF方法,所提方法检测精确率提高了2.66%,召回率提高了0.05%,F1-score提高了1.91%。这是因为通过引入可变形卷积网络模块,重点关注了图像边缘特征信息,提高了边缘提取精度。

所提方法与RCF方法训练曲线对比如图5所示。当两种方法达到同一F1-score值时,所提方法所需训练代数最少,说明其训练速度相比下更快;当曲线趋于稳定时,所提方法训练结果分数值最高。

图5 所提方法与RCF方法训练曲线对比

综上,所提方法相比RCF方法,边缘提取速度相对更快的,各指标精度值更高。

所提方法与RCF方法输出边缘图像可视化对比如图6所示。

图6 两种方法可视化对比

由图6可以看出,RCF方法产生的边缘图像中有一些线条较为模糊,且特征图中存在大量的背景噪声,而所提方法能够清晰地将图像中的边缘提取出来,且对一些细节边缘模糊问题处理较好,能够有效关注图像重点边缘信息,减少了不相关信息对图像边缘提取的影响。

为进一步展示可变形卷积模块对图像边缘重点特征提取的效果,所提方法与RCF方法在各个阶段输出的边缘图像对比如图7所示。图7中每行从左到右分别为真值图和stage1-stage5生成的边缘图像。

图7 两种方法各个stage输出边缘图对比

由图7可以看出,RCF方法与所提方法相比,每个阶段中都包含了非重点边缘信息的背景噪声,并且边缘线条较模糊。所提方法通过可变形卷积网络跨层融合不同层次的特征,利用其自适应形变能力使图像边缘更清晰,并使得整体网络能够关注全局中重点区域边缘信息,帮助多尺度特征充分融合。所提方法输出阶段的边缘图也比RCF方法减少了一些无关边缘信息的输入,尤其是在stage4和stage5,没有过多的背景杂乱纹理,进一步验证了所提方法提升了图像边缘信息的提取效果。

4 结语

基于可变形卷积的图像边缘智能提取方法在VGG16为主干的RCF边缘特征提取网络基础下,以多尺度方式引入可变性卷积网络模块DNCv2,在更大范围的特征级别上控制采样,能够有效针对目标几何形状而变化采样位置。通过可变形卷积模块中的调制机制,使得每个采样点除过学习偏移量,还要经过网络学习采样点位置的权重,即学习每个采样位置的重要性,减少了不相关区域信息的影响,重点关注了有效感受区域,通过改变空间分布及其样本的相对影响,提升了网络性能。实验结果表明,所提方法比传统RCF方法,精确率提高了2.66%,召回率提高了0.05%,F1-score提高了1.91%,而且边缘图结果效果更好,网络训练速度更快,提升了边缘提取效果和精度值,生成了更高质量的边缘图像。

猜你喜欢

尺度边缘卷积
基于全卷积神经网络的猪背膘厚快速准确测定
环境史衰败论叙事的正误及其评判尺度
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
一张图看懂边缘计算
以长时间尺度看世界
9
室外雕塑的尺度
在边缘寻找自我