APP下载

基于注意力机制的深度神经网络分割算法在胎盘图像上的应用

2021-10-19高书阳

科海故事博览·中旬刊 2021年7期
关键词:注意力机制卷积神经网络

高书阳

摘 要 由于医学图像存在信噪比低、目标模糊和声影等问题,传统方法无法精准地对目标进行定位分割,存在不能准确地将关注点放在目标区域、无法区分目标与背景边界的缺陷,使得观察者很难准确地对目标位置进行定位。针对以上问题,我们提出了一种将注意力机制和卷积神经网络相结合的分割算法,该算法分两阶段对目标定位,第一阶段粗定位出目标的区域;第二阶段在第一阶段的目标区域内加上注意力机制,提取更深层语义特征预测出目标的掩码。首先,用深度卷积神经网络提取图像的全局特征;其次,借助类别预测和检测框回归任务粗定位出目标的位置;最后,利用训练好的模型对象胎盘图像分割,并采用多种分割评价指标对结果进行评价。实验结果表明,本文提出的方法具有较好的分割效果,相比与其他六种方法,在三个量化指标Dice、BF和Hausdorff得分上分别提高了0.06和0.25。

关键词 医学图像分割 卷积神经网络 注意力机制 胎盘图像

中图分类号:TP391 文献标识码:A 文章编号:1007-0745(2021)07-0053-07

1 前言

在胎儿的医疗诊断过程中,准确地识别胎盘图像中胎儿位置对评价胎儿和母亲的健康状况很重要。现有的方法主要是借助超声波扫描仪获得胎盘图像,再由专业的超声波图像解析人员识别出胎儿位置并采集各项数据(例如:头围、腹部宽度等),由于解析人员的专业知识和长时间的识别疲劳,导致胎儿位置的识别结果在不同的观察者那里会存在很大的差异;超声波解析人员在采集各项数据时,主要使用卡尺作为测量工具,卡尺的放置位置会对测量结果产生很大的误差。

传统的图像分割方法,包括阈值法、边缘法和区域法等,这些都没有考虑像素之间的相关性,分割的效果不理想。基于图论的分割方法是将图像中的每个像素点看成图的顶点,像素点之间的关系看作图的边,像素之间的相关性看作边的权值,建立一个关于边的能量函数,通过最小化能量函数实现对图像的分割;基于能量泛函的分割方法是利用类间方差或像素间梯度构造能量泛函,求解泛函极值时图像的分割状态。近年来,卷积神经网络以其超强的特征提取能力被广泛地应用于图像检测和分割领域。图像分割主要分为语义分割和实例分割,语义分割是区分图像中不同物体类的分割,它不需要区分图像中某个物体类的不同个体,从早期的全卷积网络(Fully Convolutional Networks,FCN)[1]、U-Net[2],发展到现在的金字塔场景分析网络(Pyramid Scene Parsing Network,PSPNet)[3]、DeepLab[4]等,这些都是单阶段直接预测掩码。实例分割需要分清图像中每个类的不同个体,代表性是Mask Rcnn[5]网络,它的特点是需要在检测出目标的基础上对目标掩码进行预测,能够提高分割的精确性。而注意力机制方法,可以是网络更关注感兴趣区域,得模型能够关注图像中的重点信息。[6]

由于传统方法无法区分目标与背景边界的问题,同时考虑到胎盘图像背景的复杂性,本文提出了一种基于注意机制的深度卷积神经网络的图像分割方法,可以有效的解决胎盘图像分割问题。总的来说,本文主要贡献点可以归纳如下:

1.本文采用先定位后分割的方法,构建类别预测和检测框回归模块粗定位出目标的区域,在定位区域里进行胎盘分割,提升了分割精度,同时也降低了分割难度。

2.本文为了将关注点放在目标区域的有效位置,提出了基于注意力机制的掩码预测分支细定位目标的位置,可以使网络关注有效特征信息。

3.本文在公开的数据集上,进行大量实验本文提出方法的有效性,并与当前主流的六种图像分割方法进行对比,结果表明,无论在视觉感知还是三个量化指标上,均优于其他方法。

2 相关工作

2.1 与图像分割网络相关工作

2.1.1 FCN

FCN主要由提取高層语义的下采样层和预测掩码的上采样层组成。其基本结构如图1所示,输入通过多层的卷积层和池化层下采样得到通道数为256的卷积特征图,再将该特征图通过三个全连接层得到通道数为2的高层语义特征,最后将该特征通过多层的反卷积层上采样得到预测的掩码。其中,在下采样的过程中,最后三层的特征图将被保留并添加到上采样层相对应的尺寸输出中。

2.1.2 U-Net

U-Net一种U型网络,是一种编码和解码结构,考虑了不同分辨率的图像特征,将图像的高分辨率和低分辨率特征结合,编码层是学习图像的初级特征,解码层是将图像高层语义特征与初级相结合来还原细节信息,并且逐步还原图像精度。

2.1.3 PSPNet

PSPNet在FCN的基础上加入了金字塔池化模块,取出FCN网络下采样过程中得到的高层语义特征图F,将F经过金字塔池化模块中四种不同尺度的池化层下采样得到{P1,P2,P3,P4},此下采样方式考虑到了不同尺度的特征,减少了信息的丢失,再将P1到P4经过上采样后得到的特征图与F合并,最后通过反卷积上采样预测掩码,结构图见图2。

2.1.4 DeepLab

Deeplab引入了空洞卷积,在传统卷积的基础上加入了卷积空洞,相同参数的条件下极大地提高了卷积的感受野。DeepLab在特征池化时引入了空洞空间金字塔池(Atrous Spatial Pyramid Pooling,ASPP)[7]模块,能够在高层特征层中极大效率的利用图像的全局特征。在主干特征提取网络方面,DeepLab采用了xception结构,它采用深度可分离卷积,能够在网络参数量保持基本不变的情况下带来很好的特征提取效果。

2.2 与注意力机制相关工作

从注意力机制的可微分性来看,注意力机制大体可以分为软注意力机制和硬注意力机制。

2.2.1 软注意力机制

在图像处理领域,软注意力机制关注图像的特征区域和特征通道,可以通过网络的自身学习来生成,并添加到原始特征上,使得模型能够关注图像中的重点信息。由于它是可微分的,所以在神经网络的学习过程中可以计算出梯度,并且前向传播和反向传播反馈来学习得到注意力的权重。

2.2.2硬注意力机制

硬注意力机制更关注于图像中的目标点或区域,它通过学习一个定位物体部分的网络,通过神经网络强大的学习能力首先定位出物体的大致位置,提取定位后的区域特征,再将该特征用于下一步的任务,如果该特征对整体任务有促进作用,该特征区域在后续的学习过程中将会被更加关注。

3 基于注意力机制的Mask RCNN网络

本文提出了基于注意机制的深度卷积神经网络胎盘图像分割方法,将注意力机制与Mask RCNN结合,采用先定位后分割,使网络更关注感兴趣信息,能够有效的提高分割的准确性(本文的总体网络结构如图3所示)。

3.1 Mask RCNN 网络的构建

本文采用检测定位加上分割的方法分割目标区域,首先检测出目标的大体区域,然后在目标区域内分割目标。

3.1.1 检测定位

取出ROIAlign后的特征图F1,经过全局平均池化后得到的特征向量F2送入类别预测和检测框回归分支,其中:

Meank*k表示在k*k的区域内求平均,F1的每个通道求平均得到F2,输出的维度是1*1*1024。

类别预测和检测框回归分支的所有神经元全连接F2,其中:

式中,wi和wj分别为类别预测分支和检测框回归分支到F2的连接权值,bi和bj为相对应的偏置。

3.1.2 目标分割

将ROIAlign得到的特征图F1经过若干个注意力机制模块后得到F3,其中:

式中,Atten表示若干个注意力机制模块。

带有注意力的特征图F3经过反卷积上采样得到预测的掩码,反卷积的步长为2,其中:

式中,?表示反卷积操作,f为激活函数,wi为第i个卷积核,bi表示偏置。

3.2 注意力机制

由于胎盘图像具有重影、目标模糊的特点,且胎盘图像中背景和其他物体会干扰胎儿目标的分割,因此,本文采用自注意力机制将模型的关注区域放在胎儿目标上,其结构如图4所示。

首先将输入的特征图F4经过一维卷积运算得到特征图H,其中:

式中,?表示卷积操作,f为激活函数,W1*1表示一维卷积核的权值,b1*1表示一维卷积核的偏置。

再将特征图F4分别经过两次下采样(DS)和两次上采样(US)得到注意力图,其中:

其中,wk(k=f、g、p、Am)和bk(k=f、g、p、Am)分别表示生成特征图F、G、P和注意力图时卷积核的权值和偏置。

最后将注意力图和特征图点乘得到带有注意力机制的特征图Afm,其中:

3.3 损失函数构建

本文采用先检测定位后分割目标的方法,共有三个损失函数,分别是将背景和目标区分开的分类损失函数Lcls、回归目标检测框坐标的L2损失函数Lbox和预测目标掩码的二值交叉熵损失函数Lmask,由于预测目标掩码任务的难度最大,回归目标检测框坐标任务次之,本文构建式*所示的损失函数。

3.4 评价指标

本文选用三种评价指标,分别是Dice、BF scores和Hausdorff,Dice的计算公式:

式中,pred和gt分别表示预测结果和标签,common(pred,gt)表示预测结果和标签的相同部分,length表示计算长度。

BF scores的计算公式为:

式中,precision表示预测结果的精确度,recall表示预测结果的召回率。

Hausdorff的計算公式为:

其中h(Pred,Gt)和h(Gt,Pred)分别表示Pred到Gt和Gt到Pred的Hausdorff距离,计算公式见式*和*:

其中max(p∈Pred)min(g∈Gt)||p-g||表示取出Pred中的每个点p,求出Gt中距离点p最近的点g,取所有||p-g||的最大值作为h(Pred, Gt), h(Gt,Pred)同理可得。

4 实验结果与分析

4.1 数据集制作

本次实验中,数据集来自https://hc18.grand-challenge.org公开的胎盘数据集,该数据集一共有999张图像,每张图像对应一张标签图像,标签图像的内容是一个形状为椭圆的曲线,曲线部分为白色,其他部分为黑色。以1:9的比例将数据集划分为899张图像的训练集和100张图像的测试集。从100张测试集图像的实验结果中随机挑选出4组图像,验证本文提出方法的有效性。

4.2 实验环境与训练参数

本文实验基于深度学习框架tensorflow在一台NVIDIA GeForce GTXGTX1080Ti GPU的计算机上进行训练和测试。

在训练阶段,采用大小为256×256的图像的进行训练,每次迭代输入4张图像。网络通过Adam来更新网络参数,RMSprop具体参数为:权值超参数,初始学习速率设置为0.001, 网络每层卷积采用He K均匀分布初始化方法,偏置为0,总训练epoch为15,前10个epoch的学习率为10-4,后5个epoch的学习率为10-6。

4.3 实验结果评估

为了衡量本文算法的性能,本文选取在测试集上实施了大量实验,并与当前主流的六种图像分割算法进行实验对比,分别为PSPNet、deeplabV3、deeplabV3+、U-Net 、注意力机制U-Net、Mask-Rcnn。同时采用三个量化指标来客观定量的平均图形分割结果。

视觉感知。为了更好衡量评估本文算法胎盘图像分割的视觉效果, 本文选取了四幅图像来展示分割效果。

图5中:测试集随机挑选出四组图像的二值图预测结果:(a)原始图像、(b)标签二值图、(c)PSPNet、(d)deeplabV3、(e)deeplabV3+、(f)Unet、(g)Unet-attention、(h)Maskrcnn、(i)Maskrcnn-attention。

图6中:测试集中随机挑选出四组图像及预测结果轮廓图:(a)原始图像、(b)标签二值图、(c)PSPNet、(d)deeplabV3、(e)deeplabV3+、(f)Unet、(g)Unet-attention、(h)Maskrcnn、(i)Maskrcnn-attention。

随机从测试集中挑选出4组图像,从图5和6可以看出,PSPNet的预测效果最差,DeeplabV3和DeeplabV3+次之,Unet和Unet-attention对胎盘图像具有良好的预测能力,加上attention机制的Mask rcnn的预测效果与掩码标签是最为接近的。

4.4 客观定量指标

为了验证模型的有效性,统计七种方法下,测试集上的Dice系数、BF scores和Hausdorff,如上表1所示。

Dice系数越大表示预测结果和标签之间的重叠部分占比越大,BF_scores值越大,表示预测结果的轮廓与标签之间越相似。

从测试集中随机挑选出10组图像统计Dice、BF scores和Hausdorff指标(如图7所示),可以看出Mask rcnn-attention的分割结果具有最高的Dice、BF scores和Hausdorff,能够非常精确地对图像中的目标进行分割。Unet-attention、Unet、Mask rcnn、DeeplabV3、DeeplabV3+和PSPNet等方法的评价指标均没有Mask rcnn-attention高。

考虑到模型預测的时效性,本文将以上七种方法分别统计了单张图像的模型推断耗时,如上表2所示。

可以看出,Attention-MaskRcnn由于模型更为复杂导致推断耗时最长,但也是毫秒级别,整体而言影响不大。

5 结论

本文提出的基于注意力机制的深度卷积神经网络包括两个部分:(1)在深度神经网络特征提取器后加上类别预测和检测框回归模块,粗定位出目标的位置;(2)在粗定位的位置上加上带有注意力机制的掩码预测模块预测掩码。由于本方法是针对胎儿头部位置的两阶段定位分割,与其他的单阶段直接预测掩码相比,本方法能够更为精确的定位出胎儿头部位置并预测掩码。多组实验结果均表明,本方法与其他分割性能优越的Unet、Unet-attention、DeeplabV3和DeeplabV3+相比,分割效果整体更好。

参考文献:

[1] 曹玉红,徐海,刘荪傲,王紫霄,李宏亮.基于深度学习的医学影像分割研究综述[J/OL].计算机应用,2021-07-28:1-19.http://kns.cnki.net/kcms/detail/51.1307.TP.20210225.1137. 002.html.

[2] 闫超,孙占全,田恩刚,赵杨洋,范小燕.基于深度学习的医学图像分割技术研究进展[J].电子科技,2021,34(02):7-11.

[3] 梁楠,赵政辉,周依,武博,李长波,于鑫,马思伟,张楠.基于滑动块的深度卷积神经网络乳腺X线摄影图像肿块分割算法[J].中国医学物理学杂志,2020,37(12):1513-1519.

[4] 何炎柏.卷积神经网络在医学影像分割上的现状与挑战[J].计算机与网络,2020,46(17):38-39.

[5] 曾昆.基于卷积神经网络的图像语义分割方法研究与设计[D].西安:西安电子科技大学,2020.

[6] 杨理柱.基于深度学习的脑部核磁共振图像分割算法研究[D].吉林:长春工业大学,2020.

[7] 同[4].

猜你喜欢

注意力机制卷积神经网络
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
InsunKBQA:一个基于知识库的问答系统
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现