APP下载

改进Mask R-CNN的甲状腺结节超声图像分割方法

2022-08-19刘明坤张俊华李宗桂

计算机工程与应用 2022年16期
关键词:主干结节卷积

刘明坤,张俊华,李宗桂

云南大学 信息学院,昆明 650500

研究表明,全球大约有50%的人存在甲状腺结节病症[1],而甲状腺结节癌变的几率约为5%~15%,严重威胁着人类的健康[2-4]。

甲状腺结节性疾病一般通过医生手工对超声影像进行标定和划分结节区域来诊断[5]。然而超声图像一般存在大量伪影且固有斑点噪声大,对比度和分辨率较低[6],不同型号及类型的超声设备采集的超声图像也存在较大差异,并且甲状腺结节无标准形态,这些问题给医生准确分割不同患者的甲状腺结节轮廓带来挑战。在此过程中因不同医生操作经验不同,还会出现观察者误差。因此对甲状腺结节超声图像进行准确的分割对提高诊断相关疾病的效率有重要意义。

近年来已有不少自动或半自动甲状腺结节超声图像分割方法。Koundal 等人[7]提出了一种利用中性点域的距离和正则化水平集的方法对甲状腺超声图像进行斑点抑制和结节分割,但水平集演化参数的设定和中性点区域的划分需要人工进行,主观性强。Ma等人[8]使用卷积神经网络(convolutional neural networks,CNN),通过甲状腺边缘像素点对甲状腺和甲状腺结节进行分类,根据分类结果生成分割概率图,但性能不理想。Li等人[9]使用全卷积网络(fully convolutional networks,FCN)对甲状腺结节超声图像进行分割,全卷积网络只考虑各个像素间的分类,忽略了空间规整,缺乏空间一致性,同时上采样的结果模糊平滑,对图像中细节不敏感,致使分割误差较大。Wang 等人[10]使用快速区域卷积神经网络(faster region-convolutional neural network,Faster R-CNN)[11]对甲状腺乳头状癌超声图像进行识别,Faster R-CNN中感兴趣区域池化层(region of interesting pooling,ROI Pooling)将特征图按固定尺寸进行池化时,对特征图边界坐标浮点数进行取整,映射到原始图像中就会产生较大的像素点差别,导致识别精度较差。Ying等人[12]使用基于U型卷积神经网络(U-Net)的改进网络对甲状腺结节超声图像进行分割,U-Net网络在单一尺度上进行预测,并不能完全解决尺度变化的问题,其网络层数过少也很容易产生过拟合的现象,且在分割一些不明显的甲状腺结节的情况下仍会产生较大的误差。

为了解决以上问题,本文提出一种改进的掩膜区域卷积神经网络(mask region-convolutional neural network,Mask R-CNN),对原主干网络进行改进,增强了其特征提取能力。改进的Mask R-CNN 实现了对甲状腺结节超声图像的自动精确分割,避免了人为因素的影响。

1 原始Mask R-CNN网络

原始Mask R-CNN网络结构如图1所示,由主干网络、区域建议网络(region proposal network,RPN)、感兴趣区域匹配层(region of interesting align,ROI Align)和全连接网络组成。输入图像经过主干网络进行特征提取,然后将特征图输入到RPN网络中生成候选区域,并送入ROI Align得到对齐后最佳候选框,最后通过全连接网络构成分类预测、候选框预测和掩码预测。

图1 原始Mask R-CNN网络Fig.1 Original Mask R-CNN network

1.1 主干网络

本文中原始Mask R-CNN 的主干网络是由残差网络(residual network 101,ResNet101)[13]和特征金字塔网络(feature pyramid networks,FPN)[14]构成,其包含三个支路:一是从底而上的ResNet101支路;二是从顶而下的上采样支路;三是横向连接。网络结构如图2所示。

图2 主干网络Fig.2 Back bonenetwork

其中从底而上的路径即为ResNet101 的前向传播过程,特征图在此过程中经过某些层时会发生尺寸变化,故将不改变特征图尺寸的特征层划分为同一层级,在此过程中每一层级的宽度从下自上依次为C1=512,C2=256,C3=128,C4=64,C5=32。每次进行横向连接所使用的特征图,就是将同一层级的最后一层输出特征图进行256×1×1的卷积,不改变图像尺寸并将特征图通道数都设置为256,以便进行特征融合,而所有层级的输出构成FPN网络的从底向上支路。

从顶而下的路径使用上采样的方法,P5 层是C5 层进行1×1 的卷积得到的,P6 层为P5 层经过最大池化操作获得。横向连接是将同尺寸的上采样输出特征图与自底而上路径的每层级输出进行融合,然后通过一个3×3的卷积,用来消除混叠效应,最后输出特征图。

1.2 区域建议网络

RPN 网络在得到的特征图上生成多种尺寸的滑动窗口,滑动窗口通过卷积进行滑动并在特征图上选定多个候选目标,再通过分类器和回归器,判定目标属于前景或背景并确定最佳候选框位置。

1.3 感兴趣区域匹配层

获取候选框后,ROI Align 层根据候选框的位置坐标,在特征图中将相应区域池化为固定尺寸的特征图,以便输入全连接网络进行分类、候选框回归及掩膜预测。因目标位置的四个坐标值为浮点数,故采用双线性插值的方法替代了在ROI Pooling 的候选框提取过程中将坐标值四舍五入取整的方法,很好地解决了ROI Pooling操作中目标位置不匹配的问题。

1.4 生成分类边框及掩膜

全连接网络由两个分支组成,如图3 所示,一个分支利用最后得到的特征图,通过全卷积网络对掩膜进行像素级分割预测。另一个分支利用特征图及最佳候选区域实现目标的分类预测。

图3 全连接网络Fig.3 Full connected network

掩膜预测支路通过5 次14×14 的卷积运算,再使用2×2 反卷积生成28×28 的特征图,最后经过1×1 卷积和激活函数得到28×28的输出特征图,该图中每个点代表某类别的前景背景置信度,用0.5 的置信度阈值得到该类别物体掩膜。

分类边框预测支路通过7×7的卷积运算,再经过两个1 024特征向量的全连接层,完成分类和边框回归。

2 改进的Mask R-CNN

原始Mask R-CNN 网络用于分割甲状腺结节超声图像时存在以下三个弊端:

(1)对甲状腺结节超声图像中细微特征的提取能力较差,细节部位分割精度较低。

(2)输入图像的底层信息与高层信息融合路径过长,导致融合特征图中底层信息大量丢失,影响分割精度。

(3)输入图像进行上采样和下采样时会造成信息丢失,使得底层信息和高层信息量并不对等,从而导致信息量较弱的特征信息的作用变小,并不能有效利用全局特征信息。

针对以上问题,本文对原Mask R-CNN的主干网络进行改进,其网络模型如图4所示。

图4 改进后主干网络结构Fig.4 Improved backbone network structure

首先在原Mask R-CNN 的主干网络ResNet101 结构中加入了一种改进的注意力模块,以增强ResNet101的细微特征提取能力。然后在主干网络FPN 结构的基础上增加了一条由下至上的支路,通过减少底层信息的传输路径来有效地保留信息,提高底层信息的传输效率,使得底层信息能够被网络有效地利用。再将所增加支路输出的各个尺度特征进行融合,以均衡原FPN的上采样操作和所增加支路的下采样操作带来的信息丢失。最后将融合后的特征图恢复至原输入特征图尺度,再输入网络中进行后续操作。通过提高网络特征提取能力,并将多层特征融合得到多尺度特征图,能使网络充分利用图像的全局信息,解决多尺度检测问题。

2.1 改进的ResNet101结构

本文在ResNet101 的C2~C5 每一层级的最后添加了一种改进的注意力机制模块。改进的注意力机制模块由挤压激励网络(squeeze-and-excitation networks,SENet)模块[15]和空间注意力模块(spatial attention module)[16]两个主要部分构成,故本文称其为SESNet(squeeze-excitationand-spatial networks,SESNet)。改进的ResNet 101 结构如图4(a)所示,C1为输入图像,故不在其后增加注意力机制。

SENet模块是一种通道注意力模块,其核心思想是通过网络根据损失函数自动学习不同位置特征的权重,提高有效特征的权重,降低无效或效果较小的特征的权重,从而使训练模型具有更高的分割精度。

设F∈RC×H×W为输入特征图,首先进行特征压缩:

式中,uc表示输入特征图F中的第c个二维矩阵,该式表明该层c个特征图的数值分布情况,Zc表示得到的全局信息。

然后将得到的全局信息进行特征权重学习:

式中,Fsq为特征压缩后的特征图,MSE为第c层特征图的权重,的目的是为了减少通道个数从而降低计算量。W1Zc即为一个全连接操作,起到降维作用,后通过ReLu 激活函数;W2Zc为第二个全连接操作,使其恢复初始维度,最后经过sigmoid 激活。该步骤中两个全连接层的作用是用于融合各通道的特征图信息。

最后将学习到的特征权重值MSE与输入特征图F进行逐元素相乘,表达式如下:

空间注意力模块利用像素间的空间关系生成空间注意图,能够关注在各个特征通道内不同位置像素的权重值大小。

空间注意力的计算公式如下:

其中,f7×7为7×7 的卷积核,AvgPool(F)为平均池化运算,MaxPool(F)为最大池化运算。

然后将SENet模块的输出特征图F′与空间维度权重值MS(F′)进行逐元素相乘,表达式如下:

图5即为SESNet示意图,将SENet模块与空间注意力模块进行连接,输入特征图先后通过SENet模块和空间注意力模块。

图5 SESNet示意图Fig.5 Schematic diagram of SESNet

本文提出的SESNet的计算方式如下:

式中,F为输入特征图,F′为SENet 模块的输出特征图,F′为SESNet的最终输出特征图,⊗为逐元素相乘。

特征图经过SESNet 时不会改变特征图尺寸,只通过像素的特征权重的大小,让网络自动调整保留的特征图数据,然后将特征值权重与特征图融合,强化特征图中有效特征,再输入后续网络中。特征图经过SESNet处理后,能够使特征图中高层特征信息更加明显,使后续处理的精度结果更高。

2.2 改进的FPN结构

为提高各尺度特征图的信息传播与融合[17],增强底层信息在全局特征中的作用,本文在原FPN的基础上增添一条由下而上的支路,缩短了底层信息与高层信息的融合路径,如图4(b)所示。

本文使用FPN网络的P系列层映射,D系列层为新增融合路径,D2是C2进行256×1×1卷积后的特征层,可以充分保留原始图像中的底层信息。然后将D2通过步幅为2 的3×3 卷积层进行下采样得到D3,再将D3 与P3逐元素相加,通过3×3 的卷积消除混叠效应,最后输出。各层依次如上法迭代,迭代公式如式(8)所示,D系列层宽度依次为D2=256,D3=128,D4=64,D5=32。

新增的D系列层充分保留了底层信息,与P系列层相加之后可以得到具有丰富底层信息与高层信息的输出特征图。

2.3 改进的输出结构

新增的第三支路可以将底层信息与高层信息进行融合,但仅限于横向连接的各层之间。且上采样和下采样会导致特征信息缺失,并不能有效利用全局特征信息。

本文将新增第三支路后的FPN 的多尺度输出特征进行融合,平均所有尺度特征图的信息,充分保留其语义及位置信息,如图4(c)所示。首先选取中间层N4 层的尺寸作为融合尺寸,然后将N2、N3通过步长为2的3×3 卷积进行下采样,将N5、N6 通过×2 操作的上采样,得到同一尺寸的特征图。再将各特征图进行逐元素相加后求均值得到Ni。其公式如下:

式中,i为层数,imin为系列层中最小层数,imax为系列层中最大层数。

再将融合后特征图Ni通过步长为2 的3×3 卷积进行下采样得到N5、N6,通过×2 操作的上采样得到N2、N3,通过1×1的卷积得到N4,最后将得到的多尺度特征图再次输出。

通过将输出特征图融合后再输出,可以均衡不同尺寸特征图间的信息差异,并再次强化有效特征。

3 实验分析

3.1 实验环境

本实验使用CPU为CoreTMi7-8700k 3.7 GHz,显卡为NVIDIA RTX 2080s,显存为8 GB。软件环境为基于Keras的学习框架,并以Tensorflow为支撑来实现。

3.2 数据集

本实验数据由云南省某医院提供,包括来自不同设备和不同灰度且扩展名为.png 格式的已消除病人信息的甲状腺结节超声图像。共有1 000张甲状腺结节超声图像,包括正常的甲状腺结节和已发生病变的甲状腺结节的图像,训练标签由多名专业医生共同标注,减小了观察者误差。

3.3 模型训练

本实验将1 000张甲状腺结节图像经过旋转、缩放、平移、裁剪等数据增强方式后扩充到3 000 张。将其中2 400张图像作为训练集,其余600张作为测试集。使用Adam 优化器,超参数设置为学习率0.001,batch_size=16,训练轮次200轮。实验过程对训练损失最小的权重文件进行保存并用于测试。

3.4 评价指标

(1)采用Dice系数[18]为评价指标。Dice系数主要用来评估两个不同样本间的相似程度,即判断两个样本中重合部分占总元素的比例,所占比例越高,模型精度越高。

Dice系数的计算公式如下:

式中,A表示原图中甲状腺结节的面积,B表示掩膜预测的甲状腺结节面积。

本实验中首先通过训练得到模型,后用模型根据测试图像生成标签,最后用生成标签与原标签计算Dice系数,根据其相似程度来评估模型的性能。Dice系数越接近1,则表明甲状腺结节超声图像分割精度越高。

(2)使用精确度(precision,P)、召回率(recall,R)和F1分数对分割结果进行评价。

其公式如下:

式中,TP表示正确分割甲状腺结节的部分,FP表示将黑色背景预测为甲状腺结节的部分,FN表示将甲状腺结节预测为黑色背景的部分。

4 实验结果及分析

4.1 模型分割评估

本文设计了注意力机制的消融实验,在原Mask RCNN 主干网络ResNet101 的C2~C5 层级后分别加入SESNet。为评估改进的注意力机制性能,本文还对SESNet 与SENet 和CBAM 进行了对比实验,分别将三种注意力机制加入到原Mask R-CNN 网络的C2~C5 层级后进行比较。实验结果如表1所示。

表1 注意力机制实验Table 1 Attention mechanism experiment

由消融实验结果可知,与在主干网络ResNet101 的C2~C5 层级的其他位置加入SESNet 相比,在C2~C5 层级都加入SESNet时,分割精度最高,且改进后的注意力机制性能优于SENet与CBAM。

本文进一步通过消融实验来对所提出模型进行性能评估。采用的对比模型如下:

模型1 原始Mask R-CNN网络。

模型2 在原Mask R-CNN 基础上,只在主干网络ResNet101的C2~C5层级都加入SESNet。

模型3 在原Mask R-CNN 基础上,只在主干网络FPN中增添第三支路。

模型4 在原Mask R-CNN 基础上,只将主干网络的输出融合后再输出。

模型5 改进的Mask R-CNN。

分割结果如表2所示。

表2 各模型分割结果Table 2 Segmentation results of each model

由表2可知,在Mask R-CNN原网络基础上分别改进ResNet101 结构、FPN 结构和输出结构后,Dice 系数、P、R和F1分数都有所提高。改进后的Mask R-CNN分割平均Dice系数达到0.914 8。

4.2 不同分割算法的比较

为了进一步验证本文改进模型的性能,将同一数据集应用于FCN32s、FCN8s、U-Net、原Mask R-CNN四种网络模型进行训练,并对分割精度进行评估。

不同网络的分割结果如表3所示。

表3 各模型分割结果Table 3 Segmentation results of each model

由表3可知,本文提出的改进Mask R-CNN网络的平均Dice系数、平均精确度P、平均召回率R以及平均F1分数的数值结果与上述算法相比均有显著提升,具有更高的性能。

如图6所示,本文提出的主干网络结构能够充分利用图像中的全局信息,从而使改进Mask R-CNN网络的分割精度优于原网络。

图6 不同网络的甲状腺结节超声图像分割结果Fig.6 Ultrasonic image segmentation results of thyroid nodule in different networks

5 结束语

本文提出了一种改进的Mask R-CNN网络,对其主干网络进行如下改进:(1)对所提取特征的通道信息和空间信息按权重进行分配,以突出分割目标的特征;(2)对多个尺度的特征图进行融合,以使其具有充分的全局信息;(3)对融合后输出的特征图进行再融合,以均衡特征信息的不对等。实验结果表明,本文改进后的Mask R-CNN 网络能够有效提升对甲状腺结节超声图像的分割精度,可以辅助医生做出高效的诊断。

猜你喜欢

主干结节卷积
我国天然气东西主干管网和南北供应要道全面联通
抓主干,简化简单句
乳腺结节状病变的MRI诊断
基于3D-Winograd的快速卷积算法设计及FPGA实现
肺结节,不纠结
发现肺结节需要做PET/CT吗?
卷积神经网络的分析与设计
从滤波器理解卷积
体检查出肺结节,我该怎么办
基于傅里叶域卷积表示的目标跟踪算法