APP下载

基于Half-UNet的乳腺肿块分割方法

2023-07-04卢浩然吴福彬王统徐胜舟

关键词:解码器编码器尺度

卢浩然,吴福彬,王统,徐胜舟,

(1 中南民族大学 计算机科学学院,武汉 430074;2 湖北省制造企业智能管理工程技术研究中心,武汉 430074)

在我国,乳腺癌仍是女性发病率最高的恶性肿瘤,是中国女性恶性肿瘤发病率及死亡率之首. 早发现,早诊断,早治疗对提升乳腺癌患者生存率有重要意义[1]. 乳腺癌的早期诊断有多种方法,其中乳腺X线摄片(又称乳腺钼靶X线摄影术)被认为是最可靠和最有效的方法,放射科医师利用它可以发现乳腺癌触诊所不能发现的早期乳腺癌微小病灶,同时对无症状妇女进行乳腺X线摄片普查可以降低30%死亡率,甚至更高[2].图1为部分乳腺肿块X线摄片图,图中金色轮廓为金标准轮廓. 然而对于放射科医师而言,观察乳腺X线摄片给患者进行诊断的过程并不容易,需要医师过硬的专业知识和一定的时间才能下诊断,但等待诊断结果的患者数量又非常多,导致放射科医师工作过于繁重,进而导致诊断精度的下降[3]. 因此,对乳腺X线摄片采取低时延、自动化的肿块区域分割很有意义.

图1 乳腺X线摄片及对应金标准示意图(图片来自DDSM数据库)Fig.1 Mammography and corresponding gold standard diagram (picture from DDSM database)

传统的乳腺肿块分割算法主要有手动分割[4],半自动分割[5-6]以及自动分割[7-8]等. 这些算法严重依赖于人的先验知识,算法的泛化能力差,很难达到令人满意的效果. 近年来,深度学习发展迅速,其中深度卷积神经网络拥有强大的提取大量特征的能力,在计算机视觉任务中的应用上迅速发展[9].SHELHAMER等人[10]提出的全卷积神经网络(Fully Convolution Networks,FCN)对图像中每个像素点进行分类,获得了较好的分割效果,但是池化过程导致目标边缘信息丢失,对于细粒度的目标分割结果不够精细. RONNEBERGER等人[11]提出的U-Net网络在医学图像分割领域表现优异,与YU等人[12]提出的空洞卷积成为语义分割界迄今为止最重要的两个设计. U-Net每一次下采样都会有一个跳跃连接与对应的上采样进行级联,医学图像具有语义较为简单、结构较为固定的特点,所以高级语义信息和低级特征都显得很重要,U-Net通过四种同尺度的特征融合结合了底层和高层信息,完美适用于医学图像分割. 然而U-Net的特征图通道数多导致其参数量多. HUANG等人[13]提出的UNet3+网络采用全尺度的跳跃连接,与U-Net相比特征融合后的通道数更少,因此参数量也更少. 然而UNet3+中为了实现全尺度的跳跃连接,增加了3 × 3卷积固定不同尺度的特征图通道数,这些增加的卷积操作导致计算量增加,使模型训练所需时间更长.

最近CHEN等人[14]提出的YOLOF中重新审视了特征金字塔网络(FPN)[15],并通过变化编码器的网络结构实验验证FPN的成功归功于其对目标检测中的优化问题分而治之的解决方案,而不是多尺度的特征融合. 受到以上相关工作的启发,本文提出了Half-UNet网络结构. 参考UNet3+中解码器特征融合部分的设计思想主要对U-Net解码器部分进行简化,缩减了网络的参数量和计算量,使得模型拥有更短的训练所需时间,并在编码器中添加了he_normal[16]和L2正则化,使模型更容易收敛并且缓解过拟合现象. 本文选取美国南弗罗里达大学的The Digital Databse for Screening Mammography (DDSM)数据库中的乳腺X线摄片作为实验数据集. 实验结果表明,本文模型与U-Net和UNet3+在分割性能不变的情况下,显著提升了分割效率.

1 乳腺肿块分割算法

CHEN等人[14]的研究验证了FPN的成功来源于其分而治之的解决方案,而非特征融合部分. U-Net网络结构与FPN相似,也有分而治之和特征融合的部分,U-Net的编码器中体现了分而治之的思想,将输入原图分为五种不同尺度的特征图输出给解码器;U-Net的解码器中体现了特征融合的思想,将输入的五种不同尺度的特征图经过四次同尺度的特征融合转化为单尺度的特征图. 如果U-Net的优异性能也来自于其分而治之的解决方案,而特征融合对结果的影响不大,则可以对U-Net分而治之的部分,也就是编码器部分进行保留,对特征融合的部分,也就是解码器部分进行简化,从而提升网络模型的分割效率,且不会影响网络模型的分割性能.受到以上思想的启发,本文提出了Half-UNet网络模型,如图2所示,从整体上看,Half-UNet保留了U-Net中的分而治之的策略,而对解码器中特征融合的部分进行了简化,由U-Net中的四次特征融合简化为一次特征融合.

图2 Half-UNet网络结构图Fig.2 Half-UNet network structure

网络左边,编码器部分对比U-Net有两个改进:一是固定了特征图的通道数,缩减了网络的参数量和计算量,并且有利于解码器进行解码;二是编码器的卷积过程,如图2中的蓝色向右粗箭头所示,在3 × 3卷积和BN层之间添加了he_normal和L2正则化以促进模型收敛和缓解过拟合问题. 网络右边,解码器部分比U-Net解码器网络结构更简洁,将U-Net中四次上采样、四次同尺度的特征融合简化为四次上采样、一次多尺度的特征融合. 多尺度的特征融合思路来源于UNet3+,其方式如图3所示. UNet3+中将尺寸大的特征图经过最大池化进行缩小,将尺寸小的特征图经过UpSampling2D进行上采样,再接3 × 3的卷积操作固定特征图的通道数. 与UNet3+不同,由于Half-UNet编码器中已经对特征图的通道数进行了固定,在此只需将多尺度的特征图经过UpSampling2D统一尺寸后即可特征融合,最后由两个3 × 3卷积和一个1 × 1卷积得到最后的分割结果,解码器中的卷积操作与U-Net相同.

图3 UNet3+中多尺度的特征融合的方式Fig.3 How to construct the full-scale feature map in UNet3+

2 实验结果与分析

2.1 数据集

实验中所用数据集来源于美国南弗罗里达大学的The Digital Databse for Screening Mammography(DDSM)数据库,从中整理挑选出483幅包含肿块的乳腺X线摄片ROI,其中400张图像作为训练集,83张图像作为测试集. 为了减少模型的过拟合现象,增强模型的泛化能力,本文对训练集图像进行顺时针每间隔45°旋转一次,共旋转7次,在此基础上进行一次水平翻转和一次垂直翻转,使训练集图像数量扩增至原来的10倍,即4000张图像.

2.2 评价指标

本文从要训练的参数量、每轮(Epoch)训练时间、Dice系数(Dice coefficients)、平均垂直距离、敏感度和特效度对分割效率和性能进行评估. 要训练的参数量由Keras中的model.summary()函数计算得来,每轮训练时间为除第一轮(由于第一轮训练时间要长一些)外平均每轮训练时间. Dice系数的计算方法为模型预测结果区域与金标准区域的重叠区域面积的两倍比上两个区域之和. Dice系数越高,模型的预测结果与金标准更相似,图像分割结果越好. 设模型预测结果区域为P,乳腺肿块金标准区域为M,Dice系数的计算公式为:

平均垂直距离的计算方法为模型预测结果轮廓上所有点到金标准轮廓垂直距离的平均值. 如图4所示,P1、P2、P3为模型预测结果轮廓点,M1、M2、M3为金标准轮廓点,虚线L1来自于P1、P2、P3的拟合,虚线L2来自于M1、M2、M3的拟合. 过模型预测点做直线L2的垂线段,如图4中的实线所示,对所有的垂线段取均值,即平均垂直距离. 平均垂直距离越低,说明模型预测结果和金标准结果越接近,即分割效果越好.

图4 平均垂直距离示意图Fig.4 Perpendicular distance diagram

图像分割问题本质上就是像素级的分类问题,敏感度(sensitive)表示的是所有正例中被预测正确的比例,衡量了分类器对正例的识别能力,敏感度越高分割性能越好. 敏感度的计算公式如公式(2)所示. 特效度(specificity)表示的是所有负例中被预测正确的比例,衡量了分类器对负例的识别能力,特效度越高分割性能越好. 特效度的计算方法如公式(3)所示.

2.3 实验结果

本文使用的网络模型在Keras2.4.3上实现,TensorFlow2.4.0作为后端,并搭载对应的CUDA11.0和CUDNN8.0.5,编程语言为Python3.6. 实验采用的计算机硬件配置为I7-10700(2.90 GHz),NVIDIA RTX 3070 GPU. 训练过程中轮数设置为60,初始学习率设置为0.001,30轮后降为0.0005,50轮后降为0.0001,使用Adam优化器,batch-size设为14,验证集比率为0.2,使用dice作为损失函数. 所有实验采用5-flod交叉验证方法,对实验结果求均值.

2.3.1 U-Net拆解实验结果

为了验证U-Net的优异表现究竟是由于其编码器中分而治之的解决方案,还是由于其解码器中的特征融合,本文设计了三种网络结构对U-Net进行拆解,探讨U-Net中编码器和解码器对实验结果的影响程度. 前两种网络结构图如图5和图6所示. Half-UNet-left保留了UNet中的编码器结构,Half-UNetright保留了UNet中的解码器结构,分别将这两种保留结构作为编码器,后接一个统一的解码器,以此来测试U-Net中编码器、解码器对实验结果的影响程度. 后接的解码器融合了多尺度的特征图,特征融合方法与UNet3+的方法一致. 为了防止添加的解码器对实验结果的影响,本文设计了第三种Half-UNet-whole网络与上述两种网络结构进行对比,Half-UNet-whole网络保留了U-Net的完整结构,并在后接了与前两种网络相同的解码器.

图5 Half-UNet-left网络结构图Fig.5 Half-UNet-left network structure

图6 Half-UNet-right网络结构图Fig.6 Half-UNet-right network structure

三种网络模型与U-Net的对比实验结果如表1所示,表中粗体表示同一列中的最好结果. 可明显看出,Half-UNet-left在分割性能上获得了与Half-UNetwhole和U-Net可比较的结果,但Half-UNet-right的分割性能有了明显下降. 实验表明,当U-Net编码器被简化时,模型分割性能明显下降,当解码器被简化时分割性能几乎不变. 因此U-Net在乳腺肿块中优异的分割表现主要来源于其编码器中分而治之的解决方案,而非解码器中的特征融合. 再深入思考,分而治之通过将复杂的分割问题从图像尺度上划分为多个子问题,从而促进优化过程,相比之下,特征融合的方式变化对模型分割能力的影响就很有限了.

表1 实验结果Tab.1 Experimental results

2.3.2 参数量与训练时间关联度实验结果

从表1中可知,Half-UNet-left、Half-UNet-right和UNet3+相对于U-Net参数量更少,但训练时间更多,这与传统认知“参数量少意味着模型复杂度低,也意味着训练时间更短”并不相符. 为了进一步探究参数量和训练时间的关系,设计了Half-UNet-leftupconv网络. 此网络与Half-UNet-left唯一区别是Half-UNet-left-upconv网络使用的是反卷积操作对特征图进行多尺度的特征图上采样并统一通道数,这与U-Net上采样方式一致.

实验结果如表1所示,显然Half-UNet-left的参数量比Half-UNet-left-upconv少,但训练时间比后者长.以8 × 8 × 1024特征图为例进行分析:采用UpSampling 2D+3 × 3卷积方式上采样(即前者采用的方式)时,8 × 8 × 1024特征图先被UpSampling2D到128 ×128 ×1024再经过3 × 3卷积操作,原图大小为128 × 128,因此卷积所需时间更长,又由于卷积核大小只有3 × 3,因此参数量比反卷积方式少;采用反卷积方式上采样(即后者采用的方式)时,原图大小只有8 × 8,其他位置补0,卷积所需时间更短,又由于反卷积的卷积核为16 × 16,明显比3 × 3卷积核大,因此参数量更多. 由于Half-UNet-left上采样方式与UNet3+一致,Half-UNet-left-upconv上采样方式与U-Net一致.结合上述分析可知,特征融合时添加卷积操作是UNet3+训练时间比U-Net长的原因,但U-Net的参数量比UNet3+多并非由于采用反卷积方式上采样. U-Net并不存在Half-UNet-left-upconv中的多倍反卷积上采样,因此U-Net中反卷积的卷积核不比3 × 3卷积核大,U-Net的参数量比UNet3+多的原因还需进一步分析. 根据参数量计算公式:

其中K为卷积核大小,Cin、Cout分别为输入、输出通道数,可知在卷积核大小不变的条件下,输入、输出通道数越大,参数量越大. 因此通道数过多才是U-Net的参数量比UNet3+多的原因. 总结上述结论:U-Net参数量多是由于特征图通道数过多;UNet3+训练时间长是由于特征融合时添加的卷积操作;Half-UNetleft-upconv参数量大是由于采用反卷积方式进行多倍上采样.

2.3.3 Half-UNet不同变种实验结果

为了规避U-Net参数量多和UNet3+训练时间长的问题,提出了Half-UNet-same网络,网络结构与图2的Half-UNet相同,唯一区别是编码器中尚未添加he_normal和L2正则化. 此网络在Half-UNet-left基础上将编码器中特征图通道数提前固定,减少网络的特征图通道数,规避了U-Net参数量多的问题.同时避免了在解码器中添加多余的卷积操作,减少了网络的训练和参数量,规避了UNet3+训练时间长的问题;由于采用UpSampling2D方式进行上采样,规避了Half-UNet-left-upconv参数量大的问题. Half-UNet-same的实验结果如表1第5行所示,网络在参数量和训练时间上明显优于U-Net和UNet3+,但分割精度的部分指标相对于U-Net和UNet3+有所下降.

为了提升Half-UNet-same的分割性能,设计了Half-UNet,实验结果如表1最后一行所示. 可以看出,Half-UNet与U-Net和UNet3+在Dice系数、平均垂直距离、敏感度和特效度上取得了相似的结果,且要训练的参数量和每轮训练时间相对于U-Net缩短了98.20%和41.66%,相对于UNet3+减少了97.86%和83.33%.

3 结论

本文在对U-Net和UNet3+网络模型进行优化的基础上提出了Half-UNet分割模型. 首先对U-Net编码器部分进行简化,统一编码器特征图的通道数,简化网络的同时有利于解码器的特征融合,并引入he_normal和L2正则化缓解网络过拟合现象,提升网络性能;再对解码器部分进行简化,将U-Net解码器部分四次同尺度的特征融合简化为一次多尺度的特征融合,用UpSampling2D取代U-Net中的反卷积方式进行上采样,从网络结构和上采样方式两方面减少网络的复杂度. 实验表明,本文的网络模型在不降低分割性能的同时显著降低了网络模型的参数量和训练时间.

本文提出的Half-UNet网络模型抛弃了U-Net中的对称结构,坚持简单性原则,重点对U-Net的解码器部分进行了简化. 实验表明,Half-UNet与UNet相比在分割精度相近的情况下既减少了模型的参数量,也加快了模型的训练速度.

猜你喜欢

解码器编码器尺度
科学解码器(一)
科学解码器(二)
科学解码器(三)
财产的五大尺度和五重应对
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
基于FPGA的同步机轴角编码器
基于PRBS检测的8B/IOB编码器设计
宇宙的尺度
JESD204B接口协议中的8B10B编码器设计
9