融合EfficientNet与U-Net的超声图像乳腺肿瘤分割方法研究

2023-01-04李文彬张红梅

医疗卫生装备 2022年11期

肖丹，李文彬，张红梅*

（1.西安交通大学生命科学与技术学院，西安 710049；2.西安医学院医学技术学院，西安 710021）

0 引言

据世界卫生组织国际癌症研究机构发布的2020年全球肿瘤数据显示，女性乳腺癌是全球最常见的癌症，也是导致女性癌症死亡的最主要原因[1]。乳腺癌筛查可以有效提高其早期诊断率，降低患者死亡率[2]，而超声是乳腺肿瘤筛查中一种重要的影像学手段，具有检查费用低、无创、无辐射、操作便捷等优势。对中国女性而言，超声筛查的敏感度和准确度也优于X射线检查[3]。《中国女性乳腺癌筛查指南（2022年版）》推荐将乳腺超声作为中国女性乳腺癌的首选筛查手段[4]。乳腺超声检查需要超声医师具备丰富的临床诊断经验，但很多医院并没有足够数量的资深超声医师，而且长时间的重复性评估也易引起误诊或漏诊[5]。随着人工智能技术的发展，计算机辅助诊断（computer aided diagnosis，CAD）系统有助于解决上述问题，而乳腺肿瘤区域的精确分割对乳腺超声CAD系统起着基础且重要的作用。

近年来，深度学习技术在计算机视觉领域取得了巨大成功，在卷积神经网络（convolutional neural networks，CNN）的基础上发展出一系列的语义分割模型[6]。Long等[7]于2015年提出全卷积网络（fully convolutional networks，FCN）结构，用卷积层代替了传统CNN中的全连接层，使得图像输入的尺度不再固定且能以端对端的方式实现语义分割。此后，又有多种全卷积语义分割模型被提出，如SegNet[8]、U-Net[9]和DeepLab[10]等。其中，U-Net因在小样本量时仍有较好表现，被广泛应用于医学图像分割，其包含了编码器部分和解码器部分，编码器中采用了4次降采样，将图像的尺度降为原始尺寸的1/16，在解码器中相应地采用了4次上采样，将特征图恢复到原始图片的分辨力。在相同尺度的特征图上使用跨层拼接，实现了高层与低层语义特征的融合，使分割出的物体边缘更加精细。

由于超声图像存在有较多伪影、模糊边界以及散斑噪声等问题，若直接使用U-Net进行分割，结果常常不够理想，因此在超声乳腺肿瘤的分割领域出现了不少U-Net的改进版本。陈曦等[5]提出了一种融合普通卷积、空洞卷积以及残差连接的MultiMix block，以此代替原始U-Net中编码器的双卷积结构，并使用Res Path代替了直接的跨层拼接，提升了网络的多尺度特征提取能力。贡荣麟等[11]提出了一种混合监督双通道反馈U-Net，其使用了混合监督学习框架和双通道反馈结构，使得分割结果更加准确。Zhuang等[12]提出了超声乳腺肿瘤分割的U-Net改进版本残差空洞注意力门UNet（residual-dilated-attentiongate-UNet，RDAU-Net），该网络在卷积结构中采用了残差连接和空洞卷积，以强化边缘信息和增加感受野，并在跨层连接中使用了注意力门模块以抑制背景，提高学习能力。上述网络对乳腺超声肿瘤的分割准确率相较原始的U-Net都有明显提升，但都存在着网络结构复杂、参数量大的问题，同时忽略了预训练参数对网络性能的提升。

Mathews等[13]提出一种将EfficientNet B3作为U-Net编码器的分割网络，在对视网膜血管的分割中取得了不错的效果。受此启发，本研究尝试对比4个经典的CNN模型（包括ResNet[14]、VGG[15]、DenseNet[16]和EfficientNet[17]）与U-Net结合后对超声乳腺肿瘤的分割效果，这些网络模型都具有很强的特征提取能力，并且在大型数据集上（如ImageNet）有着对应的预训练模型。经过对比验证，融合EfficientNet与U-Net的模型取得了最优分割结果。为得到更好的边界分割效果，在常规的交叉熵（cross entropy，CE）损失函数的基础上，本研究又引入了Dice损失[18]和Boundary损失（边界损失）[19]，通过实验证明三者的加权复合损失函数可以达到最高的分割精度。

1 方法

1.1 U-Net结构

将U-Net的网络结构抽象化，其抽象结构如图1所示，输入编码器后的特征图在空间维度经过降采样逐渐变小、通道数递增，特征图到达解码器后，在空间维度进行上采样、通道数递减，最终分割结果的通道数等于分割目标类别的数量。编码器中的浅层特征经过跨层连接，以拼接的形式融合到解码器的深层特征中，从而实现了高层与低层语义特征的融合，使分割结果更加精确。

为量化模型的分割精度，本研究采用3个常用的分割评价指标：Dice相似系数（dice similarity coefficient，DSC）、敏感度和准确率，其计算公式如下：式中，TP表示预测为肿瘤且标记为肿瘤的像素总数；FP表示预测为肿瘤但标记为背景的像素总数；FN表示预测为背景但标记为肿瘤的像素总数。

图1 U-Net网络的抽象结构

1.2 经典CNN模型与U-Net融合

本研究将U-Net的编码器更换为4种经典CNN分类模型中参数规模和计算量相对适度的版本，分别为ResNet50、VGG16、DenseNet169和EfficientNet B4。具体而言，就是用这些网络的特征提取部分代替U-Net的编码器，由于它们本质上都是空间尺度逐渐缩减和通道逐渐扩充的网络结构，使得这样的替换操作并非十分复杂。

通过将U-Net的编码器更换成EfficientNet B4中的特征提取网络，可得到Efficient-UNet网络结构，如图3所示，特征图的分辨力经过多次降采样从192×192降至12×12，通道数增加到了448，从底层上采样后，特征图的尺度恢复到了24，之后与来自编码器中同分辨力的特征图拼接，再经过2次卷积，得到通道数为160的特征图。以相同的过程完成其余3次上采样后，图像的尺度恢复到192，再经过上采样，图像尺度恢复到原始图像的尺度，最后用1×1卷积核将通道数压缩为1，得到模型输出。

式中，yi表示第i个像素的真实标签（0代表背景，1代表目标）；y^i表示第i个像素的预测概率值。

摘心后有2～5个侧芽，不同品种侧芽数量会有不同。为了提高鲜花品质，长到15～20 cm高度(甚至更早些，能看出优劣并挑选就可以)，侧芽数量偏多的品种需修整枝条，把太弱的和太强的枝条除掉，留粗壮差不多一样的枝条2～3枝。主要原因是侧芽太多，需更多的水肥，光照、通风较差，植株易发病。

比较两组患者的临床疗效、治疗前后神经功能、认知功能、日常生活能力、血清白细胞介素6（IL‐6）、肿瘤坏死因子（TNF‐α）水平变化及不良反应发生情况。采用NIHSS评分评价患者神经功能；轻度：0～15分；中度：16～30分；重度：31～45分［5］；使用简易智能状态检查量表（3MS）评分评价患者的认知功能，满分100分，认知良好80～100分；认知障碍48～79分；认知障碍严重48分以下［6］；采用巴氏指数（Barthel，BI）评价患者的日常生活能力，满分100分，分值越高表示日常生活能力越好［7］。

图2 MBConvBlock网络结构

1.3 Efficient-UNet结构

He等[14]于2016年提出了残差神经网络（residual network，ResNet），其主要贡献是提出了残差连接，解决了神经网络在网络层数不断增加时发生的“退化现象”。VGG网络采用连续的多个3×3卷积核代替较大的卷积核以减少模型参数[15]。DenseNet采用了密集连接机制，通过这种方式缓解了梯度消失的问题，鼓励了特征重用，并大幅减少了参数量[16]。EfficientNet是谷歌大脑团队提出的一种用于图像分类的CNN框架，同时考虑了图像分辨力、网络深度和宽度3种网络框架超参数，构建了一套平衡三者的优化方法，并根据输入图像尺度搭建了B0～B7共8种模型[17]。其中，B7模型在ImageNet数据集上取得了当时最优的分类准确率，并且与取得相近结果的模型相比，其参数量和运算量都大为减少[17]。EfficientNet的基础卷积模块称为移动倒置瓶颈卷积模块（mobile inverted bottleneck convolution block，MBConvBlock），包含1×1卷积层（Conv）、批量归一化（batchnorm，BN）、Swish激活函数、随机失活（Dropout）、深度卷积（depthwise convolution，DWConv），压缩-激励（squeeze-and-excitation，SE）模块以及残差连接等，如图2所示。

图3 Efficient-UNet网络结构

1.4 损失函数

CNN图像分割是通过最小化损失函数来寻找网络的最优参数，因此损失函数的选择对分割结果有着重要影响。最常用的损失函数是逐像素的CE损失。对于本研究的单目标分割问题，CE损失计算公式如下：

探讨前，首先介绍一下曲字的调值和音乐性字腔的一些基本情况。汉语口语中的字声有四声阴阳之别，但在音乐性的昆曲字腔中，除了平声字的字腔外，其他三声字腔的阴、阳，几乎没有差别。其中，上声字字腔音势就只有呈状的高—低—高一种；去声字字腔音势就只有呈状的低—高—低一种；入声字字腔音势就只有呈▼顿音状的一个单短音。概言之，这就是昆曲音乐的一大基本特征：仄声字腔不分阴阳。这一点，与昆曲的曲词创作只讲平仄、不分四声阴阳基本对应。

马克·吐温是美国著名的幽默讽刺大师，他的小说在幽默诙谐的反讽中夹杂着对社会腐败黑暗和人性自私丑恶的讽刺和批判，因此，反讽是其作品最重要的艺术特色之一。而陈光明的《马克·吐温幽默小品欣赏》译本选取的是马克·吐温的早期作品[1]，其主要风格特色为幽默反讽，其中的选文典例十分符合本篇论文要研究的主题：马克·吐温反讽修辞的传译方法与效果。

计算时不考虑结构自重产生的影响，荷载效应全部来自于体外预应力钢束。将预应力荷载等效为沿箱梁纵桥向作用的均布力作用于锚垫板上，所施加的荷载参数如表 1所示。

为验证所提出方法的有效性，本研究使用了一个超声乳腺肿瘤分割的公开数据集Dataset B[20]。该数据集由163例患者（53例为恶性肿瘤，110例为良性肿瘤）的163幅包含肿瘤的乳腺超声影像和与之对应的标注图组成，标注图由经验丰富的超声医师手工勾勒。图像的平均尺寸为540×450像素，为便于训练及测试，图像的尺寸被统一调整到384×384像素，并采用Z-score标准化预处理图像。以50%的概率进行灰度gamma变换、对比度变换和水平翻转以实现数据增强。

Bokhovkin等[19]针对CNN模型对遥感数据分割时边界不准确的问题，引入了一种边界损失函数，该函数可以给边界的错位施加惩罚，从而优化边界的分割效果。边界损失由预测边界相对真实边界的精确度和召回率构成，计算公式如下：

式中，Bp表示预测得到的目标区域边界集合；Bgt表示真实标注目标区域边界集合；d（·）表示欧氏距离；θ表示边界距离误差的容忍范围，参考Bokhovkin等[19]的建议，实验中θ被统一设置为5；[[·]]表示一种逻辑表达式的指标函数，如结果为真，则值取1，反之取0；P表示精确度，由预测边界到真实边界距离小于θ的像素数量与预测边界总像素数的比值计算而得；R表示召回率，由真实边界到预测边界距离小于θ的像素数量与真实边界总像素数的比值计算而得。

为了综合考虑边界的精确度与召回率，使用F1分数指标即P与R的调和平均数，进而得到边界损失函数，其计算公式如下：

由于超声图像的弱边界问题经常会影响图像的分割质量，而且肿瘤区域通常只在整幅图像中占很小的区域，本研究尝试将这3种损失函数复合起来使用，并赋予不同的权重。

Dice系数是评价区域重叠度的指标，由此衍生出的Dice损失函数也常常作为分割的损失函数，其计算公式如下：

2 实验

2.1 数据集

式中，P表示预测结果为目标的像素集合；G表示真实标注为目标的像素集合；·||表示集合中像素的个数。Dice损失函数有助于缓解目标和背景样本数量的失衡问题，但常常在训练中表现不够稳定，通常与CE损失函数组合起来使用。

2.2 评价指标

数学是人类对客观世界的抽象，可以说没有数学，就没有人类文明，人类文明源于计数，经历了进制、比例、几何、图形、空间、变量、函数、高数等数学形式，专业化程度越来越高，学科体系越来越庞大，高职高数要想有所突破，必须打破传统教育的弊端，建立和专业结合的课程体系。

2.3 实验设计和实现细节

首先，本研究对比了原始U-Net和以ResNet50、VGG16、DenseNet169、EfficientNet B4作为U-Net编码器的4种变体，分别简称为Res-UNet、VGG-UNet、Dense-UNet和Efficient-UNet。在使用这些模型训练时，应用了迁移学习的方法，将这些模型在ImageNet上的训练权重初始化，并采用CE作为损失函数。其次，本研究还对比了Efficient-UNet在不同损失函数组合下的分割精度，以CE作为基础损失函数，分别比较了CE损失、边界损失和Dice损失在不同权重组合下的精度。通过五折交叉验证评价上述模型的性能，五折的划分在评价不同模型时是固定的。在每折训练时，全部的数据会按4∶1的比例分为训练集和测试集，再从训练集中随机选取10%的样本作为验证集，以验证集中得到的最优模型对测试集进行测试。每种模型的最终结果为上述五折结果的均值±标准差。

电厂汽轮机检修与维护作业中状态检修，为重要的技术要点之一。从汽轮机机组运行的整体现状方面分析，良好的状态检修实施对于故障问题的有效确定，以及故障问题的及时处理意义重大。分析在实际作业中状态检修的实施，主要的检修内容有：设备运行中的异常振动、异响、清洁现状、硬件现状方面的检修维护。通过对上述几点异常现象的检修和维护，有效的保障了设备运行中的安全稳定性。

本实验的编程环境为Python（3.8.12）结合PyTorch（1.8.0）深度学习框架。初始学习率设置为0.001，优化器采用Adam，学习率以余弦退火方式衰减（T0=30），epoch设置为60，batch size设置为4，其余参数均采用PyTorch框架设置的默认值。

3 结果

3.1 模型对比实验

本研究对比了U-Net、Res-UNet、VGG-UNet、Dense-UNet和Efficient-UNet 5种模型在数据集Dataset B上的分割效果，从表1中可以看出Efficient-UNet在所有指标中都取得了最优的结果且参数量最小，体现了EfficientNet强大的特征提取能力。而原始的U-Net与其他变体相比，各指标均有较大差距，这可能是由于编码器的特征提取能力不强以及缺乏在大数据集上的预训练权重。5种不同模型对测试集中3例样本的分割结果如图4所示。

图4 5种不同模型分割结果对比

表1 5种不同模型的分割评价指标和参数量

3.2 损失函数对比实验

基于不同损失函数组合下Efficient-UNet的分割评价指标结果详见表2。当使用2种函数组合时，分割评价指标结果是在不同权重配比下的最优值，当选择CE与边界损失组合时，两者的权重分别为λ和1-λ，令λ取值从0.1递增至0.9，递增步长为0.1，采用分割评价指标结果最优时的λ，此时λ取0.5。当选择CE与Dice损失组合时，取最优值时λ等于0.9。当选择边界与Dice损失组合时，取最优值时λ等于0.1。当使用3种损失函数组合时，权重组合为LCE+λLBD+（1-λ）LDice，当λ取0.7时，分割评价指标结果最优。

表2 不同损失函数组合下Efficient-UNet的分割评价指标结果单位：%

从表2中可以看出，CE与边界损失组合的损失函数在3项分割评价指标上都达到了次优，明显高于仅使用CE损失的分割结果，证明了边界损失的有效性。3种损失函数的组合在前2项分割评价指标上都得到了最优值，证明复合的损失函数有助于提升分割结果的准确率。数据集中2例测试图像使用Efficient-UNet在CE损失函数和3种损失函数复合下得到的分割结果如图5所示（图像经过裁剪和放大后显示）。从图5中可清晰看到复合损失函数对应的分割边界与真实边界更加一致。

图5 2例测试图像在不同损失函数下的分割结果

4 结语

针对超声乳腺肿瘤的分割问题，本研究提出了一种融合EfficientNet和U-Net的分割方法，将U-Net的编码器替换为EfficientNet B4中的特征提取部分，使其具有更强的特征提取能力，同时将EfficientNet B4在大型数据集ImageNet的训练权重作为预训练权重，以弥补数据量较少的问题，还引入了Dice损失函数和边界损失函数，在以一定权重与CE损失函数组合后，取得了最优的分割结果。最终结果显示，此方法分割的DSC为87.46%，相较U-Net（DSC为69.75%）提升了约18%，使分割结果更接近于实际肿瘤区域，为乳腺超声CAD系统的后续发展奠定了基础。

虽然本研究取得了较好的分割结果，但仅在一个较小的数据集上进行了验证，缺乏在大样本量、多中心的数据集上对算法的评估，且本研究仅探讨了对U-Net编码器进行改变而带来的性能提升，而对解码器结构的改进同样值得思考。另外，本研究仅以U-Net作为基准模型进行改进，还有其他很多的语义分割模型也可以改进，后续将进一步展开研究，以期达到更优的分割结果。