APP下载

基于改进的U-Net网络模型的气胸分割算法

2021-10-28姚鑫杰

计算机技术与发展 2021年10期
关键词:胸片气胸像素点

龚 安,赵 莉,姚鑫杰

(中国石油大学(华东) 计算机科学与技术学院,山东 青岛 266580)

0 引 言

气胸是一种可危及生命的常见疾病,具体是因为气体进入胸膜腔隙从而导致一些临床表现,如情况较轻时可能会出现胸部不适、呼吸不顺畅、咳嗽等症状,重则造成实质性肺损害的疾病从而危及生命[1]。早期对其进行快速准确的诊断和及时救治,有助于保障病人的生命安全。目前其主要诊断手段是采用X线胸片进行筛查和诊断。通常患有气胸的胸片表现为纵隔旁呈条带状透明亮度或胸腔顶端与横膈面肺底之间呈弧形透明光亮带,膈面或心缘较为清晰,患处肺野透光度较高,胸腔外中带可见压缩肺组织边缘和无肺纹理区[2-3]。因此通过胸片诊断病人是否有气胸以及气胸范围时,常常需要具备良好资质和丰富经验的放射科医生。然而在现阶段医疗系统中,X线相对其他医学影像诊断在费用上有明显的优势,每天产生的X线胸片数量相对较多[4],并且现阶段中国医患比严重失衡[5]。因此,高效准确的计算机辅助诊断技术是非常迫切和急需的。

基于此,文中将设计一种自动化分割气胸的高效算法,通过学习数据集中不同类型气胸图像的特征,从而实现气胸区域的自动分割。

目前借助计算机辅助诊断气胸的研究成果相对较少,且在速度和精确度等方面尚不能满足临床应用的需求标准。Chan等[6]提出了一种基于多尺度强度纹理分割气胸的自动检测方法,该方法一方面计算相对复杂误差较大,另一方面实验采用32例(年龄18~65岁)外伤性气胸和自发性气胸以及10例正常胸片,样本稀疏且相对单一。Ouyang等[7]提出一种基于深度学习的弱监督分割气胸算法,允许部分训练数据仅使用图像级标签进行弱注释,实现了交并比(IOU)为0.669的分割精度。Viniavskyi等[8]提出一种仅以图像级分类标签作为监督的医学胸片语义分割方法,先利用有监督的分类模型生成伪分割标签,然后用得到的伪标签训练一个完全监督分割模型,较之前的气胸分割算法性能有一定提升,但未完全满足临床应用的需求标准。Luo等[9]采用全卷积密度网(FC-DenseNet)结合空间和通道压缩与激励模块(scSE)以及多尺度模块进行气胸分割,在阳性样本中Dice相似性系数(DSC)达到0.84的分割精度。

近年来,基于卷积神经网络(convolutional neural network,CNN)的医学图像分割算法不断涌现,其中Ronneberger等人[10]提出了U-Net网络结构,该网络模型受到广泛关注,在全卷积网络(FCN)[11]基础上,该网络模型使用编码-解码结构以及跳跃连接技术,这样的网络结构大幅提升了分割的准确度,同时训练的速度得到有效提升,并且不需要大量的标记数据集,如在视网膜图像中的血管分割、皮肤病分割[12]和肺损伤分割等[13]都表现出良好的分割效果。综合上述研究,针对在气胸分割的深度学习模型相对较少和自动化分割气胸的精确度有待提升的现状问题,而目前U-Net网络模型性能在医学图像分割表现出的明显优势,文中借鉴图像分割模型U-Net体系结构,将ResNet50作为其编码器,借助迁移学习方法,在减少模型参数以及计算成本的情况下,提高特征提取能力,加快网络收敛速度,最后通过全连接条件随机场来优化模型分割结果,获得更高的分割精度,使得计算机辅助诊断工具成为临床医生的得力助手,为相关领域医生减轻工作压力。

1 相关工作

1.1 U-Net网络分割模型

U-Net网络体系结构包含一个收缩路径(下采样)与扩张路径(上采样),也被称为编码器-解码器结构,两条路径相互对称,并使用跳跃连接(skip connection)的方法。如图1所示,该网络模型结构与FCN相比,最大的优势是采用了跳跃连接,将收缩路径中与扩张路径中具有相同分辨率的子模块的输出进行拼接,拼接后内容作为扩张路径中下一子模块的输入。该方法充分结合局部像素特征信息和全局信息,通过信息整合的方式提高像素点类别的预测准确率。该模型的输入输出都是图像,没有全连接层,这样可以很大程度上减少网络训练的参数,并且其U型结构可以更好地保留图片中所有有效的信息。除此,该网络结构其收缩路径遵循典型的卷积神经网络结构,类似于VGG网络结构。在扩张路径中,每一步都包含对特征图进行上采样,通过此操作分辨率依次上升,相关语义信息将被传递到高分辨率的卷积层。总之,此U型网络体系结构将浅层网络中获取的细节信息与深层网络获取相对抽象的语义信息,通过拼接方式有效融合,保留更多维度信息,大大提升了网络模型的分割效果。

图1 U-Net网络基础结构

1.2 ResNet网络模型

ResNet[14]网络模型在2015年由Kaiming及其团队提出,在ImageNet比赛分类任务上成功应用,获得了冠军。该模型提出残差学习的思想,假设用x表示网络的输入,H(x)表示要拟合的输出映射,F(x)表示残差映射,即F(x)=H(x)-x。与传统神经网络相比,模型在训练过程中改变学习目标,采用连接方式“shortcut connection”将输入信息通过捷径直接传输到下一层,整个网络只需要学习输入和输出差别的那一部分,简化了学习难度,并且实验结果表明,残差网络更容易优化。ResNet网络模型的提出,一定程度上解决了传统神经网络在学习过程中或多或少的信息丢失、损耗等问题,同时还改善一些无法继续训练的问题,如某些很深的网络在训练过程中梯度消失或梯度爆炸,而且该网络模型能够获取到更深层的抽象信息,有效提高了图像分类准确率。

图2 两层及三层的ResNet残差学习模块

2 方 法

文中提出的基于改进的U-Net网络模型的气胸分割算法流程如图3所示。对含有气胸的胸片图像进行相应的图像预处理,将预处理图像以及相应标签输入到U型网络分割模型进行特征提取,再通过像素点分类模块获得分割结果,对模型预测的分割结果利用全连接条件随机场(CRF)对图像后处理,得到最终的气胸分割结果。

图3 算法流程

2.1 网络模型

文中采用的网络模型主要是在U-Net网络模型基础上进行改进,具体结构如图4所示,保持编解码结构体系,依旧使用U-Net中特征融合的方式,将收缩路径中的特征与扩张路径中具有相同分辨率的特征图进行融合。该方式能够充分利用胸片局部和整体的特征,保留编码器部分下采样过程丢失的信息,使得最后输出的分割结果含有更丰富的边缘细节信息。针对U-Net结构中编码器部分卷积层相对简单,提取特征的能力满足不了现有的图像分割任务的需求,于是引入了ResNet结构作为模型基础网络,提高网络特征提取能力,使用ImageNet[15]数据集上预训练的ResNet50上的网络参数,将ResNet50后面的全连接层替换为卷积层,以便获得一张二维特征图。在该网络模型中编码器部分经历四次下采样过程,相应地解码器部分进行四次上采样过程,将编码器部分得到的高级语义特征图进行恢复。由于目标输出是胸片上气胸区域和非气胸区域,采用sigmoid函数获取二类输出,得到输入数据在两种语义类别上出现的概率,获得每个像素点的分类信息,每一个像素点对应值表示该点属于气胸的概率,最后挑选一个最佳阈值,高于该阈值的为正样本,即气胸像素;反之低于该阈值的为负样本,即非气胸像素,最终获得网络分割模型预测的分割效果图。

图4 改进的U-Net网络结构

2.2 训练算法

深度学习中有多种训练算法,如随机梯度下降(stochastic gradient descent,SGD)、自适应梯度下降(adaptive subgradient,Adagrad)、自适应学习率调整法(adaptive learning rate method,Adadelta)、均方根传递(root mean sqaure prop,RMSprop)、动量梯度下降法(momentum)和自适应动量估计(adaptive moment estimation,Adam)等。文中选用最常用的训练算法Adam优化算法[16],该算法是一种将Momentum算法和RMSProp算法两者的优点结合在一起的算法。Momentum算法主要是基于梯度的指数移动加权平均,将过去时间步的梯度进行加权平均,同时权重按照时间步指数衰减,使得网络在优化的过程中有一个很好的收敛速度,同时梯度摆动幅度变得相对较小,大大提升了网络收敛速度;RMSProp算法采用小批量随机梯度,根据元素平方的指数加权移动平均来调整学习率,改变自变量每个元素学习率在迭代时候一直降低(或不变)的情况。Adam算法结合两者优点之外还使用了偏差修正,实践表明采用Adam算法能够很快实现优良的结果。

2.3 损失函数

文中在训练过程采用多损失训练方法。在训练开始阶段采用交叉熵损失函数[17],定义如下:

(1)

其中,yi表示样本每个像素点的真实标签值,pi表示每个像素点预测为气胸区域的概率值,n表示样本像素点数量。在模型训练达到一定收敛程度时,改用Dice损失函数对模型权重参数进行最后的微调训练,定义如下:

(2)

其中,p表示网络预测值,g表示真实值,pixels表示每个图像块像素点个数。气胸分割即二分类分割项目,病灶区域即目标区域(正样本),非病灶区域即背景区域(负样本)。实验表明对正样本的Dice加权系数设置为0.75,负样本的Dice加权系数设置为0.25,此时Dice取得最大值。同时,实验结果表明利用该损失训练方法有效提高了气胸分割精度。

2.4 全连接条件随机场

为优化网络模型预测分割结果,能够使得病灶区域轮廓更加清晰地被描绘,减少边缘像素分类的误差率,文中引用了全连接条件随机场(CRF)对网络模型产生的语义粗分割结果进行图像后处理,恢复目标区域细节部分,进一步提高气胸分割精度。对观测数据图像I,在全连接条件随机场中,i表示每个像素,xi表示第i个像素所属的类别标签,yi表示对应的观测值[18]。全连接条件随机场的吉布斯能量分布函数由两部分组成,具体公式如下:

(3)

(4)

(5)

由上面公式定义可知,只有像素i和j所属标签不同时,二元势能才有相应函数值,否则两个像素间不存在相互作用的势能。

3 实 验

3.1 实验环境

实验的硬件环境配置如下:采用(RAM)Intel(R) Core(TM) i7-6700K CPU 处理器,内存(RAM)为16.00 GB和NVIDIA GeForce GTX TITAN X的GPU处理器。实验的软件环境设置如下:操作系统为64bit Windows10专业版,采用Python编程语言进行开发设计,同时借助PyTorch的深度学习框架进行卷积神经网络模型的训练和预测分割结果。

3.2 数据集与数据预处理

文中采用的X线胸片图像来源于Kaggle网站提供的气胸分割竞赛数据(https://www.kaggle.com/c/siim-acr-pneumothorax-segmentation/data),这个数据集由ChestX-ray14数据集的子集形成,又经过放射学专家重新标记,并在像素级别上附加注释。实验从该竞赛数据集中获得2 669张1 024×1 024含有气胸的X线胸片图像和相对应的像素级的注释标签掩膜数据,数据集以DICOM格式给出,掩膜数据通过CSV格式的文件给出,分别通过相应代码将数据集以及对应的标签统一变为png格式。将该数据集随机划分为训练集70%、验证集10%、测试集20%。

深度学习模型的性能是由数据驱动的,合适的数据预处理使得模型在训练过程学习到的特征更加丰富,同时有效避免网络过拟合问题,能够有效提升模型分割效果。观察整个数据集后得知,数据集中存在着部分倾斜的图片,对比度相对较低的图片以及X光照片未占满整张图的图片,同时数据集较少且气胸像素分布不均,会降低网络分割模型的训练效果。为缓解上述问题,文中采取了一些数据增强方法,对训练集图片使用随机旋转操作,旋转角度在0°到15°之间,上下翻转和随机裁剪,亮度和对比度变化以及直方图均衡化,验证集和测试集不进行任何变化。

3.3 评价指标

为了能够定量地评价文中算法对X线胸片的气胸分割效果,选用两种常见的利用网络分割模型对医学图像进行分割的评价指标,分别是Dice相似性系数(dice similarity coefficient,DSC)和Jaccard系数(Jaccard distance,JD)。DSC用于评估真实分割区域与通过文中算法预测的分割区域之间的相似程度,DSC值越大表示真实值与预测值相似性越高。Jaccard系数通常用于在有限样本集间评估预测结果与真实值之间的相似性,同样指标越高代表分割结果越好,表达式分别如下:

(6)

(7)

其中,G表示真实气胸区域的像素点集,P表示网络分割模型预测的气胸区域像素点集。

3.4 实验结果与分析

在文中设计的硬件环境和软件环境以及数据集上,对基于改进的U-Net网络模型进行训练,在该数据集上取得良好分割结果,Dice相似系数稳定在0.851,Jaccard系数稳定在0.769。

在U-Net网络模型的基础上,引入残差学习模块[19],采用迁移学习的方法,使用预训练模型ResNet50中的参数,更好地帮助新模型训练,一定程度上减少了网络分割模型所需的训练数据、计算成本等,并且有效加快了模型学习效率。为验证采用迁移学习方法对网络模型训练阶段收敛速度以及效果的有效性,文中实验对改进的U-Net网络模型,在采用同一网络模型的前提下,在训练阶段设置对照实验,即编码器ResNet50网络随机初始化权重和采用在ImageNet经过预训练的ResNet50网络模型参数,将两者训练过程中的交叉熵损失进行比较,如图5所示。

图5 交叉熵损失比较

由图5对照实验发现,采用预训练网络模型作为编码器,收敛速度相对较快,同时收敛效果更稳定,证明了采用迁移学习方法的有效性。为测试网络模型分割性能,突出文中算法在气胸分割任务中的优势,将文中的气胸分割算法与原始U-Net网络模型和DeepLab v3+网络模型的分割结果在评价指标Dice相似系数与Jaccard系数上进行比较,如表1所示。

表1 不同网络模型分割结果的比较

依据表1,U-Net网络模型相比DeepLab v3+网络模型在气胸分割任务上性能表现更优,同时实验过程中U-Net相比DeepLab v3+网络模型具有较少的训练参数和时间成本,表明在气胸分割任务采用U型网络有明显优势,但分割精度仍未满足临床应用需求。文中在U-Net网络模型基础上进行改进,网络深度加深,增强特征学习能力,一定程度上解决了原始U-Net在池化操作步骤丢失信息的问题。对于比较小的气胸区域分割,文中网络模型表现出良好的分割效果,同时使用预训练网络模型参数初始化,在训练过程中大大提高了网络收敛速度,最后采用全连接条件随机场在气胸分割任务中优化网络模型分割结果,通过最大化条件概率来获得每个像素的最佳标签,一定程度上提高了分割精度。

图6 气胸分割可视化结果

图6是通过文中改进的网络模型预测的部分可视化分割结果以及采用CRF处理后的分割结果。从中可以看出,CRF对模型预测的气胸分割结果进行图像处理之后,模型预测结果中某些像素错分类可以得到解决,在一定程度上使得图像边缘分割更加精细化,优化分割结果。由(b)、(d)两列比较得知,文中算法得到的预测结果与真实值相似性较高,且整体视觉感知良好,表明了文中研究工作的有效性。

4 结束语

提出了基于U-Net网络模型改进方案,利用残差学习模块代替U-Net网络模型编码器中的简单卷积层结构,一方面有效提高了网络特征学习能力,另一方面利用预训练网络模型参数有效加快了网络收敛速度以及使得收敛效果更加稳定,最后采用全连接条件随机场(CRF)对网络预测分割结果进一步优化,使得分割精度进一步提高。实验结果表明,提出的气胸分割算法有效提高了气胸自动化分割的精度,对于不同的气胸患者都能得到相对较好的分割结果,算法拥有良好的稳健性与泛化能力,同时也为相关领域图像自动化分割带来一定参考价值。另一方面,该算法的分割结果与临床实际应用需求还存在一定差距,分割精度有待进一步提升。

猜你喜欢

胸片气胸像素点
吃两百根香蕉相当于拍一次胸片
新生儿气胸临床分析
肺泡微石症并发气胸一例报道并文献复习
基于canvas的前端数据加密
基于逐像素点深度卷积网络分割模型的上皮和间质组织分割
高仟伏X线胸片和DR胸片在尘肺病影像诊断中的比较研究
37例血行播散性肺结核的多层螺旋CT与胸片表现分析
DR胸片与高仟伏胸片诊断尘肺病影像对比分析
基于Node-Cell结构的HEVC帧内编码
23例新生儿气胸的临床分析