基于FC_DenseNet深度学习网络自动分割肺癌放疗中的危及器官

2021-02-07张富利杨安宁路娜蒋华勇陈点点郁艳军王雅棣

中国医学物理学杂志 2021年2期

张富利，杨安宁，路娜，蒋华勇，陈点点，郁艳军，王雅棣

1.解放军总医院第七医学中心放疗科，北京100700；2.北京航空航天大学自动化科学与电气工程学院，北京100191

前言

在放射治疗中，医师基于CT、MRI、PET/CT 图像提供的信息进行靶区和危及器官（Organs at Risk,OAR）的勾画，该过程较为费时费力，且勾画质量很大程度上取决于医师的经验［1-2］。由于在CT 图像上比较容易区分有骨质支撑的器官，而对于肿瘤组织与正常组织相粘连的边界则较难以区分，这增加了医师手动勾画轮廓的难度［3］。即使是同一医师不同时间对于同一序列CT 图像的勾画结果也会存在一定的不一致性［4］，这些因素都会影响放疗精度和疗效［5］。增加勾画的精度和一致性，提高医师工作效率是目前医学图像分割中亟待解决的问题［6］。

近年来，基于深度学习的图像自动分割已成为放疗领域的研究热点之一。2015年Ronneberger等［7］针对医学图像分割提出了结构上完全对称的U-Net网络，整体结构包括了提取图片特征的编码阶段，以及从压缩后的特征图中恢复原图片尺寸的解码阶段，并且通过长连接将编码阶段和解码阶段相同尺寸的特征图连接，补充解码阶段的图像信息。U-Net编码-解码对称的结构成为图像分割的经典分割框架。同一年，He等［8］提出了ResNet残差网络，通过将一些层的学习目标转化为学习残差函数，从而使得映射凸显输入变化的微小量，缓解了深度增加带来的梯度消失问题。2017年Huang 等［9］提出了DenseNet 网络，使用特征图复用的思想以应对监督学习中小样本的训练数据，DenseNet 网络以过渡层连接多个Dense Block，将各个Dense Block 特征图的通道进行串联拼接，以增加特征图的数量，提高特征图的利用率。

本研究建立起一种基于DenseNet 与全卷积神经网络（Fully Convolutional Networks, FCN）的深度学习模型FC_DenseNet，通过密集连接的Dense Block模块学习CT 影像中OARs 平面分布特征，实现端到端的OARs精准勾画任务。

1 资料与方法

1.1 数据集的构建

本研究数据集来自解放军总医院第七医学中心放疗科的36 例肺癌患者的CT 图像，通过解析DICOM 文件，将原图像CT 的灰度值映射到0～255 范围内，调整窗宽400 和窗位40，改变图像对比度和亮度［10］。将放疗医师手工勾画的OARs 轮廓映射到分辨率为512×512 的原图像上，并根据OARs 键值不同，填充不同灰度值，生成掩码图作为训练的标签，如图1所示［11］。

图1 原始图像和掩码图（标签）Fig.1 Original image and mask map(labeled)

训练集包括27 例患者的3 803 张CT 图像，从训练集随机抽取大约20%的病例做交叉验证集，共包括6 例患者650 张图像，测试集包括9 例患者的567张图像。经过数据清洗和增强后送入构建好的FC_DenseNet进行训练。

1.2 FC_DenseNet的网络设计

本文使用DenseNet56 作为轻量化模型实现肺部4 个危及器官的自动分割，DenseNet56 的具体结构如图2所示。分割过程主要分为两部分，左半边称为分析路径，由Dense Block 模块和Transition down 模块相互串联组成，使用Short cut 跃层连接，用以提取图像特征；右半边称为合成路径，通过Transition up 转置卷积模块上采样，逐层恢复特征图的尺寸。且将分析路径中相同尺寸的特征图相互串联作为下一层的Dense Block输入，以提高重构后的图像精度，加速网络参数的收敛过程。

图2 FC_DenseNet结构图Fig.2 FC_DenseNet framework

Dense Block 每一层的输入由其前面层的所有输出经过密集连接后组成（图3）。每一层的输入和其他前面层的输出有以下对应函数关系：

图3 Dense Block结构图Fig.3 Dense Block framework

其中，H（*）表示非线性转化函数，它代表一个组合操作，包括一系列的批标准化（Batch_Normalization,BN)、ReLU(Rectified Linear Units)激活、池化、卷积等操作［12］，用来调整特征图的尺寸大小，减少通道维度。考虑到密集连接的操作会带来通道数量激增、训练难度增加的问题［13］，在每个网络中设置Bottleneck 结构，Bottleneck 使用1×1 的卷积核实现跨通道的特征融合，增强网络的特征提取能力。

Transition Block 连接两个相邻的Dense Block，用来调整特征图大小，通过压缩因子θ(θ∈［0，1］)压缩特征图，包含m个特征映射的Dense Block 通过Transition Block 后输出θ*m个特征映射。上采样Transition up 模块与下采样Transition down 模块不同，Transition up 对特征图进行反卷积操作后需要与跃层连接的特征图进行连接，因此还需要调整跃层拼接的特征图尺寸。最后将特征图送入Softmax 函数，网络Softmax输出通道数为5的特征图，像素点所对应的5 个通道数分别代表经过网络输出背景和左肺、右肺、心脏、脊髓4个OAR的后验概率。

将4 个概率中最大的概率类别所对应的灰度值作为该像素点的灰度编码，形成与训练真值一致的单通道灰度掩码图。将图像的通道数映射为［0, 1］之间的概率值，选取类别中概率最大的类别作为该像素的类别，填充对应的灰度值，实现逐像素语义勾画［14］。

1.3 网络的训练以及图像处理

本研究的深度学习框架为PyTorch，Python 版本3.5，处理器为intel corei7 8700，显卡型号GTX1070ti，内存32 G，考虑到数据集样本有限，借鉴迁移学习的思想对网络参数初始化［15］，采用He 等［8］提供的卷积初始参数，引入网络对自然图像分割的先验知识，以应对小样本对于模型训练效果的限制问题。经过初始权重输出模型如图4所示。

图4 模型初始化Fig.4 Model initialization

每次读入小批量的样本mini_batch 作为网络的输入，经过数据清洗和增强后送入构建好的FC_DenseNet进行训练，使用交叉熵损失函数对网络权重和偏置量进行更新。交叉熵损失函数（Softmax Cross-Entropy Loss），数学表达式如下：

其中，x表示系统的输入量表示经过网络回归后的后验概率输出，k表示类别数量。网络的训练器选取Adam 优化器。 Adam 优化器使用动量法（Momentum）的梯度累计思想，计算梯度更新的加权平均对网络进行平滑处理，之后使用RMSProp 阻力法计算梯度累积动量的微分加权平均数更新，使其权重和偏重更新幅度更小，网络更平稳收敛到全局最优点。有效解决了稀疏梯度和噪声的问题。

训练集的平均分割时间为12.576 min/epoch，单幅512×512 CT 图像的平均分割时间为0.168 s，对一位患者全部CT 图像进行勾画的时间约为13.4 s，本研究通过检测迭代次数增加过程中的网络准确率和损失函数值，加入了早停（Early Stop）模块，选取DenseNet56 在第30 代（epoch）左右时的网络结构，另外网络训练过程中设置初始学习率为1e-3，随着训练代数（epoch）的增加不断递减，一方面保证了网络在训练初期能快速收敛，另一方面避免学习率过大导致网络从训练集中提取的特征泛化性较差和继续训练时带来的网络过拟合问题。

图5 形态学去噪效果前后对比Fig.5 Images before and after morphological denoising

逐像素语义分割的图像边缘容易产生毛刺、非连通区域、噪声；分割的交接区域容易出现像素点交叠的情况。为了使分割图像的输出结果更加平滑精确，本文使用形态学去噪的二值形态学进行运算。二值形态学包括收缩图像边界的腐蚀操作和填充图像内部空洞点的膨胀操作，先膨胀后侵蚀构成了闭运算方法以侵蚀孤立点，填补空洞。

本文使用OpenCV 实现形态学去噪，去噪前网络预测图如图5a所示，去噪后的图像如图5b所示，可以看到图像噪声明显减少，图像更平滑。

1.4 分割精确性评价

本文采用Dice 系数、95%豪斯多夫距离（95%Hausdorff Distance, HD95）、平均表面距离（Average Surface Distance,ASD）3个指标评价自动分割结果。并将基于DenseNet56网络的肺部OAR分割结果与基于ResNet50网络和U-Net网络的自动分割结果进行比较。

1.5 统计学分析

采用SPSS 24.0 统计学软件行ANOVA 单因素方差分析，显著性水平α=0.05，P＜0.05 表示差异有统计学意义。

2 结果

基于DenseNet56网络的肺部OAR分割结果与基于ResNet50网络和U-Net网络的自动分割结果的评价指标Dice、HD95、ASD分别如表1～表3所示。3种网络的平均分割时间分别为（13.63±2.9）s、（12.86±2.7）s、（12.24±2.6）s，P=0.57。某例患者基于DenseNet网络OAR自动分割和手动分割结果对比如图6所示。

3 讨论

根据结果可以看到3 种网络左肺与右肺的分割效果均好于脊髓与心脏，观察CT 图像可以看出，左肺与右肺在原始图像上有明显的边界，深度学习网络比较容易提取边缘特征。而脊髓与左右肺相比，虽然有骨质结构作为支持，也有明显的纹理与边缘区分，但在影像中占的区域面积较少，影像的背景作为负样本数量远远大于脊髓正样本，正负样本不均衡导致了脊髓的勾画精度相对较低。心脏在切片的位置处于中心，其周围有喉管食管等其他器官，影像中心脏的特征表达能力不强，因此较左肺与右肺分割结果稍差。

表1 3种网络的Dice指标比较（± s）Tab.1 Comparison of Dice parameter among 3 networks(Mean±SD)

网络DenseNet56 ResNet50 U-Net P值脊髓0.89±0.01 0.87±0.03 0.86±0.05 0.255心脏0.84±0.10 0.79±0.15 0.82±0.12 0.752右肺0.93±0.06 0.92±0.09 0.92±0.07 0.904左肺0.97±0.01 0.97±0.01 0.96±0.02 0.141

表2 3种网络的HD95指标比较（mm,± s）Tab.2 Comparison of HD95 among 3 networks(mm,Mean±SD)

网络DenseNet56 ResNet50 U-Net P值脊髓1.85±0.36 2.03±0.61 2.42±0.66 0.109心脏15.95±16.0 20.31±12.1 18.65±15.2 0.930右肺9.48±5.50 12.8±12.1 13.2±8.99 0.642左肺6.97±3.41 7.16±2.39 9.56±4.62 0.255

表3 3种网络的ASD指标比较（mm,± s）Tab.3 Comparison of average surface distance among 3networks(mm,Mean±SD)

网络DenseNet56 ResNet50 U-Net P值脊髓0.69±0.13 0.85±0.33 0.86±0.26 0.304心脏6.98±5.55 8.16±6.10 7.52±4.65 0.900右肺1.81±1.61 2.59±3.38 2.55±2.82 0.789左肺1.11±0.51 1.19±0.49 1.72±0.60 0.053

图6 基于DenseNet网络自动分割OAR示意图Fig.6 DenseNet-based autosegmentation of organs-at-risk

在9 例患者OAR 自动分割测试集中，FC_DenseNet 网络的Dice 指标与ResNet 和U-Net 相比平均值略微提高，方差较小，表明FC_DenseNet 自动分割效果较为稳定，模型的泛化性能较好。HD95是衡量分割结果最大畸变程度的指标，其大小受到离群点数量的影响，通过观察分析，9 例测试集患者中FC_DenseNet分割出的图像连续性更强，产生的离群点较少，HD95与ASD两个距离指标均优于ResNet与U-Net。由于每例患者的CT 层数并不相同，其分割时间差异性较大，FC_DenseNet 构建的网络提升了对每一层特征图的利用率，与ResNet和U-Net网络相比，DenseNet每例患者的分割时间平均增加1 s左右。根据2017年美国医学物理家协会（American Association of Medical Physicists,AAPM）年会组织的胸部器官自动分割挑战赛报告提供的评估基准［16］，Dice 值最高的器官是肺部，平均值为0.95～0.98，本研究结果与之较为一致。周正东等［17］提出的带孔卷积块U-Net 神经网络使用了54 个放疗病例进行训练，完成了对肺部OAR 的分割，心脏的平均Dice 系数为0.92，肺部的平均Dice 系数为0.97。由于选用的训练数据集不同，无法比较该方法与本文方法的优劣。但本文采用的训练病例数明显较少，FC_DenseNet在小样本的训练中特征提取能力较强，分割结果与较大数据集训练模型的结果相近。Zhang 等［18］开发了基于ResNet101 卷积神经网络的自动分割（Automatic Segmentation based on Convolutional Neural Network,AS-CNN）系统，左肺分割平均Dice系数为0.94，心脏平均Dice 系数为0.89，右肺分割平均Dice 系数为0.94，脊髓分割平均Dice 系数为0.82，与该方法相比，本研究使用的模型获得的脊髓Dice系数为0.89，分割性能上明显优于AS-CNN，并且本研究使用的是FC_DenseNet网络的轻量级模型，模型结构更精简。

Zhu 等［19］提出了一种基于深度卷积的自动分割模型，对肺癌患者的CT 图像进行分割，模型中使用了带有3D卷积核的U形网络，HD95为7.96～8.74 mm，ASD 为1.81～2.92 mm，分割性能明显优于本研究中的DenseNet 网络，原因可能是本研究中采用的DenseNet 为2D 模型，所提取的特征序列在空间上的连续性较差所致。

目前深度学习网络在医学图像分割主要有3 个发展方向。第一个方向是不断加深网络层级与深度，提取更深层的语义特征以获得更强的网络表达能力，或是将网络展宽增加通道数量，在同一层保证获得更多的信息例如不同频率的纹理特征、不同方向上的边界特征等。第二个方向是通过学习一个病例多个CT 层面的序列关联性质，以获得更有效的空间特征提取能力，以3D U-Net为代表，以及其他的诸多衍生网络。而以DenseNet为代表的第三个方向则是通过将逐层的特征图共享，提高了特征图的利用率，以增强图像的特征表达能力，提高网络的泛化性能［20］。

本研究结果表明，在OAR 分割任务上，与ResNet50和U-Net分割效果相比，即使训练集图像数据较少，FC_DenseNet 仍能有效地防止过拟合的发生，同时将不同层级的特征图反复叠加利用，在训练过程中能有效缓解训练过程中梯度消失的问题，为医学图像分割提供了新的思路。