基于3D-nnUnet的三维超声胎肺容积自动测量

2022-05-20王琳曹艳邓子微胡炯通梁嘉敏曹晓焱潘文雄严玉玲孙志伟杨鑫倪东

深圳大学学报(理工版) 2022年3期

王琳，曹艳，邓子微，胡炯通，梁嘉敏，曹晓焱，潘文雄，严玉玲，孙志伟，杨鑫，倪东

1）深圳市福田妇幼保健院医学影像科，广东深圳 518016；2）深圳大学医学部生物医学工程学院，广东深圳 518071

胎肺发育不良是一种常见的新生儿呼吸道疾病，新生儿发病率约0.11%，但致死率高达70%［1］.准确评估产前胎肺发育的成熟度，可有效避免胎肺发育不良的发生，对降低新生儿的病死率有重要意义.

传统评估胎肺成熟度的方法有羊水振荡实验、泡沫稳定实验、磷脂成分检测等［2-3］.但这些方法均要做羊膜腔穿刺，不仅费时费力，还存在一定风险，患者接受度较低.在临床上，超声检测是测量和评估胎儿生长状况的主要手段，具有简单、快速、无创和可重复的特点.目前应用超声指标评估胎肺成熟度已受到越来越多临床医生的重视.

近年来采用超声评估胎肺成熟度的方法主要有二维超声测量和三维超声测量.二维超声测量方法主要测量胸围、肺的面积、肺动脉内径、胸围/腹围、胎肺面积/头围等指标［4-5］.但当孕妇患有妊娠糖尿病或胎儿本身存在异常时，二维超声测量方法对胎肺成熟度的评估会受到一定限制.三维超声测量方法主要测量胎肺容积.研究认为用二维超声测量方法评估胎肺成熟度的敏感性和准确性较三维的方法低，如VERGANI 等［6］分别使用三维超声和二维超声测量值进行胎肺成熟度评估，结果显示使用三维超声测量值进行胎肺成熟度评估更可靠，在特异性和敏感性上更具有优势.

目前常用的三维超声胎肺容积测量方法包括平行切面法［7］和虚拟器官计算机辅助分析（virtual organ computer-aided analysis，VOCAL）［8］.平行切面法通过逐层手动勾画出肺边界来计算胎肺容积，VOCAL 是一种三维超声体积自动测量技术，通过转角位从不同角度来手动勾画胎肺边界以测算胎肺容积.研究显示两者均可测量正常或者发育不良的胎肺，但VOCAL 的准确性较高，重复性较平行切面法稍差［9］.然而，两种方法在临床使用时，都会受到操作者经验的影响，易产生假阴性或假阳性［10］，且三维数据的勾画相对繁琐和耗时，临床实用性差.因此，三维超声胎肺容积测量急需精确高效的自动分割和测量方法的探索.

近年来深度学习在医学影像领域得到了广泛的应用，也令三维超声图像自动分割技术飞速发展.YANG等［11］使用基于三维的卷积神经网络从胎儿超声体数据中自动分割出了胎儿、妊娠囊和胎盘，实现了更准确和快速的分割.YANG等［12］提出了一种结合渲染式对比学习和半监督学习的三维分割算法框架，解决了小样本标注和边缘模糊问题，实现了三维超声影像中的卵巢和卵泡的精确分割.应用深度学习进行胎肺三维分割的可行性强，且前景广阔.

然而，胎肺三维超声图像质量较差，这为胎肺精确分割带来了挑战.图1给出的胎肺三维超声图像展示了当前精确分割面临的4种主要困难：①胎肺与周围组织的对比度小，难以精确区分胎肺区域，见图1（a）；②胎肺边缘模糊，难以精确分割，见图1（b）；③不同孕周胎肺大小变化大，增加了分割模型的学习难度，见图1（b）与图1（c），图1（b）为 16 孕周的胎肺，图 1（c）为 25 孕周的胎肺；④图像存在阴影和遮挡，会对分割模型造成干扰，见图1（d）.其中，蓝色线区域为医生手动勾画的右肺；红色线区域为医生手动勾画的左肺；橙色箭头指示胎肺图像存在其他组织遮挡；绿色箭头处指示图像存在阴影.

图1 胎肺三维超声图像分割困难示例Fig.1 Examples of difficulties in segmenting fetal lung three-dimensional ultrasound images

针对上述问题，本研究基于3D-nnUnet［13］首次提出一种对胎肺三维超声图像进行自动精确分割容积测量的方法，主要贡献可总结为：①首次从不同孕周的三维超声胎肺容积图像中高效稳定地精确分割出胎肺，填补了临床三维胎肺精确分割方法的空白.②采用网络动态自适应模块自动生成最适合于胎肺三维数据的网络配置，有效克服了胎肺图像组织对比度低和边缘模糊的问题，提升了分割精度.③创新性地提出困难样本聚焦和简单样本惩罚（hard-mining and easy-penalized，HMEP）损失，通过关注困难样本、减少简单样本影响的方法解决胎肺超声图像在不同孕周差异大、样本分布极不均衡导致分割模型泛化能力差的问题，进一步提升了分割精度，也为分割任务中正负样本强烈不平衡的场景提供解决方案.④能够做到对胎肺容积的自动准确测量，其自动测量结果与医生手动勾画结果经检验无显著性差异，可提高临床三维胎肺容积测量的效率与准确度，为进一步的胎肺成熟度评估提供有力依据.

1 三维超声胎肺自动分割方法

本研究提出的胎肺三维超声自动分割与容积计算框架包含预处理、网络自适应、网络训练和测试，以及后处理4个步骤，如图2.在预处理阶段，对数据进行裁剪、重采样、标准化和多种数据增强.在网络自适应阶段，根据数据大小选择最合适的patch 尺寸，生成两种动态网络配置.在网络训练和测试阶段，先采用五折交叉验证对生成的两种网络分别进行训练，通过验证集选择表现最佳的网络配置；在测试时，对得到的最佳网络进行多模型集成推理，获取自动分割的预测图像.在后处理阶段，通过保留两个最大连通域得到最终的分割图像并计算预测胎肺容积.

图2 胎肺三维超声自动分割与测量流程Fig.2 The flow chart of automatic three-dimensional ultrasound segmentation and measurement of fetal lung

1.1 网络动态自适应模块

三维超声图像尺寸巨大且大小不一，这对图像的特征学习和计算机性能要求带来巨大挑战.为保证有效利用有限的计算资源，传统的解决方法有：①设计合适的patch 尺寸并基于patch 进行图像分割，这样可以固定网络输入，但会损失大量的上下文信息，造成分割结果不连续和出现伪影现象.②将图像统一缩放至较小尺寸来固定网络输入，但这样会降低图像质量，损失许多细节信息，以至于无法得到较好的精细化分割结果.为避免以上问题，本研究提出网络动态自适应模块，根据现有计算条件选择合适的patch 尺寸，生成相应的网络配置.主要设计思路是：根据胎肺三维超声预处理后图像的实际大小，选择适合所用图形处理器显存的patch尺寸，并由此得到分割时网络下采样的次数K和卷积层总数5K+ 2.这样就可以使网络结构自动适应输入patch 尺寸与空间，确保网络能接受的区域大小覆盖整个输入.选择合适的patch 尺寸的过程如图3.

图3 网络动态自适应模块patch尺寸的选择机制Fig.3 Selection mechanism of patch size in network dynamic adaptive module

1.2 分割网络设计

胎肺数据在不同孕周大小差异巨大，因此对分割网络的适应能力也不同.为找到适应不同孕周数据的分割网络，本研究基于3D-nnUnet 设计了两个独立网络：①FRUnet（full resolution Unet）：网络在全像素数据上运行，基于patch 尺寸直接进行精细化分割；②CUnet（cascade Unet）：专门为胎肺数据中较大的体数据设计，先在低分辨率图像上得到粗分割结果，在此基础上再进行细分割，进行细节的补充和调整.这两种网络架构都适合胎肺三维超声数据，故本研究同时对这两种网络进行训练，根据交叉验证结果自动选择一个表现更好的网络配置.

本研究设计的胎肺分割网络框架如图4.胎肺三维超声图像以patch 为单位，在FRUnet 网络和CUnet 网络模块中进行特征学习.FRUnet 模块由1个 3D UNet［14］组成，CUnet 模块由 2 个 3D UNet 级联组成.3D UNet 网络下采样结构中采样次数K与卷积层的总数由patch 尺寸决定.每个patch 通过K次下采样快速聚合上下文信息，一直下采样到特征图达到最小体素(4 × 4 × 4).每次下采样操作进行2次“卷积—标准化—激活函数”的操作.每次上采样均通过转置卷积实现.其中，下采样每个尺寸的特征图均通过跳跃连接与上采样得到的相应尺寸的特征图进行融合.

图4 胎肺三维分割网络框架Fig.4 The framework of three-dimensional fetal lung segmentation network

1.3 损失函数设计

损失函数关系着网络的学习和收敛，对网络的性能起着关键作用.在三维分割中最常用的损失函数为骰子损失（dice loss）［15］，用来衡量预测图和金标准两者间的重叠程度，可较好地解决分割任务中正负样本强烈不平衡（前景区域较小）的问题.但实际上，dice损失在训练过程中更侧重对前景区域的挖掘，在小目标情况下容易不稳定，对困难样本和不均衡的样本关注度不够.对于分割困难样本的学习，焦点损失（focal loss）［16］通过调节简单样本权重降低的速率，加强网络对困难样本的关注度.TopK 损失（TopK loss）［17］通过强迫网络在训练过程中关注少数困难样本，使模型在学习的过程中可以更好地专注于复杂不均衡样本.两者都没有过多关注样本前景区域.

本研究针对胎肺数据在不同孕周胎肺图像差异大和样本数量在不同孕周分布极其不均衡的问题，融合dice 损失、focal 损失和TopK 损失的优势，创新性地提出HMEP 损失与简单样本惩罚（easypenalized，EP）损失，使网络在保证对前景区域足够挖掘的基础上，加强对困难样本和不均衡样本的关注，进一步提升网络的学习能力.HMEP损失是dice 损失、focal 损失和TopK 损失的复合损失函数，即

EP 损失是dice 损失和focal 损失的复合损失函数，即

其中，Ldice、Lfocal和LTopK分别为 dice 损失、focal 损失和TopK损失，即

这里，N为体素总数；C为类别数；本研究log默认以e 为底；c为像素i的正确分类；为体素i的类标签c的真实二元指示符；为对应的预测分割概率；γ为权重因子；本研究设置K为10%表现最差像素的集合.

2 实验

2.1 数据采集

实验数据采集自深圳市福田妇幼保健院超声科，所用的超声设备型号为GE e8、GE e10和三星Ws 80，使用三维容积探头共采集到325 个胎肺三维超声数据.经产科专家纳入排除，均确认为正常胎肺数据.所有数据由6 位中高年资医生（临床经验6 ～10 a）在横断面上逐帧精确标注左右两个胎肺轮廓，并由2 位高年资医生（临床经验＞10 a）进行严格核查修改.在本研究中，290 个三维样本数据及其标注用于实验，35个样本数据用于独立测试.实验数据涵盖16 ～40孕周，其分布如图5.用于分割的二维数据和分割标注是由三维数据及其标注在横断面上切分出来的，实验数据集规模与划分如表1.

表1 二维和三维实验数据集划分Table 1 Two-dimensional and three-dimensional experimental data set division

图5 胎肺数据孕周分布Fig.5 Distribution of numbers of fetal lung samples in different gestation weeks

2.2 数据预处理

在本研究中，用于胎肺二维分割实验的图像经中心裁剪并缩放至448 × 448 像素，再进行标准化处理（图像的像素矩阵减去均值并除以其标准差）.在3D-Unet 分割实验中，用于胎肺三维分割实验的三维图像经中心裁剪并缩放至256 × 256 × 256 体像素，训练集通过随机裁剪进行数据增强.在3D-nnUnet分割实验中，先利用三维图像的标签寻找一个最小的三维边界框，裁剪掉与三维图像无关的区域.之后为保持三维图像中单个体素所代表的实际空间大小一致，在确定重采样的目标空间大小后，根据目标空间确定每个三维图像的目标尺寸，并对三维图像尺寸进行调整.最后，对每个三维胎肺图像利用自身均值和标准差进行标准化.

2.3 网络设置

本研究将提出的三维分割网络与常用的二维和三维分割网络进行对比.所用二维分割网络包括：①FCN［18］：采用FCN-8s，通过反卷积将特征图恢复到原图大小，其骨干网络为VGG-16；②Unet［19］：通过跳跃连接将下采样提取的不同尺度胎肺特征图像依次融入上采样过程；③PSPN［20］：利用金字塔池化在不同层次上融合提取到的胎肺特征，其骨干网络为 ResNet-34；④ DeeplabV3+［21］：应用膨胀卷积和深度可分离卷积，将空间金字塔池化和编码解码操作融合成一体，其骨干网络为ResNet-101.进行三维分割对比实验的是3D-Unet，保留二维Unet 原有模块结构，将三维卷积算子替换为原来的二维算子.

所有分割网络均使用Adam 优化器，初始学习率为1 × 10-4，权重衰减因子为0.01.所有网络均基于PyTorch学习框架，操作系统为Linux，在两块型号为NVIDIA GTX3060Ti 的GPU 上进行训练.考虑到胎肺数据在不同孕周分布极不平衡，在二维分割实验中采用focal 损失，其中γ= 2.在三维分割实验中，采用EP损失与HMEP损失作为损失函数.

2.4 评估指标

1） Dice 相似度系数（dice similarity coefficient，DSC）用来衡量两个分割区域G与S之间的相似性，DSC的值越大越好.在本研究中用来计算网络分割结果与真实标注结果间的相似度，表达式为

2）交并比（intersection over union，IoU）用于度量区域X与Y之间的相似性，其值越大越好，表达式为

3）豪斯多夫距离（Hausdorff distance，HD）描述分割区域X与Y边缘之间的距离，其值越小越好，表达式为

其中，x和y分别是区域X与Y中的点；‖x-y‖表示点x与y之间的欧氏距离.

2.5 优化与后处理

为得到二维胎肺分割的最优结果，针对胎肺图像边缘模糊与图像对比度差的问题，本研究提出3种优化策略：①上采样增加边缘分支，使网络在反传时能够学习到更多胎肺边缘信息，增强网络对胎肺边缘的约束.②测试时增强（test time augmentation，TTA），在二维分割模型推理测试阶段，将原始测试图像进行水平翻转等数据增强，再对推理的多个结果进行综合得到平均输出作为最终分割结果.③边缘优化+TTA，即将前两种方法综合起来同时使用.在三维分割实验中，针对过分割的问题，本研究采用保留最大两个连通区域以去除分割结果中的冗余组织，提升三维胎肺分割效果.

3 实验结果及分析

3.1 二维分割对比实验结果及优化分析

为探究在二维胎肺图像中可达到的最佳分割效果，本研究进行了二维分割对比实验.表2给出了二维分割实验中，分别采用FCN、Unet、PSPN 和DeepLab V3+网络在测试集上的分割结果，以及分割效果表现最好的DeepLab V3+网络使用不同优化方法后的分割结果.由表2 可见，DeepLab V3+网络的分割性能最佳，其分割的DSC可达82.5%，能够比较准确地分割出胎肺.采用边缘优化与TTA相结合的优化方法能使DeepLab V3+网络的DSC 提升至83.2%，IoU 可达71.2%，HD 指标减至6.325 mm，表明该优化方法进一步提高了网络对胎肺的分割准确率.

表2 不同二维分割方法分割结果1）Table 2 Segmentation results of different two-dimensional segmentation methods

由表2可知，采用二维网络在测试集上分割出胎肺的平均DSC 超过80%，平均IoU 超过69%，平均HD小于7 mm，说明采用二维网络分割胎肺的方法虽然可行，但离精确分割还有一定差距.实际上，二维分割忽略了胎肺的空间信息，不能学到胎肺在空间中的连续性，这是二维分割胎肺方法的固有局限，也是导致二维分割胎肺不精准的最大原因.

图6 展示了不同二维分割网络分割结果.其中，图6（a）为二维B超原图；图6（b）为医生的手工标注结果（金标准）；图6（c）—（f）依次为采用FCN、Unet、PSPN和DeepLab V3+网络的分割结果.由图6可见，FCN网络分割效果最差；Unet与PSPN网络次之，分割结果不够精细；DeepLab V3+网络既能较完整地分割出胎肺，亦能保证分割出的胎肺边缘比较精细，更贴近人工标注的水准，因此分割效果最好.

图6 不同二维网络对胎肺的分割结果Fig.6 Segmentation results of fetal lungs by different two-dimensional networks

3.2 三维分割结果及优化分析

表3记录了3D-Unet和3D-nnUnet两种三维分割网络采用不同的损失函数时，在测试集上获得的性能指标和平均分割时间，同时记录了分割结果经后处理优化前后网络的分割性能指标.结果表明，当两种网络均采用dice 损失时，3D-nnUnet 网络的各项分割性能均明显优于3D-Unet 网络，分割后DSC达85.3%，IoU 达74.4%，HD 达5.882 mm，高于二维分割实验中DeepLab V3+网络达到的最佳分割性能（表2），可见采用三维网络分割胎肺的方法优于采用二维网络的分割方法.采用HMEP 损失的3D-nnUnet 网络的分割性能要优于使用dice 损失与EP 损失，其DSC 达85.3%，提升了1.8%.对比4 种网络分割方法所用时间发现，3D-Unet 网络采用dice 损失分割胎肺的平均时间约为1.4 s；3D-nnUnet 网络分别采用dice 损失、EP 损失和HMEP损失分割胎肺的时间相差无几，平均用时均接近2.6 s.可见，3D-Unet网络在分割效率上略高于3D-nnUnet 网络，而采用何种损失函数对于3D-nnUnet网络模型的分割效率几乎无影响.

表3 不同三维分割方法经后处理前后的分割结果1）Table 3 Segmentation results of different three-dimensional segmentation methods before and after post-processing

图7展示了同一三维胎肺图像在不同三维分割方法下的分割结果.其中，图7（b）为医生手动标注的金标准；图7（c）和（d）分别为采用dice损失的3DUnet和3D-nnUnet网络的分割结果；图7（e）和（f）分别为采用EP损失和HMEP损失的3D-nnUnet网络的分割结果.由图7 可见，3D-Unet 分割的胎肺结果中明显存在其他组织，分割效果差；3D-nnUnet 网络采用dice 损失时，分割出的胎肺明显好于3DUnet网络，但和金标准相比，肺尖和肺底存在欠分割现象，对胎肺边缘的分割也不够精准，这说明dice损失未能较好地关注到困难样本，对目标边缘的约束也不够；当3D-nnUnet采用EP损失时，通过添加focal损失来降低易分割区域的样本权重，增强了网络对肺尖和肺底这些较小的困难区域的学习，分割效果比使用dice损失有一定提升，但与金标准相比，胎肺部分边缘仍较难与其他组织区分，存在过分割现象；当3D-nnUnet网络采用HMEP损失时，因在EP损失的基础上增加了TopK损失，强迫网络在训练过程中关注困难样本，令网络在保证对前景区域足够挖掘的基础上，进一步提升了网络的学习能力.结果显示，相比其他方法，采用HMEP损失的网络分割效果最好，在肺尖肺底和胎肺边缘这些困难区域的分割都有一定提升，整体分割效果与人工标注的金标准结果最接近，说明所提HMEP损失的三维分割策略在关注困难样本的学习上有效.

图7 不同三维分割网络采用不同损失函数的分割结果Fig.7 Segmentation results of fetal lungs by different 3D segmentation networks with different loss functions

对比表3中未经后处理优化和经后处理优化后不同三维分割方法下的各项分割结果发现，本研究提出的后处理优化方法有助于提高网络对三维胎肺的分割精度.与其他分割方法相比，采用HMEP损失的3D-nnUnet 网络分割结果表现最佳.经后处理优化后，分割性能得到进一步提升，DSC 达85.7%，提升了0.4%，能较精确地分割出胎肺，进一步减小了胎肺容积的测量误差.

图8展示了2例三维超声胎肺数据在3D-nnUnet最佳分割模型结果在后处理前后分割出的三维胎肺结果.由图8可知，网络的分割结果未经后处理方法优化时，分割结果存在冗余的组织，模型表现出过分割的性能.但是，后处理优化方法能帮助网络去除分割出的冗余组织，解决分割过拟合的问题，从而使网络能更精确地分割出胎肺.

图8 后处理优化前后分割结果可视化示例Fig.8 Examples of segmentation results before and after post-processing optimization

3.3 分割模型稳定性分析

为分析所提分割模型的稳定性及其在不同孕周大小胎肺数据的分割性能，本研究采用35 例孕周分布在 16 ～ 20、21 ～ 25、26 ～ 30、31 ～ 35 和 36 ～40孕周5个区间的独立测试数据，由高年资医生统一标注审核，再经本研究提出的分割网络模型统一进行预处理和测试.表4为不同孕周数据各项分割评估指标平均结果的统计.结果表明，本研究提出的胎肺精确分割模型在不同的孕周对胎肺分割的准确率比较稳定，模型稳定性好，平均准确率超85%，平均IoU 超75%，平均HD 小于6 mm.无论是在大孕周还是在小孕周，网络都能保持较高性能，且在大孕周上分割性能更佳，HD值更小.

表4 不同孕周数据各分割评估指标的平均结果Table 4 The average results of each segmentation evaluation index in different gestational weeks

3.4 自动分割和手动勾画一致性分析

为分析所提分割网络模型所预测的胎肺容积和医生手动勾画计算的胎肺容积之间的差异，对35例16 ～40 孕周的胎肺数据进行一致性分析，包括皮尔逊相关性分析、配对样本t检验和Bland-Altman图.胎肺容积真实值与预测值的散点图如图9（a）所示，两者间皮尔逊相关系数r2= 0.99.其中，SSE 为真实与预测值之间的误差平方和；n为样本数.由图9（a）可知，真实值与预测值之间存在很强的线性相关性.本研究采用配对样本t检验来比较胎肺容积真实值与预测值之间的差异，在显著性水平为0.05 的情况下，所得P值远小于0.05，因此认为通过网络分割出的胎肺容积与医生手动标注的胎肺容积之间无明显统计学差异.图9（b）为自动分割方法与医生手动勾画方法间的Bland-Altman图，横坐标为两种方法的平均值，纵坐标为两种方法的差值.由图9（b）可见，所有数据均介于两者差值的95%区间，即差值的1.96的标准差(±1.96s)范围内，说明自动分割方法和医生手动勾画方法具有非常强的一致性.

图9 胎肺容积真实值与预测值间一致性检验结果Fig.9 Results of the consistency test between the true value and the predicted value of fetal lung volume

结语

针对目前临床上基于三维超声胎肺容积测量结果不准确和实用性差的问题，提出一种基于3D-nnUnet、网络动态自适应和HMEP损失的三维胎肺超声自动分割和容积测量方法.此方法是一种从胎儿三维超声肺部体数据中实现自动精确分割胎肺的较理想的方法，填补了临床上精确分割出胎肺方法的空白.此方法能够提高临床三维胎肺容积测量的效率与准确度，为进一步实现快速、无创的胎肺成熟度评估提供有力依据.这规避了传统方法有创性和接受度较低的缺点，在诊断胎儿肺发育不良及评估肺成熟度方面有较好的应用前景.