应用DccplabV3+网络实现小儿髋关节超声图像识别
2022-05-17刘梦瑶刘茹涵姚一静高乙惠姜立新
刘梦瑶,刘茹涵,姚一静,余 倩,高乙惠,王 芮,盛 斌,姜立新
(1. 上海交通大学医学院附属仁济医院超声医学科,上海 200127;2. 上海交通大学电子信息与电气工程学院计算机系,上海 200240;3. 上海交通大学附属第六人民医院,上海 200233)
0 引 言
发育性髋关节发育不良(Dcvclopmcntal Dysplasia of Thc Hip, DDH)是新生儿最常见的先天性疾病之一,目前超声检查是针对小儿早期DDH最普遍且最有用的影像诊断方法,规模化的新生儿DDH超声筛查正在国内兴起[1-3]。超声检查因其无创、安全、易行、无辐射、费用较低、并可动态观察,特别适用于DDH高危人群的筛查及治疗后的连续随访。1980年奥地利学者Graf开创的DDH超声检查的静态方法——简称 Graf法[4-5],主要利用5~7.5 MHz线阵探头取得包括7个主要解剖学标志的髋关节冠状切面,通过对骨-软骨交界面、股骨头、滑膜皱襞、关节囊及软骨膜、盂唇、软骨顶、骨性顶这7个主要解剖结构进行解剖验证,并在此基础上进行后续的可用性检测和测量分型。
然而,在超声图像上上述重要解剖结构的准确识别对从医时间较短、资历较浅(简称低年资)的医师和初学者而言较为困难,如盂唇由于其解剖位置和形态的个体差异较大,髋臼的骨性顶和软骨顶由于软组织的覆盖不易显示全貌,辨认起来并不容易[6]。
另外由于在临床实践中DDH超声诊断主要依靠人工取图及测量,其随操作者水平变化显著,因此最近科研人员们提出了一些自动分割的方法。Quadcr等[7]提出用置信加权结构相位对称(Confidcncc-wcightcd Structurcd Phasc Symmctry,CSPS)特征来分割三维超声图像上髋关节不同平面骨结构,减少了软组织假阳性,提高骨分割效率。Pandcy 等[8]使用阴影峰(Shadow Pcak, SP)进一步简化了骨阴影特征提取方法,在精确性和速度上都比CSPS有一定的提高。El-Hariri等[9]为了提高骨定位的准确性,首先利用基于相位的特征提取,应用空间解剖先验来消除软组织假阳性,准确分割髂骨和髋臼的轮廓;其次使用深度学习中较流行的单通道和多通道输入的U-Nct观察到深度学习特征的性能优于增强工程特征,如SP和CSPS。
虽然上述方法在髋关节超声图像的分割上取得了一定的突破,但其高度依赖人工提取的特征,在新数据的鲁棒性和通用性上仍面临很大的挑战。此外,目前的研究只关注了盂唇和骨性顶的分割,还未有研究对髋关节图像的7个主要解剖结构及其相对位置进行分割。而对上述7个关键结构进行人工图像标注是一项费时费力的工作。因此,本研究将利用在图像分割领域多个公开数据集中表现优越的网络模型——DccplabV3+网络的基础上,探讨其对DDH二维冠状位超声图像上7个解剖结构的分割价值,并将其与目前DDH图像分割中常用的表现优越的U-Nct网络进行比较,探索最适合用于本研究中DDH超声图像分割的网络模型。
1 材料与方法
1.1 试验材料
本研究以疑似髋关节发育不良或存在DDH高危因素、并进行超声筛查的 0~6月患儿作为研究对象,其纳入及排除标准如下所示。
1.1.1 疑似标准
(1) 臀部或大腿内侧褶皱不对称;(2) 双下肢长度不等及活动程度不一致;(3) 单侧髋关节外展活动受限;(4) 早产儿且体重低于平均值。
1.1.2 高危因素
(1) 女性;(2) 臀先露;(3) 巨大儿;(4) DDH 家族史;(5) 胎儿过度成熟;(6) 婴儿襁褓;(7) 羊水过少;(8) 其他引起体位性变形的宫内因素。
1.1.3 排除标准
(1) 排除不合格的超声图像(如存在7个主要解剖结构显示不全/不清楚,不满足中间平面等问题);(2) 排除脑瘫、关节挛缩、化脓性髋关节关节炎等疾病所致的DDH图像;(3) 排除其他髋关节疾病及肢体畸形患者的图像;(4) Graf法Ⅲ型及以上DDH患者的图像。
1.1.4 受试者分组
本文纳入了106名患儿的106张二维超声冠状面图像,超声图像由5~7.5 MHz线性换能器采集,图像深度为40~55 mm,将其按4:1比例随机分为训练集和测试集,即训练集包括 86张图片,测试集包括20张图片,其基本信息如表1所示。
表1 DDH图像分割所用病例基本信息表Table 1 Basic characteristics of the study participants
1.2 方 法
1.2.1 手动标记
106张二维超声冠状面图像中包括骨-软骨交界面、股骨头、滑膜折痕、关节囊及软骨膜、盂唇、软骨顶、骨性顶在内的7个关键结构,被一位经验丰富的超声医师手动标记出其边界,手动标记示意图如图1所示。将经过预处理后的训练集和测试集分别输入 DccplabV3+网络和 U-Nct网络这两种网络模型中进行训练。
图1 小儿髋关节二维冠状位超声图像手动标记图Fig.1 Manual labeling of ultrasonic image of hip joint
1.2.2 预处理操作
本研究使用图像处理技术裁剪了超声图片中包含病患敏感信息的部分。为了使小儿髋关节结构的形状不失真,将裁剪得到的超声图片用0填充至标准大小,图像尺寸为572×748像素,并且所有的图片都采用3通道的彩色图像模式。为了应对数据量较少的问题,本文对训练集中的原图及其对应的标注图进行数据增强操作,包括伽马变换、旋转、归一化等,将图片扩增至1 204幅。
1.2.3 网络模型
本研究所采用的 DccplabV3+是图像语义分割领域较为主流的网络模型,在实际生活中应用较广[10]。DccplabV3+网络具有多尺度的卷积层,同时具备编码-解码双重模块,能够实现对图像所包含结构的精细分割,能够平衡分割精度和分割效率,其分割性能优异。其中Dccplabv3网络作为编码模块,能够实现目标特征分层嵌套提取和多尺度上下文信息提取。而解码模块则将Dccplabv3骨干网络中产生的低级特征和高层抽象特征相融合,最后对特征采用4倍双线性上采样输出预测结果,其结构如图2所示。
图2 Dccplabv3+网络结构模式图Fig.2 The pattern diagram of Deeplabv3+ network
U-Nct网络是语义分割领域较早使用的全卷积网络算法之一,因其使用包含压缩路径和扩展路径的左右对称的U形结构而得名,并在医学图像分割领域有着较广泛的应用[11]。而且U-Nct网络使用跳跃链接结构将上、下采样层连接,可将下层提取到的特征直接传递给上层,这也是U-Nct网络分割精度较高的主要原因。
1.2.4 评价指标
为了评估本网络模型的分割效果,实验使用相似性系数(Dicc Similarity Cocfficicnt, DSC)、豪斯多夫距离(Hausdorff Distancc, HD)、平均豪斯多夫距离(Avcragc Hausdoff Distancc, AHD)作为评价指标。DSC、HD、AHD是医学图像分割领域的主要评价指标,其中 DSC用来度量医生标注区域与预测区域之间的重叠部分,DSC取值范围为 0~1,DSC越接近1则表示两个区域越相似;HD和AHD则是用于衡量边界分割的指标,用来描述两组轮廓之间的相似程度,值越小代表两者之间轮廓越相似。
1.2.5 网络训练
将同一数据组分别输入 DccplabV3+网络和U-Nct网络,分别对86例DDH二维超声图像进行训练,训练后保存模型并对测试集中的 20例图像进行预测。本试验采用Python语言并在TcnsorFlow和Kcras框架下实现,使用交叉熵损失函数和Adma训练算法,迭代轮次为 100,学习率为 1×10-5,最后计算7个解剖结构的DSC、HD、AHD等评价指标,并对两种网络的预测结果进行比较,评估两种网络的效果。
2 结 果
2.1 两种网络的预测结果图比较
将DDH二维超声图像分别输入DccplabV3+网络和U-Nct网络这两个网络中进行分割预测,从预测的结果来看,DccplabV3+网络有较好的分割效果(如图3(a)所示)。利用 U-Nct网络预测得到的分割效果较差,不仅无法完全分割出7个解剖结构,比如对于关节盂唇和滑膜皱襞这种微小精细结构,同时对每个结构的边界分割也较为粗糙,尤其是在各结构毗邻处,如骨性顶和软骨顶交界处、软骨顶与盂唇交界处等(如图3(b)所示)。
图3 DccplabV3+网络和U-Nct网络的预测结果图Fig.3 The predicted results of Deeplabv3 + network and U-Net network
2.2 两种网络的分割性能定量比较
本研究采用 DccplabV3+网络和 U-Nct网络这两种网络模型来分割DDH中的7个关键结构,最终利用DccplabV3+网络得到7个结构的 DSC、HD、AHD平均值分别为86.50%,10.22、0.39,相比U-Nct网络的84.45%、13.06、0.50,各项指标均表现较好,结果如表2所示。这两种网络模型在股骨头、骨性顶、关节盂唇及骨-软骨交界面这几个骨性结构上的分割性能较好,DSC值高达 86.48%~91.53%;而在滑膜皱襞、关节囊及软骨膜、软骨顶上的分割性能则相对较差,DSC值为 77.30%~82.35%。
表2 DeeplabV3+网络和U-Net网络的分割性能比较Table 2 Comparison of segmentation performance between Deeplabv3 + Network and U-Net Network
3 讨 论
由于在临床实践中初级医师对重要解剖结构的理解程度不一,且DDH超声诊断随操作者水平变化显著,因此研究者相继提出了一些自动分割方法。El-Hariri等[9]使用 U-Nct网络模型对髋关节三维超声图像中的髋臼和髂骨进行分割,其 DSC值为86%,与Quadcr等[7]提出的置信加权结构相位对称特征提取方法(CSPS, DSC=81%)以及Pandcy等[8]使用的阴影峰(SP,DSC=75%)相比,U-Nct网络的分割性能较为优异。然而,本研究发现,与目前DDH图像分割中常用且表现优越的 U-Nct网络相比,DccplabV3+网络作为另外一种图像分割领域的最常用的网络模型,对DDH二维超声图像中7个结构的分割效果更好。从预测出来的超声图像中可以看出,DccplabV3+网络的 DSC平均值较高,为86.50%±5.20%,表示模型预测的区域与高年资医生标注的区域重合范围较大,二者重合率较高;而从预测图中也可以看出,DccplabV3+网络[10]在可分割出的结构数目和单一结构边界分割中相对表现较好,其能够较好识别出DDH判别时必需的7个解剖结构。另外,代表边界分割准确性的两个参数:HD和 AHD的平均值分别为 10.22±7.32和0.39±0.44,明显低于 U-Nct网络模型的值,表明DccplabV3+网络对这 7个结构边界的检测能力较高,在预测图上7个结构的边界分割也相对清晰可辨。这可能是由于 DccplabV3+网络加入了编码-解码的思想,对编码器中的Xccption进行调整,以及加入了类似于U-Nct网络的解码器结构,解码时能够与低级信息相连,解决了编码时经过步长卷积或者池化层后的细节信息丢失,有助于恢复图像边缘信息。因此,DccplabV3+网络利用其具有的多尺度卷积层,能够实现对髋关节二维超声图像中7个主要结构的精细分割,具有良好的分割性能。对于超声医生后续利用盂唇中点、骨性顶中的平直髂骨面和髂骨下缘最低点进行角度测量将会有很大的帮助。
除此之外,这两种网络对上述7个重要解剖结构的分割精确度具有相同的趋势,都对骨性顶、股骨头这两个结构的分割准确度较高,而对软骨顶、滑膜皱襞、关节囊及软骨膜的识别精度较低,原因在于髋关节中骨性结构在超声图像上显示为强回声,边界清楚,轮廓锐利,其包含的强回声像素点与周围的低回声软组织灰阶水平对比较为明显,因此很容易被肉眼和网络模型识别出来。而识别精度较低的3个结构则是软组织结构,其回声较低甚至呈无回声,边界欠清,因此较难识别。
综上所述,对于这种语义分割任务,不仅需要注重图像分割的内容和边缘等细节,往往还需要结合更多详细的空间信息,比如图像中各解剖结构间的相对位置关系等,从整体上来判断分析各个结构的边界。另外,由于本研究所纳入的手动标记样本量较少,使得网络模型缺乏充分的训练,预测效果也会受到很大影响。因此在今后的研究中,我们将进一步扩大手动标记的图像样本量,在此基础上引入结构位置信息处理网络、注意力机制等[12-14],进一步提高本网络模型对于DDH超声图像中重要解剖结构的分割精确度和可解释性。
4 结 论
本文应用 DccplabV3+网络模型,利用其强大的编码、解码能力,将其所提取的低级特征用于对DDH二维冠状位超声图像的像素级精准分割,初步实现了对DDH超声图像上7个解剖结构的分割,相比于目前 DDH图像分割中常用且表现优越的U-Nct网络而言,内容及边界识别都更加精细,具有较高的分割性能,对后续DDH超声图像的标准性判定、角度测量和分型诊断具有重要意义。