人工智能辅助诊断儿童发育性髋关节发育不良的临床应用
2021-07-02张思成孙军林昱东袁亮谢康方继红刘传斌谢洪涛
张思成 孙军 林昱东 袁亮 谢康 方继红 刘传斌 谢洪涛
发育性髋关节发育不良 ( developmental dysplasia of the hip,DDH ) 是婴幼儿最常见的骨骼疾病之一,全球发病率为 0.16%~2.85%[1]。诊断 DDH 的主要方法是体格检查、超声检查 ( 6 个月以下婴儿 ) 和骨盆前后位 X 线片[2]。对于 6 个月以上的儿童,最常用的检查是骨盆 X 线片[3]。X 线片上髋关节脱位的具体脱位程度通常是用 Tönnis 方法[4]和国际髋关节发育不良研究组织 ( International hip dysplasia institute,IHDI ) 分型进行确定[5]。判断髋关节髋臼发育情况最常用最重要的指标是髋臼指数,通过 Hilgenreiner 法测量[6-7]。诊断测量 DDH 骨盆前后位 X 线片的重复性差,存在较大的测量误差[8],根据文献报道这种测量误差可以从 ±3.5°~±10° 不等[9-12]。这使许多患儿无法得到可靠的诊断和及时转诊[13]。 近年来,人工智能 ( AI ) 系统在用于图像识别、临床决策和广泛数据集分析等方面的性能已被证明与临床医生相当,甚至优于临床医生[14-16]。独立人工智能诊断医学影像仍然是一个有争议的话题,然而,许多临床医生认为,应用深度学习技术能为改善工作流程和提高劳动效率提供有效的工具[17-18]。
既往鲜有报道计算机辅助诊断 DDH 骨盆影像。 在本研究中,笔者使用临床医生标注的骨盆前后位 X 线片开发、训练和测试了一个计算机化的深度学习卷积神经网络模型。假设在髋关节脱位的判定和髋臼指数的测量中具有较高的准确性。
资料与方法
一、骨盆前后 X 线片
本研究为回顾性研究,并获得了本机构生物医学伦理委员会 ( 安徽省儿童医院医学研究伦理委员会 ) 的批准 ( 批准号:20190021 );由于本研究使用完全匿名的 X 线片,因此放弃了获得知情同意的要求。收集 2014 年 4 月至 2018 年 12 月我院放射科 ( 我院儿骨科年门诊量约 9 万人次,DDH 门诊约每年 1 万人次 ) 共 34 167 张匿名骨盆前后位 X 线片 ( 年龄 10 天~10 岁 )。在拍摄骨盆 X 线片时,患儿标准的仰卧位,双侧骨盆对称;双足第一趾尖相对,尽量控制骨盆旋转和倾斜。排除标准如图1 所示。最后的数据集为 10 219 张:0~2 岁 8577 张,≥ 2 岁 1642 张。随机分为三个队列:( 1 ) 8000 张用于训练使用深度学习方法构建的人工智能辅助诊断系统;( 2 ) 1081 张用于优化系统;( 3 ) 1138 张用于测试人工智能辅助诊断系统性能。详细数据的分布如表1 所示。
表1 总体病例的临床和影像学特征 [ 例 ( % ) ]Tab.1 Clinical and imaging characteristics of the study participants [ case ( % ) ]
二、图像标注
所用骨盆前后位 X 线片根据 Hilgenreiner 和 Tönnis 理论进行标注 ( 表2 )。使用图片存档和通信系统 ( PACS ) 工作站对所有图像上的六个关键点进行标注 ( 图2a )。连接双侧髋臼中心点的线为 Hilgenreiner 线,垂直于 Hilgenreiner 线穿过髋臼外侧边缘点的线为 Perkins 的线,并通过髋臼外侧边缘点绘制与 Hilgenreiner 线的平行线 ( 图2a )。然后使用 Hilgenreiner 和 Perkins 的线相交形成的双侧 Perkins 方格来确定特定的 Tönnis 等级 ( 表2 )。股骨头骨骺未出现的患儿采用 IHDI 方法分类 ( 表3 )。髋臼指数为从‘Y’型软骨的中心点到髋臼外侧边缘点与 Hilgenreiner 线之间的夹角 ( 图2b )。详细的标注过程如下:( 1 ) 标注小组由 13 名临床医生组成。在开始工作之前,统一研究学习了诊断儿童 DDH 骨盆前后位 X 线片的关键点的位置和 Tönnis 分级标准;( 2 ) 10 219 张前后骨盆 X 线片被随机分配给 8 名儿童骨科主治医生 ( 均超过 8 年的儿童骨科临床经验 ) 标注;( 3 ) 然后由 2 名儿童骨科副主任医师 ( 均超过 15 年的儿童骨科临床经验 ) 和 2 名放射科副主任医师 ( 均超过 15 年的儿童影像诊断临床经验 ) 组成的专家委员会对标注的图像进行审查;( 4 ) 如果有任意一个关键点位置不正确或 Tönnis 分级不当,委员会将 X 线片视为不合格。如果专家委员会有分歧 ( 关于关键点的位置或 Tönnis 等级 ),将咨询第三位专门从事儿童骨科髋部成像的主任医师 ( 有超过 25 年儿科骨科影像诊断临床经验 );( 5 ) 未达标的 X 线片被重新标注,直到达标。
表2 髋关节发育不良的 Tönnis 分类Tab.2 Tönnis classification for developmental dysplasia of the hip
表3 IHDI ( 适用于股骨头未出现者 ) 分类Tab.3 IHDI classification for DDH ( not requiring the presence of an ossific nucleus )
图2 标注示意图:前后骨盆 X 线片,摄于 2015 年 5 月 10 日,患儿,女,22 个月 a:6 个红点代表临床医生提出的 6 个关键点,1、2 为“Y”形软骨中心点;3、4 为髋臼外侧边缘点;5、6 为股骨头骨化中心点;b:根据关键点用 Tönnis 方法绘制各线,确定髋臼指数和脱位程度Fig.2 Labeling diagram Anteroposterior pelvic radiographs taken on May 10, 2015. Female, 22 months old. a: The six red dots represented the key points made by the clinician ( 1, 2 = center points of the triradiate cartilage; 3, 4 = lateral acetabular edge points; 5, 6 = ossification center of the capital epiphysis ); b: A line was drawn using the Tönnis method to determine the acetabular index and dislocation
三、网络框架
如图3 所示,笔者应用了一种深度学习方法,即“FR-DDH 网络”,用于 X 线影像的自动诊断。 地标 L 的定位被转换为以 L 为中心的邻域的检测。对于输入图像,网络首先使用 ResNet-101 作为特征提取器,以获得高维特征。继而利用特征映射,区域建议网络生成潜在的邻域区域。接下来,通过感兴趣区域 ( region of interest,ROI ) 池化结合区域和特征来预测区域的标签及其边界框偏移。最后,关键点定位于检测出切片的中心点并计算诊断结果。
图3 网络使用的框架。该网络使用一个 ResNet-101 从输入 X 线中提取特征。然后,通过一个称为“区域建议网络”的结构生成潜在的邻域区域。然后,使用 ROI 池化结合区域和特征,最后得到两个分支的结果,包括分类结果和回归结果。最后,这些结果可以用来计算关键点位置并得到最终的诊断Fig.3 The framework The network contained a ResNet-101 to extract features from the input X-rays. Next, potential neighborhood regions were generated by a structure as region proposal network. Region of interest ( ROI ) pooling combined the regions and the feature maps. Results of the two branches were obtained, including the classification and regression. All data can be used to calculate specific landmarks and determine the final diagnosis
RPN 使用生成的 2048-D 特征生成局部候选集,每个候选集都具有置信度分数。以滑动窗口的方式在卷积特征图上滑动。窗口尺寸设定为长度为 128×256 的方形。
一旦生成了局部邻域候选集,FR-DDH 将候选集和特征通过 ROI 池结合起来。然后,每个特征向量分支成两个输出层:用于分类的 CLS 层和用于 回归边界框坐标的回归层。关键点最终定位在切片中心。
四、系统测试
首先,对采用的方法和模板匹配进行了比较实验。模板匹配块在输入图像中找到模板的最佳匹配。深度学习方案比模板匹配方法得到了显著的改进,因为深度学习有很强的能力来学习医学影像中的复杂结构关系。笔者比较了深度学习系统和临床医生在测试集 1138 张骨盆 X 线片上的诊断测量结果。首先,以临床医生诊断结果为准测试深度学习系统在诊断骨盆线片是否脱位的总体精确度。2 岁前髋关节发育迅速,2 岁后髋关节骨性标志明显。因此,分别测试了深度学习系统在诊断低龄儿童 ( 0~2 岁 ) 和大龄儿童 ( ≥ 2 岁 ) 是否存在脱位的诊断准确性。然后,对深度学习系统和临床医生测量的髋臼指数总体进行了比较分析。还分别比较了低龄儿童 ( 0~2 岁 ) 和大龄儿童 ( ≥ 2 岁 ) 髋臼指数测量的一致性。此外,根据临床诊断是否脱位 (“非脱位”组包括 Tönnis 分级的 0 级和 1 级,而“脱位”组包括 Tönnis 分类的 2~4 级 ) 分别比较两组髋臼指数测量的一致性。
五、统计学处理
所有数据均采用 SPSS 22.0 软件 ( IBM,Armonk,NY,USA ) 和 GraphPad Prism 5 软件 ( GraphPad Inc.,San Diego,CA,USA ) 进行统计学分析。应用 ROC 曲线,评价深度学习系统在确定髋关节是否脱位时的诊断性能。然后用 Bland-Altman 散点图评价深度学习系统和临床医生测量的髋臼指数测量的一致性。当 P < 0.05 代表差异有统计学意义。
结 果
本研究使用 9081 张标准前后骨盆 X 线片训练和优化计算机化的深度学习神经网络模型。测试集包括 1138 例 [ 男 242 例;女 896 例;年龄 0~10 岁,平均 ( 1.5±1.79 ) 岁 ]。其中 989 例 0~ 2 岁,149 例 ≥ 2 岁。1138 例 ( 2276 髋 ) 确定具体的 Tönnis 等级,并测量髋臼指数。测试集中临床医生和深度学习系统诊断不同程度发育不良的骨盆前后位 X 线片诊断结果如图4 所示。深度学习系统和临床医生在 Tönnis 分级方面所作诊断的结果比较见 表4。“非脱位”组包括 Tönnis 分级的 0 级和 1 级,而“脱位”组包括 Tönnis 分类的 2~4 级,结果分布见表5。在测试集结果中有 13 例髋关节临床医生诊断“脱位”,但深度学习系统诊断为“非脱位”;诊断的详细结果详见表6。
表4 深度学习系统与临床医生判断的 Tönnis 分级比较Tab.4 Comparison of Tönnis grading between the system and clinician judgment
表5 深度学习系统与临床医生诊断髋关节“脱位”的诊断分布Tab.5 Distribution of diagnoses of hip dislocation
表6 测试集中 13 例被临床医生诊断为“脱位”,但被深度学习系统诊断为“非脱位”的病例资料Tab.6 A series of 13 cases diagnosed as dislocation by clinicians but non-dislocation by the system
图4 临床医生诊断和深度学习系统的案例。a、b、e、f 为临床医生的诊断,c、d、g、h 为深度学习系统的诊断 a、b:2016 年 7 月 21 日拍摄的骨盆前后 X 线片,患儿,男,6 个月;c、d:2014 年 11 月 2 日拍摄的骨盆前后 X 线片,患儿,女,14 个月;e、f:2018 年 4 月 10 日拍摄的骨盆前后 X 线片,患儿,女,2 岁;g、h:2016 年 12 月 9 日拍摄的骨盆前后 X 线片,患儿,女,7 岁Fig.4 Diagnoses made by clinicians and system. a, b, e, f: Diagnoses made by clinicians; c, d, g, h: Diagnoses made by the system a - b: Anteroposterior pelvic radiographs of a 6-months-old boy, taken on July 21, 2016; c - d: Anteroposterior pelvic radiographs of a 14-months-old girl, taken on November 2, 2014; e - f: Anteroposterior pelvic radiographs of a 2-years-old girl, taken on April 10, 2018; g - h: Anteroposterior pelvic radiographs of a 7-years-old girl, taken on December 9, 2016
在深度学习系统判断髋关节是否“脱位”的性能,以临床医生诊断为准,在测试集总 2276 个髋关节 ROC 曲线下的面积 ( AUC ) 为 0.975,精度为 2254 / 2276 ( 99.0% ),灵敏度为 276 / 289 ( 95.5% ),特异性为 1978 / 1987 ( 99.5% );幼儿组 ( 1978 髋 ) AUC 为 0.974,准确率为 1956 / 1978 ( 98.9% ),敏感性为 265 / 278 ( 95.3% ),特异性为 1691 / 1700 ( 99.5% ) ( 图5 );未满 6 个月的婴儿 ( 190 髋 ),AUC 为 0.952,准确率为 188 / 190 ( 98.9% ),敏感性为 19 / 21 ( 90.5% ),特异性为 169 / 169 ( 100% )。在高年龄儿童组 ( 298 髋 ) 中,准确率为 298 / 298 ( 100% )。图6 显示了深度学习系统的髋臼指数测量与临床医生进行的比较。总的 1138 例 ( 2276 髋 ),与临床医生的测量相比,根据 Bland-Altman 方法确定的 95% 的一致性界限为 -4.0°~3.45° ( bias = -0.27°,P < 0.0001 )。小年龄儿童的髋臼指数测量,95% 的一致性界限为 -4.1°~3.5° ( bias = -0.3°,P = 0.0001 ), 6 个月以下的婴儿,95% 的一致性界限为 -3.87°~ 3.77° ( bias = -0.05°,P = 0.728 ),对于高年龄组儿童,95% 的一致性界限为 3.38°~3.25° ( bias = -0.07°,P = 0.5013 )。“非脱位”和“脱位”组髋臼指数的 95% 一致性界限为 -3.27°~2.94° ( bias = -0.17°,P = 0.0001 ) 和 -7.36°~5.36° ( bias = -1.0°,P = 0.0001 ) ( 图6 )。
图5 ROC 曲线比较由深度学习系统作出的诊断和临床医生作出的诊断 a:所有 2276 例髋关节的诊断结果;b:1978 例髋关节在 0~2 岁患儿中的诊断结果Fig.5 Receiver operating characteristic ( ROC ) curves comparing the diagnoses made by the system and clinicians a: Diagnoses of all 2276 hips; b: Diagnoses of 1978 hips in children aged 0 - 2 years
图6 Bland-Altman 散点图,将深度学习系统的诊断与临床医生的诊断进行比较 a:“非脱位”组;b:“脱位”组;c:幼儿组 ( 0~2 岁 );d:高年龄组 ( ≥ 2 岁 )Fig.6 Bland-Altman plots comparing diagnoses made by the system and clinicians a: Non-dislocation group; b: Dislocation group; c: Young children ( aged 0 - 2 years ); d: Elder children ( aged ≥ 2 years )
讨 论
DDH 早期及时的诊断和治疗至关重要[1,13]。未满 6 个月的婴儿通常通过超声诊断。虽然超声筛查的逐步普及仍有相当数量的病例延迟诊断以及诊断后 6 个月仍未治愈病例,都需要 X 线检查[13,19]。在 DDH 涉及半脱位和脱位的病例中,股骨头有明显的移位一般容易通过 X 线诊断。一旦诊断髋关节半脱位或脱位时,任何年龄的个体都需要治疗,尽管具体的治疗形式可能有所不同[1]。在本研究中的深度学习系统,在测试集 2276 例髋关节中,2254 例髋关节 ( 99% ) 被准确诊断是否“脱位”( 包括半脱位和脱位 );深度学习系统诊断的特异性和敏感性分别为 1978 / 1987 ( 99.5% ) 和 276 / 289 ( 95.5% )。9 例髋关节深度学习系统诊断为有“脱位”,而临床医生诊断为“未脱位”。究其原因其中 2 例由于股骨头骨骺未出现或畸形,很难定位股骨头关键点,另有 7 例因 X 线不规范、骨盆旋转或股骨内收而被深度学习系统误诊为 DDH。另外有 13 例髋关节临床医生诊断为“脱位”,而深度学习系统诊断为“未脱位”。其中 4 例 ( 2 例 < 6 个月 ) 中,由于股骨头骨骺未出现或畸形难以定位,另有 9 例因 X 线片骨盆偏转或股骨内收。尽管这 13 例髋脱位的判断不正确但结合测量的髋臼指数这些病例并没有造成漏诊;因此对于股骨头骨骺未出现的患儿及摄 X 线片体位不正的患儿使用人工智能进行诊断的时候,建议临床医生复核。而对 6 个月以下的患儿由于股骨头骨骺未骨化,超声仍然是一个更优的方法。诊断 DDH 时,鉴别正常和髋臼发育不良的病例较难;髋臼指数是此类病例最重要的指标[1,20]。然而,在 2 岁之前,髋臼指数和髋关节形态都会随着生长发育而发生显著变化;在年龄较大的儿童中,变化程度要小得多[20-21]。正因为如此,在本研究中把病例分组为 0~2 岁和 ≥ 2 岁进行研究。分析发现,在高年龄组中诊断髋关节“脱位”的准确性和髋臼指数测量的一致性比幼儿组更好。与临床医生的测量相比,非脱位组的髋臼指数测量用 Bland-Altman 方法计算的 95% LOA 为 -3.27°~2.94°,而脱位组的 95% LOA 为 -7.36°~5.36°。脱位组髋臼指数误差较大,这与临床医生在测量髋臼指数时所经历的相同问题,由于髋脱位患儿的髋臼外缘不规则,从而导致定位困难[12]。根据以前的报告,不同临床医生的测量误差范围从 ±3.5°~±10° 不等[9-12]。根据 Bland-Altman 原则[22-23]将两种测量方法之间 95% 的一致性界限与临床可接受的误差阈值进行比较;如果 95% 的一致性界限在临床上是可以接受的,则认为这两种方法是可以互换的。在本研究中,非脱位组髋臼指数测量的一致性明显的低于临床医生组间测量误差。应用 Bland-Altman 原理,深度学习系统测量非脱位组髋臼指数可信度较高。在非脱位组中,可根据年龄和该区域的髋臼指数标准进一步确定髋关节是否存在发育不良。深度学习系统能够有效地识别髋关节“脱位”和“未脱位”,且“脱位”组髋臼指数的测量误差在临床上是可以接受的。总的来说,深度学习系统的辅助诊断测量与传统的临床诊断结果有很高的相似性。然而,深度学习系统在速度和批量处理方面都更有优势。深度学习系统诊断每个 X 线片所需时间为 1 s,比临床医生进行人工诊断所需时间短。
这项研究仍有些局限性。( 1 ) 骨盆 X 线片的标注可能存在差异,虽然通过多轮交叉审核,但不同临床医生标注的结果可能有所不同。( 2 ) 对年龄较大和严重脱位的患儿 X 线片数量较少;因此,发现可能不能反映总体情况。( 3 ) 这是一个单一中心 的研究。计划在未来的研究中更加需要继续丰富数据集。
总之,本研究证明了使用深度学习系统对髋关节脱位儿童骨盆前后 X 线片进行初步筛查的可行性。本研究中人工智能辅助诊断 DDH 的初步成功为开发更快速、客观、准确的基于人工智能的 DDH 诊断技术提供了坚实的基础。