基于深度学习的MRI诊断半月板损伤的研究进展
2022-11-21胡伟艺苏娴彦柯晓婷陈焱锋赖清泉
胡伟艺,苏娴彦,柯晓婷,陈焱锋,赖清泉
半月板是位于胫骨和股骨关节面之间的两片纤维软骨结构,在膝关节的结构和功能中起着重要的作用,半月板损伤会导致膝关节加速和不可逆的退行性改变。半月板手术是全球最常见的骨科手术之一。半月板损伤可分为变性和撕裂,两者在临床治疗手段的选择和预后方面具有较大差异,且由于半月板的血液分布特点[1-2],也导致不同区域的半月板损伤在治疗手段和预后的差异,因而明确诊断半月板的损伤类型和部位至关重要。
MRI具有无创、无辐射性、高软组织分辨率等特点,其流体敏感序列对半月板撕裂的检测能够准确反映半月板撕裂的位置、撕裂类型、半月板形态等。基于荟萃分析,对比关节镜检查,MRI 诊断内侧半月板撕裂的敏感度为89%、特异度为88%,诊断外侧半月板撕裂的敏感度为78%、特异度为95%[3],是半月板损伤的首选检查,目前在很大程度上取代了关节镜的诊断。
当前,基于人工智能的疾病检测是一个方兴未艾的领域,人工智能看似无限的可能性引起了放射学家的极大兴趣,不同类别的计算机算法已被应用于执行广泛的放射学诊断任务。深度学习方法能够自动学习特征层,非常适合于对医学图像及其诊断之间的复杂关系进行建模。用于疾病检测和图像判读的深度学习算法的兴趣主要在于通过降低3%~5%的人为错误率来提高图像判读的诊断性能,以及加快图像判读和报告生成[4]。利用卷积神经网络(convolutional neural network,CNN)进行深度学习的发展是放射学领域最新的、最重要的技术进步之一。CNN 是人工智能的一个快速发展的子集,非常适合解决基于图像的问题[5-7],它能够以与人类相似甚至更高的精度自动识别和定位图像中的对象[5],提高疾病检测的效率和准确率。
1 基于深度学习诊断半月板损伤的研究
近年来,随着对人工智能在医学领域应用的认识提高和临床实践的开展,利用深度学习方法检测半月板撕裂的研究也在逐渐增多。根据神经网络预训练的特点,可将相关研究分为利用迁移学习[6-7]方法的研究和利用定制神经网络的研究。
1.1 利用迁移学习方法的研究
ImageNet大规模视觉识别是对数百个对象类别和数百万张图像进行对象类别分类和检测的基准[8]。Bien等[9]将AlexNet[10]部分的权重初始化为在ImageNet 数据库上优化的值,然后微调这些权重以适应目标MRI 数据集,开发了基于聚合2D CNN 的全自动深度学习模型“MRNet”。该研究以3 名骨肌组放射诊断医生的诊断共识为标准,利用MRNet 从1370 例膝关节冠状位T1 加权、矢状位T2 伴脂肪饱和、轴向质子密度加权成像(proton density weighted imaging,PDWI)伴脂肪饱和MRI 图像检测前交叉韧带损伤、半月板撕裂以及除外前述两者的其他异常,并将该模型的性能与普通放射科医生及骨科医生比较。但是该模型的主要优势在于前交叉韧带撕裂的诊断,其检测半月板撕裂的敏感度为71%,特异度为74%,准确率为73%,明显低于参与研究的普通放射科医生。此外,在该模型的辅助下,普通放射科医生及骨科医生检测半月板撕裂的表现并没有得到统计学上的显著改善,这或许是受到小组规模的限制。
Bien等[9]的研究结果显示相应模型检测半月板撕裂的性能相对较低。创建一个深度学习模型,并从头开始训练整个系统是实现人工智能的一种方法。然而,一般的CNN是由数百万个节点和权重组成的,通常数量越多,CNN的性能越好,这意味着只有大型数据集才能支持其训练过程。但是在基于医学成像的深度学习应用中获取明确的大量成像数据是一个极端的挑战。而改进CNN体系结构或者联合两种及以上CNN以提高模型性能可能是另一种行之有效且便捷的方法。Qiu等[11]根据两种不同结构的CNN 的特点和迁移学习的思想,将不同结构的浅层CNN1 和深层CNN2 并联组成新的深度学习模型“CNNf”。CNNf 通过综合CNN1 捕获的简单低层特征和CNN2 捕获的复杂高层特征检测MRI 图像中的半月板损伤。以骨肌组放射科医生的诊断为标准,CNNf 的性能要优于CNN1 和CNN2,其准确率为94%,敏感度为91%,特异度为95%,AUC为0.97。因此该研究表明改进神经网络结构从而提高其性能的方法具有一定的可行性,但尚需要更多的数据验证和帮助模型获得更好的泛化性能并减少过拟合问题。
Couteaux等[12]利用在外部数据集上进行了预训练的Mask-RCNN(mask region-based convolutional neural network)[13]模型对1128 例矢状位脂肪抑制的膝关节MRI 图像进行半月板定位和撕裂检测的训练,而后将Mask-RCNN 级联成一个浅层ConvNet[13]对撕裂半月板进行撕裂方向分类训练和验证,最后利用这一方法对外部提供的700 例病例进行验证。考虑到由于半月板前后角损伤的不平衡和可用于训练的前半月板撕裂数量较少[14],因此该研究将一个及以上网络检测到半月板前角撕裂时认为半月板撕裂,而当绝大多数网络检测到半月板后角撕裂时将半月板后角归类为撕裂。该模型在半月板角的定位、撕裂的检测以及撕裂方向的诊断三项任务中的AUC 均为0.91。
1.2 利用定制神经网络的研究
1.2.1 撕裂方向的研究
与Couteaux 等[12]的方法类似,Roblot 等[15]也基于RCNN 从矢状位2D MRI 切片中检测半月板撕裂。该研究包括三个步骤:首先检测两个半月板角的位置;其次确定有无撕裂;最后确定撕裂的方向。将该算法应用于700 例病例图像组成的测试数据集进行外部验证,得到该算法检测半月板位置的AUC为0.92,检测半月板撕裂的AUC 为0.94,检测撕裂方向的AUC为0.83,最终加权AUC为0.90。该实验还尝试合并三个步骤,但模型表现出的性能并没有优于上述方法。Couteaux等[12]和Roblot 等[15]方法的优点是都对半月板撕裂的方向做了分类,共同不足是使用的MRI 图像仅包含单个序列的矢状位两幅图像,而膝关节的MRI 检查通常包含几十幅图像。此外,研究只分析正常半月板和异常3级高信号强度的半月板,没有1级或2级异常高信号强度半月板,限制了模型的适用性。
1.2.2 内外侧半月板研究
由于外侧半月板活动度相对较大而不容易损伤,其损伤的概率约为内侧半月板的三分之一,因而可获取的用于模型预训练的外侧半月板损伤MRI 图像数据集较少。加上内外侧半月板形态学的差异等,似乎很有必要将内外侧半月板损伤的研究加以区分。Rizk等[16]以骨肌组放射科医生的诊断作为参考标准,开发了一种基于CNN 的深度学习模型,用以检测冠状面和矢状面PDWI 脂肪抑制序列的半月板撕裂以及移位。在内部测试数据集上,CNN 检测内侧半月板撕裂的敏感度为89%,特异度为84%,准确度为87%,AUC 为0.93;检测外侧半月板撕裂的敏感度为67%,特异度为88%,准确度为82%,AUC 为0.84。对于半月板撕裂移位检测,内侧半月板的敏感度为80%,特异度为85%,准确度为83%,AUC 为0.91;外侧半月板的敏感度为57%,特异度为95%,准确度为93%,AUC为0.95。当直接使用Bien等[9]之前发表的MRNet数据集进行外部验证时,在不区分内侧和外侧半月板撕裂的情况下,该模型的总体性能下降,敏感度为77%,特异度为84%,准确度为81%,AUC为0.83。经过微调后,性能分别提高到81%、87%、84%和0.89。可见,该模型被应用到外部数据时仍需要微调。Fritz 等[17]以关节镜手术结果为参考标准,利用全自动深度CNN (deep CNN,DCNN)评估在冠状面和矢状面脂肪抑制的液体敏感MRI 图像上检测和区分内外侧半月板撕裂的性能,并与两名骨肌组的放射科医生做对比。该DCNN 模型首先在一个包含20 520 项符合预处理标准的MRI 研究数据库中进行训练和验证,而后该模型被应用于100 例具有关节镜手术结果的半月板MRI 数据集进行验证。最终该DCNN 模型对内侧半月板的敏感度为84%,特异度为88%,AUC为0.78,对于外侧半月板撕裂,DCNN的敏感度为58%,特异度为92%,AUC 为0.78。相比之下,DCNN 检测内外侧半月板撕裂的特异度和准确率与骨肌组的放射科医生相似,但敏感度低于后者。Rizk等[16]的研究中也存在类似问题。研究者认为这可能与研究的统计能力较低有关,因为只有24 名患者有外侧半月板撕裂。值得注意的是,放射科医生和DCNN对外侧半月板撕裂检测的敏感度总体上都相当低。而系统评价也报告了检测外侧半月板撕裂的敏感度为78%,远低于内侧半月板撕裂检测的89%的敏感度[3]。考虑到两位放射科医生都是专业的骨肌组医生并表现出良好的读者间一致性,这可能是由于一些外侧半月板撕裂在MRI 上看不到,因此可能也被DCNN遗漏,这一假设得到了DCNN与放射科医生大量假阴性评估的支持。为了保持与DCNN 的一致性,该研究选择对两位放射科医生隐瞒患者的临床病史、术中发现及膝关节手术的适应证。但这与临床常规相悖,提供给DCNN 模型患者的临床信息以还原放射科医生的工作日常将会使研究结果更具有代表性。此外,对于半月板的评估,DCNN仅使用了冠状位短时翻转恢复(short time inversion recovery)序列和矢状位脂肪抑制的增强成像序列,而放射科医生使用了全套膝关节MRI 序列,这可能对放射科医生的诊断性能产生了积极影响。
1.2.3 感兴趣区分割研究
研究表明,与半月板损伤诊断相关的特定特征局限于膝关节MRI 图像中心的小尺寸范围内[18-19]。关注疾病解剖结构的特定特征对于提高模型的诊断能力至关重要。Pedoia等[20]使用2D的分割网络自动分割半月板,使用3D CNN自动检测半月板损伤并进行严重程度分期,证明了基于CNN 的半月板撕裂全自动检测在PDWI三维MRI图像重建中的可行性。以放射科医生为参考标准,CNN 检测半月板撕裂的敏感度为82%,特异度为90%,AUC 为0.89。在半月板损伤严重程度分期中,对于完整的半月板,准确率达到了81%,对于轻到中度的撕裂,准确率达到了78%,对于严重的撕裂,准确率达到了75%。该深度学习方法考虑了年龄和性别等人口统计学因素,遗憾的是文章中并没有给出有无人口统计学因素对结果的影响。Astuto等[21]则利用3D分割网络分割膝关节骨、软骨、半月板和韧带,基于3D CNN 模型来检测3D MRI 图像中的感兴趣区域以及软骨、骨髓、半月板和前交叉韧带的分级异常,并利用外部数据对比受训人员在有无使用CNN 模型帮助时与经验丰富的放射科医生的一致性。其中,在检测半月板有无损伤的二分类中,该模型的敏感度和特异度均为85%,AUC 为0.93;若将半月板分为正常、撕裂和完全毁损,敏感度分别为85%、74%、85%。在CNN模型的帮助下,受训人员与经验丰富的放射科医生的一致性显著提高。Pedoia等[20]和Astuto等[21]均对半月板的撕裂程度做了分级,为基于多组织分区和多类别分类的完整膝关节评估提供了一个全自动的复合模型。但是,他们所应用的数据集主要包括不同时期的骨关节炎和前交叉韧带损伤的患者,可重复性较低。
有研究认为,由于MRI 数据中损伤半月板的外观不均匀,以及与邻近组织的对比度不足,因此难以将其分割[22]。此外,有些方法仅对二维平面进行操作,而这种方法的主要局限在于,经过训练的2D CNN不能考虑整个MRI体积,因此可能会丢失3D 空间中的重要特征相关性。对此,Tack 等[23]同时设计了全面方法(将完整的3D MRI 数据输入3D CNN 训练)、BB-crop(将3D MRI 数据裁剪到两个半月板的感兴趣区域输入3D CNN训练)、BB-loss (在第一种方法的基础上添加边界框)等三种方法对具有2339 例矢状面双回波稳态(double-echo steady state,DESS)序列三维图像(DESS 数据库)和2396 例矢状面快速自旋回波(turbo spin echo,TSE)加权序列膝关节MRI 图像(IW TSE 数据库)的数据库进行验证。研究区分了内外侧半月板以及半月板前角、后角和体部的撕裂。结果显示,在DESS数据库中,BB-loss的表现最好,内侧半月板前角、体部和后角的AUC 值分别为0.94、0.93、0.93,外侧半月板为0.96、0.94、0.91。在IW TSE数据库中,BB-loss与BB-crop表现出了相似的性能,内侧半月板前角、体部和后角的AUC 值分别为0.84、0.88、0.86,外侧为0.95、0.91、0.90。因此可以认为,使用完整的3D MRI数据并添加边界框的BB-loss方法具有较稳定的高性能,并具有可重复性。此外,该研究对半月板的解剖划分更为精细,这对撕裂的定位提供了更多临床意义。
1.2.4 多模态研究
不同模式的合理融合是增强深度网络的一种潜在手段,多模态融合可以捕获更丰富的病理信息,提高诊断质量[24]。考虑到Transformer 模型的网络架构需要大规模的数据集来实现更好的性能而医学成像数据集相对较小,使得单纯的Transformer 难以应用于医学图像分析,于是Dai 等[25]提出“TransMed”模型用于多模态医学图像分类。TransMed结合了CNN 和Transformer 的优点,能够有效捕获低级特征和跨模态的高级信息。该模型的AUC、敏感度和特异度分别为0.95、88%和83%,性能与MRNet[12]比较有着较大的改善,这表明Transformer可以提高模型的诊断能力,为后续的研究提供有力的参考。
2 当前研究的局限性与对策
综上所述,众多研究模型表现出的优秀性能表明目前深度学习算法检测MRI 图像中半月板撕裂已经取得了较大的进展,包括半月板有无撕裂、撕裂位置、方向和分级。但受制于现有技术、研究方法、数据集等的影响,现有研究仍不足以大量临床推广。
首先,为了在临床实践中评估深度学习算法的诊断性能,使用一个独立的参考标准是非常重要的。目前仅有Rizk等[16]使用了关节镜手术结果作为参考标准,而大部分研究的对比标准是具有较多经验的骨肌组放射科医生的诊断结果,使得研究的可信度有限。使用膝关节镜手术结果作为金标准可能有助于评估该模型能否通过提取MRI 图像中的隐藏特征来超越人类的诊断能力。因此,尽可能提高数据集的准确性和权威性,有助于提高深度学习模型的性能。
其次,目前的半月板MRI 深度学习研究以内部验证的单中心回顾性研究为主,不论是使用公共数据集或是医院内部数据,当利用包含不同场强、脉冲序列和患者间异质性的外部数据进行验证时,其性能下降,因此单中心研究结果的稳定性值得怀疑。为了提高深度学习模型的泛化能力,可以调整在大数据集上训练的性能良好的深度学习网络,并在特定问题的较小数据集上微调该网络,即迁移学习[9-10]。迁移学习的有效性和成功性取决于数据集之间的相似性。针对数据集不足的情况,也有学者提出探索半监督的深度学习技术[26]。但或许公共数据集的建立和纳入标准等相关制度的完善才能更有效地解决此类问题。
再者,医学图像并不是检测病变的唯一方式,单一的影像检查也可能存在假性结果。已经公开发表的深度学习检测半月板撕裂的研究都是基于MRI 图像进行判读,而没有考虑性别、年龄等人口统计学以及临床症状和体征对研究模型性能的影响。近期发表的一篇综述[27]表明:体质量指数、运动、职业、年龄、性别、种族、骨关节炎等都与半月板损伤有关,吸烟史、损伤部位、急慢性损伤等影响半月板损伤的预后。那么,综合被检者的流行病学指标、临床症状和体征以及其他的一些影像检查等,高度还原影像医生在判读半月板损伤时的考量,使半月板损伤检测的深度学习研究由单模态向多模态转变,判读半月板撕裂的有无和预后评估以及预测有高危因素的健康半月板在未来发生损伤的风险,或许有助于深度学习模型性能和临床意义的提高。
然后,关于不同序列或方位的MRI 图像对于人工智能模型性能影响的研究尚未见报道。人工智能模型与放射科医生在进行半月板损伤诊断时拥有的患者信息、图像数据的不平衡等也会影响结果的可比性。
此外,影响患者临床治疗方法的往往是异常的特征,如损伤位置、形态、大小等。虽然现有的基于深度学习的半月板MRI 图像已经从二元异常分类向严重程度分类的研究迈进[23-24],但是,当前的研究仍仅限于半月板主体的损伤,而关于半月板特殊部位的损伤如半月板根部损伤、Ramp 损伤等尚未见报道。因此,准确描述半月板损伤的解剖学位置、形态学改变等,也将是未来研究的一个方向。
最后,当前关于放射科医生在有无人工智能支持的情况下判读半月板MRI 图像的性能差异的研究仍较少。为了了解基于深度学习的MRI 半月板损伤诊断带来的潜在效益,需要更多的研究使用现实的研究设计,模拟放射科医生的日常工作,并将其应用到实践环境中,但现有大部分研究都集中在将深度学习算法与人工判读结果进行比较。
总之,现有的半月板深度学习研究已经取得了较为可观的成果,但仍然存在许多不足,这也为未来的研究指明了方向:基于深度学习方法诊断MRI 图像中半月板损伤的研究将是多维度、多中心、精标准的。瑕不掩瑜,随着人工智能技术的不断发展,深度学习方法可能很快就会从技术研究转向临床实践,在半月板损伤等关节疾病的成像、诊断、治疗、预后和随访中发挥重要作用。放射科医生的工作模式也将从检测异常转向人工智能的监督和质量控制。
作者利益冲突声明:全体作者均声明无利益冲突。