深度学习人工智能技术在医学影像辅助分析中的应用

2021-06-25蒋西然蒋韬孙嘉瑶宋江典姜文研艾华龙哲苏娟常世杰于韬

中国医疗设备 2021年6期

蒋西然，蒋韬，孙嘉瑶，宋江典，姜文研，艾华，龙哲，苏娟，常世杰，于韬

1.中国医科大学公共基础学院，辽宁沈阳 110122；2.中国科学院大学计算机科学与技术学院，北京 100049；3.中国医科大学医学信息学院，辽宁沈阳 110122；4.辽宁省肿瘤医院中国医科大学肿瘤医院医学影像科，辽宁沈阳 110042

引言

临床医学影像通过反映人体组织器官的形态及功能，在临床疾病的诊断和预后中发挥着重要作用。当前对医学影像数据的分析多依赖于医生肉眼观察阅片，医生本身的经验和主观因素差异会影响诊断的准确性，而临床影像数据量的急剧增长也极大地增加了医生的工作量。近年来，医学影像数字化和人工智能辅助诊断的快速发展对医疗影像分析带来了巨大变革，利用深度学习技术模拟人脑自动学习数据各层次抽象特征来分析医学影像并给出辅助诊断结论已成为现代临床影像分析工作中的重要发展趋势，合理使用人工智能技术将有效提高临床诊断的效率和准确性。

1998年Lecun等[1]首次提出了神经网络雏形LeNet，利用反向传播算法训练多层神经网络为深度学习奠定了基础。在此之后涌现出更多优秀的深度学习算法，如2012年ImageNet图像分类竞赛冠军AlexNet[2]，2014年ILSVRC定位任务第一名和分类任务第二名的VGGNet[3]，ImageNet竞赛冠军GoogLeNet[4]等，这些算法在医学影像分类、定位、分割和重建方面均取得了较好的效果。新一代非监督深度学习网络如PixelRNN/卷积神经网络（Convolutional Neural Network，CNN）、变分自编码器、生成式对抗网络和多层降噪自动编码机（Stacked Denoising Auto Encoder，SDAE）等无需使用带标签的数据训练，能解决影像训练样本不足的问题，并节省了人工标记影像感兴趣区域（Region of Interest，ROI）的步骤[5]。近年发展较快的深度强化学习[6]具有自动学习的功能，能够根据反馈不断调整自己的输出以达到最优结果。其他深度学习网络模型如循环神经网络（Recurrent Neural Network，RNN）[7]、全卷积神经网络[8]和U-net[9]等也都在具有不同特点的医学影像分析问题中取得了较好的效果。由于医学影像存在着对比度低、可变性大和结构复杂等特点，目前尚无一种通用的方法来解决不同成像方式和不同疾病的辅助诊断，本文按照不同成像方式对现有的深度学习方法应用进行了梳理，列举了近年来深度学习方法在不同医学场景的应用。总结表明，将传统的深度学习方法与实际图像特点相结合的改进方法能够有效适应医学图像的特征，将是医学辅助诊断发展的重要趋势。

1 深度学习在MRI影像分析中的应用

MRI可获得反映不同人体组织器官特性的影像数据，是临床影像检查中的常用方法。由于不同序列MRI影像中信息量较大，一些组织器官的信号相近，临床上依赖有一定工作经验的影像科医生进行阅片解读。近年来，随着深度学习人工智能的快速发展，针对MRI影像的计算机辅助分析技术能够快速准确地批量处理大量影像数据，在对不同疾病进行准确诊断、精准分割、分类和预后等方面显示出巨大的应用潜力，得到医学影像工作者的高度关注[10-12]。当前用于MRI影像分析的深度学习方法主要有三类：基于小块图像组的Patch-Wise CNN模型，基于语义的Semantic-Wise CNN模型和基于级联网络的Cascade CNN模型[13]。

基于小块图像组的Patch-Wise CNN模型结构具有收敛速度快的特点，在医学图像诊断和分割领域中已有广泛应用[14]，Ghafoorian等[15]使用Patch-Wise CNN尝试分割白质高信号区域，网络获得的分割结果与医生手工分割图像没有统计学差异。Moeskops等[16]采用了不同尺寸的2D图像组作为输入，并使用了不同大小的卷积核，获得分割图像Dice相似系数（Dice Similarity Coefficent，DSC）值范围为0.82～0.91，并表明小尺寸图像组训练的网络可以对微小组织结构进行精细分析。Mehta等[17]提出的BrainSegNet框架则将2D和3D图像分别输入后，再经过不同的小卷积核进行卷积处理，获得了优于单一图像输入的分割效果。Kamnitsas等[18]设计了含有双通路的3D卷积网络DeepMedic模型，使用条件随机场（Conditional Random Fields，CRF）作为后处理，在 TBI、BRATS 2015和ISLES-SISS 2015数据库中测试的DSC值分别达到了63.0、89.8和66.0。Liu等[19]进一步对DeepMedic模型进行改进，并用于脑转移瘤MRI影像的分割，将DSC值分别提高到75.0、81.0和67.0。这些研究均表明Patch-Wise CNN框架在MRI影像的分割中具有重要的研究价值和应用潜力。与Patch-Wise CNN模型只能将固定尺寸的影像输入网络不同，基于语义的Semantic-Wise CNN模型先通过卷积获得图像的高层次特征，再通过去卷积输出分割图像[13]，从而能够将任意大小的影像作为输入，且具有更少的网络参数，训练所需的耗时更短[14]。Jonathan等[20]最早基于语义分割思想提出了端对端的全卷积网络（Fully Convolutional Network，FCN）概念，对整幅输入影像进行卷积处理，学习高维度抽象信息，再通过去卷积处理获得对不同种像素的分割输出。Brosch等[21]将FCN网络框架用于多发性硬化病灶MRI影像的分割研究，虽然分割使用的数据集较小，仍获得了68.4的DSC值。Nile等[22]进一步采用使用该网络框架对人体正常组织的MRI影像进行了分割，并测试了单模态和多模态输入对网络的影响，表明模型泵从多模态输入中获取更丰富的高维度信息。基于级联网络的Cascade CNN模型是将一个CNN的输出作为另一个CNN的输入，第一个CNN用来勾画组织器官的大体区域，第二个CNN则用来进行精细分割，判断每个像素是否属于该组织器官[14]，这可以使得整个网络更加高效，且所需影像的训练样本较少[23]。该网络的主要特点是在第二轮计算中只针对筛选出的感兴趣区进行分析，可以显著减少冗余计算，不仅能区分正常组织和病变区域，而且在病变区域内部还可以进一步实现细分类[24-26]。Valverde等[26]利用Cascade CNN网络对多发性硬化症MRI影像进行了分割，结果表明Cascade CNN网络可以在保持假阳性率较低的基础上大幅提高分割精确度。Havaei等[24]基于级联网络思路设计构建了三种含有不同卷积层结构的Cascade CNN网络（LocalCascadeCNN、FCascadeCNN 和 InputCascadeCNN），并针对脑部水肿区、坏死区和增强/非增强区MRI影像进行了分割测试，表明LocalCascadeCNN在检测整个肿瘤区域时的假阳性率最低，MFCascadeCNN输出的肿瘤边界最平滑，而InputCascadeCNN的分割耗时最短。Cui等[25]也使用CascadeCNN对脑胶质瘤MRI影像进行了分割，他们采用FCN网络结合迁移学习的方法先挑选出影像中的肿瘤区域，再使用深层CNN网络结合小卷积核进一步对肿瘤影像进行精确分割，该方法在BRATS 2015公开MRI影像数据集上的DSC值可达0.89，计算耗时仅需1.54 s。表1为近年提出的一些有代表性的用于脑部MRI影像分割的重要深度学习模型。

表1 用于脑部MRI影像分割的深度学习网络模型

2 深度学习在CT影像分析中的应用

针对CT影像的计算机辅助分析技术的研究时间最长，且技术发展较为成熟。已有大量研究表明，利用深度学习对多层CT影像进行筛选和分类的辅助诊断技术能为临床医生提供有价值的参考意见[31-32]。对CT影像进行适当的预处理可以有效提高深度学习模型对肺结节的分类能力，Ciompi等[33]通过将肺部CT影像垂直的横切面、矢状面和冠状面进行旋转扩充，获得不同切面的结节图像，从而解决了临床训练数据不足的问题。Shen等[34]则模拟医生阅片时的远观和近看过程，对同一结节图像进行了缩放处理后再进入深度学习网络，模型的分类效果获得了显著提高。Tu等[35]深入对比了针对结节影像采样的SINGLE策略和ALL策略（SINGLE策略在一个结节的横切面、矢状面和冠状面影像中，仅抽取位于中央的图像用于训练和测试，而ALL策略则取出三个互相垂直的切面中的全部图像用于训练和测试），指出采用ALL策略的模型获得预测准确率比SINGLE策略有大幅提高。此外，近年的研究发现，使用自然图像对神经网络进行预先训练后，再利用肺CT影像对模型二次训练，可以显著提高结节的分类效果。Ciompi等[36]使用ImageNet数据库预先训练好的网络，并通过微调使其更加适用于肺结节的分类任务。Hoo-Chang等[37]也利用ImageNet对AlexNet和GoogLeNet分别进行训练和微调，分类效果也得到了明显提升。Erhan等[38]则进一步采用无监督预训练联合监督式微调进行训练，提高了对肺结节的分类能力。

多种网络模型融合策略也常用于肺部CT影像中结节分类鉴定。Zhao等[39]将LeNet和AlexNet进行融合后，分类准确率为82.25%，AUC值达到87.70%。Shen等[40]提出含有特殊池化层结构的Multi-Crop CNN模型，能将卷积层输出的中心特征提取出来，再将多个Multi-Crop提取的特征进行集合后再继续卷积操作，该模型的分类准确度为87.14%，AUC值高达0.93。Kang等[41]进一步建立了考虑CT片层空间关系的3D inception和3D Inception-ResNet模型，分类错误率4.59%，敏感度95.68%，特异性94.51%。Cheng等[42]则尝试非监督学习的方法，即采用SDAE模型和ALL策略，获得分类准确率为94.4%，敏感度90.8%，特异性98.1%。Ali等[43]在现有CNN网络模型的基础上，进一步提出了强化学习（Reinforcement Learning，RL）模型，并在LIDC-IDRI数据集上进行了测试，结果表明RL模型在训练集中能得到很高的准确率和敏感度，但在测试集上却较低，这可能是由于RL模型对数据量的需求较大，对于大于3 mm的结节，单个放射科医师的错误发现率为65.2%，而RL模型的为44.7%，体现了强化学习策略在CT影像分析中的优势。

在术前定位及放疗定位中，病灶轮廓勾画的不精确会对放疗计划的剂量学特性产生巨大影响及对正常组织造成毒性损伤，因此基于CT影像的器官轮廓精准分割有着重要的临床价值，而现有分割方法多采用手动分割，存在人为误差。近年来，深度学习技术在CT影像分割领域取得了一系列重要研究进展。Swierczynski等[44]将肺部图像配准和分割结合在一起，取得了良好的肺分割准确率。Feng等[45]提出的基于CNN的弱监督肺结节分割网络，仅需要图像级别的标签就能够完成对结节的自动分割分割，真阳性率可达0.77。Lustberg等[46]则对比了基于图谱区域划分技术（Mirada RTx 1.6和Work flow Box 1.4）与深度学习区域划分技术（Mirada DLC Expert），发现用这两种勾画区域技术均比手工方式耗时更短，但训练集由于医生对轮廓勾画存在人为误差以及勾画方式不同（包含或排除心脏的血管），而深度学习网络试图将这些差异结合起来，因此会导致最终结果不准确。在腹部CT影像分割领域，由于腹部器官较多且CT值相近，因此精准分割各器官轮廓是非常困难的。Fu等[47]首先在FCN的基础上采用多层级上采样结构对胰腺进行了自动分割，该算法用上采样up-sampling将各阶段通过卷积得到的特征恢复成原图大小，保证了分割边界的清晰，DSC值达到76.36%。Roth等[48]则进一步使用神经网络（Holistically-Nested convolutional Network，HNN）将胰腺所在区域标注出来，再使用另外一个HNN勾画胰腺轮廓，DSC可以提高到81.27%。他们进一步提出的3D U-net神经网络结构，采用了两个阶段从粗到精的方法，先用3D-FCN筛选出粗略的感兴趣区，再输入第二个3D-FCN进行具体分析，有利于对精细区域的分割，DSC范围达0.69～0.82，为当前最佳水平[49]。Gibson等[50]提出了另外一种神经网络构架—NiftyNet，该网络对腹腔脏器分割的DSC为0.62～0.94，其中对肝脏的分割DCS达0.94。在对病变组织的划分问题上，Drozdzal等[51]利用FCN和FC-ResNets的整合网络进行肝脏病灶划分，先将数据输入低容量FCN，将该FCN用作图像归一化，再输入FCResNet进行分割。对肝脏病灶分割的DSC达到0.711。盆腔器官的分割复杂度与腹腔器官类似，Cha等[52]提出了DL-CNN网络构架对膀胱癌的肿瘤部分进行分割，获得了较高的分割准确率。Xu等[53]则利用双通道预处理的方法处理盆腔CT影像，然后利用CNN粗略处理选出膀胱所在范围，再使用3D CRF-RNN精确勾画膀胱轮廓，DSC达到了92.24%，高于常规V-net方法。表2列举了近年发表的有代表性的用于人体组织器官CT影像分割研究的深度学习模型。

表2 深度学习在人体组织和器官CT影像分割中的应用

3 深度学习在超声影像分析中的应用

超声检查在临床工作中具有操作简单和价格低廉的优势，超声科医生可根据超声图像的形态及回声特点来判断组织器官的疾病状态。Wang等[61]基于离散小波变换特征对不同模态下的超声图进行归类，对甲状腺结节恶性风险进行评分，取得了98.9%～100%的准确性，这种方法提取的“计算机决定的特征”不同于临床微钙化灶等人工经验，为深度学习应用开辟了先河，结合预处理和参数微调之后，深度学习技术识别甲状腺肿瘤良恶性的准确率、灵敏度和特异性可达到96.34%、82.8%、99.3%[62]。深度学习还应用于识别新生儿的心脏疾病分类，Armato等[63]在心脏超声图像上直接训练了CNN模型，从五种不同的幼儿中区分先天性心脏病，在有限的训练数据下取得了优异的表现。为了进一步提高分类效果，有学者尝试了对超声影像在Caffe框架下进行预处理，之后对一个预先训练的深度学习网络GoogLeNet模型进行微调，最后使用有监督机器学习分类器Cost-Sensitive Random Forest 进行二分类，该方法尤其适用于对甲状腺结节超声影像的分析[7]。Ciompi等[36]对深度学习网络在肝脏超声影像的特征分层中的应用进行了优化，提出一个有22层的神经网络的深度学习网络Symtosis，通过设置Dropout参数值抑制一定比例神经元活性，生成的不同模型平均，去除肝脏原始图像的背景，得到了100%的平均准确率。在超声检测方面，Azizi等[64-66]结合时间增强型超声的前列腺影像，提取出高维深度学习特征,成功完成前列腺癌的检测和分级。在阑尾炎超声诊断方面，深度学习能通过协助定位为急性阑尾炎患者的精确诊断提供依据，如无监督深度学习模型Fuzzy Art可使得阑尾炎诊断区域的准确性提高至95%，达到与CT诊断能力相当的水平[67]。在胎儿超声诊断中，标准平面的获取是先决条件，除了使用传统的机器学习方法检测胎儿US标准平面外，最近使用深度学习算法检测胎儿超声标准平面的趋势越来越明显。Baumgartner等[68-69]和Chen等[70-71]通过模型，分别完成了二维超声图像中13个胎儿标准面（如肾脏、大脑、腹部、脊柱、股骨和心脏平面）和胎儿腹部（或面部和四腔）标准面的检测。在分割方面，Norman等[9]针对乳腺超声病变检测问题比较了LeNet、U-Net和FCNAlex Net网络模型，其中基于patch的LeNet和转移学习FCN-AlexNet分别在不同的数据集上取得了最好结果，显著优于传统U-Net方法。Huang等[31]进一步对U-Net加以改进，提出multiple U-net算法，添加了手动分割掩模，通过实时扫描，同时从不同的角度、方向和不同的预压缩水平，对乳腺超声影像中的可疑肿块进行分割，并将同一肿块的不同截面信息图像分别作为独立情况处理，增加了神经网络学习的信息量。超声弹性成像也是临床上常用的超声成像方式，有研究者尝试将深度学习方法应用于二维剪切波弹性成像（Shear-Wave Elastography，SWE）数据分析，相比于统计学特征，深度学习方法将准确率、灵敏度和特异性分别提高至93.4%、88.6%和97.1%，AUC可达94.7%。此外，通常认为SWE图像中的颜色缺失区域（“黑洞”区域）的剪切波速或弹性模量的计算是不确定的，而深度学习模型可以捕获肿瘤中存在的“黑洞”的信息并用于区分肿瘤的良恶性[33]。

4 深度学习在X线影像分析中的应用

X线检查是重要的临床早期筛查方法，对于人体密度相差大的部位（如胸部和骨骼等）成像效果好，但由于X线影像中含有多种人体组织器官的重叠，医生难以对各组织器官的具体位置进行精准判断[72]。近年来，深度学习在X线早期筛查领域得到了快速发展，Kooi等[73]一种基于X线诊断乳腺癌良性孤立性囊肿和恶性肿块的深度学习模型，通过采用组织增强的方法来对重叠组织进行分类，准确率达到80%。Qiu等[74]进一步将风险预测模型应用到乳腺癌早期预测，准确率达到71.4%。Li等[75]利用迁移学习区分乳腺癌高风险和低风险人群，发现该模型较传统纹理分析能更好的提取不同人群的特征，取得更好的预测效果。为了提高对X线影像信息的利用能力，当前应用较多的CAD4TB软件可以针对胸部X线影像中的病灶区域进行形状和纹理评分并辅助预测肺结核[76]，在不同的CXRs（Chest X-rays）数据集上的AUC值可达到0.71～0.84[76-80]。近年有学者对CAD4TB进行改进，构建对X线影像更加敏感的深度学习模型，如Hwang等[81]使用自我学习（Self-transfer Learning，STL）方法，同时训练分类和定位网络，可以在没有任何预先训练模型的情况下，仅采用图像层面的标记数据集给出准确的ROI的精确定位，使用STL在三个不同的CXRs公开数据集上进行结核病分类的AUC值分别达到为0.96、0.93和0.88，相比CAD4TB有了显著提升[82]。此外，为了解决临床影像数据量不足的问题，Bar等[83]率先在胸部X线影像诊断中引入迁移学习方法，他们抽取了经Imagenet公开数据集预先训练的CNN网络的第5～7层并分别放入新的网络中进行训练，再与图像编码融合，用于检测胸腔积液的AUC值可达0.93。Lakhani等[84]则在Caffe深度学习框架下使用AlexNet和GoogLeNet网络模型对X线影像进行检测，使用两个网络进行集成融合的网络获得预测AUC值可提高至0.99，表明深度学习在X线影像分析中具有较大应用潜力。

5 总结与展望

经过近几年的快速发展，深度学习技术在临床医学影像辅助分析中得到了越来越多的重视，基于深度学习建立的计算机辅助分析方法已经涵盖了几乎全部的医学影像种类，涉及的疾病类别十分广泛，已经能够在临床影像的分类、分割、配准和重建等方面提供高效可靠的解决方案[85-86]。

然而，当前深度学习技术的应用也存在一些问题，如对影像数据的训练过程中，需要医生在影像上对病灶区域进行人工标注，较为耗时耗力，限制了深度学习技术的大规模应用。针对这一问题，可通过引入非监督式或弱监督学习方法，能减少复杂的标记分割工作，同时不会带来主观因素造成的误差，能够很好地提高识别效率和识别结果的准确性，因此非监督式和弱监督学习方法将成为医学图像分析的重要趋势。此外，由于医学影像对比度较低，正常组织与异常组织边界模糊，还存在较多的如神经、血管等微细结构，经典的深度学习方法对这些细微结构的适用性还有待提高，研究者应结合不同医学影像自身特点建立有针对性的深度学习模型，这是未来人工智能医学影像分析的一个重要发展方向。

总之，深度学习技术在医学影像分析领域已经体现出较大的发展潜力和广阔的应用前景，随着神经网络模型的日益完善，网络对疾病的识别速度、准确度、特异度和灵敏度均有望进一步大幅提高，伴随当前医疗信息大数据发展趋势，深度学习技术必将辅助医生提升临床分析能力，助力我国医疗水平发展，引领医学影像学进入一个新阶段。