深度学习在影像医学应用中的初步研究进展

2019-03-25综述王小林审校

复旦学报(医学版) 2019年3期

高翾(综述) 王小林△(审校)

(1上海市影像医学研究所上海 200032; 2复旦大学附属中山医院介入治疗科上海 200032)

近年来,人工智能(artifactual intelligence,AI)已经越来越多地进入到日常生活中,特别是AlphaGo、无人驾驶汽车等代表性的AI成果已经极大地改变了人们对AI技术当前发展水平——特别是图像智能处理方面的感性认识[1]。究其根源,这些引人注目的进步都是建立在一种称为深度学习(deep learning)的技术之上。在近几十年里,以深度学习方法为代表的图像处理技术得到了突破性的进展[2]。深度学习方法在机器学习以及计算机视觉领域的强大优势,使其成为国内外研究机构在图像识别领域争相研究的热点。2015年1月,百度、微软和Google等公司基于深度神经网络的图像识别系统已经相继刷新计算机图像识别能力的记录,其对图像识别的错误率分别为5.33%、4.94%和4.82%,大大超过人类对图像的识别能力[3-5]。

深度学习在人工神经网络基础上发展起来的突破性技术实际上,深度学习方法并非是一种全新技术,它是传统的人工神经网络(artificial neural network)技术的扩展,属于机器学习领域的一大类算法。人工神经网络技术最早可追溯到20世纪50年代,其发展过程经历了多次波折。直到2006年以后,伴随互联网蓬勃发展而来的海量有标记数据的出现、图形处理器(graphic processing unit,GPU)计算硬件的飞速发展以及Hinton、Bengio、LeCun等人在深层次神经网络模型的训练方法上取得突破,使得之前不可能完成训练的深层次神经网络可以得到有效训练,深度学习方法才再一次流行并进一步发展起来[6-7]。

在原理上,深度神经网络是一种多层次的表示学习(representation learning)方法,它将特征提取与分类器有机地结合在一起,形成一个“端到端”(end to end)的结构,可以从大量输入信息中直接自动学习特征并完成分类等目标任务。深度神经网络有多种类型,不同的网络适用的领域不尽相同。其中,一种称为卷积神经网络(convolutional neural network)的深度神经网络是图像处理领域的代表性网络。卷积神经网络对图像信息的处理过程在形式结构上非常类似于人类的神经系统处理视觉信息的过程。人的视觉刺激在视网膜上形成后,经外侧膝状体再至初级视觉皮层,之后又经数十层传递才会形成初步的视觉信息。卷积神经网络也是以层次化、级联化的方式,对输入的图像矩阵,从最低级的像素信息开始,逐层提取出重要的特征信息,同时抑制无关背景信息,以上一层的抽象结果作为下一层的直接输入,以获得更高层次、更为抽象的特征,从而将原始的像素信息不断抽象化、概念化,最终使得原始输入从一开始与任务目的无关的表示形式转换为适合于任务目标的表现形式。在数学上,卷积神经网络的每一层都是一个非线性映射,经过数十层乃至上百层的复合后,最终可以获得一个表示能力非常强的映射函数,对特定目标进行针对性训练的深度神经网络几乎可以对任意函数实现进行近似逼近[2,4,7-10]。

深度神经网络用于处理医学影像图像从深度学习方法的历史发展过程可以看出,足够数量的有标记数据与恰当的模型训练方法是深度学习方法成功运用的关键因素。作为传统神经网络的扩展,深度神经网络非常重要的一个特性就是其网络层数多、层次复杂。虽然这样的结构使网络具有很好的表示能力,但伴随而来的是网络参数多、训练需要的数据量大、容易过拟合等训练难题。深度神经网络的训练是一个有监督学习(supervised learning)的过程,对模型参数的调整依赖于含有明确的目标类别标记的训练样本。模型越复杂,含有的待调整参数越多,需要的训练样本数越多。因而当能够得到的训练样本数目较少时,训练有效的深度神经网络就比较困难。但在实际生活中,由于各种条件的限制,获取足够数目的训练样本往往很困难,甚至不可能。迁移学习(transfer learning)方法的提出在一定程度上减小了训练的难度,尤其是使基于较小数据量来训练深度神经网络成为可能。迁移学习是在已经利用大样本数据训练好的深度神经网络基础上,根据待训练网络的应用目标,保留原网络的绝大部分结构以及对应参数,利用含有与应用目标相关标记的训练样本,对新网络参数重新进行调整的网络训练方法[11-15]。

由于深度神经网络在计算机视觉领域的巨大优势,当这项技术在普通光学图像上的性能被充分肯定后,不少研究开始尝试运用它来处理医学图像,特别是医学影像图像。在利用迁移学习方法处理医学影像图像的过程中,发现了一个非常有意思的现象。当前,用来进行迁移学习训练的卷积神经网络模型基本上都是基于ImageNet数据集中的图像。ImageNet是一个为计算机视觉领域竞赛专门准备的图像数据集,其中含有1 500万张经过标注的高清光学图片,这些图片包含多达2 200个类目[16]。2015年最好的深度神经网络技术在这一数据集上针对图像分类任务的top-5错误率仅为3.57%[17]。以这些在ImageNet数据集上训练得到的网络结构及相关参数为基础,对少量的医学影像图像进行图像分类任务的迁移学习训练后,人们发现得到的网络仍然能够达到较高的正确率。例如,利用深度神经网络对胸片上的肺结核病灶进行诊断,其受试者工作特征曲线的曲线下面积(area under receiver operating characteristic curve,AUC)可达到0.99[13]。虽然医学影像图像在图像原理和展示方式等方面性质都不同于一般的光学图像,但只是利用少量医学影像图像来训练模型仍然可以得到性能较好的神经网络这一事实提示:深度神经网络对医学影像图像的处理与对自然光学图像的处理能力类似,利用自然光学图像训练得到的深度神经网络可以推广到医学影像图像领域[18]。

医学影像数据的特殊性限制了深度学习方法在医学影像领域的运用方式在当前的临床实践与科研工作中,医学影像图像占据了医学图像的绝大部分。这些医学影像图像主要来自于CT、MRI、PET-CT以及超声等医学成像设备。在医学影像图像与一般的自然图像之间存在着许多差别,而正是这些差别直接影响着深度学习方法在医学影像学领域运用的具体方式。医学影像图像与一般的自然图像之间的差别可以表现在以下几个方面。

医学影像图像是医学概念实体医学影像图像在图像内容上表达的是医学概念实体,需要通过特定的医学影像成像设备获得。一般而言,在机器视觉或计算机图像处理领域,其所涉及的图像通常为自然图像,一般直接来自于光学相机。而医学影像图像一般需要以特定的成像原理通过特殊处理方法获得,例如CT图像是通过X射线的衰减系数经特定重建算法获得,MR图像是磁共振信号经傅里叶变换后获得,医学影像图像是利用特定的成像原理人工合成的图像,在本质上迥异于一般自然图像。因此,与一般的自然图像比较,医学影像图像的获取方式决定了医学图像的获取受到医疗场景的限制,而医学诊疗在伦理及经济上的要求使得医学影像图像的获得难度高,不可能像一般的自然图像那样能够大规模地任意获取。

医学影像图像标注成本高一般的自然图像所呈现的内容基本上是人们在日常生活中所接触到的各种事物,例如人物、各种动物、各种车辆等,表达的都是所有人均可进行认知的一般性概念实体。因而对一般的自然图像进行图像内容的标注非常容易,成本往往很低。而医学影像图像所涉及的内容都是医学上的概念实体,专业性强,具有特殊的图像语义体系,其概念定义准确严密,范畴界限鲜明,对医学影像图像进行解读需要在一套完整的医学知识体系下,按照医学影像学的专业规范进行。因此,只有接受过针对性严格训练的医务人员才能分析医学影像图像所表达的图像信息,这也意味着对医学影像图像进行高质量内容标注的成本非常高,获得大规模的高质量标记的医学影像学数据往往是一件非常困难的事情。

医学影像图像有自身限制医学影像图像在图像性质上存在自身的特点,其空间分辨率与对比度分辨率往往受到一定的限制。当前,随着光学相机的技术发展,一般的自然图像可以达到非常高的空间分辨率,即便是普通的数码相机,其像素一般都可达到数百万至数千万像素的水平。而医学影像图像不同,由于成像原理以及日常使用效率的考虑,绝大多数的医学影像图像在图像大小上存在限制,作为数字化的图像,医学影像图像的像素矩阵一般都很小。以磁共振图像为例,由于图像大小对其扫描时间具有非常大的影响,一般磁共振图像实际的扫描矩阵长宽多设置在200至512之间,考虑到病灶通常只占人体的一小部分,因此实际感兴趣的成像区域在数学上往往只是一个很小的矩阵。此外,医学影像图像多为灰度图像,而且出于对存储容量的限制,医学图像的灰度级通常也被限制在一定的范围内,这样使得医学图像的对比度分辨率相对有限。因此,与一般的日常生活领域的自然图像不同,医学影像图像并不一味追求高清大图,它对图像质量的要求是以图像的信息含量充分满足临床诊疗需求为前提条件。因此,与目前计算机视觉以及机器学习领域通用的数据集相比较,其空间分辨率与对比度分辨率都比较低。

医学影像图像数据集建设要求医学影像图像在获取性与图像性质上的特点对深度学习方法在医学影像领域的实际应用提出了特殊的要求[19]。由于深度学习方法一般都有监督学习方法,获取高质量的标注数据是其成功应用的关键,使得建设专门的、符合医学领域的各种实践传统与现有规范的医学图像数据库成为深度学习方法在医学领域、特别是临床医学领域成功运用的必要条件。但就目前为止,无论是在机器学习领域还是在医学影像学领域,对这样数据集的建设标准并没有太多的明确表述。但作为医学影像学专业背景的医师,结合深度学习方法的特殊性,我们认为这样的数据集应该至少满足以下的几个要求。

疾病谱的全面覆盖对疾病谱的全面覆盖往往是建立优质数据集的难点,主要表现在:一,对少见疾病的覆盖。医学疾病种类繁多,而且长尾效应非常明显,很多种类的疾病其实际病例数并不多。由于医学领域对疾病诊断准确性的要求非常高,并不能因为少见就人为忽略掉某些疾病,因而一个能够在临床上具有实际应用价值的诊断工具必然要以一定的方式解决这个问题。二,强调收集的是具备有明确病理诊断结果的医学影像图像。当前,临床医师进行诊疗决策的关键通常是病理诊断的结果,然而并不是每一位接受医学影像学检查的患者都具有确凿的病理结论。这意味着影像图像数据集是建立在一个巨大筛选工作量的基础上。三,对疾病谱随时间、地域变化的包容性。疾病谱并不是一成不变的,而不同疾病种类在数目上的比例会在一定程度上影响深度学习方法运用的准确性。

医学影像图像标注的完备性医学图像的标注,除了一般的病灶位置和病灶性质外,我们认为还有一个目前较少关注的内容,即病例出现的临床背景。因为对医学影像图像的解读往往是放在一定的临床情景之下的,医学影像图像往往并不能直接反映病变的病理本质,经常会有“异病同影”的情况,因此从医学图像成像原理的角度,无论是利用什么计算机算法,都很难让人相信仅仅利用单纯的图像信息就能够达到很高的准确水平。此外,具体的临床情景信息也有助于对深度学习方法的黑箱原理进行进一步的理论解释。

影像文本报告信息的处理一般而言,来源于临床实践的医学影像图像都会有对应的影像文本报告,这些影像文本报告反映了人对医学影像图像信息的理解深度与水平。虽然深度学习方法的实际应用并不直接依赖于影像文本报告的具体内容,但考虑到在目前医疗实践中,医学影像结论的责任由具体的影像医师承担,因此根据深度学习方法得到的诊断结论需要转化为他人能够理解的文本形式。而要最终达到自动的“看图说话”的效果,需要利用已有的影像文本报告作为进行自然语言处理的材料。因此,对相应影像文本报告信息的充分利用直接关系到深度学习方法在临床医学特别是医学影像学领域的可接受性。

深度学习方法在影像医学领域的应用现状深度学习方法作为在图像信息处理领域非常有效的一类方法,已经有不少研究开始尝试将其利用到医学图像分析的过程中。就目前已发表的涉及到医学图像的文献来看,目前的研究大致可以分为两个方向。

技术实现层面研究的重点是深度学习方法这一种具体的图像处理技术本身,尝试利用其来解决计算机视觉领域的经典问题,如图像中目标探测与定位[20-23]、图像特征提取[24]、图像分割[25-29]、图像重建[30]、图像分类[31-37]等。这些文献更多的是从工程实现角度来评估深度学习方法在解决这些问题上的新颖性、有效性,其关注的重心还是在于深度学习方法这一技术的各种性能指标,医学影像图像更多的是用作实际检验这些方法的材料。当前这个方向的研究成果占据了已发表的关于深度学习方法文章的绝大多数,而且大多发表在工程技术类别的期刊或会议论文上。

实际的生产运用层面将深度学习方法作为临床问题的解决手段,评估利用深度学习方法解决临床实际问题的有效性,特别是将深度学习方法的结果与人工处理的结果放在一起来进行优劣比较。不过,这类研究目前很少,能够按照临床试验标准进行的研究更少。当前,这些研究的成果基本上发表在医学类期刊或综合性期刊上。

需要说明的是,以本文写作时间为限,在现有的关于深度学习的研究中,能够大规模获得的图像数据基本上都是皮肤以及眼底病变的图片,显然相对容易获取[38-39]。而在影像医学领域,在大数据基础上进行深度学习研究的相关报告非常少,所涉及到的病种、图像类型也相对有限,这个事实也从另一个侧面提示了深度学习方法具体落实在医学影像领域的难度。

例如,在图像数据相对容易获取的X线平片方面,Cicero等[40]在35 038例后前位胸片疾病的基础上,回顾性评估了GoogLeNet网络鉴别常见异常胸片的能力。他们发现GoogLeNet网络鉴别出正常胸片的敏感性是91%,特异性是91%,AUC为0.964;鉴别出胸腔积液的敏感性是91%,特异性是91%,AUC为0.962;鉴别出肺水肿的敏感性是82%,特异性是82%,AUC为0.868;鉴别出肺实变的敏感性是74%,特异性是75%,AUC为0.850;鉴别出心影增大的敏感性是81%,特异性是80%,AUC为0.875;鉴别出气胸的敏感性是78%,特异性是78%,AUC为0.861。

此外,Larson等[41]在14 036例手X线平片的基础上评估了50层深度残差网络对骨龄的预测能力,并将深度学习的结果与专家评估的结果进行了比较。作者用模型预测结果与专家预测结果之间距离的绝对差值及均方根作为衡量模型效能的标准,发现在200例的测试集上,模型预测结果与专家预测结果的平均差别为0年,两种预测结果之间的绝对差值及均方根分别为0.63及0.5年。因而作者认为在评估骨骼的成熟度方面,卷积神经网络的水平与人类专家相似。

在CT方面,Yasaka等[42]评估了卷积神经网络对增强CT图像上肝脏占位性疾病的鉴别诊断能力。作为分类目标,他们把待分类的病灶分为5类:典型的肝细胞癌;除外典型肝细胞癌以及早期肝细胞癌以外的其他肝恶性肿瘤;不确定的肝肿块以及肿块样病灶(包括早期肝细胞癌以及不典型增生结节),除血管瘤及囊肿以外的少见良性病灶;血管瘤;囊肿。由于数据量偏少,他们以460例患者的增强CT图像为基础,采用数据扩增的方法,将图像数量扩增到55 536。在具体评估模型的准确性时,他们以上述第1-2类为一大类,剩余3类为另一大类,对这样2分类模型的平均AUC为0.92。

以上报道通过利用深度学习方法获得了比较好的效果,但其所设置的最终分类数目都比较少,甚至对最终的分类进行了简化。这样的分类目标与实际临床工作中所需要考虑的疾病类别还有相当大的距离。因此,这些研究只是验证了深度学习方法本身在影像医学领域运用的可行性,距能够成功地进行实际运用还有较大差距。

结语由于影像医学领域在获得高质量标注数据方面的难度,需要更多地从其他的角度来弥补这一缺陷。根据作者目前的初步经验,认为比较成功的方法主要包括以下4个方面:

合理简化目标分类数目按照临床上对医学图像信息分析需求的实际情况来设置网络最后的目标分类,不完全拘泥于全面的病理分类谱,这样由于减少了分类数量,相应地减少了待训练网络参数,使得相应深度神经网络的训练难度得以降低。

以实时在线的方式进行深度神经网络的训练在影像医学领域,对深度神经网络的训练应当是一个持续不断的过程。每当收集到新的符合标准的数据,就将其纳入训练集优化相应深度神经网络的权重,之后重复评估网络的效能。这样的训练方式能够使网络在一定程度上适应疾病谱以及相应患病人群的时刻变迁。

针对特定的运用场景选择合适的深度神经网络就作者目前在深度神经网络训练上的经验而言,并不是越复杂的网络其效果越好。一些相对简单的深度神经网络,例如VGG-Net等,往往也能达到或超过相对复杂的Inception-Resnet等网络的水平。

利用生成式对抗网络(generative adversarial network)扩展图像数据对于少见或罕见疾病的医学影像图像,可以利用生成式对抗网络扩增现有的图像数据。作者的初步经验,无论是单独使用扩增后的图像还是混合利用扩增图像与原有图像,都可以较好地改善现有深度神经网络模型的最终效能。

总之,深度学习方法作为一项新兴技术,其在影像医学领域应用才刚刚开始。针对在影像医学领域运用的实际情况,需要合理调整网络的结构与训练方式,甚至构建新的网络结构模型。由于它在图像信息分析领域的有效性,深度学习方法很可能会逐步渗透到影像医学的临床诊疗实践中,成为临床诊疗工作的有力工具。

猜你喜欢

复数神经网络在基于WiFi的室内LBS应用

医学、生命科学类

复旦学报(医学版)

2019年3期

深度学习在影像医学应用中的初步研究进展

猜你喜欢

杂志排行

复旦学报(医学版)的其它文章