机器学习及其在肝脏疾病影像诊断中的研究进展

2019-02-14刘文广谢斯敏周雅芳胡家熙李梦思李文政

国际医学放射学杂志 2019年1期

刘文广谢斯敏周雅芳胡家熙李梦思李文政*

近年来，随着医疗数据尤其是医学影像数据的集成和计算机运算能力的迅猛发展，基于机器学习（machine learning，ML）的医学影像数据分析已经成为交叉学科中的研究热点。当前，ML在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域取得了突破性进展。其在医学领域，特别是在医学影像领域的应用越来越多。这些研究主要集中在神经外科疾病、脑卒中、心血管疾病、肺部疾病、前列腺癌、宫颈癌、视网膜疾病等。由于呼吸运动影响、组织天然对比较差及肝脏影像分割难度较大等原因，ML在肝脏疾病影像诊断方面的研究相对较少，但随着算法的改进和硬件设备的升级，此方面的研究正在逐步增多。本文就ML在肝脏疾病影像诊断中的研究进展作一综述。

1 ML简介

ML是统计学和人工智能（artificial intelligence，AI）衍生出的一个分支，而深度学习则是ML领域的一个分支（图1）[1]。ML被广泛接受的定义是，将某种计算机算法应用到一组事件结局已知的数据中（如良性或恶性肿瘤图像），并且能够学习该组训练数据，进而根据学习结果对新的数据进行预测（如分析另外一张新的图像为良性还是恶性肿瘤）。实际应用中，通过建立合理的ML算法模型，可以实现对数据训练和预测的功能（图2）。训练方面，ML算法系统使用一组输入影像来识别影像属性，在使用时可实现影像的正确分类（即描述良性或恶性肿瘤），并与这些影像所提供的原始输入分类标签相比较（图2a）；预测方面，一旦系统已经学习如何对影像进行分类，将会把所学模型应用于新的影像以帮助放射科医生识别肿瘤类型（图2b）[2]。

将基于计算机可识别的数字化数据、更低的成本及更快的计算机运算能力、越来越多的精细的统计学模型相互结合，通过计算机建立较好的预测模型，不仅可以降低成本，并且可能超过人类的判断能力[3-4]。ML由于在数据分析上具有较好的应用前景，已经被誉为2013年以来的十大技术突破之一。

图1 ML与统计学、AI、深度学习之间的关系

图2 医学图像分类任务的ML模型开发和应用

2 ML的常用算法

2.1 神经网络

2.1.1 基本概念神经网络这一概念是1988年由Kohonen提出，即“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”[5]。神经网络中最基本的成分是神经元模型，把许多个这样的神经元按一定的层次结构连接起来而获得[6]。人工神经网络的灵感来自大脑中的神经网络并组织起来的互连节点层。图3最上层的节点表示不同的输入层，而最下层的节点表示不同的输出层，中间的节点表示隐藏层，其中a图中包涵一层隐藏层，b图中包涵2层隐藏层。人工神经网络可以模拟非常复杂的输入和输出关系。

事实上，从计算机科学的角度看，可以先不考虑神经网络是否真的模拟了生物神经网络，只需将一个神经网络视为包含了许多参数的数学模型，这个模型是若干个函数相互(嵌套)代入而得。有效的神经网络学习算法大多以数学证明为支撑。常见的神经网络模型和算法包括：感知机与多层网络、误差逆传播算法、全局最小与局部极小等[7]。

图3 多层前馈神经网络结构示意图

2.1.2 优势和适用范围神经网络采用广泛互联的结构与有效的学习机制来模拟人脑信息处理的过程，是当前人类脑智能研究中的有效工具[8]。神经网络具有如下的特点：①由于信息分散存储于网络内的神经元中，因而具有很强的鲁棒性和容错性；②并行处理能力，人工神经元在结构上是并行的，对于相似问题可以同时进行处理，具有快速的特点；③自学习、自组织、自适应性；④可以逼近任意复杂的非线性系统，同时可以处理定性与定量信息，适用于处理非线性和不确定性问题。上述特点使得神经网络具有很广泛的适用范围[9]。

2.2 深度学习

2.2.1 基本概念深度学习是当前关注度最高的ML范式，在图像分类、物体检测与识别、语音识别等领域取得了突破性进展[10-11]。本质上，多隐层人工神经网络属于深层模型，而支持向量机（support vector machine，SVM）等常见学习器都属于浅层模型，针对具体任务，利用给定的一批数据训练一个深层网络（即多隐层神经网络）的ML算法。深度学习可以根据训练方式分类：监督、无监督、强化学习等[11]。深度学习最常见的算法是卷积神经网络（c onvolutional neural network，C NN）。

2.2.2 优势和适用范围深度学习通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示后，用“简单模型”即可完成复杂的分类等学习任务。以往ML用于现实任务时，描述样本的特征通常需由各学科专家来设计。众所周知，特征的好坏对泛化性能有至关重要的影响，专家设计出好特征也并非易事；而深度学习可利用特征学习，即通过ML技术自身来产生好特征，这使ML向“全自动数据分析”又前进了一步[12]。与传统神经网络相比，深度学习能够处理数据量更大、更复杂的问题。

2.3 SVM

2.3.1 基本概念 SVM属于浅层模型，是指在ML中给定训练样本集，在其样本空间中寻找一个可以将不同类别样本分开的超平面，该超平面产生的分类结果是最鲁棒的。它能通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中取最优线性分类面（图 4A、4B）[13-14]。

2.3.2 优势和适用范围 SVM是针对二分类任务设计的，对多分类任务要进行专门的推广。它在解决小样本、非线性问题上具有独到的优势；因为对预测性能起关键作用的是少数边界处的向量（支持向量）；只要边界处的向量分布正确、合理，预测效果就会较好。

2.4 其他ML算法

2.4.1 k-近邻（k-nearest neighbors，k-NN）没有训练（建模）的过程，属于非线性分类器，适用于标记样本数量很大或待处理对象维度很高时，其计算复杂度很大。处理特殊分布（如，中间圆形区域是一类，圆形区域的外面都是另一类的情况；或者两类的决策域均呈多峰分布且切交分布）较为有效（图 4C）[15]。

2.4.2 决策树得到的是一组规则集，决策过程具有良好的可理解性；处理分类问题，在解决每类呈现多决策域分布且交错分布的问题时，具有独特的优势（图 4D）[16]。

2.4.3 朴素贝叶斯算法该算法用于定义输入特性集与输出之间的关系。因此，这种方法不涉及其他大多数ML方法所涉及的迭代训练过程，但与训练和测试数据相关的问题仍然适用（图4E）[17-18]。

2.4.4 随机森林对于多维特征的数据集分类有很高的效率，还可以做特征重要性的选择。运行效率和准确率较高，实现起来也比较简单。缺点是在数据噪声比较大的情况下会过拟合（图4F）[19]。

图4 ML各类常见算法说明。A图为线性SVM算法空间划分示意图，通过选择线性超平面将两类数据（白点和黑点）划分开；B图为非线性SVM算法空间划分示意图，通过非选择线性超平面将两类数据（白点和黑点）划分开；C图为k-NN算法空间划分示意图，1-NN（k=1时）算法通过与相邻最近一个点比较将2类数据（白点和黑点）划分开；D图为决策树算法空间划分示意图，经由每一个决策点将2类数据（白点和黑点）一步步划分开；E图为朴素贝叶斯算法结构示意图，计算最可能的结果（黑色）作为先验概率（灰色）和由单个特征给出的条件概率，通常不是严格正确的，但可以很快计算出来并在实践中提供竞争预测。F图为随机森林算法结果示意图，通过建立多个决策树，并将它们合并在一起以获得更准确和稳定的数据分类预测（a类和b类）。

3 ML在肝脏疾病影像诊断中的研究进展

3.1 慢性肝病筛查及严重程度评估慢性肝病（c hronic liver disease,CL D）主要包括乙型肝炎病毒和丙型肝炎病毒感染、酒精性肝病、非酒精性脂肪肝病以及相关的肝硬化和肝癌。目前，SVM已经用于CLD的诊断。Gatos等[20]将基于硬度评估和ML算法的计算机辅助诊断系统应用于超声剪切波弹性成像（SWE），进而对CLD进行评估。通过分析126例受试者（56名健康对照，70例CL D）的临床资料，提取了SWE影像中存在的物理特征的35个特征（每个集群7个），采用逐步回归分析的特征简化方法推导出一个简化的特征子集，将其输入到SVM分类算法中，从而把CLD分类出来。SVM模型对CLD受试者的健康分类最高准确度为87.3%，敏感度和特异度分别为93.5%和81.2%，受试者操作特征（ROC）曲线下面积（AUC）为 0.87（95%CI：0.77～0.92）。该研究还介绍了一种基于SWE影像的硬度值对颜色信息进行量化的ML算法，并从健康的样本中识别CLD。目前研究提供的CLD诊断的新客观参数和标准可以被认为是基于颜色解释的重要一步，并且可以在检查后立即使用个人计算机安装的软件进行分析，从而协助放射科医生的诊断工作。除了传统的SVM，也有研究者进一步开发新的模型，并将神经网络应用于疾病风险程度分级。Kuppili等[21]提出了一种可靠的、快速的极端学习机器（extr eme learning machine,EL M）组织特征系统，用于肝脏超声成像的脂肪肝风险程度分级。ELM用于训练单层前馈神经网络。该研究中使用美国肝脏数据库的63例样本（27例正常、36例异常）训练，结果表明ELM性能优于SVM，使用肝S8段数据集的K10交叉验证协议，ELM和SVM的准确度分别为96.75%和89.01%，ROCAUC分别为0.97和0.91。进一步的研究显示ELM分类器的平均可靠性为99%，并且使用ELM的平均速度比使用SVM提高40%。该研究结果表明，基于超声成像的ML方法，特别是ELM可以较好地用于脂肪肝风险程度分级，有助于临床决策。

肝纤维化早期的临床干预可以减缓肝硬化的发展，降低肝癌的发病风险。肝脏活检是肝纤维化诊断的金标准，但具有有创性和较高的抽样误差等缺点。而超声实时组织弹性成像（re al-time tissue elastography,RT E）可以对肝纤维化进行准确评估且具无创性，可能成为很有前景的成像技术。但从临床的RTE影像中确定肝纤维化的程度是很困难的。Chen等[22]的多中心合作研究中，采用RTE影像和多元回归分析预测诊断分级，并采用了4种经典分类器（SVM、朴素贝叶斯算法、随机森林、k-NN）建立一个决策支持系统，来提高肝纤维化诊断效能。他们对513例接受肝脏活检的受试者的影像进行分析，共获得11个RTE影像特征，研究中所采用的分类器明显优于传统的肝纤维化指数方法，而随机森林分类器在4种机器算法中具有最高的平均精度。这一结果表明，复杂的ML方法可以成为评估肝纤维化分级的有力工具，并显示出较好的临床应用前景。近期，Yasaka等[23]探讨了CNN深度学习模型在肝纤维化分期中的应用价值，其采用钆塞酸二钠增强肝胆期MRI影像作为输入数据，其中训练集包括534例病人，测试集为100例病人。训练集中（纤维化分期为 F0、F1、F2、F3和 F4的病人分别为 54、53、81、113和233例），MRI原始图像上增加了90倍因素扩增（旋转、平行移位、亮度改变和对比度变化，共得到144 180张图像）。在测试集中评估CNN模型的效能（纤维化分期为 F0、F1、F2、F3和 F4的病人分别为 0、10、15、20和 45例）。结果深度学习对肝纤维化的评分与纤维化分期显著相关（Spearman等级相关系数为 0.63；P＜0.001）。纤维化分期为 F4、F3和F2的 ROCAUC分别为 0.84、0.84和0.85,结果表明CNN模型在肝纤维化分期中表现出较高的诊断效能。Wang等[24]也探讨了基于CNN深度学习的弹性成像影像组学模型评估肝纤维化分期的价值，采用二维SWE影像作为输入数据，共收集398例病人（1 990幅影像），266例病人作为训练集，132例病人作为测试集，分别计算肝硬化（F4）、晚期纤维化（≥F3）和显著纤维化（≥F2）的 ROCAUC。结果显示，CNN深度学习弹性成像影像组学模型预测肝纤维化为F4期、≥F3期和≥F2期的AUC分别为0.97（95%CI：0.94～0.99）、0.98（95%CI：0.96～1.00）和 0.85（95%CI：0.81～0.89）。该研究结果提示，与二维 SWE和生物标志物相比，深度学习的弹性成像影像组学模型显示出更好的肝纤维化预测效能，对乙型肝炎病毒感染病人肝纤维化分期的无创性诊断具有重要的实用价值。除此之外，CNN深层学习模型近期还被用于正常肝脏和肝硬化的筛查。Liu等[25]首先提出一种超声影像提取肝包膜的方法，然后根据提取的肝包膜，对一个深层CNN模型进行微调，从肝包膜周围的影像块中提取特征。最后，应用训练SVM分类器将样本分为正常或异常。该方法能有效提取肝脏包膜，并准确地对超声影像进行分类，识别正常肝脏和异常肝脏。

3.2 辅助医生对肝脏局灶性病变的鉴别和分类肝脏局灶性病变的影像鉴别诊断一直是临床的重点和难点，近期基于ML的方法不断应用于肝脏局灶性病变的鉴别诊断并取得了较好的结果，神经网络有望辅助临床进行鉴别诊断。Hwang等[26]利用99例肝脏病灶（包括29例肝囊肿、37例血管瘤、33例恶性肿瘤）超声成像，提取了共42个混合结构纹理特征，主成分分析选取29个关键特征，作为前馈神经网络的一组输入。结果显示，超声成像在肝局灶性病变之间(囊肿与血管瘤、囊肿与恶性肿瘤、血管瘤与恶性肿瘤)的诊断准确度高达96%以上。在最优特征集内，当回声被包括在内时，准确度略有提高。该研究表明所提出的方法在临床上是可行的，有望帮助临床进行疾病鉴别诊断。近期最突出的应用是将CNN深度学习模型应用于肝脏CT影像局灶性病变的鉴别诊断。Yasaka等[27]利用有肝脏肿块的3个时相(平扫、动脉期、延迟期)CT影像，共55 536个影像进行了CNN模型监督训练[从460例病人中获得1 068个原始图像，并在原始图像上增加了52倍的因素扩增（旋转、平行移动、增强放大、噪声添加）]，随后用100个肝脏肿块影像进行CNN模型测试（男74 例、女 26 例；A、B、C、D、E 类的影像分别有 21、9、35、20、15例）。训练和测试各进行了5次，使用分别构建的平扫、动脉期、延迟期、动脉-延迟期联合、三期联合CNN模型对肝脏肿块进行分类，并计算出不同类别A-B和C-E分类的AUC。肝脏肿块的鉴别诊断准确度为0.84。不同类别A-B和C-E分类的AUC的中位数为0.92。结果表明，基于CNN的深度学习在动态增强CT鉴别肝脏肿块方面具有较高的诊断效能，并且深度学习可以不需要专家自主提取特征，更加接近真实数据，减少了人为的影响。Diamant等[28]提出了一种新的Bag of-Visual-Words（BoVW）模型的自动医学影像分类的方法。这种方法通过使用基于互信息的标准学习每个任务的最相关的视觉词的任务驱动字典来改进BoVW模型。其将肝脏病灶CT影像分为4类（32例血管瘤、35例转移瘤、29例肝癌、22例肝囊肿），对118例肝脏门静脉期CT影像进行验证。新的BoVW模型与以往BoVW模型对比，在肝脏病变分类方面，敏感度提高了6%，特异度提高2%（P＜0.001）。结果表明，基于信息选择词汇的分类结果有显著的改善。新的BoVW方法在临床上显示了很好的结果，它可以发现当前任务的相关影像部分，而不需要对训练数据进行明确的标注，从而能为影像分析任务的医学专家提供计算机辅助支持。Depeursinge等[29]描述了一个框架，用于CT影像中对肝脏病变的视觉语义进行建模，以预测放射科医生在描述这些病变时所报告的视觉语义术语（vis ual semantic terms,VS T）。利用高阶可控Riesz小波和SVM的线性组合，从图像数据中学习计算VST模型。在第1步中，这些模型用于预测描述肝脏病变的每一个语义术语的存在；在第2步中，计算所有VST模型之间的距离，建立一个包含术语间同义和互补性的非分层计算性VST本体；最后使用来自RadLex本体的18个VST注释的74个肝脏病变对所提出的框架进行了初步评估。病人交叉验证ROC曲线下平均面积为0.853。该研究中提出的框架预计能够促进影像学中影像解释的人机协同作用，同时使用VST的旋转-协变计算模型来量化它们的局部可能性，并明确地将它们与基于像素的影像内容联系起来。以上研究表明，ML有望辅助医生进行肝脏局灶性病变的鉴别诊断，具有广阔的研究前景。

3.3 肝病影像分割算法的改进及影像质量的自动评估肝脏病变的影像分割一直是限制ML在肝脏疾病应用的重要原因，也有一些研究者进行尝试和改进算法，包括尝试使用神经网络方法。Le等[30]提出了一种新的计算机化的MRI影像肝肿瘤分割方法。该方法包括4个主要阶段。首先利用种子点提取包含T1WI序列中肝肿瘤区域的兴趣区（ROI）影像，降低ROI影像中的噪声，增强边界；应用3D快速推进算法生成被认为是教师区域的初始标记区域；采用非迭代算法训练的单隐层前馈神经网络对未标记体素进行分类；最后，后处理阶段被用来提取和细化肝肿瘤边界。该方法对16例病人的25个肿瘤进行了2个数据集的评估，提出的方法获得的肿瘤体积重叠误差为27.43%，平均百分比容量误差为15.73%。平均表面距离、均方根表面距离和最大表面距离的平均值分别为0.58、1.20、6.29 mm。此方法有望改进肝癌MR影像的分割，进一步增进ML的肝癌的应用研究。Esses等[7]开发和测试了一种新的CNN深度学习方法，用于对T2WI肝脏影像的非诊断影像进行自动筛选，并将该方法与2名放射科医师的评估相比较。研究纳入了522例来自1.5 T和3 T的肝脏MRI影像，351例T2WI影像用于训练CNN模型，每个病例都有一个诊断或非诊断的标记。另外171例由2名放射科医师对其T2WI影像进行独立评估，并被标注为诊断或非诊断。将该算法的影像质量输出与2位放射科医师的结果进行比较。CNN算法在识别非诊断性影像质量的敏感度和特异度分别为 67%和 81%（观察者 1）、47%和80%（观察者2）。CNN算法识别非诊断性影像质量的阴性预测值为94%（观察者1）、86%（观察者2）。采用这种CNN算法对肝脏的非诊断性T2WI影像筛查具有很高的预测价值，这表明计算机可以应用于影像质量的筛查，有助于减轻临床工作量。