人工智能在中枢神经系统疾病影像诊断中的应用进展
2020-07-10莫梓华高红霞黄飚
莫梓华,高红霞,黄飚
1.华南理工大学自动化科学与工程学院,广东广州510641;2.华南理工大学附属广东省人民医院放射科,广东广州510080
前言
随着互联网技术的迅速发展,各个领域中需要处理的数据量愈加庞大,人工智能(Artificial Intelligence,AI)应运而生。其中,在医疗数据日益电子化和数字化以及大数据分析方法发展推动下,AI在医疗领域的应用日新月异。利用AI技术能快速地从电子计算机断层扫描(CT)、核磁共振成像(MRI)或正电子发射计算机断层显像(PET)图像分割出来的病灶中提取大量的医学影像定量特征,挖掘蕴含在海量数据中肉眼无法识别的深层信息,通过建立疾病预测模型,对影像特征与临床数据间的关联性进行分析,自动地对疾病进行术前分期、分型和术后预后,进而指导临床实践。鉴于精准医疗的重要性和AI 技术的日益发展趋势,本研究主要综述了AI 在中枢神经影像诊断中的应用情况。
1 AI常用的学习算法与影像组学
AI 是指将通常由人类完成的智力任务自动化。机器学习是AI的核心之一(图1),机器学习使用的算法让计算机无需显式编程就能从现有数据中学习。每个学习过程都包括两个阶段:(1)根据给定的数据集估计系统中未知的依赖关系;(2)使用估计的依赖关系来预测系统的新输出。机器学习进一步根据是否拥有标记信息,把学习任务分为有监督学习和无监督学习。有监督学习中,每一个样例都拥有一个或者多个标记,其代表是分类和回归;无监督学习中,训练数据没有标记信息,其代表是聚类,即样例基于相似性度量被放置在多个类别中。深度学习是一种特殊的机器学习,与机器学习方法一样,深度学习方法也可分为有监督学习和无监督学习。机器学习需要依据特定的学科知识人工提取并量化特征,但深度学习通过分层网络自动组合低层特征形成更加抽象的高层特征,以发现数据的分布式特征表示,从而替代人工选择特征。
图1 人工智能各种算法关系的示意图Fig.1 Schematic diagram of the relationships of various algorithms of artificial intelligence
AI 在中枢神经影像诊断中常用的学习算法包括:人工神经网络、决策树、支持向量机以及贝叶斯网络。其中,人工神经网络是一种层级结构,由输入层、隐藏层和输出层构成,每一层包含若干神经元[1]。人工神经网络依据训练数据对层间的“连接权重”和层中神经元的“阈值”进行调整。理论上讲,能够完成复杂度高的分类任务,其模型也就越复杂。云计算和大数据时代的到来提高了训练的效率,同时降低了过拟合风险,深度学习等复杂模型日益引人瞩目。由多个隐藏层构成的人工神经网络是一种深度学习结构。深度学习包含多个重要算法,如卷积神经网络(Convolutional Neural Network,CNN)、多层反馈循环神经网络神经网络(Recurrent Neural Network,RNN)以及自动编码器(AutoEncoder)等。
决策树采用树形结构进行分类,一棵决策树包含一个根节点、若干内部节点和若干叶节点,其中叶节点表示决策结果,根节点和内部节点表示测试的输入属性。决策树代表样本属性与样本类别之间的一种映射关系,它是最早、最突出的机器学习方法之一,已广泛应用于解决分类问题[2]。决策树易于实现和解释,在训练过程中使用者无需了解很多背景知识。
支持向量机是近年来在肿瘤术前评估肿瘤病理类型和术后评估预后中应用较广泛的一种机器学习方法[3]。支持向量机的目的是基于间隔最大化原则,在训练样本空间中找到一个将不同类别的样本分开的超平面[4]。在现实任务中,数据集在原始样本空间并不是线性可分,即在原始样本空间中不存在一个能正确划分两类样本的超平面。在这种情况下,支持向量机通过核函数将输入向量映射到高维特征空间中,使得样本在这个特征空间中线性可分。支持向量机所得的分类器具有较好的通用性,且支持向量机对小集群的分类性能优越。
贝叶斯网络借助有向无环图(Directed Acyclic Graph,DAG)来描述属性之间的依赖关系,使用条件概率表来描述属性的联合概率分布。贝叶斯网络由变量节点和连接这些节点的有向边组成。贝叶斯网络中的各个节点表示随机变量,连接各个随机变量间的有向边表示节点间的相互关系,相互关系强度用条件概率来表达。贝叶斯网络已广泛应用于多种分类任务以及知识表示和推理等方面[5]。
影像组学是利用AI的各种学习算法分析海量影像学数据,将数据量化为各种特征,如通过计算病灶内局部纹理(粗糙度、图像均匀度、规整度和边界等)模式上的大尺度或小尺度上的形态学变化,捕捉影像上的细节定量,获取体素和相似(或相异)对照值间统计学的内在联系,这些特点能反映深层次的疾病的病理生理学信息,从而为临床提供辅助决策支持。因患者的细胞、生理、遗传变异等多因素共同决定着综合影像信息,通过影像组学研究,能解码隐含在医学影像中极其庞大的数字化信息,并客观且定量化将其内涵呈现在临床诊治和预后分析的整个过程中,这无疑会成为临床医学具有重大意义的革命。影像组学具体流程包括以下4个步骤:图像采集和重建、图像分割、特征提取与筛选以及建立模型,将原始图像根据研究内容进行分割,提取影像上的细节定量特征,并根据研究内容和目的选择特定的模型(图2)。
2 AI在中枢神经影像诊断中的图像分割和特征提取的应用
图像分割是各种医学图像分析的基础,医学图像分割分为手动分割、半自动分割和自动分割,利用AI算法实现的自动分割技术相比手动分割具有可重复性和高效性。常用的脑肿瘤分割算法包括经典的图像分割技术、模式识别技术以及近来兴起的深度CNN 技术[6]。在一项基于AutoEncoder 的深度CNN技术研究中,根据FLAIR 图像高信号区域,分割共享脑肿瘤数据集中186名胶质瘤病人,并将模型应用于测试组的135名胶质瘤患者以验证该模型的准确性,结果表明该自动分割模型胶质瘤的准确度与专家基本相同且能有效减少专家之间对胶质瘤分割存在的差异性[7]。
图2 影像组学的步骤Fig.2 Steps of radiomics
在计算机视觉技术中,有两种主要的图像特征提取策略,即局部水平特征提取和全局水平特征提取。局部水平特征提取强调在一个均匀的、较大的肿瘤区域内提取局部肿瘤区域的边缘、角、点和线等特征[8]。相比之下,全局水平特征提取强调对整个感兴趣区域的总体组成进行量化。在中枢神经影像诊断中的特征提取与筛选步骤中,对分割出来的脑部病灶或结构进行量化操作,用于描述病灶或结构区域的异质性。提取的特征包括基本特征,如形状、大小和强度等,还包括应用各种统计学方法得到的各阶矩特征,如基于直方图的特征和基于纹理的特征等。应用各种不同的机器学习模型提取与治疗决策显著相关的定量特征,针对不同的MRI 模态提取的特征有所不同。传统的MRI,如T1WI、T2WI 以及质子密度成像,提取的特征主要包括被标记区域的容积和表面积、局部灰质厚度、凸性和平均曲率等。对于弥散张量成像,对每一个标志区域提取它的各向异性分数、平均扩散系数、轴向扩散系数以及径向扩散系数[9]。
3 AI在中枢神经影像诊断中的临床应用
3.1 AI 在术前胶质瘤分级以及预测基因突变状况的应用
中枢神经系统肿瘤中常有大量的基因突变而且肿瘤的分子和微环境具有明显的异质性,这使其诊断和治疗方法都很复杂。比如弥漫性胶质瘤的几种主要的细胞通道周围常有60 多种基因突变[10],了解这些细胞通道,才能改进诊断方法和进行靶向治疗。将成像特征与肿瘤遗传、基因突变和表达模式关联起来是AI 在神经影像诊断的新兴领域。Chang 等[11]使用深度学习CNN 对胶质瘤中的基因突变进行分类,目的是通过训练CNN,预测胶质瘤的分子遗传突变状态,并识别出对基因突变预测价值最大的影像学特征。基于259例低、高级别胶质瘤患者中获取T2WI、FLAIR 和T1WI 增强图像,用自定义残差网络对胶质瘤的染色体1p/19q 共缺失、异柠檬酸脱氢酶1(IDH1)突变状态和6-甲基鸟嘌呤甲基转移酶(MGMT)启动子甲基化状态进行分类训练,使用5折交叉检验计算获得的预测准确率分别为:IDH1 突变状态94%、1p/19q 共缺失92%、MGMT 启动子甲基化83%;最后利用CNN 全连接层中隐藏层的64 个特征进行主成分分析,发现与成功分类相关的关键成像特征包括肿瘤边缘、水肿程度、坏死程度、纹理特征等。
除预测基因表达外,预测胶质瘤分级也是研究热点。脑胶质瘤的准确分级对治疗决策、放化疗的监管和管理以及预后评估具有重大意义。Qin 等[12]从66例胶质瘤术前T1WI、T2WI 和扩散加权成像(DWI)图像中提取114 个影像学特征,筛选出8 个准确区分高、低级别胶质瘤特征,其中最具区分能力的3 个特征分别为T2WI 灰度共生矩阵的集群阴影特征、T1WI 灰度共生矩阵的熵特征以及DWI 灰度共生矩阵的同质性特征。该方法为临床应用提供了一种无创、方便、可重复的胶质瘤分级方法,有助于促进脑胶质瘤治疗的个体化。
3.2 AI预测胶质瘤患者生存期
最近,许多研究基于多参数MRI 图像对胶质母细胞瘤患者的生存期进行预测。Macyszyn等[13]在回顾性队列中通过提取肿瘤体积、瘤周浸润和细胞密度等特征作为支持向量机模型的输入,对生存期长短(长期、中期、短期)进行预测,结果表明得到的这些影像特征对患者的生存有很高的预测能力。同样是预测胶质母细胞瘤患者的生存期,Kickingereder等[14]基于影像组学方法对119 名胶质母细胞瘤患者(训练组79例、测试组40例)提取12 190 个影像特征(包括一阶矩、体积和形状等特征),从肿瘤强化区的FLAIR 参数中为最终模型选择的11 个影像组学特征,其中,能量标准差是来自于小波变换的灰度共生矩阵的参数,对预测生存期模型影响最大。使用基于监督主成分分析方法(SPC)的比例风险回归模型进行分类后,所得结果比此前基于临床或影像的模型能更准确地预测胶质母细胞瘤的无进展生存期和总体生存期。
3.3 AI在鉴别胶质瘤术后复发和治疗后改变的应用
胶质瘤术后复发和治疗后改变的鉴别仍然是一个诊断难题,但AI非常适合用于鉴别两者。Hu 等[15]从31例(肿瘤复发15例、放射性坏死16例)经手术切除后接受放化疗的多形性胶质母细胞瘤患者的T1WI、T2WI、灌注成像(PWI)和表观弥散系数中提取并筛选出8个特征,使用支持向量机模型在复发肿瘤中鉴别放射性坏死组织,优化后的模型对假性进展的敏感性为89.91%,特异性为93.72%,受试者工作特性曲线下面积(AUC)为0.943 9,这表明利用多参数MRI 图像特征的机器学习算法是一种鉴别放射性坏死组织分布很有前景的方法。对象同样是经手术完全切除后接受放化疗的胶质母细胞瘤患者,Jang等[16]首次将深度学习方法应用在胶质母细胞瘤患者假性进展的识别中。该研究组合CNN和长短时记忆网络(Long Short Term Memory,LSTM)对59例患者的增强T1WI 图像进行建模,模型1 将增强T1WI 图像以及临床变量作为CNN-LSTM模型输入变量,模型2将增强T1WI图像作为CNN-LSTM 模型输入变量,模型3 将临床变量作为随机森林模型的输入变量。结果表明,结合T1WI 增强图像和临床变量的CNNLSTM 模型能够更准确地在胶质母细胞瘤患者中识别出假性进展和肿瘤复发。
4 AI诊断系统的初步应用
尽管已有很多科学研究证实,AI 技术能解码隐藏在医学影像中反映病理机制的深层次的信息,但是AI 计算算法过于复杂,限制了其在临床实践中的应用,因此,迫切需要简单易用的软件工具,使AI 真正应用于临床工作。很多AI研究使用的是内部开发的软件进行图像分割与特征提取,无法与公众共享。
PyRadiomics 是一个开源的python 包,使用工程硬编码特征算法,从医学图像数据中(如CT、MRI、PET)处理和提取影像特征,标准化了图像处理步骤和特征定义,使相关AI研究能够重复和相互比较[17]。
脑肿瘤影像表型组学工具包(Cancer Imaging Phenomics Toolkit,Brain-CaPTk,www.med.upenn.edu/sbia/captk.html)是一个模块化的平台[18],由图像处理、图像分割、特征提取和机器学习组件构成,无需大量的计算知识背景即可对脑肿瘤图像进行定量分析。Brain-CaPTk旨在通过获得广泛全面的定量的影像组学特征集,并利用多变量机器学习方法将其整合,从而为临床的多方面精确诊断和预后判断提供相关的神经影像学的生物标志物,同时将这些生物标志物集成到放射科医生日常工作的测量、分析和报告的流程中。Brain-CaPTk是一个日益完善的软件平台,虽然可用于任何解剖位置和图像类型,但目前主要用于多模态MRI成像,如平扫T1WI、对比剂增强T1WI、T2WI、FLAIR、扩散张量成像、动态磁敏感对比PWI 以及动态对比增强PWI。Brain-CaPTk 还支持扩散张量成像各种量值的可视化,如表观扩散系数、轴向扩散系数、径向扩散系数以及各向异性分数等,也能支持MRI-PWI各种量值的可视化,如脑血容量等。
CaPTk 是一个新兴的、日益完善的用于定量分析肿瘤图像的软件平台,目前主要用于研究脑肿瘤、乳腺癌和肺癌[19]。CaPTk 首先从影像数据中提取和筛选最具代表性的影像特征,然后将这些量化特征作为多变量机器学习模型的输入,以产生预测结果,如乳腺癌的精确诊断和风险评估、预测胶质母细胞瘤患者的生存率以及预测早期非小细胞肺癌的治疗反应和生存率等。
5 结论与展望
综上所述,应用各种AI 技术识别并分割神经中枢图像中的感兴趣区域,挖掘大量蕴含在区域中反映深层次的病理生理学信息,AI 在神经中枢疾病的预测、智能决策、个体化精准医疗中的发展引人瞩目。但由于AI 的复杂性,在实际应用中仍面临诸多困难。只有开发出更多简单易用的软件工具,才能使AI 真正应用于临床工作,这些软件包最好能整合脑肿瘤的各种诊断特性分析,如判断肿瘤分子亚型、预测肿瘤生存期以及预测肿瘤复发,而且这些软件包能够进一步拓展临床应用范围,如应用于多发硬化等疾病。