基于多模态多标记迁移学习的早期阿尔茨海默病诊断
2016-09-29程波朱丙丽熊江
程波 朱丙丽 熊江
摘要:针对当前基于机器学习的早期阿尔茨海默病(AD)诊断中训练样本不足的问题,提出一种基于多模态特征数据的多标记迁移学习方法,并将其应用于早期阿尔茨海默病诊断。所提方法框架主要包括两大模块:多标记迁移学习特征选择模块和多模态多标记分类回归学习器模块。首先,通过稀疏多标记学习模型对分类和回归学习任务进行有效结合;然后,将该模型扩展到来自多个学习领域的训练集,从而构建出多标记迁移学习特征选择模型;接下来,针对异质特征空间的多模态特征数据,采用多核学习技术来组合多模态特征核矩阵;最后,为了构建能同时用于分类与回归的学习模型,提出多标记分类回归学习器,从而构建出多模态多标记分类回归学习器。在国际老年痴呆症数据库(ADNI)进行实验,分类轻度认知功能障碍(MCI)最高平均精度为79.1%,预测神经心理学量表测试评分值最大平均相关系数为0.727。实验结果表明,所提多模态多标记迁移学习方法可以有效利用相关学习领域训练数据,从而提高早期老年痴呆症诊断性能。
关键词:多模态学习;多标记学习;迁移学习;阿尔茨海默病;特征选择
中图分类号:TP181
0引言
阿尔茨海默病(Alzheimers Disease, AD),又称老年痴呆症,是一种脑神经元以及神经元之间连接的渐进性损伤,而引起的认知和记忆功能减退的中枢神经系统退行性脑部疾病。65岁以上老人中约有八分之一患有AD,随着年龄增长患病率明显增加。研究预测2050年AD患者将达到1.15亿[1],因此,尽早发现并治疗能有效延缓疾病发展进程,那么,AD早期阶段诊断,也就是轻度认知功能障碍(Mild Cognitive Impairment, MCI)诊断对延缓并治疗AD具有十分重要的意义。近年来,大量基于多模态特征的机器学习方法被应用于早期AD诊断[2-8]。这些多模态特征,通常有结构磁共振成像(Magnetic Resonance Imaging, MRI)、正电子发射型计算机断层成像(Positron Emission Tomography, PET)、脑脊液(Cerebrospinal Fluid, CSF)以及其他模态脑图像特征。这些基于多模态方法的研究[2-8]表明,采用多模态特征的方法能获得比单模态方法更好的分类性能,因为不同模态特征之间的互补性判别信息通过多模态方法能有效融合。
最近,一些研究除了单纯预测疾病类别之外,也开始关注估计患者神经心理学量表测试评分值[3,9-10]。其中有不少研究关注估计简易精神状态检查量表(Mini-Mental State Examination, MMSE)、阿尔茨海默病评定量表(Alzheimers Disease Assessment Scale-Cognitive subscale, ADAS-Cog)评分值[2,10-11]。相比分类方法预测疾病类别,回归方法估计神经心理学量表测试评分值能更加精细地诊断疾病的临床阶段;但是,有一些学者发现预测疾病类别与估计神经心理学量表测试评分值是非常相关的学习任务[3,12-13],于是出现了一些学者开始研究结合分类与回归方法。其中:Zhang等[3]提出了一种多模态多任务学习方法,能从分类与回归学习任务中学习出共同的最优特征子集;Zhu等[12]提出了一种基于矩阵相似性度量的多任务学习方法,能同时从多模态多任务训练集中学习出最优特征子集;此外,Wang等[13]提出了一种结构稀疏多任务学习模型,能从分类与回归学习任务中学习对AD疾病敏感的神经图像特征。以上研究表明,结合具有相关性的异质多学习任务能明显改进单一学习任务的性能。
然而,现有大多数结合分类与回归学习任务的研究中,训练集数据都来自同一学习领域。在基于脑图像疾病诊断的临床实际中,存在许多相关学习领域的数据可利用。例如,最近一些研究发现,诊断AD与诊断MCI是非常相关的两个学习领域,并且利用分类任务AD与正常对照组(Normal Control, NC)能有效改进诊断MCI的分类(也就是MCI转化为AD表示为MCI-C;MCI不转化为AD表示为MCI-NC)性能[7,14-15]。另外,引入相关学习领域数据能有效缓解小样本问题。在机器学习领域里,一些学者提出迁移学习来有效利用相关学习领域数据,并在计算机视觉应用领域获得了较好的性能。在本文中,为了有效利用多模态相关学习领域(也即是诊断AD)数据,提出了多模态多标记迁移学习模型(Multimodal Multi-Label Transfer Learning, M2LTL)。具体来讲,多模态多标记迁移学习框架主要包括两个模块:1)多标记迁移学习特征选择模型,从多个学习领域训练集上寻找最具判别性的特征子集;2)多模态多标记分类回归学习器,同时进行疾病分类诊断和神经心理学量表测试评分值估计。为了验证本文提出方法的有效性,采用国际老年痴呆症数据库(Alzheimers Disease Neuroimaging Initiative, ADNI)上的MRI、PET和CSF多模态数据进行实验。
1多模态多标记迁移学习模型
临床上医生通常结合多种诊断方式来确诊早期阿尔茨海默病。鉴于此,本文要结合当前机器学习诊断早期阿尔茨海默病的两大主流方法,也即是分类、回归。另外,有研究表明:分类方法预测疾病类别与回归方法估计神经心理学量表测试评分值是非常相关的学习任务。基于以上动机,本文采用多标记学习的方式来结合分类与回归学习任务。另一方面,当前大多数研究采用的训练集数据来源比较单一,且训练样本有限。其实,临床上有很多相关领域数据(也称为相关学习领域)以及其他模态的数据可利用,因此,本文提出要在多模态多领域训练数据上设计多标记学习算法,也就是多模态多标记迁移学习模型。
具体来讲,多模态多标记迁移学习模型应用于早期阿尔茨海默病诊断包含以下几个方面:首先对MRI、PET图像进行预处理,并提取特征;然后采用多标记迁移学习特征选择方法分别从提取出的MRI、PET特征上选出最优特征子集;最后将选出的有效特征子集输入到多模态多标记分类回归学习器,以完成疾病类别的预测和神经心理学量表测试评分值的估计。
1.1多标记迁移学习特征选择
从临床上采集的MRI、PET图像上提取出特征,一般情况下不能直接用于分类器进行分类。因为提取的特征通常维数还比较高,而且其中包含有一部分不相关的特征。为了从提取的MRI或PET图像特征中找出有效的决策性特征子集,文献[16]提出基于稳定特征选择的稀疏Lasso(Least absolute shrinkage and selection operator)模型,实验表明该方法能获得更有效地判别性特征子集。然而,该研究的稀疏Lasso模型不能用于多标记组的目标变量。鉴于此,本文提出稀疏多标记Lasso模型。
通过优化式(1),得到的W中被选中特征对应的行向量不全是非零值,这样便可实现同时选择对所有标记组都有用的特征,也可保持自身标记组内有用的特征。采用ML-Lasso模型进行特征选择的工作过程为:首先输入训练集数据矩阵X,以及其对应的多标记矩阵Y(本文采用了3组标记,分别是疾病类别标记向量y1、MMSE评分值标记向量y2和ADAS-Cog评分值标记向量y3);然后采用式(1)的ML-Lasso模型进行优化,从而得到稀疏权值矩阵W;最后挑选W的各个列权值向量非零值下标对应的特征。
采用传统基于单一领域训练集的机器学习脑图像分析方法进行脑疾病诊断,通常不能完成令人满意的性能;但在最近的研究中发现,多领域学习逐步被应用于多模态脑图像分析研究中[7,14],并能完成比单一领域学习更好的性能,因此,本文引入相关学习领域作为辅助领域知识,
扩展前面的稀疏多标记Lasso模型,并提出稀疏多标记迁移学习Lasso模型。
另一方面,稀疏多标记Lasso模型,只适用于基于单一领域的多标记学习问题。如果要处理多领域数据,只能分别使用该模型,通过式(1)优化,分别得到各个领域里的优化权值矩阵集合为{W1,W2,…,WD},D为学习领域总个数。由于这些权值矩阵分别在各自领域数据上单独优化得到,无法获得多领域之间的相关性知识。为了充分挖掘多领域之间相关性先验信息,加入了各个领域之间的权值系数列向量wl,d局部平滑正则化项(d表示领域个数索引变量),也就是∑Ll=1∑D-1d=1‖wl,d-wl,d+1‖22,其作用是使各领域里同一类型的标记组尽量相似,那么,扩展式(1)的目标函数,提出的稀疏多标记迁移学习Lasso模型的目标函数为:
其中:优化变量三维矩阵W^∈RF×L×D是由各个领域的权值矩阵Wd组成的三维权值矩阵,Wd表示第d学习领域的权值矩阵;Xd第d学习领域的训练集;Yd为该领域训练集对应的多标记组矩阵;λ1,λ2,λ3>0为正则化参数,用以控制式(2)中各项的贡献度;‖·‖F运算表示矩阵的Frobenius范数。目标函数式(2)的最优化问题可以通过文献[17]提出的快速梯度法求解。采用稀疏多标记迁移学习Lasso模型进行特征选择的工作过程为:首先输入所有学习领域训练集数据矩阵Xd(本文只采用了两个学习领域,也即是一个辅助领域(AD和NC)与一个目标领域(MCI-C和MCI-NC),故D=2),以及多领域训练集对应的多标记组矩阵Yd(每个领域都有3组标记);然后采用式(2)的稀疏多标记迁移学习Lasso模型进行优化,从而得到三维稀疏权值矩阵W^;最后挑选W^中的目标领域权值矩阵非零值下标对应的最优特征子集。
1.2多模态多标记分类回归学习器
对于提取的MRI、PET特征集合,分别采用前面提出的多标记迁移学习特征学习算法,借助相关辅助领域数据,获得目标领域用于分类与回归的最优特征子集。接下来,采用多核学习技术来融合多模态特征数据,该方法在一些研究[2-3]中多次被使用且很有效。首先,各个模态特征数据被转化核矩阵。然后,采用多核学习技术融合这些多模态核矩阵。那么,对于第m模态上任意样本x(m)i和x(m)j,其多模态合成核函数k为:
k(xi,xj)=∑Mm=1cmk(m)(x(m)i,x(m)j)(3)
其中:k(m)为第m模态上任意样本x(m)i和x(m)j之间定义的核函数;cm为第m模态上核函数的权值,需要在训练集上采用交叉验证的网格搜索方法来优化确定。通过式(3),融合后目标领域核矩阵为:K=∑Mm=1cmK(m),它被用于下一步的分类与回归学习器中。
为了有效融合多标记组以用于同时分类与回归学习任务,采用式(1)稀疏多标记Lasso的变形优化问题,那么多标记分类回归学习器目标函数为:
minV12‖KV-Y‖2F+β∑L-1l=1‖vl-vl+1‖22(4)
其中:K∈RN×N是多模态特征融合的核矩阵;权值矩阵V=[v1,v2,…,vL]∈RN×L表示各个训练样本在多标记组上的权值,其任意一个列向量为vl;正则化项∑Ll=1‖vl-vl+1‖22的作用是使各个标记组之间权值列向量尽量相似; β>0用于控制(4)中各项的贡献度。目标函数式(4)的最优化问题也可以通过文献[17]提出的快速梯度法求解。采用多标记分类回归学习器进行同时分类与回归的工作过程为:首先将通过特征选择后的多模态目标领域训练集映射到核空间,得到多模态核矩阵K(m),然后采用式(3)方法得到核矩阵K;接下来将K和目标领域多标记组矩阵Y(仍是3组标记)输入到式(4)的多标记分类回归学习模型进行优化,从而得到权值矩阵V;最后将测试集数据矩阵乘以权值矩阵V,从而得到预测的标记组矩阵。
通过多标记迁移学习特征选择方法可以获得对疾病敏感的特征子集,紧接着多模态多标记分类回归学习方法紧密结合了多模态和多标记先验信息,从而实现了充分利用了多标记先验信息。与传统机器学习方法单纯使用多模态数据、多领域数据、或者多标记信息不同,本文提出的多模态多标记迁移学习模型能同时结合多模态、多领域和多标记信息,多层次利用它们来改进学习器的性能。
2实验数据与结果分析
2.1实验数据
本文实验数据均来自于国际老年痴呆症数据库(http://www.loni.ucla.edu/ADNI)。本文选择了同时具有MRI、PET和CSF模态的被试者样本数据进行实验,并只选择这些被试者的基准时间点采集的数据。在国际老年痴呆症数据库中,同时具有以上3个模态数据的被试者为202个,更多详情请参考文献[3]。表1列出这些被试者的人口统计资料信息。
以上所有被试者样本的MRI和PET图像,首先需要通过预处理并提取特征,然后才能用于分类或回归。本文采用文献[3]相同的图像预处理与特征提取方法。通过预处理,最终每个被试者提取特征为:来自于MRI图像的93维特征,来自于PET图像的93维特征,以及来自于CSF生物标记的3维特征。
2.2实验设置
为了验证本文提出的多模态多标记迁移学习模型(M2LTL)性能,本文采用10折交叉验证策略来评价算法的分类性能。具体来说,对于MCI分类实验,将99个MCI病人样本平均划分成10份,逐一地选择其中1份作为测试集,剩余9份作为训练集。
计算这10次实验的平均精度(ACCuracy)、敏感度(SENsitivity)、特异度(SPEcificity)、受试者工作特征(Receiver Operating Characteristic, ROC)曲线下面积(Area Under Curve, AUC)值,以作为1次划分的实验结果。然后随机地交换99个MCI病人样本的顺序,再进行1次10折交叉验证的划分,并计算平均精度、敏感度、特异度、AUC值。重复10次划分,并计算这10次划分的平均精度ACC、敏感度SEN、特异度SPE和AUC值。对于回归实验,直接对202个多模态特征样本进行10折交叉验证策略来评价算法的回归性能。同样地重复10次划分,然后计算平均相关系数(CORRelation coefficient, CORR)值和均方误差的平方根(Root Mean Square Error, RMSE)值。此外,本文只采用了两个学习领域,分别是:辅助领域AD和NC、目标领域MCI-C和MCI-NC。
另外,传统的支持向量机(Support Vector Machine, SVM)以及其他需要采用支持向量机分类的比较方法,均采用LIBSVM(a Library for Support Vector Machine, LIBSVM)工具箱[18]仿真实现。其中所有使用SVM分类的方法都采用线性核,其他参数均采用系统缺省值。为了验证M2LTL方法的回归性能,引入相关向量机回归方法(Relevance Vector Regression machine, RVR),仿真实验采用稀疏贝叶斯工具包(http://www.miketipping.com/index.htm)。在实验中,均采用高斯核函数。其中高斯核函数带宽σ采用网格搜索优化,其搜索范围为:{2,4,8,16,32,64,128,256,512},其他参数均采用默认值。此外,稀疏学习工具包[19]被用于Lasso、ML-Lasso和M2LTL优化问题的仿真实现,其中正则化参数λ1、λ2、λ3和β需要在训练集上通过内嵌的10折交叉验证策略优化来获得。所有要优化的正则化参数,它们的搜索空间为:{0.00001,0.0001,0.0005,0.001,0.004,0.007,0.01,0.02,0.03,0.05,0.06,0.08,0.1,0.2,0.4,0.6,0.8},通过网格搜索方法进行优化。值得注意的是,本文所有方法的参数优化都是在训练集上通过内嵌的10折交叉验证优化得到的。在使用多模态特征数据时,采用文献[20]基于网格搜索方法优化多核学习参数。此外,本文所有实验数据采用文献[20]的相同特征归一化方法。
2.3实验结果与分析
为了验证本文提出多模态多标记迁移学习模型用于识别MCI转化为AD病人的性能,分别在多模态(MRI+CSF+PET)和单模态(MRI、CSF、PET)数据上进行测试,并与其他四种方法(Baseline、Lasso、ML-Lasso、MTFS(Multi-Task Feature Selection)[3])进行比较,表2是这些方法在多模态和单模态数据上的分类性能。Baseline表示传统的支持向量机(SVM)分类方法,且只在目标领域里(也即是只有MCI样本),并且没有使用任何特征选择方法,所以把它当作基准方法(Baseline)。Lasso则表示只在目标领域里,先采用基本Lasso模型选择有效特征子集,再使用SVM分类;ML-Lasso则表示也只在目标领域里,再加上多标记组,先采用ML-Lasso模型(式(1))选择有效特征子集,再使用SVM分类。MTFS表示采用文献[3]方法仅在目标领域里进行特征选择,然后使用SVM方法分类。其中,表1中的所有实验结果都是通过10次10折交叉验证的划分的平均值。此外,为了进一步比较各个分类方法的性能,图1绘制了表2中所有多模态方法对应的ROC曲线。
表2中给出了四种分类指标(分类精度ACC、敏感度SEN、特异度SPE、ROC曲线面积AUC值)数据来验证MDML方法的有效性。表2的实验结果表明,无论是使用多模态还是单模态数据,所有采用了特征选择的方法都能提高分类器的性能,这也说明了采用特征选择改进诊断性能的可行性。从表2的分类结果和图1的ROC曲线来看,采用了M2LTL特征选择方法能获得比MTFS、ML-Lasso和Lasso模型更好的分类性能。此外,这些实验结果还表明,使用多模态数据能明显改善只使用单模态数据的分类性能。总之,以上实验结果说明了,M2LTL方法能同时并且有效地使用多标记组与相关辅助领域知识,并显著地改善诊断MCI转化为AD病人的性能。
为了进一步评价M2LTL特征选择方法对于诊断早期老年痴呆的性能,本文使用M2LTL方法选出的特征子集去估计MMSE和ADAS-Cog评分值,以此来预测AD或MCI病人的疾病阶段。M2LTL和其他三种特征选择方法(Lasso、MTFS、mLasso),以及无特征选择的基准方法(Baseline),分别估计MMSE和ADAS-Cog评分值的回归性能结果如表3所示。其中:Baseline方法是基于相关向量机的回归算法(Relevance Vector Regression machine, RVR),没有使用任何特征选择方法;Lasso表示先采用基本Lasso模型选择有效特征子集,再使用RVR方法回归;mLasso表示先采用变形的ML-Lasso模型(也就是式(1)没有λ1‖W‖1,1惩罚项,这样选出的特征在所有标记组上均有效)选择有效特征子集,再使用RVR方法回归;MTFS表示采用文献[3]方法在目标领域里进行特征选择,再使用RVR方法回归。值得注意的是,由于回归实验在202个被试者样本上进行,故没有辅助领域数据,那么M2LTL模型就等效于式(1)的ML-Lasso模型。
表3的实验结果表明,相比Baseline方法,无论从相关系数还是估计误差来看,特征选择方法能明显改进学习器的回归性能。其次,相比采用单标记组的Lasso方法,多标记特征选择(M2LTL和mLasso)与多任务特征选择方法(MTFS)能完成更好的回归性能;而采用了组稀疏惩罚的M2LTL方法,能进一步改进mLasso模型的回归性能,并且优于多任务方法(MTFS)。最后,所有多模态方法也都明显优于单模态方法。所有这些实验结果都表明,采用多标记组与多模态的先验信息能提高回归模型预测AD或MCI病人疾病阶段的有效性。
3结语
为充分利用多标记相关学习领域的先验知识,本文提出多模态多标记(M2LTL)迁移学习模型。针对多模态脑图像与生物标记数据,本文提出的学习模型能综合利用基于多标记的相关辅助领域知识。首先根据传统稀疏Lasso特征学习框架,构建稀疏多标记Lasso特征选择模型;接下来,再根据迁移学习与多任务学习思想,构建多标记迁移学习特征学习模型;最后,构建多模态多标记分类回归学习器。在国际老年痴呆症数据库上进行实验测试,验证了M2LTL模型的有效性。实验结果表明,采用M2LTL方法能有效利用相关辅助学习领域训练数据,从而提高了学习模型的分类性能和回归估计性能。
尽管本文取得了较好的结果,但仍有改进的空间:首先,本文只采用了单一辅助领域数据,而在临床上,还有其他相关数据可利用,比如大量的无标签图像数据;
可以考虑扩展当前的模型,使之能处理无标签数据;完整的多模态数据往往不易获取,易导致训练样本不足,但其中某个模态数据却比较充足,所以也可以考虑扩展当前模型,使之能处理不完全多模态数据。
参考文献:
[1]ASSOCIATION A. 2013 Alzheimers disease facts and figures [J]. Alzheimers Dement, 2013, 9(2): 208-245.
[2]CHENG B, ZHANG D, CHEN S, et al. Semi-supervised multimodal relevance vector regression improves cognitive performance estimation from imaging and biological biomarkers [J]. Neuroinformatics, 2013, 11(3): 339-353.
[3]ZHANG D, SHEN D. Multi-modal multi-task learning for joint prediction of multiple regression and classification variables in Alzheimers disease [J]. NeuroImage, 2012, 59(2): 895-907.
[4]YOUNG J, MODAT M, CARDOSO M J, et al. Accurate multimodal probabilistic prediction of conversion to Alzheimers disease in patients with mild cognitive impairment [J]. NeuroImage: Clinical, 2013, 2: 735-745.(无期)
[5]WESTMAN E, MUEHLBOECK J S, SIMMONS A. Combining MRI and CSF measures for classification of Alzheimers disease and prediction of mild cognitive impairment conversion [J]. NeuroImage, 2012, 62(1): 229-238.
[6]CHENG B, LIU M, SUK H, et al. Multimodal manifold-regularized transfer learning for MCI conversion prediction [J]. Brain Imaging and Behavior, 2015, 9(4): 913-926.
[7]CHENG B, LIU M, ZHANG D, et al. Domain transfer learning for MCI conversion prediction [J]. IEEE Transactions on Biomedical Engineering, 2015, 62(7): 1805-1817.
[8]JIE B, ZHANG D, CHENG B, et al. Manifold regularized multitask feature learning for multimodality disease classification [J]. Human Brain Mapping, 2015, 36(2): 489-507.
[9]ZHOU J, LIU J, NARAYAN V A, et al. Modeling disease progression via multi-task learning [J]. NeuroImage, 2013, 78(1): 233-248.
[10]WANG Y, FAN Y, BHATT P, et al. High-dimensional pattern regression using machine learning: from medical images to continuous clinical variables [J]. NeuroImage, 2010, 50(4): 1519-1535.
[11]ZHANG D, SHEN D. Predicting future clinical changes of MCI patients using longitudinal and multimodal biomarkers [J]. PLoS One, 2012, 7(3): e33182.
[12]ZHU X, SUK H, SHEN D. A novel matrix-similarity based loss function for joint regression and classification in AD diagnosis [J]. NeuroImage, 2014, 100(1): 91-105.
[13]WANG H, NIE F, HUANG H, et al. Identifying AD-sensitive and cognition-relevant imaging biomarkers via joint classification and regression [C]// MICCAI 2011: Proceedings of the 2011 International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2011: 115-123.
[14]CHENG B, ZHANG D, SHEN D. Domain transfer learning for MCI conversion prediction [C]// MICCAI 2012: Proceeding of the 2012 International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2012: 82-90.
[15]FILIPOVYCH R, DAVATZIKOS C. Semi-supervised pattern classification of medical images: application to Mild Cognitive Impairment (MCI) [J]. NeuroImage, 2011, 55(3): 1109-1119.
[16]YE J, FARNUM M, YANG E, et al. Sparse learning and stability selection for predicting MCI to AD conversion using baseline ADNI data [J]. BMC Neurology, 2012, 12: 1412-1446.
[17]NEMIROVSKI A. Efficient methods in convex programming [J]. Mathematical Programming, 2009, 26(1): 85-89.
[18]CHANG C, LIN C. LIBSVM: a library for support vector machines [EB/OL]. [2015-10-09]. http://wwwcsientuedutw/~cjlin/libsvm.
[19]LIU J, JI S, YE J. SLEP: sparse learning with efficient projections [EB/OL]. [2015-10-25]. http://wwwpublicasuedu/~jye02/Software/SLEP.
[20]ZHANG D, WANG Y, ZHOU L, et al. Multimodal classification of Alzheimers disease and mild cognitive impairment [J]. NeuroImage, 2011, 55(3): 856-867.