基于多检查结果融合的MCI进展预测方法
2024-03-21董浩然王顺芳
董浩然,王顺芳
(云南大学 信息学院,云南 昆明 650504)
0 引 言
因病理不明的原因,当前对阿尔茨海默症(Alzheimer disease,AD)的治疗方法只能起到延缓作用[1]。AD的前驱阶段被称为轻度认知障碍(mild cognitive impairment,MCI),对MCI患者向AD阶段进展的预测对于AD患者的早期干预与治疗有着重要意义[2]。
传统的MCI与AD预测方法多是采用病人的单类检查结果进行预测[3,4]。但基于最近的研究,使用单类数据进行预测可能会在诊断的过程中添加混淆信息,影响模型的预测精度与泛用性[5]。近年来,同时利用病人的多项检查结果提高模型预测性能已经成了AD与MCI疾病预测的研究热点[6-11]。
基于此,本文将双图卷积网络(dual-graph convolution network,Dual-GCN)[12]与本文提出的修正视图相关发现网络(modified view correlation discovery network,MVCDN)相结合,提出一种基于Dual-GCN的多维数据联合预测网络(multi-view joint prediction based on dual-GCN,MVIDG),以进行MCI疾病进展的预测。
本文的主要贡献如下:
(1)提出基于超参数k1与k2构建病人特征网络图ConvP与ConvA的方法,利用Dual-GCN同时对图的局部一致性与全局一致性进行信息嵌入。
(2)针对多维数据融合时冗余信息与噪声信号对预测结果的影响做出改进,提出MVCDN网络,提高多维数据融合效果。
(3)提出多维数据融合网络模型MVIDG,可融合病人多项检查结果预测病人在未来一年内由MCI阶段向AD阶段进展的概率。其模型架构如图1所示。
图1 多维数据融合网络MVIDG
1 数据处理
1.1 数据集
本文使用的数据来自ADNI数据库。ADNI的主要目标是测试序列MRI、AD生物标志物、临床与神经心理学评估等是否可以结合起来预测MCI和早期AD的进展。
从中,我们选取同时含有以下检查结果的患者:①基于标准脑图谱分割的脑部各区体积测量(volumetric mea-surements)。②海马体葡萄糖代谢浓度。③神经认知分数(ADAS-cog score)。④脑脊液蛋白浓度(CSF proteomics)。⑤血浆蛋白浓度(plasma proteomics)。⑥ApoE基因型。⑦一年内临床诊断变化。从MCI阶段到正常对照组以及从AD阶段到MCI阶段的转变因AD的不可逆转性被排除在外。
最终纳入271名符合标准的ADNI参与者,其中97名患者为MCI稳定患者(MCI stable,MCIS),他们在一年内均保持MCI诊断未变化。174名为MCI进展患者(MCI converters,MCIC),他们在一年内由MCI患者恶化为AD患者。关于患者信息的分布见表1。
表1 患者信息分布
1.2 特征选择
我们使用mRMR算法[13]作为降维算法,其可在不显著丢失信息的情况下降低数据集维数,仅保留特征集合中与目标变量最相关的特征,且保留的特征之间相关性较低,从而筛除无关特征与冗余特征。
首先,我们对特征进行归一化,以保证深度学习的训练效果。之后,我们过滤掉均值为0以及低方差的特征。对于脑区体积特征数据与血浆蛋白数据,我们选定0.1为方差阈值。对于Others数据,我们只筛选方差为0的数据,因为其特征数目有限。之后,我们使用mRMR算法进行进一步筛选。具体来说,我们使用5的步长,对脑区体积特征数据与血浆蛋白浓度数据搜索数值在40到90之间的最佳N个特征。
对于Others数据,因特征规模原因,我们使用长度为1的步长进行搜索。我们将所获特征输入单类检查结果训练器Dual-GCN后所获得AUC值作为标准来评估性能,以选择合适的特征数目。
2 Dual-GCN训练单类检查结果
2.1 构建局部卷积图ConvA与全局卷积图ConvP
我们模型训练时的输入数据为特征选择后n位患者的3种检查结果,即脑区体积特征、血浆蛋白特征,以及Others特征。输入数据均为序列数据,即筛选后输入数据λ={X1,X2,X3},设Xv为第v种检查结果,其在特征选择后的特征数目为d,则X(v)∈Rn×d。以及病人标签Y={y1,y2,…,yn}。
首先,我们利用特征之间的余弦相似度来构建网络图,同时使用阈值ε来调整图结构。具体来说,对所有病人的第v种检查结果Xv,我们基于其特征相似度为基准构建可以反映图局部一致性的邻接矩阵ConvA。其计算方法如下
(1)
(2)
其中,ConvAi,j为ConvA在(i,j)处的值。xi,xj为选取检查结果中第i与第j位病人的特征向量,s(xi,xj) 为余弦相似度函数。通过将每个病人视为样本相似性网络上的一个点,Dual-GCN的目标是利用节点的特征以及节点之间的关系来学习点在图上的特征函数。阈值ε通过超参数k来确定,k实际上代表平均每个点所保留边的数目,k与ε关系如下所示
(3)
式中:I(·) 为指示函数,满足条件为1,否则为0。基于超参数k的选择计算合适的阈值ε。对于每种检查结果X(v),我们分别使用超参数k1与k2计算嵌入图局部一致性信息的矩阵ConvA与ConvA2。之后,使用ConvA2计算能够嵌入图全局一致性信息的矩阵ConvP。
首先,我们使用随机游走的方式,计算频率矩阵F。算法如下:
算法1:频率矩阵F构建
(1)输入:ConvA2矩阵,路长q,窗口长度w,每节点重复次数t
(2)输出:频率矩阵F,F∈Rn×n
(3)算法流程:
(4) 初始化F为全零矩阵
(5) For 节点NodeInConvA2:
(6) 设置Node为随机游走的根节点
(7) Fori=1 tot:
(8) 节点序列S=随机游走(ConvA2,Node,q)={N1,N2,…,Nq}
(9) 取出节点序列S中满足n-m≤w的所有节点对(Nn,Nm)
(10) 对每个节点对(Nn,Nm),设其所表示的病人为第i个病人与第j个病人,则Fi,j+=1,Fj,i+=1
(11) End For
(12) End For
(13) Return F
其中在随机游走时,由一个点转移到另一个点的概率设置为
(4)
Ai,j即ConvA2在第(i,j)处的值。最后,使用频率矩阵F构建能够嵌入全局一致性信息的邻接矩阵ConvP。对于ConvP中的每个点Pi,j,其计算方法如下
(5)
(6)
(7)
(8)
2.2 Dual-GCN
在样本稀缺的情况下,基于图的学习方法可以在使用有限标记数据的条件下获得更高的精度。相较于目前流行的GCN算法[13,14],Dual-GCN可以同时捕获图的全局一致性以及局部一致性信息,以使用嵌入图知识进行学习。
给定病人第v项检查结果的特征矩阵X(v)。首先,我们基于超参数k1计算出ConvA矩阵,记为A(v),网络Z(v)第i层的输出被定义为
(9)
之后,基于超参数k2计算ConvP矩阵,记为P(v),以此进行图全局一致性的嵌入。其网络Z(v)第i层的输出被定义为
(10)
符号的定义与前边一致。显然,基于这样一个节点上下文矩阵ConvP进行扩散可以确保全局一致性的嵌入。此外,P(v)与A(v)在训练过程中共享参数,即二者使用相同的网络参数进行训练。
2.3 损失函数
(11)
式中:n为有标签病例的数目,其标签为Y,Y∈Rn×2。c为分类数,在这里为2。
为了同时考虑到图的局部一致性与全局一致性,我们需要使用无监督的正则化器来构建损失函数,以保证P(v)与A(v)的联合学习效果。其计算方法如下
(12)
最终,我们使用的损失函数为L0与Lreg的加权和,使用超参数λ进行调整。其计算公式如下与图2所示
图2 损失函数
Ldual(v)=L0(ConvA(v))+λ*Lreg(ConvA(v),ConvP(v))
(13)
此模型的关键是在训练中共享模型参数(即等式(9)和式(10)中的神经网络权重W)。通过这样做,此模型可以联合ConvA和ConvP的信息,以实现更好的预测。
3 MVCDN多维数据融合
我们研究中的一个重要问题便是整合病人的多类检查数据[16,17]。视图相关发现网络(view correlation discovery network,VCDN)[18]可以探索在不同视图之间的潜在跨视图相关性,利用每种视图提供的独特分类信息提高预测性能。但在实际实验中,单独视图所产生的噪声信息与冗余信息可能会对数据的集成产生影响。
基于此,我们改进了VCDN算法,提出MVCDN模型。其对预测向量的组合计算进行分级,以使预测结果更具有稳健性。其输入向量计算流程如图3所示。
图3 MVCDN输入向量计算流程
(14)
(15)
关于符号的定义与上相同,即C2∈Rn×4,同样根据采用检查数据组合的不同分为3种。最后对于3级元素,我们会汲取所有项检查结果进行计算,定义为
(16)
C3∈Rn×8,因采用所有检查结果进行计算,故仅有一种。在具体运算时,选择合适等级的多维融合向量进行组合并连接,将其重塑为跨视图发现向量CFinal,作为MVCDN网络的输入。MVCDN网络是一个全连接网络,输出大小为2(因本研究为二分类)。MVCDN网络的损失函数即为交叉熵函数
(17)
具体元素组合以及运算方法如图4所示。图中为使用脑区体积与血浆蛋白浓度分别训练Dual-GCN分类器所得预测概率分布相乘获得的2级多维融合向量,以及Others数据输入分类器所得原始概率分布,即1级多维融合向量。将其相连,输入普通全连接网络MVCDN进行计算。
图4 多级元素组合计算样例
4 半监督学习
本模型使用半监督学习方法进行预测。对于新的测试数据Xtest。首先我们将其与训练时的病人数据Xtrain连接,形成总数据Xall。之后基于Xall计算卷积图ConvAall与ConvPall输入模型进行预测
(18)
在计算ConvAall时,相较于训练时计算出的ConvAtrain,仅需就新增加Xtest的余弦相似度进行重新计算,而在训练时已经计算出的ConvAtrain可直接嵌入ConvAall,减少了计算时间。同样的,在计算ConvPall时也仅对新加入的节点进行随机游走。
5 实验与分析
在这项工作中,我们评估了MVIDG整合多维数据进行MCI进展预测的有效性、MVIDG中各项检查结果的信息提供效果、以及对MVCDN网络融合层级的效果。为此,我们设计了以下3个实验。
(1)在MCI进展预测方面,与其它方法进行比较。
(2)使用不同种类检查结果下的MVIDG性能比较,验证特征融合对预测效果的影响。虽然在实际分类任务中我们使用了所有3种数据进行预测,但本模型也可通过扩展以适应不同数量的数据类型,仅需修改组成跨视图发现向量的元素层级即可。
(3)消融实验。为验证Dual-GCN相较于GCN对图全局一致性进行图嵌入所提供的额外信息以及MVCDN集成多维信息进行联合预测的效果,我们还设计了消融实验。
在训练过程中,首先对3个基于单一检查数据训练的Dual-GCN分类器训练500个Epoch,之后再导入MVCDN部分,使这两部分同时参数更新,训练2500个Epoch。
共同训练时,Dual-GCN的学习率被设置为1e-4,MVCDN网络的学习率被设置为1e-3。预训练时,Dual-GCN的学习率被设置为1e-3。
5.1 超参数选择
超参数的选择对于最终训练效果十分重要。这里,我们列出对模型核心超参数的调节过程,即特征选择数目、阈值选择超参数k1、k2,多级特征融合向量计算的选择层级。
5.1.1 特征选择
针对特征选择,我们进行超参数选择的方式如1.2节所示,将选择的特征输入Dual-GCN进行评估。
选取特征数目对结果影响以及在挑选各项检查结果最佳特征数目后融合模型的损失收敛曲线如图5所示。
图5 特征选择超参数选取与损失收敛曲线
5.1.2 超参数k设置
超参数k实际代表在相似网络图中每个节点所保留边的数目,其直接影响阈值ε的计算,并控制由病人特征计算出的相似网络图的构成。且每组Dual-GCN共享相同的超参数k。
关于超参数k1与k2的选取使用网格搜索实现,评价指标为基于MVIDG整体模型预测结果获得的AUC。其结果见表2。
表2 超参数K选取效果
5.1.3 元素组合选取
在进行多维数据融合时,需要实际选取不同级特征融合向量进行组合。具体而言,单独使用1级多维融合向量时为将所有Dual-GCN的预测向量直接串联输入MVCDN中,所得AUC为0.764。
另外,将两种检查结果所获预测向量相乘后获得2级多维融合向量,再将其展开后与另一1级多维融合向量相连后输入MVCDN网络中,所获AUC分别为0.769、0.781、0.761,其中0.781为将基于脑区体积与血浆蛋白浓度的基础分类器预测向量相乘计算2级元素,再将其与基于Others特征计算出的预测向量相连输入MVCDN网络获得。
最后,基于全部3种预测向量全部相乘后获得3级元素,将其展开后输入MVCDN网络,所得AUC为0.778。
5.2 模型性能比较
我们比较了MVIDG与以下现有的数据分类算法:①K-最近邻算法(KNN)。②支持向量机分类器(SVM)③使用L1正则化(Lasso)训练的线性回归。④随机森林分类器(RF)。⑤基于XGBoost的梯度提升树算法。⑥相似网络融合算法(SNF)。⑦基于GCN的多维融合算法(MOGONET)。
其中,KNN、Lasso、SVM、RF、XGBoost是将预处理数据直接串联作输入。结果见表3。
表3 不同模型性能比较
5.3 不同类检查结果聚合效果比较
为验证MVIDG集成多维数据进行学习的能力,我们针对使用检查结果不同所表现出的性能差异进行了比较。结果见表4。
表4 不同类检查结果聚合性能比较
5.4 消融实验
为验证Dual-GCN相较于GCN对图全局一致性进行图嵌入所提供的额外信息以及MVCDN集成多维信息进行联合预测的效果,我们还对以下方法进行对比:①GCN-NN。使用GCN作为单视图分类器,使用全连接网络进行集成。这里将所有分类模块的标签分布向量连接作为输入。②GCN-MVCDN。使用GCN作为神经网络,MVCDN网络进行集成。③Dual-GCN-NN。与②相似,但单视图分类器部分换为Dual-GCN。④Dual-GCN-VCDN。与③相似,但集成部分换为VCDN。⑤GCN-VCDN。与④相似,但单一结果分类器为GCN。最后所获得的结果见表5。
表5 消融实验结果
在表5中,我们发现Dual-GCN的效果均要强于GCN,且在集成上使用MVCDN较VCDN表现出明显优势,但GCN-VCDN与GCN-MVCDN的性能相同。这是因为在实验中发现使用GCN中MVCDN效果最好时为仅使用第三级元素计算,而这恰在计算上与VCDN格式相同。推测为此时单视图分类器产生的噪声信号少,无需额外消除。
6 结束语
在这项工作中,我们通过整合多维数据,提出了一种基于Dual-GCN的多维数据聚合网络MVIDG,用于预测MCI患者向AD的进展。其使用我们提出的基于VCDN改进的MVCDN模型来发掘跨视图标签相关性,整合病人的多种检查结果以预测MCI患者是否会向AD进展,这对早期AD患者的及时干预治疗有着重要意义。基于相关实验,我们发现MVIDG可以良好整合多维数据以提高预测性能,且效果优于其它同类方法,预计我们的方法能够有效辅助临床医生对早期AD患者的及时干预,以保证患者的治疗质量。