APP下载

基于功能磁共振成像的个体脑网络在阿尔兹海默症早期诊断中的应用*

2021-07-23范炤姚丽丽

生物医学工程研究 2021年2期
关键词:特征选择准确率分类

范炤,姚丽丽

(1.山西医科大学老年医学研究所,山西 太原 030001;2.山西医科大学基础医学院,山西 太原 030001)

1 引 言

阿尔兹海默症(AD)是老年人群中最常见的疾病。据预测,到2050年,每85人中将有1人受到影响,为患者家庭和社会增加了沉重的负担[1]。由于AD的病因机制尚不明确,目前仍无有效的治疗方法,所以早期识别、及时干预遏制病情的发展尤为重要。根据美国国立神经病、语言交流障碍与脑卒中研究所-老年痴呆及相关疾病学会 (NINCDS-ADRDA)的分类诊断标准,将AD分为早期AD(early Alzheimer′s disease, EAD)和晚期AD(late Alzheimer′s disease, LAD)。

随着医学技术不断发展,神经影像学的运用成为识别AD临床前期的研究热点[2-3]。由于大脑局部病变早期常常伴随血流及代谢活动改变,而大脑结构常常在疾病晚期才发生变化,故功能影像学技术在识别疾病早期病理变化上更具潜力[4]。目前,功能磁共振成像(fMRI)技术成为人们研究脑疾病的一种新兴方法,主要基于血氧水平依赖性,其由于具有无创性,能精确对脑功能区进行定位,同时还可以对患者反复检查而无危险性,已经获得研究者的广泛关注,尤其在评价记忆认知障碍患者方面。

计算机辅助诊断AD系统现在应用越来越广泛,许多研究者基于不同的影像技术,通过图论的研究方法构建脑网络,再结合不同的机器学习算法对疾病进行分类[5-6],均取得了不错的效果,该方法成为目前神经影像学研究脑疾病的热点。本研究通过构建有向脑网络利用不同特征在核主成分分析(KPCA)和Adaboost算法下对AD进行分类预测,以期找到最优的特征辅助AD诊断。

2 数据与方法

2.1 研究对象数据来源

本研究的实验数据选自美国阿尔兹海默症神经影像学倡议(the Alzheimer′s Disease Neuroimaging Initiative, ADNI)数据库。研究对象为8名认知功能正常者(normal cognition, NC)和13名AD患者,其中包括7名EAD患者、6名LED患者。收集21名受试者的人口统计学资料,包括性别、年龄、简易精神状态量表(mini-mental state examination, MMSE)评分和临床痴呆评定量表(clinical dementia rating,CDR)评分。经统计学分析得到所选取的研究对象资料见表1,在性别、年龄方面三组之间无显著差异,MMSE评分和CDR评分三组间均有统计学意义。根据ADNI采集协议,使用3.0 T Philips扫描仪进行采集,获得受试者的静息态fMRI数据。选择合理得到参数确保图像质量,射频重复时间(TR)为3 000 ms、回波时间(TE)为30 ms、翻转角(FA)80°,每个受试者包含140个功能图像,每个图像扫描48层,层厚参数为3.31 mm。

表1 研究对象人口统计学分析结果

2.2 数据预处理

本研究基于Matlab平台的SPM 8.0软件包对静息态fMRI图像数据进行预处理,首先将采集到的图像数据由DICOM格式转换为NIFTI格式,去除最初几个不稳定的时间点;然后进行时间校正和头动校正,去除头动幅度大的受试对象;接下来消除扫描仪器的线性漂移、进行图像高斯平滑去噪,将0.01~0.08 Hz作为低频率过滤,最后去除脑脊液和白质等协变量。

2.3 个体有向脑网络构建

对处理后的静息态fMRI数据, 采用自动化解剖学标签(anatomical automatic labeling,AAL)模板,将全脑分为90个感兴趣区(region of interest,ROI),左右脑区各为45个,然后对90个ROI提取时间序列,每个ROI代表一个网络节点,每个节点上的葡萄糖代谢率作为节点特征,并计算节点内的体素代谢平均值。

采用格兰杰因果分析[7]计算两两脑区之间的有效连接强度值,得到一个90×90的有向脑网络矩阵,脑网络构建具体流程见图1。任意两个广义平稳的时间序列x和y之间的格兰杰因果关系都可以通过自回归模型计算,表示为:

图1 有向脑网络构建流程图

(1)

选取合适的阈值使有向图邻接矩阵转化,可能会存在个别孤立的节点或小块子图未连接到脑网络中,添加边进行脑网络连接。有研究证明AD患者在个体脑代谢网络拓扑属性上与正常受试者有差异[8]。因此,本研究增加节点的度作为受试者图像的特征评估,用以衡量网络功能隔离和功能整合。本研究分别验证葡萄糖平均代谢率、网络连接以及节点的度在计算机辅助诊断AD上的效果,然后将提取的全部特征进行融合,继续考察其在AD辅助诊断中的作用。

2.4 特征选择算法

基于全局特征产生的大量的原始特征会降低分类性能,因此,有必要进行特征空间降维。本研究使用包裹式(Wrapper)特征选择[9],该方法建立在基于模型的特征选择方法之上,直接把最终采用的学习器的性能作为特征子集的评价标准。该模式的优点是根据算法的训练准确率来选择特征子集,依据分类性能选出贡献最大的特征[10],适用于较小样本数据,避免过拟合现象。

2.5 机器学习算法分类模型

2.5.1核主成分分析算法 核主成分分析法[11](KPCA)是一种基于核函数原理的非线性主成分分析,将研究数据非线性映射到新的特征空间F中,然后利用核函数进行内积运算,提取样本特征。KPCA不仅可以降低特征维度,还可以使某个特征强化[12]。KPCA算法过程如下:

给定一个训练数据集xk(k=1,2,...l),xk∈Rn,将研究数据以非线性映射方式由原本空间Rn映射到特征空间F,然后进行主成分分析,得到空间协方差:

(2)

其中,φ(xj)为xj的一种非映射方式,xj为第j个数据。

降低特征维度并进行归一化,可得到:

(3)

通过φ(x)将原来的矢量主成分映射为特征矢量,可得到:

(4)

得到降维后的特征矢量有m个主成分,使用核主成分分析法提取有效特征,提高训练速度和准确率[13]。

2.5.2Adaboost算法 本研究还对比了Adaboost算法[14]与KPCA算法都用Python中的Scikit-learn工具包[15],该算法本质上是由弱学习器提升为强学习器,是基学习器的线性组合。首先从初始训练样本中提出一个基学习器,再根据基学习器的表现对训练样本的分布进行调整,使之前基学习器被分错的样本受到后续关注,然后用调整后的样本分布来训练下一个基学习器,如此反复,直至基学习器达到先前指定的值T,最终将T个基学习器进行加权组合得到一个强分类器。

2.5.3分类效果评价 本研究选取偏倚结果和方差最小的十折交叉验证来评估模型算法的效能,为了得到可靠稳定的结果,进一步采用了准确率(Accuracy)、敏感度(Sensitivity)、特异性(Specificity)和受试者工作特征(ROC)曲线下的面积(area under curve,AUC)作为分类结果的评价指标,AUC值大于0.9就认为分类价值高。

3 实验结果与分析

3.1 个体脑网络不同特征分类结果

本研究选取13名AD早晚期患者和年龄、性别相匹配的 8名正常被试的个体脑代谢网络节点平均葡萄糖代谢率、个体脑代谢网络的连接、个体脑代谢网络节点度三种特征分别使用KPCA和Adaboost特征选择算法进行分类,验证上述特征分别在不同特征选择算法下,AD辅助诊断中的准确率。随后将样本的三种特征进行融合,并使用相同的方法考察了融合后的特征,再用于AD分类的效果,见表2。结果显示,这三种特征均能很好地描述个体脑代谢网络特征。其中,就单特征分类能力而言,平均葡萄糖代谢率在KPCA和Adaboost两种算法下,分别达到了93.21%和92.89%的准确率,相比其他两种特征区分能力更强,对分类的贡献率较大,表明在用静息态fMRI辅助诊断AD时,平均葡萄糖代谢率可能是AD患者明显的病理特征。而多特征融合后的分类能力在两种算法下都取得了不错的效果,准确率均在94%以上,AUC值0.97,敏感性和特异性也远远高于单个特征区分能力。本研究还发现,两种算法对每个特征集的分类效果几乎一致,都可以作为该项特征区分AD各组的模型。

表2 不同特征用于分类诊断结果

与传统构建网络方法相比,本研究方法准确率、特异性、敏感性等方面均有所提升,结果见表3。其中,Cheng等[16]采用传统的基于皮尔逊相关的方法构建脑网络,用脑区特征分类。Guo等[17]在构建超网络的基础上,将判别子图作为特征,采用基于图核的支持向量机(SVM) 进行分类。Tripoliti等[18]没有构建脑网络,直接对fMRI数据进行特征提取,然后用随机森林模型进行分类。本研究构建有向脑网络基础上,采用Wrapper方式进行特征选择的同时进行分类,节省了中间复杂流程。

表3 不同分类结果比较

3.2 个体脑网络不同算法分类结果

本研究对NC、EAD、LAD三组受试者分别进行KPCA和Adaboost算法的分类预测,见表4,KPCA模型对于每个组的区分能力都优于Adaboost算法,尤其在区分LAD时,表现出较好的分类效果,准确率分别是85.34%和83.16%,比NC和EAD组的准确率高。对于敏感性和特异性而言,KPCA算法下的LAD组也显著高于其他两组。而采用Adaboost算法时,EAD组的敏感性为93.48%,高于其他两组,说明在识别EAD患者时使用该算法的漏诊率较低,而在特异性方面表现一般。针对本研究结果,我们可以在AD患病的不同时期使用不同的算法,相比而言,KPCA算法的分类预测能力较好,对AD辅助诊断起着重要作用。

表4 不同分类组的分类结果

4 讨论

脑结构网络侧重于研究大脑各区域皮层体积和厚度的关系,而脑功能网络侧重于研究探索神经元细胞之间的代谢活动[19-20],本研究选取8名NC和13名早晚期AD患者,利用fMRI图像在构建有向网络的基础上,采用Wrapper方式提取最优特征的同时,采用Adaboost和KPCA算法进行分类。通过本研究得到能够用于AD患者早期辅助诊断的最优特征,进而提高早期诊断准确率,寻找 AD 患者早期的脑代谢网络的属性差异,对AD患者提前进行干预治疗。

在实现AD早期计算机辅助诊断中,许多研究者利用不同的影像技术,结合不同的机器学习算法,提出了对AD有效分类的模型[21-24]。他们已经从脑结构和脑功能网络的拓扑属性中找到了一些生物标志物。研究者利用FDG-PET成像构建脑网络,发现脑葡萄糖代谢率是早期AD诊断明显的病理特征,AD患者的区域脑葡萄糖代谢率与AD患者的疾病发展进程有密切关系[25-26],这与本研究的结论一致。还有研究基于FDG-PET影像构建脑代谢网络,利用不同的特征选择算法分析了AD患者的正常人节点度、Hub节点、聚类系数等网络拓扑属性,再基于核支持向量机分类,找到区分AD各组最明显的病理特征是节点度[27];而Dai等[28]通过脑网络分析得出,AD患者Hub节点的分布与认知功能正常者相比,存在很大的差异,是AD早期诊断潜在的生物标志物。

付常洋等[29]基于fMRI数据构建四种不同尺度下的脑网络并进行特征融合对抑郁症进行分类,证明融合后的特征对疾病分类效果明显优于单个特征的效果,为本研究提供思路,并且本研究结果也证明了该结论 ,这为今后研究者们进行特征提取提供参考。李长胜等[30]在基于fMRI数据对AD进行分类应用时,通过提取各个脑区的时间序列来构建全脑功能连接矩阵, 然后使用KPCA提取特征, 将这些特征用Adaboost算法进行分类,取得了不错的效果。本研究仍使用这两种算法,不同的是,本研究利用Wrapper方式直接将两种算法用于分类,分类性能得到了较高的提升。

同样是基于fMRI数据对AD早期诊断的研究,与传统构建网络方法相比[16-18],本研究在构建脑网络基础上,运用KPCA和Adaboost模型获得更显著的分类效果。除此之外,本研究还对NC、EAD、LAD三组分别用两种机器学习算法作预测分类,KPCA模型的效果优于Adaboost.

综上,本研究构建有向脑网络在机器学习算法下对AD病程分类有良好的效果,但是本研究的样本量少,后续将增大样本或者利用其他模态影像数据对AD进行分类。

猜你喜欢

特征选择准确率分类
分类算一算
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
分类讨论求坐标
高速公路车牌识别标识站准确率验证法
数据分析中的分类讨论
教你一招:数的分类
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法