APP下载

一种对fMRI数据分类的加权随机SVM集群算法

2019-10-18王志刚胥茜毕夏安

软件导刊 2019年9期

王志刚 胥茜 毕夏安

摘 要:如何从小样本、高维度特性的功能磁共振成像(fMRI)数据中识别出内在的脑区活动模式,对理解人脑意义重大。随着模式识别技术和机器学习算法的发展,fMRI的分类研究也引起了人们的重视。提出一种对fMRI数据分类的加权随机SVM集群(WRSVMC)算法。该算法分为两步,首先通过随机选择样本和特征建立多个SVM,以构建集成分类器;然后在投票过程中,对每个SVM赋权重,以优化模型的集成性能。结合fMRI数据和图论特征,采用WRSVMC算法对轻度认知障碍(MCI)患者数据展开分类研究。结果表明,准确率最高可达87.67%。该方法能帮助医师对MCI患者进行辅助诊断。

关键词:fMRI分类;加权随机SVM集群;图论特征;轻度认知障碍

DOI:10. 11907/rjdk. 191824 开放科学(资源服务)标识码(OSID):

中图分类号:TP312文献标识码:A 文章编号:1672-7800(2019)009-0093-04

A Weighted Random SVM Cluster Algorithm for Classifying fMRI Data

WANG Zhi-gang, XU Qian, BI Xia-an

(College of Information Science and Engineering, Hunan Normal University, Changsha 410081, China)

Abstract: How to identify intrinsic brain activity patterns from small-sample and high-dimensional functional magnetic resonance imaging (fMRI) data is of great significance for understanding the human brain. With the development of pattern recognition technology and machine learning algorithm, the classification of fMRI has also attracted people's attention. This paper presents a weighted random SVM cluster (WRSVMC) algorithm for fMRI data classification. The algorithm is divided into two steps. Firstly, multiple SVMs are established by randomly selecting samples and features to construct an integrated classifier. Then, in the voting process, each SVM is weighted to optimize the integration performance of the model. Combined with fMRI data and graph theory characteristics, WRSVMC algorithm is used to classify the data of patients with mild cognitive impairment (MCI). The results show that the highest accuracy rate is 87.67%. This method can help doctors diagnose MCI patients.

Key Words: fMRI classification; weighted random SVM cluster; graph theory characteristics; mild cognitive impairment

0 引言

在众多神经影像成像技术中,fMRI由于其无创伤、无需注射放射性示踪物以及良好的时间和空间分辨率等优点,在脑研究领域得到了广泛应用。fMRI主要基于血氧水平依赖(Blood Oxygenation Level Dependent,BOLD)对比度增强原理间接反映神经元活动,从而创建脑功能活动图谱。它不仅专注于对大脑组织进行成像,而且能根据被执行的外在刺激任务,跟踪脑血液流向的不同区域,从而定位那些能够实现特定脑功能和认知的脑区,为探讨高级脑功能和研究脑疾病提供了技术基础。

文献[1]利用fMRI图像诊断轻度认知障碍(Mild Cognitive Impairment,MCI)症状时,选择单个体素的BOLD曲线变化率作为数据特征并结合SVM算法进行分类,准确率最高可达75%;文献[2]运用改进的谱聚类算法提取fMRI数据模式特征,再用SVM分类器进行分类,准确率达82%;文献[3]在AD的fMRI分類研究中,通过使用独立成分分析方法提取AD和正常认知的组间特征,再利用SVM分类器对AD患者进行识别,平均准确率最高达97.82%;文献[4]在利用fMRI图像判别精神抑郁症时,使用SVM作为分类器,通过粒子种群算法提取最优超参数组合,基于整体测试集的分类准确率可达到84.62%;文献[5]通过提取BOLD-fMRI信号的独立成分作为脑功能连接网络的节点,用滑动时间窗口构建动态功能网络,然后将网络特征输入到SVM分类器中以识别精神分裂症患者,准确率高达80.36%。

Sidhu等[6]在注意缺陷多动障碍(Attention-Deficit Hyperactivity Disorder,ADHD)的分类研究中,基于表型数据(年龄、性别、手性、IQ等)和fMRI数据,通过使用快速傅里叶变换和主成分分析进行降维,并结合SVM算法对ADHD患者和健康组对照分类,准确率高达76%;Khazaee等[7]对AD的fMRI分类研究中,通过构建图功能连接网络获取图论特征,并将图论特征输入到SVM分类器里,在AD患者和正常认知的分类实验中实现了100%的分类准确率;Sato等[8]在对重度抑郁症(major depression,MD)的fMRI分类研究中,使用最大熵线性判别分析对MD患者和健康组进行对照识别,留一交叉验证准确率高达78.26。2018年,Feczko等[9]在对ASD患者的fMRI分类研究中,使用功能随机森林(Functional Random Forest,FRF)算法对ASD儿童和健康组对照进行分类,准确率达72.7%。

在基于机器学习(ML)的fMRI应用研究中,SVM由于其特有的小数据学习方法、泛化性能强等优点而受到广泛关注,并在某些疾病的识别上取得了良好效果。但是fMRI图像数据带有大量噪声,仅仅依靠单一的SVM模型很难实现稳定和准确的分类。因此,传统ML模型尤其是SVM算法还存在改进空间。

本文提出的加权随机SVM集群(WRSVMC)算法对随机SVM分类器集群作进一步加权,以提高模型的集成性能,用来提取最优特征子集,并进一步检测引发疾病的异常脑区,为脑疾病的研究提供新的视角。所采用的静息态fMRI数据来源于ADNI数据库。

1 随机SVM集群简介

在研究静息态fMRI数据构成的功能网络中,一般采用两两脑区时间序列之间的皮尔逊相关系数,衡量脑区之间的功能性关系。近年来,图论特征也被广泛应用于fMRI分类。但这两种特征都因其高维特性而易引发“维灾难”。全面利用小样本、高维度的fMRI数据集,并从中挖掘有意义的信息,是一项非常困难的工作。因此降维是分析的首要任务,传统的降维技术有主成分分析(PCA)、等度量映射(Isomap)和线性判别分析(LDA)等,然而降维后会导致部分信息损失,且低维度特征不方便进行解释。更好的方法是从原始特征中直接提取对算法分类性能具有强影响力的特征,以降低图像噪声给判别任务带来的不利影响。

SVM模型的数据分类表现优秀,尤其是小样本、高维度的fMRI图像数据。但由于高图像噪声,单个SVM很难获得稳定、鲁棒的泛化能力。2018年,文献[10]提出了随机SVM集群(Random SVM Cluster,RSVMC)的思想,运用多个SVM分类器进行组合预测,通过集成学习使得好坏不等的SVM分类器最终形成一个强大的集成分类器,从而获得比单个SVM更加优秀的泛化性能。

RSVMC虽然解决了单个SVM分类算法中的弊端,也提升了分类准确率,但仍有改进空间。各SVM分类能力不同,其中部分SVM分类效果相对较差,而且采用同等权重的投票原则,忽略了分类器之间存在的强弱差异,影响了模型整体性能。

2 加权随机SVM集群原理

2.1 基本原理

为了提高RSVMC集群中分类能力优秀的SVM在投票过程中的影响力,同时降低分类能力欠佳的SVM的作用,通过对不同SVM基分类器进行賦权,最终形成更稳定且准确率更高的加权随机SVM集群,如图1所示。

2.2 实现方法

在实验数据集D的划分过程中,将D随机划分为测试集Test和训练验证合集S,其中,测试集Test用来测试整个新集群的泛化能力。而合集S再被细分为训练集[Strain]和验证集[Svalidation],[Strain]用来训练SVM基分类器,[Svalidation]用来获取SVM的权重。在每次训练SVM基学习器时,都要将合集[S]随机划分为[Strain]和[Svalidation],以保持基学习器的多样性。算法主要分为4个步骤,WRSVMC构建流程如图2所示。

步骤1:每次训练SVM时,都要随机挑选训练样本和特征。假设总共有d维特征,根据经验挑选特征数[d]。

步骤2:用训练集[Strain]训练SVM基学习器。

步骤3:用验证集[Svalidation]获取SVMs的分类结果,根据分类准确率对SVMs进行加权,权重计算公式为:

其中,[Tcorrectl]表示验证集中,被第一个SVM分类正确的样本数,[TL]是验证样本总数。

步骤4:将这些加权SVM分类器进行组合,从而实现加权集成。

2.3 性能评价指标

预测测试集中每一个待分类样本的类别。首先,将每个样本通过随机SVM集群分类器检测并经过加权统计,属于a类别的总票数记为[Sa]:

其中,[fix]是测试样本x被第i个SVM预测的结果,[Ι? ]是指示函数,若测试样本x被SVM预测为a类,取值为1,否则为0。

对于新样本的类别,经过加权后选出票数最多的类别A作为样本最终类别:

由于样本类别已知,通过对比预测类别和真实类别,可以得到测试集样本分类正确的样本数量,记为[Ttrue],若T为测试样本总数,则Pre是WRSVMC的分类准确率:

3 WRSVMC在fMRI中的应用

按图论理论将fMRI数据构建成脑功能网络。基于自动解剖标记(Anatomical Automatic Labeling,AAL)图谱将大脑划分为90个脑区,构成90个网络节点;通过计算节点之间的皮尔逊相关系数得到网络的边,这些边代表静息状态脑区之间的功能连通性,生成一个90×90的对称相关矩阵。用阈值[v∈[1,0]]对矩阵进行二值化处理,如果边的权重绝对值大于[v],则边值为1,否则为0。

在构建好的网络中分别选取最短路径、度数、局部效率和聚类系数4个局部图论指标。每个网络都有4 005条最短路径特征,其它3个指标各有90个特征,共计4 275个特征用作WRSVMC分类器的原始输入。

定义原始实验样本集为[Hh,ChNh=1],其中,N为实验样本集总数,[Hh=(Hh,1,Hh,2,?,Hh,k)T]为每位被试的k维样本特征,[Hh,k]表示第h个被试的第k个样本特征,[Ch∈{+1,-1}]为类别标签。

通过特征保留找到400个重要特征,从中提取最优特征子集,最后搜寻相关脑区。

在特征保留过程中,首先保留准确率大于50%的SVM基分类器,然后将这些SVM选择的特征乘上对应的权重作为特征的权重系数,记为[Weigthj]:

将同一维样本特征的权重系数合并,最终筛选出权重系数排名前400的特征为重要特征,流程如图3所示。

为了筛选出与疾病关联密切的最优特征子集,还需对重要特征作进一步优化。在保留前q个特征的情况下计算分类准确率,q的取值范围为[{70,72,?,400}]。最优特征子集的个数为分类准确率最高时所对应的q值。

异常特征次数与脑区频率是相对应的,在获得具有强分辨力的异常特征后,可以找到与之关联的异常脑区,其频率可以用来度量不同脑区对WRSVMC分类性能的影响。某脑区的频率越高,则其对WRSVMC的影响越大,与被研究的脑疾病越相关。

4 WRSVMC性能分析

在同样环境下分别用WRSVMC、RSVMC和随机森林算法对fMRI数据进行50次MCI分类对比实验。从图4所示的泛化性能对比可以看出,WRSVMC拥有相对较高的分类准确度,其范围为75%~85%。而RSVMC和随机森林的准确度范围相对较低。可见WRSVMC在MCI分类应用中的准确率更高,整体泛化能力也更好。

当WRSVMC准确率达到最高时,其SVM基分类器数目即为最优基分类器数目。将SVM的数量逐步从20个增加到600个,步长为10,计算在不同基分类器数量下WRSVMC的分类准确率。从图5可以看出,随着基分类器数目递增,准确率呈现增加趋势,在500時达到了83.56%的最高准确率,并趋于稳定。因此,500被选为最优基分类器数目。

5 结语

本文将静息态fMRI与图论相结合,运用WRSVMC算法辅助判别MCI患者。算法不仅可以提高判别准确率,而且可以用于检测大脑异常区域,为MCI的诊断提供了有价值的视角。但实验还存在一定缺陷:由于AAL模板将大脑划分为90个脑区,对于复杂的大脑而言这种划分规模仍然不够细;4个图论指标的选定是基于现有文献进行的,将来应考虑其它重要指标以增强指标的多样性;实验采用fMRI数据,在后续研究中,可以考虑采用磁共振成像等其它模式数据,使分类和预测信息更加全面。

参考文献:

[1] 吕艳阳,相洁. 基于SVM的fMRI数据分类及MCI诊断应用[J]. 计算机工程与设计,2013,34(9): 3313-3317.

[2] 赵冬琴,相洁. 基于谱聚类的MCI功能影像分类特征选择研究[J]. 计算机工程与设计,2014,35(4):1379-1384.

[3] 杨文璐,李彦. 基于功能磁共振影像的阿尔茨海默病分类研究[J]. 安徽大学学报:自然科学版,2015(3):88-95.

[4] 张涛,张明辉,李清伟,等. 基于粒子群-支持向量机的时间序列分类诊断模型[J]. 同济大学学报:自然科学版,2016,44(9): 1450-1457.

[5] 马士林,梅雪,李微微. fMRI动态功能网络构建及其在脑部疾病识别中的应用[J]. 计算机科学,2016,43(10): 317-321.

[6] SIDHU G,ASGARIAN N,GREINER R,et al. Kernel principal component analysis for dimensionality reduction in fMRI-based diagnosis of ADHD[J].  Frontiers in Systems Neuroscience,2012(6): 74.

[7] KHAZAEE A,EBRAHIMZADEH A,BABAJANI-FEREMI A. Identifying patients with Alzheimer's disease using resting-state fMRI and graph theory[J]. Clinical Neurophysiology,2015,126(11):2132-2141.

[8] SATO JR,MOLL J,GREEN S, et al. Machine learning algorithm accurately detects fMRI signature of vulnerability to major depression[J].  Psychiatry Research: Neuroimaging,2015,233(2):289-291.

[9] FECZKO E,BALBA N,MIRANDA-DOMINGUEZ O,et al. Subtyping cognitive profiles in autism spectrum disorder using a functional random forest algorithm[J]. Neuroimage,2018,172(12):674-688.

[10] BI X,JIANG Q,SUN Q,et al. Analysis of Alzheimer's disease based on the random neural network cluster in fMRI[J].  Frontiers in Neuroinformatics, 2018(12): 60.

[11] 张兆晨,冀俊忠. 基于循环神经网络的时序fMRI数据分类方法研究[J]. 小型微型计算机系统,2018,39(7):1426-1430.

[12] IIDAKA T. Resting state functional magnetic resonance imaging and neural network classified autism and control[J]. Cortex, 2015,63: 55-67.

[13] DESHPANDE G,WANG P,RANGAPRAKASH D,et al. Fully connected cascade artificial neural network architecture for attention deficit hyperactivity disorder classification from functional magnetic resonance imaging data[J]. Ieee Transactions on Cybernetics, 2015, 45(12): 2668-2679.

[14] SUK H,WEE C,LEE S,et al. State-space model with deep learning for functional dynamics estimation in resting-state fMRI[J]. Neuroimage,2016,129:292-307.

[15] BI X,WANG Y,SHU Q,et al. Classification of autism spectrum disorder using random support vector machine cluster[J].  Frontiers in Genetics,2018(9): 18.

(责任编辑:孙 娟)