APP下载

基于机器学习的静息态人脑功能活动差异的分类研究

2020-09-22赵宝奇李秀梅孙军梅葛青青

关键词:静息特征向量贝叶斯

尉 飞,赵宝奇,李秀梅,孙军梅,葛青青

(杭州师范大学信息科学与工程学院,浙江 杭州 311121)

0 引言

随着磁共振技术的发展,静息状态脑活动的变化引起了人们普遍的关注.静息态功能磁共振成像(resting-state functional magnetic resonance imaging,rs-fMRI)已被广泛地应用在脑功能研究中[1].功能性磁共振技术具有非侵入性,非常好的时间分辨率和空间分辨率等优势,为认知神经科学实验和脑病理的研究提供了技术支持[2].

静息态功能性磁共振研究发现,在EO与EC静息态下,脑功能活动参数低频振幅(amplitude of low frequency fluctuation,ALFF)、比率低频振幅(fractional amplitude of low frequency fluctuation,fALFF)、局部一致性(regional homogeneity,ReHo)和功能连接网络显示有显著的差异[3-5].人脑中多处区域会表现出不同的功能特征,包括视觉皮层、听觉皮层、躯体感觉皮层、额顶注意网络和默认网络[6-7].尽管大脑功能活动的差异与这两种状态有关,但能够证明两者之间是否有直接关系的研究较少.

机器学习是一门人工智能学科,通过数据或经验学习优化计算机算法的性能.近些年,机器学习方法已广泛地用于研究脑功能活动和各种神经系统疾病当中[8- 9].机器学习方法能够帮助研究人员在脑功能活动与脑状态之间的研究上快速建立模型并分析两者之间的关系.

本研究在EO和EC两种静息态下提取了45位健康被试的脑功能参数fALFF和ReHo的数据,比较并分析了基于线性核的SVM、基于RBF核的SVM、朴素贝叶斯、决策树、随机森林和Adaboost 6种机器学习方法在所提取数据上的分类效果;对单一特征数据与fALFF和ReHo数据相融合的多层次特征数据在6种机器学习方法上进行分类比较;并分析了不同分类器和不同层次特征数据的分类效果.

1 机器学习方法

1.1 支持向量机(SVM)

支持向量机是基于统计学习理论的VC维理论与结构风险最小原理基础上的机器学习方法[10].数据线性可分时,SVM寻找一个超平面对样本进行分割,分割的原则是满足分类精度的同时使超平面两侧的空白区域最大化.数据线性不可分时,SVM通过核函数将数据映射在高维空间并在该空间内寻找一个满足分类要求的超平面对样本进行分类.SVM具有解决小样本、非线性和高维问题,泛化能力强和避免局部最小点问题的优势.SVM的缺点是对缺失数据敏感和对非线性问题没有通用解决方案.

1.2 朴素贝叶斯

朴素贝叶斯方法是在贝叶斯算法的基础上假定样本数据集属性和类别之间都是相互独立的方法,使用训练集学习输入到输出的联合概率分布[11].朴素贝叶斯拥有坚实的数学基础、稳定的分类效率、对缺失数据不太敏感和算法简单等优点.当属性独立性条件不满足时,朴素贝叶斯的分类效果则会大大降低.

1.3 决策树

决策树是一种倒置的树形结构.树中的内部节点代表某个属性的测试分类,每个分支代表该测试分类的结果,每个叶节点表示某类条件下的分类结果[12].决策树的结构简单,可以通过可视化分析,在相对短的时间内对大型数据集做出良好可行的结果.决策树的缺点是容易出现过拟合,易忽略数据集中属性之间的相关性和不易处理存在缺失的数据等.

1.4 随机森林

随机森林是通过集成学习的思想将多棵决策树集成的一种算法[13],其分类结果根据所有树分类结果的投票选择而定.随机森林可以处理大量的输入变数;在分类过程中,可以评估变数的重要性;建造森林时,可在内部对一般化后的误差产生无偏估计;对于不平衡的数据还可以平衡误差.

1.5 Adaboost

Boosting是一种重要的集成学习方法,能将预测精度较低的弱学习器增强为预测精度较高的强学习器[14].Adaboost是Boosting中最成功的代表,其能够加强前一个弱分类器预测错误样本的权值,权值更新后的样本用来再次训练下一个弱分类器.Adaboost分类器提供的是框架,可以使用各种方法构建弱分类器,不需考虑过拟合问题和特征筛选.

2 数据与处理

2.1 数据采集

本研究中所涉及的静息态磁共振数据均来自千人脑功能项目相关网站(http://fcon_1000.projects.nitrc.org/indi/IndiPro.html),由北京师范大学提供.本数据集中包含48例健康被试(年龄19—31岁,24名女性/24名男性).每名被试都签署了对本实验的知情同意书,并排除了具有神经或者精神病史.所有被试进行了3次静息态扫描.第一次扫描为闭眼扫描,第二次与第三次扫描为睁眼与闭眼状态间随机选择.扫描参数:扫描33层,层厚=3.5 mm,平面视野=20 mm×20 mm,TE/TR=30/2 000 ms,翻转角=90°,采集240个时间点,扫描时长为8 min.此外,数据集中还包括每个被试的64个方向的 DTI扫描.本研究中只使用第二次与第三次静息态扫描数据.

2.2 数据预处理

本研究中静息态数据使用基于MATLAB的DPARSF与SPM12(http://www.fil.ion.ucl.ac.uk/spm)软件进行处理[15].数据预处理过程如下:

1.去除数据的前10个时间点,以免被试磁化矢量不稳定引起的干扰;

2.时间层校正,使层与层之间的扫描时间差异最小化;

3.头动校正,因为所有被试的头动均在平移小于2.5 mm,旋转小于2.5°范围内,故没有数据因头动被剔除;

4.将被试的结构像和功能像对齐,对结构像进行分割得到白质、灰质和脑脊液;

5.回归如下协变量:白质平均信号,脑脊液平均信号和Friston-24参数模型得到的头动信号;

6.将结构像配准到MNI(Montreal Neurological Institute)标准空间,所有功能像配准到标准模板.

2.3 指标计算与质量控制

2.3.1 fALFF与ReHo指标的计算

体素ALFF指标计算由预处理结果的时间序列进行快速傅立叶变换得到其功率谱,再计算功率谱低频部分(0.01-0.1 Hz)振幅平方根的均值而得到[16].体素fALFF指标计算由功率谱低频部分(0.01-0.1 Hz)的ALFF值与所有频率(0-0.25 Hz)的ALFF值的比值而得到[17].ALFF和fALFF反映了脑区局部神经的活动性.体素的ReHo指标通过计算该体素与其周围相邻的26个体素的肯德尔和谐系数(Kendall’s coefficient of concordance,KCC)而得到[18],反映了脑区某个局部神经元在时间上的相关性.

2.3.2 质量控制

在质量控制阶段,有3例被试因在静息态扫描时没有得到完整的功能像而被剔除.后续的实验使用剔除后剩余的45例被试.

2.4 特征提取与选择

2.4.1 特征提取

采用配对t检验(paired sample t-test)来比较EO与EC两种静息态,并得到T统计量图(T-statistic map).在计算T统计量图时,添加头动参数协变量以减少头动带来的影响.对T统计量图进行高斯随机场(Gaussian Random Flied,GRF)校正,体素水平阈值使用p<0.001,团块水平阈值使用p<0.05,Mask选择使用95% group mask.统计分析过程需在fALFF和ReHo两种指标下各自进行.

2.4.2 特征选择

校正后的T统计量图可以得到EO与EC两种静息态下脑功能活动变化的区域,即感兴趣区域(regions of interest,ROI).在EO静息态下,提取所有被试每个ROI中指标的平均值并将其作为每个被试的特征向量.在EC静息态下,进行同样操作.从而得到EO与EC两种静息态下fALFF和ReHo指标的特征向量.

2.5 机器学习分类

先对EO与EC静息态下的特征向量分别进行标记,EO静息态下的特征向量标记为1,EC静息态下的特征向量标记为-1,以便于之后的分类.将这些特征向量分为训练集和测试集,在训练集上先对分类器进行训练,之后在测试集上对训练后的分类器进行分类效果的测试.本文使用基于线性核的SVM、基于RBF核的SVM、朴素贝叶斯、决策树、随机森林和Adaboost等机器学习方法对这些特征向量进行单一特征数据的分类.最后将fALFF和ReHo指标下的特征向量相融合,对多层次特征数据进行分类.由于集中的数据数量较少,所以选择使用10折交叉验证法作为验证方法,以准确率、召回率和精确率作为分类效果的评价指标.

3 实验结果

3.1 fALFF和ReHo特征提取结果

fALFF指标下,在小脑后叶,右侧枕中回和右侧距状裂周围皮层等脑区,EO静息态下的fALFF值明显比EC静息态高;而在右侧中央后回和右侧补充运动区等脑区,EO静息态下的fALFF值则明显比EC静息态低,如图1和表1所示.小脑是运动的重要调节中枢;枕叶主要负责人脑的视觉信息处理;视觉皮层中枢位于距状裂周围皮质和枕叶上;人体的感觉中枢位于中央后回.fALFF反映了脑区局部神经的活动.因此,fALFF指标计算的结果表明,EO与EC静息态下人脑的功能活动变化在视觉皮层和躯体感觉皮层等区域的差异更为显著.

图1 fALFF指标下EO与EC静息态的脑功能活动差异图Fig.1 Difference of brain functional activity between EO and EC resting state with fALFF

表1 fALFF指标下EO与EC静息态的脑功能活动差异Tab.1 Difference of brain functional activity between EO and EC resting state with fALFF

ReHo指标下,在左侧梭状回、右侧梭状回、右侧舌回、左侧枕下回、左侧枕中回、右侧枕中回、左侧顶上回和右侧额中回等脑区,EO静息态下的ReHo值明显比EC静息态高;而在左侧颞上回、右侧中央后回、左侧中央后回、右侧补充运动区和左侧中央前回等脑区,EO静息态下的ReHo值则明显比EC静息态低,如图2和表2所示.梭状回负责面孔识别、物体次级分类识别等功能;舌回主要负责视觉的加工等功能;顶叶主要负责人体身体感觉等功能;额叶包含初级运动区;颞叶负责人体听觉信息的处理;人体的运动中枢位于中央前回.ReHo反映了脑区某个局部的神经元活动在时间上的一致性.因此,ReHo指标计算的结果表明,EO与EC静息态下人脑功能活动的变化在视觉皮层、听觉皮层、躯体感觉皮层和躯体运动皮层等区域的差异更为显著.

图2 ReHo指标下EO与EC静息态的脑功能活动差异图Fig.2 Difference of brain functional activity between EO and EC resting state with ReHo

表2 ReHo指标下EO与EC静息态的脑功能活动差异Tab.2 Difference of brain functional activity between EO and EC resting state with ReHo

由以上fALFF和ReHo指标的计算结果可以看出,静息态下人脑功能活动与EO和EC两种静息态有关,EO与EC两种静息态下人脑功能活动在人体视觉皮层、听觉皮层、躯体感觉皮层和躯体运动皮层等区域的差异显著.

3.2 单一特征数据与多层次特征数据分类

3.2.1 单一特征数据分类

根据3.1节中各指标的计算结果,在fALFF指标下,我们从每个被试中提取出8维的特征向量作为分类的数据集;在ReHo指标下,从每个被试中提出15维特征向量作为分类的数据集.所得到的数据集按照10折交叉验证法分割为训练集和测试集,将训练集输入到分类器中完成训练后,使用测试集对分类器进行分类测试.fALFF数据的分类结果如表3所示,ReHo数据的分类结果如表4所示.

表3 fALFF数据的分类结果Tab.3 Classification results of fALFF data

表4 ReHo数据的分类结果Tab.4 Classification results of ReHo data

从表3和表4可以发现,基于线性核的SVM、基于RBF核的SVM、朴素贝叶斯、决策树、随机森林和Adaboost 6种机器学习方法对数据分类均可以达到较好的分类效果.在fALFF数据上,朴素贝叶斯在6种方法中的分类效果最好,准确率为84.50%,召回率为84.50%,精确率为87.67%;其中分类效果最差的决策树达到准确率为72.00%,召回率为77.50%,精确率为81.67%的分类效果.在ReHo数据上,基于线性核的SVM在6种方法中的分类效果最好,准确率为92.50%,召回率为91.50%,精确率为94.00%;其中分类效果最差的决策树达到准确率为78.50%,召回率为68.00%,精确率为83.00%的分类效果.

通过6种机器学习方法对数据进行分类比较,我们发现朴素贝叶斯算法对fALFF数据的分类效果最好,线性核的SVM算法对ReHo数据的分类效果最好.因此,在EO与EC静息态下脑功能活动相关的分类研究中,可以在fALFF数据上采用朴素贝叶斯算法,在ReHo数据上采用线性核SVM算法.

3.2.2 多层次特征数据分类

我们将fALFF指标中每个被试的8维特征向量与ReHo指标中相对应被试的15维特征向量融合为一个fALFF+ReHo指标下的23维特征向量,以此来组成多层次特征的分类数据集.按照单一特征数据下的分类方法对多层次特征数据进行分类,fALFF+ReHo多层次特征数据下的分类结果如表5所示.从表5可以发现,多层次特征数据分类结果中,6种机器学习方法均达到了较好的分类效果.朴素贝叶斯在6种方法中的分类效果最好,准确率为92.25%,召回率为86.50%,精确率为97.50%;分类效果最差的决策树达到准确率为77.00%,召回率为71.50%,精确率为81.75%的分类效果.

表5 多层次特征数据的分类结果Tab.5 Classification results of multi-level feature data

通过对单一特征数据和多层次特征数据分类结果进行比较,发现利用多层次特征数据进行分类时,基于RBF核的SVM,朴素贝叶斯和随机森林算法的分类效果均有所提升,而基于线性核的SVM、决策树和Adaboost的分类效果均没有得到提升,甚至有所降低,如图3-图5所示.实验结果表明,选择使用RBF核的SVM,朴素贝叶斯和随机森林算法时,利用对fALFF和ReHo指标下特征向量的特征融合方法可以提升算法的分类效果.因此,在多个脑功能参数的EO与EC静息态下脑功能活动相关的分类研究中,可以采用特征融合的方法进行分类.此外,对单一特征数据和多层次特征数据的分类结果表明,机器学习方法可应用于脑功能活动相关领域进行必要的预测分类,也为机器学习在其他脑病理等相关领域提供了参考依据.

图3 单一特征数据与多层次特征数据分类准确率比较图Fig.3 Difference of classification accuracy between single feature and multi-level feature data

图4 单一特征数据与多层次特征数据分类召回率比较图Fig.4 Difference of classification recall between single feature and multi-level feature data图5 单一特征数据与多层次特征数据分类精确率比较图Fig.5 Difference of classification precision between single feature and multi-level feature data

4 结论

本研究在EO和EC两种静息态下,比较并分析了基于线性核的SVM、基于RBF核的SVM、朴素贝叶斯、决策树、随机森林和Adaboost 6种机器学习方法对人脑fALFF和ReHo数据上的分类效果.对单一特征数据分类时,朴素贝叶斯算法对fALFF数据的分类效果最好,线性核的SVM对ReHo数据的分类效果最好.对fALFF和ReHo数据相融合的多层次特征数据分类时,朴素贝叶斯算法的分类效果最好.通过对单一特征数据与多层次特征数据在6种分类器上进行分类比较,发现利用多层次特征数据时,基于RBF核的SVM,朴素贝叶斯和随机森林算法的分类效果有所提升.

猜你喜欢

静息特征向量贝叶斯
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
中秋
CCTA联合静息心肌灌注对PCI术后的评估价值
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
不准时睡觉堪比熬夜
老年人声音诱发闪光错觉的大脑静息态低频振幅*
一类三阶矩阵特征向量的特殊求法
租赁房地产的多主体贝叶斯博弈研究