APP下载

抑郁症复杂脑网络社团结构差异分析及分类研究

2013-09-11刘志芬曹晓华陈俊杰

计算机工程与设计 2013年8期
关键词:脑区分类器分类

郭 浩,李 越,刘志芬,曹晓华,陈俊杰

(1.太原理工大学 计算机科学与技术学院,山西 太原030024;2.山西医科大学 第一医院精神卫生科,山西 太原030001)

0 引 言

现实世界中的社会网络、信息网络、生物网络和技术网络等许多复杂系统都可以表示成图或网络。随着对网络性质的物理意义和数学特性的深入研究,人们发现实际的网络都具有一个共同的性质,即社团结构[1]。近年来,在神经认知科学中,特别是随着脑连接组模型[2,3]理论及方法研究的不断深入,复杂网络模块化分析方法刻画了脑网络中连边关系的聚集特性,为从集团化角度解析脑网络局部特性提供了重要的技术保证。但是,在疾病状态下,功能脑网络的模块化特征差异研究较少,仍没有明确结论。本文将重点研究抑郁症功能脑网络的模块化特征差异的比较及分析。本文利用静息态功能磁共振影像数据,构建脑功能连接网络,并使用图论中有关社区结构以及节点的拓扑角色等相关分析方法去分析静息态下人脑功能连接网络,探索抑郁症患者在脑网络性质和模块结构上的异常。同时,选择模块内度及参与系数等指标为分类特征,利用神经网络算法,构建分类模型,以实现对抑郁症患者的自动识别。

1 实验材料及方法

1.1 数据采集和预处理

本实验共招募62名被试,其中有38名首发、无用药、重度抑郁症患者作为抑郁组,28名年龄性别匹配的健康志愿者作为对照组。所有被试为山西医科大学第一临床附属医院精神卫生科所确诊的中国籍汉族抑郁症患者。对照组被试均无精神或神经紊乱史,并以人格障碍的定式访谈(SCID-II)为依据。抑郁组的严重程度由24项抑郁症汉米尔段量表 (HRSD来表征。实验前同每位参与者均达成了书面协议。

数据预处理使用SPM8(http://www.fil.ion.ucl.ac.uk/spm)进行。首先对数据集进行时间片校正和头动校正。2例抑郁组及1例对照组数据由于校正过程中,头动大于3毫米或转动大于3度而被弃除。之后,图像进行12维度的优化仿射变换,将其标准化到3毫米体素的MNI标准空间中。最后进行低频滤波 (0.06-0.11Hz),以降低低频漂移及高频的生物噪音。

1.2 功能脑网络构建

脑区时间序列间的同步性可以表示脑区间的功能关系。首先,根据 AAL[4](anatomical automatic labeling)模板将大脑划分为90个 (左右半脑各45个)脑区,每个脑区代表功能脑网络中一个独立节点。然后求出90个脑区中每个脑区的所有体素的平均时间序列,再通过多元线性回归分析,去除一些由头动及全局脑信号造成的伪差异。最后计算两两脑区间的偏相关系数,由此得到一个90×90的时间序列相关矩阵R。为了对人脑进行模块划分及综合分析,对正常组28例被试和抑郁组的38例被试分别计算脑区的相关系数算术平均值,分别得到对照组及抑郁组的均值相关矩阵。如图1(a)所示。为了从图论的角度分析脑功能连接网络的属性,每个相关矩阵都必须用某个特定的阈值去生成一个二值邻接矩阵A,其中矩阵中的元素ath ij的值为1或者0。当节点i和节点j的相关系数大于某一特定阈值τ时,aij的值等于1,否则aij的值为0。如图1(b)所示。

图1 38例对照组所构建的平均功能脑网络

2 模块划分及分类模型构建

2.1 模块度

Newman和Girvan在2004年提出了的模块度 (modularity)来对模块划分的结果进行度量[5]。一般来讲,模块可以定义为一组节点的集合,满足模块内部节点间有更加浓密的连接,而与外部模块之间有较少的连接[6]。目前已经提出很多算法来进行模块划分,在本文中,采用的是基于 “堆结构”的贪婪算法[7]进行模块划分并采用Newman的 “模块度(modularity)”来衡量模块划分好坏。模块度的定义为

式中:NM——划分的模块总数,L——整个网络中所有边的总数,ls——在模块S中的所有节点之间连接边的总数,ds——在模块S中所有节点度的总和。

目前有多种算法可以寻找全局最大模块度M并使其达到最优,如贪婪算法[8]或模拟煺火算法[9]。本文中,采用基于 “堆结构”的贪婪算法进行全局最优模块度M的寻找及模块划分。结果表明,功能脑网络在模块划分为6时,其模块度最高。(见图2)

图2 静息态功能脑网络及随机网络最优模块度

2.2 模块指标及统计分析

在完成脑网络的构建及模块划分后,针对每个所选定阈值,我们进行了模块内度 (intra-modular degree)及参与系数 (participation coefficient)的计算。

模块内度衡量了节点在其模块内部的连接情况,假设节点i属于模块n,则节点i的模块内度定义为

式中:Kni——模块n中的节点i与在本模块中其他节点的连接边的数量——模块n中Kni(i=1,2,…,N)的均值。σkn——模块n中Kni(i=1,2,…,N)的标准差。

节点与其他模块的连接情况可以用参与系数来衡量,其定义为

式中:Kni——模块n中节点i的模块内度。Ki——节点i的总度数。Nm——模块总数。这样,若模块n中的节点i与其他模块有大量的连接,则Pi接近1,否则Pi的值接近0。

为判断在整体性能上是否存在显著的组间差异,我们对每个指标进行非参数置换检验。同时利用多元线性回归来去除性别和年龄对检验结果的影响。 (自变量:模块指标,因变量:年龄及性别)

2.3 分类模型

为实现对疾病数据建模及自动识别,我们利用机器学习方法,以180个模块属性 (2个模块属性,90个节点,共180个)的统计显著性为特征,选择神经网络算法,构建分类模型。同时,为比较不同特征数量对分类模型的影响,在完整特征空间中,以5为步长,以统计显著性P为阈值指标,进行特征选择。利用交叉验证方法,生成并评测模型。随机选择样本中的70%为训练集,剩余30%为测试集,每个阈值进行100次,然后计算正确率及建模时间的算术平均值。

3 结果与讨论

为判断在整体性能上是否存在显著的组间差异,我们对每个指标进行非参数置换检验。结果如表1所示。(P<0.05,已校验)

表1 结点指标异常脑区及其显著性

目前对于抑郁症的神经病理机制研究,主要定位于边缘系统-皮层-纹状体-苍白球-丘脑神经环路 (limbic-cortical-striatal-pallidal-thalamic,LCSPT)(综述可见[10])。这一结论得到广泛认可。在我们的研究中,表现出模块指标显著变化的区域有大部分前额叶区域 (双侧眶部额上回、双侧框内额上回及双侧嗅皮质),部分边缘系统区域 (包括双侧海马,双侧杏仁核),部分基底核区域 (双侧尾状核)及部分顶下小叶区域 (双侧角回)等。其中,包括前额区域、海马、杏仁核、尾状核的区域均为LCSPT关键区域,其模块指标的改变表明了这些区域的局部聚集特性的变化,可以推测为由抑郁症引起。我们的研究为证明LCSPT为抑郁症病理环路从脑网络模块化角度,提供了新的证据。

我们以180个局部节点属性 (2个模块属性,90个节点,共180个)的统计显著性为特征,选择神经网络算法,构建分类模型。同时,为比较不同特征数量对分类模型的影响,在完整特征空间中,以5为步长,以统计显著性P为阈值指标,进行特征选择。利用交叉验证 (cross validation)方法,生成并评测模型。随机选择样本中的70%为训练集,剩余30%为测试集,每个阈值进行100次,然后计算正确率及建模时间的算术平均值。结果显示,当特征数目达到30个时,模型表现出最高正确率,达90.50%。(见图3)

图3 神经网络模型中不同特征数目的分类正确率

分类器模型构建中,特征数量是影响模型评价的重要参数。通常,模型构建过程中,首先加入贡献度最高的特征,然后加入次好特征。每次新增特征后,模型需要重新估计参数。不恰当的参数估计会导致分类器错误率的增加。如果所增加的错误率大于原有分类器错误率的话,则新增特征的结果则会增加分类器的错误率。因此,对于有限样本集而言,一定会有特征数量的峰值出现,即在该数量下,分类器的正确率是最高的。这个峰值,即为成为优化的特征数量。Popt的值取决于样本规模,分类器规则类型,样本类别的分布,以及所选特征的效力和排序。实践中,有一些关于Popt的一般规则。如:假定所有特征具有相同效力及随机排序,对于线性分类函数而言,Popt=(N/2)-1,N为样本数量。该规则恰与我们的研究结果接近。Hua利用仿真数据,比较了7种分类器其样本规模在0-200时,不同特征数量对错误率的影响[12]。对于和我们研究所选相同的分类器:线性SVM分类器及LDA而言,结果表明,样本规模为50且特征未校验时,特征数目分别为30和28时,其准确率最高。这一结果与我们在真实数据中所的结果吻合。

4 结束语

复杂网络理论作为研究复杂系统的重要工具,为人脑的探索提供了新的视角。我们以复杂网络理论为基础,利用静息态功能磁共振影像,完成功能脑网络的构建。然后进行模块划分研究,计算相关模块指标及抑郁症组间差异分析,并选择具有显著差异的模块指标为分类特征,进行分类模型构建,同时对模型的最优特征数目进行了相关分析。

研究中仍然存在一些问题。

任何网络研究中,核心问题有两个:结点的定义和连接的定义。对于脑网络而言,上述两个问题均没有得出统一的结论。脑网络节点所定义的不同空间尺度,将展现出不同的拓扑体系特征[13]。在我们的研究中,对于脑网络节点的定义仍以传统的脑区域级别进行。如果改变节点定义的空间尺度,原有结论是否依然成立,是否会有新的结论出现?哪种空间尺度的节点定义是最适合刻画抑郁症的网络拓扑结构?这些问题的解答均有待于后期的进一步研究。

将脑网络方法在临床研究中,已经有很多证据证明,脑疾病下的脑网络拓扑属性会发生异常变化。但目前,针对不同的脑疾病,其分析方法、参数选择以及异常变化特征、趋势等问题,我们尚无法做出回答。

我们的研究中,证明了利用统计显著性来作为分类模型的特征选择指标是合理可行的。并且发现,当特征数目达到28个时,模型所表现的正确均是最高的。但是,最优特征数量的确定与多种因素有关,包括样本规模,分类器规则类型,样本类别的分布,以及所选特征的效力 (effectiveness)和排序 (ordering)等。如何有效的确定特定模型的最优特征数量,是构建有效分类模型的关键问题。同时,不同的脑疾病,不同的脑网络的构建方法,不同的统计方法,上述结论是否仍然成立,则有待于后续的研究。

[1]Girvan M,Newman M E.Community structure in social and biological networks[J].Proc Natl Acad Sci USA,2002,99(12):7821-7826.

[2]Bullmore E,Sporns O.Complex brain networks:Graph theoretical analysis of structural and functional systems [J].Nat Rev Neurosci,2009,10 (3):186-198.

[3]Ferrarini L,Veer IM,Baerends E,et al.Hierarchical functional modularity in the resting-state human brain[J].Hum Brain Mapping,2009,30 (4):2220-2231.

[4]Tzourio Mazoyer N,Landeau B,Papathanassiou D,et al.Automated anatomical labeling of activations in SPM using a macroscopic anatomical parcellation of the MNI MRI single-subject brain[J].NeuroImage,2002,15 (1):273-289.

[5]Newman M E,Girvan M.Finding and evaluating community structure in networks[J].Phys Rev E,2004 (E69):026113.

[6]Radicchi F,Castellano C,Cecconi F,et al.Defining and identifying communities in networks[J].Proc Natl Acad Sci USA,2004,101 (9):2658-2663.

[7]Clauset A,NewMan M E,Moore C.Finding community structure in very large networks [J]. Phys Rev E,2004(E70):066111.

[8]Newman M E.Detecting community structure in networks[J].Eur Phys J B,2004,38 (2):321-330.

[9]GuiMera R,Mossa S,Turtschi A,et al.The worldwide air transportation network:Anomalous centrality,community structure,and cities'global roles[J].Proc Natl Acad Sci USA,2005,102(22):7794-7799.

[10]Sheline Y I.Neuroimaging studies of mood disorder effects on the brain[J].Biol Psychiatry,2003,54 (3):338-352.

[11]Sarunas J R,Anil K J.Small sample size effects in statistical pattern recognition:Recommendations for practitioners [J].Transactions on Pattern Analysis and Machine Intelligence,1991,13 (3):252-264.

[12]Hua J P,Xiong Z X,Lowey J,et al.Optimal number of features as a function of sample size for various classification rules[J].Bioinformatics,2005,21 (8):1509-1515.

[13]Fornito A,Zalesky A,Bullmore E T.Network scaling effects in graph analytic studies of human resting-state FMRI data[J].Front Syst Neurosci,2010,E4:22.

猜你喜欢

脑区分类器分类
腹腔注射右美托咪定后小鼠大脑响应区域初探
分类算一算
脑自发性神经振荡低频振幅表征脑功能网络静息态信息流
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
止咳药水滥用导致大脑结构异常
基于层次化分类器的遥感图像飞机目标检测