静息态功能磁共振成像的脑网络特征融合在机器学习识别自闭症中应用
2021-03-06赵小虎葛曼玲陈盛华王磊宋子博谢冲杨泽坤
赵小虎,葛曼玲,陈盛华*,王磊,宋子博,谢冲,杨泽坤
作者单位:1.河北工业大学省部共建电工装备可靠性与智能化国家重点实验室,天津300130;2.河北工业大学河北省电磁场与电器可靠性重点实验室,天津300130;3.廊坊职业技术学院,廊坊065001
自闭症又称自闭症谱系障碍(autism spectrum disorders,ASD)是一种由多类不同原因所引发的神经发育性障碍[1],其主要症状表现在社会交流障碍、刻板行为、情感缺陷等方面,会造成患者在日常生活、交流和学习中障碍[2,3]。通过临床对照研究发现:ASD 早期准确检测和及时干预能够很大程度上改善患者的语言能力、认知能力以及行为习惯。因此,ASD识别工作意义重大[4-6]。
近些年来,利用静息态功能磁共振成像(resting-state functional magnetic resonance imaging,rs-fMRI)技术[7]在自闭症患者的临床早期检测研究中越来越突出,该技术以其无创、快捷、高空间分辨率以及良好的患者适应性等成为脑功能影像学研究的先进手段。其中,基于相关性的功能连接(rs-fMRI functional connection,rs-fMRI-FC)为评估脑功能提供了科学的检测指标。例如:以健康人大脑功能影像为对照,通过提取自闭症患者功能脑影像学标记,利用rs-fMRI-FC 定位自闭症患者功能异常的脑区,以此来对自闭症患者早期检测提供辅助依据[8]。但是,传统的功能连接计算处于低阶运算水准,无法表达脑功能之间交互信息,影响了评估精准性。
随着网络拓扑技术的发展,脑网络概念被越来越多的科学家所重视。它能够从脑连接层面刻画大脑功能的交互,是高阶功能连接计算[9]。通过对大脑功能网络的拓扑属性变化来研究脑区之间信息传递异常,能够高效地挖掘发生脑功能特异性改变的脑区,从网络这一高级层面辅助检测患者。但现阶段,利用fMRI数据构建脑功能网络并结合机器学习算法在脑疾病的早期研究检测中,大多通过提取脑网络单一拓扑指标分析识别脑疾病[10,11]。然而,脑网络单一拓扑属性仅仅只是针对大脑网络某一个方面的描述,未能够充分考虑到多个大脑区域之间的拓扑结构信息,很难有针对性地给出全面的描述。所以,识别效果很难被大幅度地改善。
特征融合是机器学习中的先进技术,常常被用于脑疾病的研究中,例如对提取的特征向量采用串联的方式进行融合研究[12,13]。但是,这种方法尚未在ASD 中进行过测试。此外,这种首尾串联融合的方法,由于每个特征对整体的贡献不同,仅靠简单的串联融合进行分类精度可能不高。
针对上述问题,我们提出特征加权融合的方法,将其应用于rs-fMRI 数据在自闭症患者脑功能网络研究中,试图通过融合多种网络特征将fMRI-FC计算水准提到高阶。为此,我们以健康人数据为对照,设计了一种网络特征加权融合的自闭症检测方法,将不同的脑网络拓扑指标进行加权融合,使得分类器所得到的脑网络信息更加全面。并借助机器学习方法验证其在自闭症患者检测中的优势,为rs-fMRI检测自闭症提供了一种新方法。
本文的主要贡献包括:(1)利用自闭症和健康被试的rs-fMRI数据,通过偏相关构建低阶功能连接矩阵FC 来反映不同脑区之间功能连通性;(2)在此基础上通过构建多稀疏度关联矩阵来建立脑网络,从高阶水平上分析大脑功能,并采用以稀疏度为横轴,取特征值曲线下面积(area under the curve,AUC)来表征网络属性在连续稀疏度下的整体特征;(3)选取网络中4种常用局部节点指标,将其分类准确率所占的比重作为权重系数进行特征融合,以此构建特征向量,输入到支持向量机中分类并进行交叉验证以检验融合效果。最后,分别与单一特征分类效果和传统特征融合比较,以说明加权特征融合的优越性。本文的研究思路如图1所示。
图1 本文研究方法的流程图Fig.1 Study Flowchart
1 数据与方法
1.1 数据采集与处理
数据来源于国际神经影像数据共享倡议组织(International Neuroimaging Datasharing Initiative, INDI)分享的公开数据集ABIDE I (http://fcon_1000. projects. nitrc. org/indi/abide/abide_I.html)。本文从中选取了TRINITY实验中心数据,该数据包括24 例ASD 患者组(12.0~25.9 岁男性青少年)以及25 例正常对照组(normal control,NC)数据(12.0~25.7 岁男性青少年)。各组纳入标准如下:(1) ASD组:右利手的男性青少年;满足自闭症诊断观察量表(Autism Diagnostic Observation Schedule,ADOS)上的ASD自闭症判别标准。(2) NC组:右利手的男性青少年,年龄和智商与ASD 组相匹配;没有任何精神遗传疾病,包括阅读障碍或使用障碍;没有被诊断为ASD的一级亲属的存在;社会反应量表分数低于50 分或社会交流问卷分数低于10 分。所有ASD 患者和健康对照者都是通过相关的遗传学研究计划、临床服务、学校和倡导团体所招募的,并且获得圣詹姆斯医院和Linn Dara CAMHS伦理委员会的道德认可,所有参与者及其父母都获得书面知情同意。所有ASD患者和健康对照者排除标准包括:(1)通过韦氏智力量表评估智商小于70;(2)患有神经病学、精神病学或遗传病史;(3)具有MRI 禁忌证;(4)当前使用精神药物。静息态磁共振数据采集是在都柏林圣詹姆斯医院高级医学成像中心(Centre for Advanced Medical Imaging,CAMI)的Philips 3 T Achieva MRI 扫描仪上完成。受试者在图像采集过程中仰卧在fMRI 扫描仪中,闭上眼睛休息五分钟并尽可能保持静止。扫描参数具体为:层数38 层,TR 2000 ms,TE 28 ms,切片厚度3.5 mm,视野范围(FOV)为240 mm×240 mm,翻转角90°,共采集150个时间点。
使用DPARSF_V5.1[14](Data Processing Assistant for Resting-State fMRI)工具包对fMRI 图像数据进行预处理,具体的步骤包括:(1)将每位实验被试采集的前5 个时间点删除,以排除扫描前期的不稳定因素,使信号更加稳定;(2)进行时间层校正,以保证每个Volume内所有体素获取的时间在理论上一致;(3)去除头动伪影的影响;(4)将图像配准至蒙特利尔神经研究所的标准空间,然后进行3 mm×3 mm×3 mm 重采样;(5)进行带通滤波以减少低频漂移和高频生理噪声的影响;(6)回归干扰信号;(7)采用4 mm 半高全宽的高斯滤波器对图像进行空间平滑,以减小空间噪声。
1.2 脑功能网络构建
1.2.1 节点的定义
将预处理后数据使用自动解剖标记(automated anatomical labeling atlas,AAL,第1 版)图谱[15]将除小脑外的整个大脑皮层划分为90 个解剖区域(AAL-90)。将每个脑区定义成网络中的一个节点,对应值为节点值。通过计算每个脑区所处坐标范围内所有体素的血氧水平依赖信号的算术平均值来作为这个脑区(网络中的节点)的节点值。
1.2.2 边的定义
偏相关指只考虑两个变量之间的相关性,排除其他相关因素的干扰[16]。在脑网络的构建中,指忽略其他脑区的影响,只考虑两个脑区信号之间的相关性,因此,又称净相关分析[17]。
本文主要采用相关矩阵求逆法计算任意两脑区之间的偏相关值。首先,求得相关矩阵:
将任意两个脑区的偏相关系数值作为脑功能网络边,得到一个90×90 对称矩阵,对每个被试进行Fisher-r到Fisher-z转化,获得更接近正态分布的时间序列[18]。
1.3 网络分析
1.3.1 稀疏度选择
为了验证脑功能连接矩阵的拓扑特性,使用稀疏度来排除噪声元素,连通性稀疏度s (即现有边与网络中最大可能边数的比率)被用作阈值度量,以确保所有被试网络节点和边数相同。本文选取阈值s 在0.05~0.50,步长选为0.05。 然后,通过GRETNA_V2.0 网络分析工具包[19]在MATLAB 环境下计算每个稀疏度阈值下网络指标。为了衡量网络属性在连续稀疏度下整体特征,本研究以稀疏度为横轴,特征值为纵轴构建坐标系,用对应的10 个稀疏度下特征值做曲线,计算每个属性曲线下的面积AUC 值,用于后续分析[20-21]。AUC为大脑功能连接拓扑提供了总体上的标量信息,使其不受单一阈值选择的影响。
1.3.2 网络指标
脑功能网络拓扑属性种类繁多,分为局部属性和全局属性两种网络特征。通常,脑功能网络节点特征由局部属性体现。目前对精神疾病的脑网络属性研究多以网络中节点度、聚类系数、节点效率和节点局部系数为主[22,23],因此,本文选用上述4个局部节点指标做分类研究,如表1所示。
表1 脑功能网络分析指标简表Tab.1 Brief descriptions of brain functional network metrics employed in this study
1.4 脑功能网络的特征筛选
为了从特征集中找到最优的特征子集,防止过拟合现象,以优化模型性能和高效训练分类器,有必要在分类前进行特征选择。F-score 是度量特征在不同类别间区分度的一种指标,其本质是选取类内差异小,类间差异大的特征[24,25]。
在本文中,对于每类节点指标网络拓扑属性,每名被试会得到一个1×90 的行矩阵,通过F-score 进行特征提取,具体过程:首先,对90 个脑区计算F-score 进行评分,选取前10 个评分最高的脑区;然后,对自闭症患者和健康对照组所得到的脑区进行双样本t检验,选取具有统计意义的特征脑区(P<0.05)作为特征向量。
除此之外,最小冗余最大相关性(minimal redundancy maximum relevancy,mRMR)和ROC 敏感性分析也被广泛应用于特征脑区筛选上。mRMR 算法是通过利用互信息衡量不同特征之间相关性和冗余度,并根据信息差和信息熵这两个代价函数来寻找特征子集,使得选出的特征与目标类别之间具有最大相关性,且互相之间具有最小冗余度,可以很好地实现特征选择[26]。ROC 敏感性分析是根据一系列不同的二分类方式,以真阳性率为纵坐标,假阳性率为横坐标绘制曲线。在临床应用中,通过对各个脑区做ROC敏感性分析,可以选取对疾病识别较为敏感的脑区。
1.5 特征融合
根据以往研究发现,特征融合常采用多种特征向量首尾串联进行融合[12,27]。在此基础上,本文提出了一种加权的特征融合方法。从脑功能网络中得到的4个节点指标特征向量F,在进行特征融合时,对每种特征向量矩阵乘上一个权重系数M,然后再对其首尾串联实现加权融合,具体计算方法:
其中,F1,F2,F3,F4为4 类节点指标特征向量,Acc(Fk)为每类节点指标模型分类准确率,Ff为融合后的特征向量矩阵。
1.6 机器学习模型
在本文中,把49名被试的网络特征作为数据集,按照3∶2比例分成30名训练集和19名测试集,作为机器学习的基本输入信息通过min-max Normalization对数据进行归一化处理。选择径向基函数作为核函数,选取比例参数g=1 2σ2代替核参数σ,形成一组参数对(C,g)。其中,参数C 和g 的取值范围设定为[-10,10] (步长0.1),用网格搜索方法寻找误差最小的惩罚系数C 和核参数σ 为最优参数。创建训练模型,对测试集数据进行计算。随机交叉验证,即在每次实验分类前,将所有的特征向量随机排序并分组,用于机器学习分类实验。本文采用了10次随机交叉验证和留一法交叉验证两种方法加以验证,确保分类结果的可靠性。
2 结果
2.1 单一节点指标特征分类验证
为了检验单一局部节点指标的分类结果,分别利用三种不同算法对网络属性进行特征脑区筛选,并将其放入机器学习中进行10次随机交叉验证得到平均准确率,结果如图2所示。
图2 节点指标分类结果对比图Fig.2 Classification by network node index
尽管F-score 分类精度相对其他两种方法要好些,但总的来说,单一节点指标分类精度都不高,这是因为只考虑脑网络单一特征属性,将会忽略其他特征属性,其很可能会对结果产生很大影响,从而导致分类精度都不高。因此,可以在特征融合时根据分类效果不同,通过引入权值方法,综合考虑各个属性,以提高分类效果。
2.2 网络特征加权融合及其分类与验证
2.2.1 特征脑区
通过图2我们发现,通过F-score算法,在4类单一节点指标中分类精度相对较好,因此,为了研究特征加权融合后对分类效果的影响,我们利用F-score算法来挑选特征脑区,得到了在两类被试中具有组间差异的特征脑区,并将其可视化。如图3 及表2所示:
表2 具有显著性差异的特征脑区(P<0.05)Tab.2 Characteristic brain regions with significant differences(P<0.05)
图3 通过F-score提取的特征脑区Fig.3 Feature brain regions extracted by F-scores
由表2可见,四个脑功能网络节点指标所确定的特征脑区主要集中在额叶、颞叶和梭状回、海马、丘脑以及默认模式网络等区域,即自闭症患者在这些区域相对健康对照组较为敏感。
2.2.2 SVM分类交叉验证
据前述,分别将4类单一节点指标特征和加权融合后特征向量Ff放入机器学习中用SVM 分类器进行分类训练,为了测试算法的准确性,分别采用了10次随机验证和留一法验证,结果如表3所示。
由表3、4可见,两种交叉验证一致地证实了网络特征指标加权融合后的分类结果相对于单一节点指标特征有大幅度改善。从10 次随机验证结果来看,特征加权融合后的分类准确率范围在84.21%~94.74%,平均准确率为89.47%,相对于单一节点指标特征,平均提高21.05%。从稳定性上分析,通过特征加权融合后的方差比单一节点指标特征中稳定性最好的(节点度特征指标)还要低,方差达到0.17%。这表明:融合后特征向量更全面地反映了脑网络中拓扑信息,具有更强的分类能力,弥补了仅靠单一网络节点指标分类造成的脑网络局部信息被忽略的缺陷。另外,为了防止仅靠一种特征提取算法造成的偶然性和局限性,在此又对本文前面所提及的3种特征提取算法进行了对比,如图4所示:
表3 随机交叉验证单一指标和加权融合分类准确率Tab.3 Random cross validation for classification accuracy by a single index and weighted fusion
表4 留一法验证单一指标和加权融合分类准确率Tab.4 Leave-one validation for classification accuracy by a single index and weighted fusion
图4 不同算法提取分类结果对比图Fig.4 Classification by network node index and fusion
从图4中可以看出,无论是通过哪种算法进行特征提取得到的特征向量放入机器学习中训练分类,通过本文的基于网络特征加权融合的方法分类精度都优于传统的单一节点指标作为特征向量结果。
2.3 对比实验
为了验证本文提出的特征加权融合算法的效果,与传统的多种特征向量串联融合进行了实验对比[12],并进行了10 次随机验证和留一法验证已检验,如表5所示。
对比表3 和表5,不难发现,与单一节点指标相比,特征融合后分类精度都取得了不错的效果,但本文中提出的基于网络特征加权融合算法在分类的稳定性和精度上仍然优于传统的特征首尾串联融合算法。综上所述,本文所提出的特征加权融合模型具有优良性能。因此,本文的方法将有利于提高自闭症检测的精准性。
表5 特征加权融合和特征串联融合分类准确率Tab.5 Classification accuracy of feature weighted fusion and feature non-weighted fusion
3 讨论
3.1 网络特征加权融合分析
本研究顺应当下人工智能时代,参照健康对照组,提出了一种网络特征加权融合的方法,并将其运用在自闭症的识别检测上。通过对不同的脑网络拓扑指标进行加权融合,在网络层面上融合多种网络特征,使得分类器所得到的脑网络信息更加全面。通过和单一节点指标特征进行对比,该方法取得了较好的分类结果,比单一节点指标特征分类准确率平均提高21.05%,而相对于传统的首尾串联融合在精度上提高了4.74%。这种加权融合的算法为临床辅助诊断自闭症提供了一种新方法。
值得注意的是,文献[12]将多种尺度脑网络的特征进行融合,对抑郁症患者进行早期检测,识别率可达88.67%,相对于单一尺度下网络特征均有明显的提高。文献[28]结合节点相关属性和整个网络拓扑相关属性融合对阿尔茨海默病进行分类,最终实现了91.9%的分类准确率,比基于单一拓扑指标特征的方法高10.8%;文献[29]通过利用rs-fMRI 构建动态脑网络,对rs-fMRI时间序列特征和高阶网络的拓扑属性特征进行融合对轻度认知障碍患者识别诊断,最终分类准确率达到了87.7%,比最先进的方法至少提高了5.5%。由此可见,通过采用融合多种形式的脑网络拓扑指标方法可以提高分类精度,为早期患者识别检测提供了新指标和方法论,本文实践处于当前高水平。
3.2 功能影像标志性脑区
本文提出脑功能网络特征加权融合的自闭症检测模型,提取了特征脑区主要包括在后扣带回、梭状回、颞中回、海马旁回等默认模式网络区域中。研究表明,后扣带回脑区可能具有调节脑网络稳定性的作用,从而影响注意力的集中[30];颞中回是语言、情感和社会认知基础网络的一部分[31];此外,有研究发现与健康对照相比,自闭症患者的顶叶和颞叶皮质厚度增加[32,33],另外,还有一些基于任务的连通性研究也报告了ASD 患者在任务相关大脑区域的连通性不足,包括在涉及工作记忆的额叶、顶叶、枕叶连接[34-36];在默认网络中,Weng等人[37]发现ASD的社交障碍与默认网络的多个区域的连接强度有关。具体表现在后扣带皮层、额上回、颞叶与海马旁回之间连接性减弱。说明自闭症患者在这些大脑区域相对健康对照组较为敏感,与本文提取的特异于ASD的特征脑区有很大交集。
3.3 局限性
虽然,本文提出的网络特征指标加权融合方法在识别ASD取得了较好的实验结果,但研究具有一些局限性。文中采用了解剖模板AAL,已有研究发现存在一些潜在局限性[38]。例如,脑区划分较为粗糙,可能会忽略较为重要的皮层和边界信息。未来的研究中可以采用多模板方法进行网络分析,在一定程度上解决单一模板的偏差。
4 结论
本研究在偏相关性的功能连接构建脑功能网络基础上,对照健康组,提出网络特征加权融合算法,提取了特异于ASD 的静息态脑功能网络的影像学标记,以此为特征向量输入到机器学习中,可明显提升对ASD识别的准确率,比单一节点指标特征分类准确率平均提高21.05%,可达89.47%,也比传统的无加权特征融合提高了4.74%,提高了识别精准性。
作者利益冲突声明:全部作者均声明无利益冲突。