基于Relief系列算法的脑网络特征选择与分类
2022-11-29李国豪张俊然
李国豪,杨 豪,刘 彦,张俊然*
(1. 四川大学电气工程学院,四川 成都 610065;2. 四川大学华西医院,四川 成都 610065)
1 引言
功能磁共振成像(Functional Magnetic Resonance Imaging,fMRI)技术由于具有无创性,可以研究大脑神经元的自发活动[1],能同时在宏观层面对脑结构和功能进行研究等优点成为目前脑科学主流研究手段之一。传统的针对功能像MRI图像分析的指标提取和分析常采用ALFF(Amplitude of Low-Frequency Fluctuations)、ReHo(Regional Homogeneity)、FC(Functional Connectivity)等指标分析方法进行,通过统计学在局部、脑区连接和全脑的多种角度解释其临床意义[2]。最近的大量研究发现并指出了一些脑相关疾病患者在脑网络拓扑结构存在差异[3],因此,可以使用复杂网络理论对脑相关疾病患者和正常人脑功能网络的拓扑结构进行研究。如文献[4]利用慢性偏头痛患者的静息态功能磁共振(resting state-functional Magnetic Resonance Imaging,rs-fMRI)数据构建脑功能拓扑结构网络,发现了患者与健康者的网络属性差异。文献[5]利用糖尿病患者的rs-fMRI数据,定义90个脑区为网络节点,Pearson相关系数为边对健康者和患者进行了复杂网络属性分析,发现患者与健康者的网络拓扑属性有差异。以上这些研究针对脑网络指标进行统计学分析进而解释了统计差异指标的临床意义。
目前,基于脑相关疾病的网络属性指标在机器学习和疾病模式分类中发挥着越来越重要的作用[6-7],如文献[8]利用90个脑区的Pearson相关系数矩阵,把相关系数作为特征值,利用F分数 对4005维特征进行选择,采用支持向量机(Support Vector Machine,SVM)对癫痫病患者与健康者进行分类。文献[9]利用“小世界”网络拓扑属性对颞叶癫痫病患者的MRI数据进行分析,通过选择不同节点数来筛选特征并进行分类。文献[10]通过计算出网络拓扑属性对抑郁症患者进行分析,采用双样本T检验对特征进行筛选并进行分类。上述研究在特征获得与选择上,要么构建了大量的针对节点的局部属性;要么选择某些网络拓扑属性作为特征输入进行分类学习而没有进行有效的特征筛选。如何从不同维度选取特征指标来表征脑相关疾病网络特点的分类特征,进而筛选出对疾病分类有用的特定特征指标从而达到去除冗余特征的目的,在这方面的研究还较少。
本研究以糖尿病为例,拟通过图论分析技术对糖尿病患者脑功能异常进行检测并构建其静息态脑功能网络。针对上述研究的不足,在特征的提取上,本研究在多个尺度上利用脑相关矩阵和网络拓扑属性结果作对比;在特征的选择上,本研究不仅利用经典的Relief算法,还应用近几年提出的两种衍生Relief算法对特征进行有效的筛选后进行模式分类。在构建特征选择模型时,不但考虑局部的节点特征,也考虑全脑的网络属性指标。最后将双样本T检验与Relief系列方法在多尺度上进行了特征选择后分类效果的对比,并对结果进行了简单的分析。
2 脑功能网络的构建与相关参数获取
一般来说传统脑网络分析方法的步骤分为:1)以一个特定模板定义脑网络的节点;2)计算Pearson相关系数作为边,建立脑相关系数矩阵获得特征;3)利用脑相关矩阵计算网络拓扑指标获得特征;4)利用传统统计学分析方法对实例进行分析。
由于本研究重点不在网络指标的构建和临床指标的分析,故对上述步骤进行简短的描述。
2.1 相关系数矩阵构建
本文基于90个脑区的AAL(Anatomical Automatic Labeling)模板,脑区内所有体素的时间序列进行加权平均得到平均时间序列。脑区作为节点,脑区之间的时间序列相关系数作为边。然后计算所有节点两两之间Pearson相关系数,得到一个90×90相关矩阵,即为该个体的相关系数矩阵。
2.2 拓扑指标计算
对于所有的相关矩阵要选定一个阈值才能将相关矩阵换成二值矩阵,以相关系数是否超过某一阈值来判定节点之间是否存在边,本文选取一个连续阈值范围0.1~0.4,选这个阈值范围是为了验证本研究的特征选择算法在较宽泛的阈值是否有效(选择0.1下限是因为很多研究以此阈值开始取,选择0.4上限是避免最短路径长度存在无限大的可能)。设定步长为0.01,总共31个阈值点。
分别构建1型糖尿病患者和健康者的脑网络,计算出来的拓扑指标包括平均聚类系数(Clustering Coefficient,Cc)[11]、标准化平均路径长度(Lambda)、标准化聚类系数(Gamma)、平均路径长度(Shortest Path Length,Lp)、局部效率(Local Efficiency,Le)[12]、全局效率(Global Efficiency,Ge)[13]、平均度中心性(Degree Centrality,Dc)[14]以及小世界性(σ)[15]。
3 Relief系列算法的复杂网络拓扑指标选择框架
3.1 基本思想
Relief(Relevant Features)算法是一种过滤式特征选择方法,最早是由Kira提出[16],可以解决多分类问题以及回归问题,是公认的效果较好的特征评估算法[17]。
近几年Relief的衍生算法在经典的Relief算法上做出一些改进。文献[18]在Relief算法基础上提出一种多阶段Relief算法MS-Relief(Multi-Stages Relief)从横纵两个维度对特征集进行降维处理。解决了Relief算法一是未考虑到多个特征联合对分类的影响。文献[19]针对Relief算法在数学定义形式比较抽象,性质难以解释,且对噪声和野点鲁棒性较差的缺陷,提出了基于两类数据的Relief特征加权算法LIE-Relief(Local consistency Information Entropy-Relief algorithm)。
3.2 框架描述
Relief算法的每个特征向量对不同样本有不同区分能力,该算法借助这种区分能力来估计特征权值和该特征的重要程度。具体算法如下:
1)从训练集S中随机抽取一个样本xn(1≤n≤N)并记录该样本的类目。
2)选取距样本xn距离最近的同类样本NH(xn)和距离最近的异类样本NM(xn)。如果在某一特征上,同类样本到样本xn的距离小于异类样本到xn的距离,则说明该特征对区分同类和不同类的最近邻是有益的,反之则说明该特征对区分同类和不同类的最近邻是起负面作用的。
3)按照如下规则更新每个特征的权重w,如式(1)、式(2)所示
(1)
(2)
文献[18]的算法如下:
1)从所有特征中随机挑选两个特征组成联合特征对,重复2/n次操作得到不重复的特征对。按照式(3)得到所有特征对的差异度
|max(x(i))-min(x(i))|·|max(x(j))-min(x(j))|
(3)
2)计算联合特征对的协方差,式(4)所示消除特征对中一个特征。
Cov(i,j)=E[(i-μi)(j-μj)]
(4)
式中,μ表示特征的数学期望。
文献[19]引入间距最大化的特征加权信息熵,方法如下:
1)给定二类数据集一个初始权值w(0)=1/K,其中K代表特征个数。
2)根据式(5)~(7)重新计算差异性度量。根据式(8)引入信息熵理论使得熵和样本在属性域上的分布呈正比
(5)
(6)
式中,η表示j维特征的模糊隶属功度公式,δ表示模糊隶属度参数。
(7)
其次引入信息熵理论公式如式(8)所示
(8)
3)定义LIE-Relief算法的目标函数如式(9)
(9)
式中,ρn(w)函数表示间距最大化,λJ(wj)函数表示特征加权的信息熵。
本文算法框架迭代5次即N=5,每次会随机抽取30个样本xn即m=30,每个样本计算同类别样本和不同类别样本数分别是10即k=10,取模糊隶属度参数δ=2。
3.3 特征选择及分类
本研究每个阈值下的网络有其网络属性,为了简化计算,选取了具有代表性的阈值点作为特征选择的实验条件。采用SPSS22.0软件对两类样本不同阈值下的网络属性进行双样本T检验,以期得到每个指标存在显著差异的阈值范围。依据具有显著差异的指标数量多少得到具有代表性阈值点,在得到具体阈值点之后,使用Relief及其最新系列算法在该阈值点下对特征进行权重计算,采用10折交叉训练得到训练集不同特征权重占比(表1~3给出了其中5组实验权重占比),其中训练集与测试集的数据比为9:1,依据得出来的特征权重,设定权重占比阈值为10%对特征进行筛选作为分类器输入考察分类效果;作为对比,本文利用双样本T检验的传统特征选择方法在不同维度(4005维、8维)也进行了特征筛选并进行分类学习。
图1 本文模型流程
4 实验与结果分析
4.1 实验数据与预处理
本实验共收集四川大学华西医院数据库的41名1型糖尿病患者和41名健康者,被试信息如下:采用西门子公司的3.0T特斯拉超导型MRI成像系统(Siemens Magnctom Trio Tim 3.0TMR)进行扫描。扫描参数如下所示:重复时间(Repetition Time,TR)为2,000ms;回波时间(Echo Time,TE)为30 ms;扫描层数为33;翻转角(Flip Angle,FA)为 90度;层厚(Slice Thickness,ST)为4mm;扫描视野(Field of View,FOV)为240mm×240mm;扫描矩阵(Data Matrix)大小为64×64;体素大小(Voxel Size)为 3.75×3.75×4.00 mm3,采集的时间点数为210。
采用DPARSF(http://rfmri.org/DPARSF)软件对数据进行预处理(包括:时间层矫正、头动校正、空间标准化、平滑处理、低频滤波)和功能网络构建、分析。
4.2 指标的特征选择
经过多次Relief算法和另外两种衍生算法进行特征权重计算,得到8个拓扑指标权重占比或被算法筛选出的特征组合。三种算法计算的各个拓扑指标权重占比如表1、表2、表3所示。
表1 Relief权重占比
表2 LIE-Relief权重占比
表3 MS-Lelief特征筛选
4.3 Relief系列方法筛选特征分类结果
本研究验证属性特征对分类的有效性和特征选择算法性能,在8种拓扑属性指标在有代表性的3种相关性阈值(阈值0.27、0.34、0.40分别代表在所选脑区相关系数阈值范围经双样本T检验后健康者与患者的Lambda;Lambda、Lp;Lambda、Ge指标存在显著差异)下使用SVM对算法筛选的特征进行分类效果考察,采用十折交叉验证最后得到测试集分类准确率如表4所示。
表4 分类准确率
4.4 不同类特征选择分类结果
本次实验针对节点特征进行比较,也在宏观层面(拓扑指标)进行比较,利用不同尺度的特征、不同特征选择的方法,采用SVM在节点相关性为0.40阈值条件下进行对比分析。
表5 多尺度分类结果
4.5 实验结果分析
从表4分类结果分析,在达到同样精度时,Relief算法筛选出了6个特征作为分类输入,而LIE-Relief筛选出最少的4个特征,并输入分类得到最高的准确率89.02%。可以看出,经过Relief算法和Relief衍生算法筛选的特征达到了好的分类效果并去除了冗余特征,分析显示:加入最大间距的信息熵加权Relief算法有更好的特征选择效果。
从构建网络的阈值层面分析,分类精度随着阈值的升高都有一定的提升。其次,在不同阈值条件下,特征选择方法依然发挥作用,不同的特征选择方法都会随着阈值增高其分类效果有增高的趋势,原因可能是由于不同阈值造成了拓扑结构由弱至强的性质带来的,而与特征选择关系不大。
其次,当利用Relief系列算法和双样本T检验筛选的指标进行分类比较时,Relief算法筛选出的特征分类效果更好。最后实验结果表明,无论是以脑相关网络的4005维特征还是拓扑属性特征作为分类输入,Relief系列算法相比于双样本T检验从最后分类精度、计算量和计算时间上都效果更好。
利用之前的一些在特征选择和分类研究上,本文对比文献[8]、文献[9],具体效果如表6所示。
表6 不同模型分类准确度比较
5 结语
为了高效去除脑网络计算过程中产生的冗余指标,本研究以糖尿病脑影像数据作为研究对象,比较了多个尺度层面下脑网络指标在运用不同特征选择方法后筛选出的特征及其分类效果。结果表明:
1)针对4005维脑相关系数特征,Relief算法与双样本T检验均表现不错的分类效果,但计算量和消耗时常比较大;针对具备全脑信息的拓扑指标,双样本T检验的分类精度不高,而Relief算法及其衍生算法可以有效地对特征进行筛选。
2)在分类结果上,本研究应用的3种Relief系列算法筛选出来的特征得到的分类效果均优于双样本T检验选择后的分类效果。其次LIE-Relief算法使用最少特征得到最高的89.02%分类准确率。
3)由于本次研究样本数量偏少,可能导致研究演过存在选择性偏倚,如果进一步的扩大样本量,建立更完善的指标数据库,可以获得更加可靠更加稳定的结果。