基于炎症反应的阿尔茨海默症功能模块构建
2015-12-05牟晓阳
孔 薇,张 娜,杨 旸,牟晓阳
(1.上海海事大学 信息工程学院,上海 201306;2.美国罗文大学 医药研究中心,新泽西 08028)
阿尔茨海默(Alzheimer disease,简称AD)是以进行性认知障碍和记忆力损害为主的中枢神经系统退行性病变,病人逐渐丧失生活自理能力,给家庭和社会带来沉重的负担.AD起病隐匿且发病机制复杂,基因信号传导通路及调控关系难以构建[1].大量的临床病理报告显示,Aβ沉积所形成的神经炎斑块是AD病理主要特征之一.AD老年斑病变中可观察到几十种与炎症有关的蛋白质;T淋巴细胞、小胶质细胞和星状细胞发挥着类炎症免疫细胞和巨噬细胞的作用.因此,炎症反应在AD发病机制中起着重要作用,基于炎症反应的功能模块及信号传导通路构建将为AD致病机制的研究提供有益的途径.
目前基因调控网络的构建主要基于基因表达数据,但基因表达数据具有基因数目多、样本过少、高噪声且信息变量隐藏很难分析的特点,这种不平衡造成大多数经典模式识别和机器学习方法不能被直接应用,直接导致构建基因调控网络的精度不够[2].近年来,很多学者在不同程度上提出了整合基因表达数据集以及融合其他数据源的方法.如整合不同平台下基因表达数据、结合Chip-chip数据、基因敲除数据、蛋白质相互作用等,用于构建基因调控网络、基因生物标志物的探寻等[3-6].其中,PPI数据所表示的网络结构可代表不同的生物过程或信号通路,能为基因功能和网络的研究提供丰富的相互作用信息,尤其是对应于序列相似性比较大的基因.因此,结合PPI数据可以弥补基因表达数据的不足,提高网络的精度.作者利用PPI数据所提供的生物网络及功能的模块性,与AD基因表达数据相结合构建基于炎症反应的AD功能模块网络.
同时,除了人脑海马(hippocampus,简称HIP)区组织样本以外,内嗅皮质(entorhinal cortex,简称EC)区、颞中回(media temporal gyrus,简称 MTG)区、后扣带回皮质(posterior cingulate,简称PC)区、额上回(superior frontal gyrus,简称SFG)区及视觉皮层(primary visual cortex,简称VCX)区均与记忆和空间定位等密切相关,并在AD中均有病理改变,因此,文中作者利用AD患者6个脑区域基因表达数据采用Heinz算法与PPI数据结合,提取显著子网络;提出模拟退火算法预测和优化网络中的相互作用;最后通过基因功能分析对特征基因进行分类,并结合PPI网络构建基于炎症反应的功能模块,并构建钙离子作用机制的网络模块,为深入了解AD内部发病机制提供重要线索.
1 算法介绍
1.1 得分函数原理
作者在总的PPI网络中提取出扰动性更大的节点基因且节点之间的相互作用都比较强的子网络,并且在加权网络中采用最大权重的方法提取子网.网络的加权包括边权和点权,即网络得分函数的边得分和点得分.边得分代表两个节点基因的相关性[7];点得分代表该基因差异表达程度[8].
根据观测的基因数据计算的原始p值可以认为有信号和噪声混合组成[9].在零假设条件下,p值的信号成分服从B(a,1)分布,a为拟合参数.其概率密度函数为
噪声服从B(1,1)分布,β为形状参数,当α和β都为1时,即B(1,1)=U(0,1),即可以看作噪声服从均匀分布.对于得分函数分母则为1,公式如下
很显然,a→1表示信号成分的密度是收敛于背景模型.因此,每个基因的得分将收敛于0,尤其是较低的p值将会给定一个零得分.
再者,对于拟合参数a和参数x有,证明了该得分函数结合了参数a和x.类似于一个经典假设检验,定义一个特定的显著性水平即一个能把信号和噪声分开的阈值.混合模型允许估计错误发现率(false discovery rate,简称FDR)值的大小,估计出的阈值大小可以控制正得分的节点个数.然后,可以推导出一个调整的似然比得分,点得分函数为
其中:x是基因表达数据的统计p值;a是均匀混合模型的形状参数的最大似然估计值;τ是阈值,它控制着正得分节点的个数,继而决定着提取出的子网络的大小.根据观测数据求取的p值是信号和噪声的混合.信号服从均匀分布,噪声服从正态分布,p值分布可以表示为
因此,p值通过β-均匀混合(beta-uniform mixture model,简称BUM)模型可以很好地分离噪声[1].
PPI网络中相互作用的强度是不同的,并且两个节点之间的相互作用有促进和抑制之分.皮尔森相关系数符合相互作用的特点,皮尔森相关系数值代表强度大小,正负代表作用的方向.节点的标准差可以反映两节点之间的差异性.文中边得分的大小代表相互作用强度值,正负代表促进或抑制作用.定义边得分函数为
其中:X、Y表示两个节点基因;e代表网络中的相互作用;cov(x,y)是变量X、Y的协方差;corr(X,Y)是基因X、Y表达值的皮尔森相关系数;std(X)、std(Y)是基因表达值的标准差,体现基因的差异性.网络G的得分定义为
此时T会受到网络中边的数据的影响.在子网络对研究条件无响应的前提下,网络中的相互作用对之间是随机相关的[7].可以认为网络的标准得分不会受到节点之间的连接结构的影响.因此,定义网络的边得分函数为
其中:avgk是网络中边得分的平均值;stdk是边得分的标准差.
1.2 子网络识别算法
基于点得分的网络识别算法(Heinz)的理论模型属于斯坦纳树问题(Steiner-tree),主要是根据prize-collecting Steiner树问题和数学规划法求解[1],该文是在一个有正负得分的网络中寻找得分最大的相关子网络.
存在一个无向加权网络G=(V,E,c,q),其中q表示顶点利润,q:V→R≥0;c表示边消费,c:E→R≥0.作者在网络G中寻找最大加权子网T,即T=(VT,ET)∈G(VT⊆V,ET⊆E),并且网络的总得分最大,即满足公式,在网络G中,w表示网络的点权重,w′表示所有顶点中最小的权重值,并且令网络中所有的边权重都为w′.因此q(v)=W(v)-w′,c(e)=-w′.网络T得分q(T)可以表示为
因为T是一棵树,所以网络T得分为
算法详细叙述参见R-BioNet程序包[10].
模拟退火算法是一种应用非常广泛的智能优化算法[11].生物网络的功能模块化分析本质上是一个大规模组合优化问题,而模拟退火是解决大规模组合优化问题的有效近似算法,并且具有跳出局部优化的优点.Guo等[7]通过把该算法运用到人类前列腺癌数据集和酵母菌细胞循环数据集,证明了它能够有效地捕捉到网络中的相互作用.因此可以采用该算法优化网络.
2 实验仿真和讨论
2.1 实验数据介绍
选用Gene Expression Omnibus(GEO)数据库的GSE5281数据集[12],其包含6个脑区共有161个样本,分为对照样本(CD)和患病样本(AD).内嗅皮层(EC)区有13个CD和10个AD;海马 (HIP)区有13个CD和10个AD;中间颞回 (MTG)区有12个CD和16个AD;后扣带回皮质 (PC)区有13个CD和9个AD;主要视觉皮层 (VCX)区有12个CD和19个AD;额上回(SFG)区有11个CD和23个AD.Human Protein Reference Database(HPRD)数据库的人类PPI数据[13]包含36 504个相互作用及9 386个节点基因.
2.2 数据预处理
根据观测基因表达值求取的p值包含信号和噪声.运用贝叶斯方法和BUM模型对观测p值进行线性拟合分离信号和噪声[14],提高差异分析和节点得分的准确性.紧接着对基因表达数据进行基因注释和方差分析.以上操作为该文的数据预处理.
每个脑区进行预处理后提取的基因分别与PPI网络依据基因ID号进行匹配,提取最大网络并去除基因的自相互作用.经预处理后每个脑区初步选出6 100~6 400个基因.图1为SFG脑区BUM模型效果图.
图1a中,直方图显示了观察p值在拟合模型(曲线)下与预期密度具良好的一致性,图中横线代表观测数据的p值的噪声在拟合模型下为均匀模型.图1b中,在模型下观测p值的分布与实际p值能够良好地拟合.
3 实验结果及分析
实验证明FDR越大,正得分基因的数目越多.基于高错误发现率的广泛扰动使识别核心扰动非常困难.为了得到6个脑区的正得分基因数目较小便于分析核心扰动,作者决定在不同大脑区域采用不同的FDR临界值.经过多次实践,作者针对每个脑区最后选择MTG、EC、HIP、PC、SFG、VCX分别对应的FDR值为0.000 7、0.004、0.008、0.01、0.06、0.09,计算网络中的节点得分和边得分.运用 Heinz算法提取出每个脑区的点权最大得分子网.使用模拟退火算法优化网络,设定阈值为0.8.实现向子网中添加强度超过设定阈值、去除强度小于阈值的相互作用,获取最终的显著扰动子网.
通过分析节点的p值和边得分,每个脑区的显著扰动子网中节点的差异性很大,基因之间的相互作用很强.并且每个脑区的扰动子网之间存在着明显的重叠.网络中节点基因连通度的大小反映了该基因在网络中的重要程度,选取前50个基因作为特征基因,共提取出206个特征基因.
为了证实提取的特征基因与AD的相关性,作者利用目前应用较为广泛的DAVID[15]在线工具对提取的206个显著基因赋予Gene Ontology注释,并进行功能分析和分类.其中,APP和GAPDH是已知与AD相关的基因;16个基因参与NF-κB信号通路;23个基因与线粒体功能障碍有关,其中4个基因参与KEGG的AD信号通路;81个基因与神经组织有关;35个基因参与钙离子作用过程;33个基因参与炎症免疫反应;90个基因参与乙酰化过程.其中,线粒体功能紊乱会导致ATP合成降低,造成ATP损耗障碍,可诱发兴奋性氨基酸增加,如谷氨酸、门冬氨酸等,它们对神经元具有强烈的兴奋和神经毒性作用,最终导致神经元死亡.
为进一步验证特征基因与AD的相关性,作者通过对特征基因进行KEGG传导通路分析,总共有57个基因参与了与AD相关的重要信号通路,主要包括MAPK信号通路、Wnt信号通路、胰岛素信号通路等.
TGF-β信号通路对mRNA-106b有直接调控作用.mRNA-106b表达降低可以使TGF-β表达升高.Dab2通过调节TGF-β1/SMADs信号通路,可以减少淀粉样β蛋白沉积、减轻炎症反应和海马神经元的缺失,发挥了对阿尔茨海默病海马神经元的保护作用.所以Dab2基因有可能作为药物研究的靶点.
Wnt信号通路则可以直接作用于Fz受体,激活DVL和JUN激酶等.Fz受体会与三聚体G蛋白相互作用增加细胞内的Ca2+浓度.因此Wnt信号通路与下文的钙离子作用机制有密切的联系.同时,Wnt通路还可以通过DVL与NIC的直接作用拮抗Notch通路.Notch通路与NF-κB通路有密切的关系.Notch信号通路中的Notch受体能够调节细胞的分化,并且已经有研究发现Notch1可以在周围神经系统中诱导神经胶质细胞产生.
胰岛素信号通路异常则与大脑氧化应激反应有关,大脑长时间处于缺氧状态也会造成神经元死亡.经过分析以上几种通路都参与了AD的发生和发展过程,与AD的发病都有密切关系.这也进一步证实,文中提取的特征基因与AD都有着密切的关系,可为生物学研究提供更有价值的信息.
3.1 炎症模块网络的构建及分析
AD的特征性病理主要为细胞外间隙的Aβ蛋白和细胞内多聚tau蛋白的沉积.β淀粉样蛋白的细胞外沉积与强烈的炎症反应密切相关,分子生物学研究也普遍认为神经炎症是AD发病的罪魁祸首[16].作者提取了大量与免疫和炎症反应密切相关的过表达基因,证实了AD的产生和发展与炎症反应密切相关.为进一步在网络中分析所提取的特征基因,结合39个已知的AD相关基因,进行功能分类进而构建炎症模块子网.图2所示为该文算法提取的炎症反应相关基因构建的炎症功能模块网络.
图2中,菱形节点为已知与AD相关的基因,圆节点为提取的特征基因.基因之间的相互作用非常清晰,已知基因与特征基因之间共同调控着细胞的炎症反应.特征基因自身的模块性较好.图2中可看出APP、MAPK1/3等基因在网络中占据着重要的作用.CASP3/6/8以及APOE等基因都与APP存在直接相互作用.IKBKB基因与TNFRSF1A基因和CASP8基因存在直接相互作用关系,同时IKBKB还参与NF-κB传导通路作用,CASP8和NF-κB与炎症反应密切相关.APP基因的突变可使Aβ蛋白沉积增加,继而引起继发性的炎症反应.Aβ蛋白沉积的增加能增加炎症因子NF-κB蛋白的失常表达造成神经细胞死亡.MAPK能被白细胞介素3(IL-3)等多种炎性因子激活,对炎症的发生、发展起重要调控作用[17].MAPK激酶在AD体内参与诱导tau蛋白的过度磷酸化,继而导致AD发生.网络中CASP3/8,MAPK1/3等基因与BCL-2有直接作用关系.
3.2 钙离子机制模块网络的构建及分析
近年来,钙平衡失调作为AD重要致病因素的观点已被许多学者认同.钙离子浓度的变化会促进老年斑和神经元纤维缠结的生成.作者提取大量与钙离子代谢密切相关的显著基因及传导通路.利用这些提取的与钙离子有关的基因构建的钙离子作用机制的模块网络如图3所示.
由图3可看出PRKCA、BCL-2等基因在网络中占有重要的作用.文中所提取的钙结合蛋白基因有S100A1、S100B、CALB1、钙调蛋白基因CALM3、蛋白质磷酸酶基因PPP3CA.S100B是脑内特异蛋白[18],通过ATP2AZ基因与BCL-2基因相互作用.大脑受到损伤后,星型胶质细胞增殖和异常活化,并且释放大量的炎症因子,促使大脑炎症发生,同时导致大量的S100B蛋白的生成,高浓度的S100B蛋白对中枢神经系统具有毒性作用,促使神经细胞死亡,促进炎症的发生,因此钙平衡失调与炎症反应存在密切的关系.
有研究表明,钙离子机制也可通过其他途径造成AD.早老素基因突变、线粒体功能紊乱等引发细胞内钙稳态的紊乱,导致Ca2+浓度增加[17].Ca2+浓度上升会与钙结合蛋白尤其是钙调蛋白结合,激活CaMK2D编码的CaMKII以及PRKCA编码的PKC等蛋白激酶,造成蛋白激酶活性失衡.CaMKII表达增加会损伤突触和神经元,释放出的CaMKII发生集聚并沉积,诱导或加速Aβ的形成,Aβ可诱发广泛大脑炎症反应并且促使炎症因子过表达.PKC可以催化tau蛋白发生磷酸化,致使tau蛋白过度磷酸化.Ca2+通过钙调蛋白等下游信号使过度磷酸化的tau蛋白形成双螺旋纤维丝,进而形成NFT.再者,Aβ可以改变神经细胞和线粒体的离子通透性,造成神经细胞内Ca2+平衡的失调,继而形成恶性循环,最终造成AD.
4 结束语
同一问题的多源数据的分析是对基因的生物学信息的整合,较好地弥补了基因表达数据自身的不足.作者通过运用Heinz算法结合AD 6个脑区基因数据和PPI数据,提高了基因调控网络预测和构建的精度和准确性.运用边权算法预测基因之间的强相互作用具有显著效果,不仅能提取出已知与AD相关的基因APP和GAPDH,同时,通过炎症模块子网和钙离子模块子网的构建给出了AD显著基因之间的相互作用关系,深入探索和分析了炎症及钙离子反应等在AD发病机制中所起的重要作用,为AD致病机制的分子生物学实验和深入研究提供了有益的途径和方向.
[1]Dittrich M T,Klau G W,Rosenwald A.Identifying functional modules in protein-protein interaction networks:an integrated exact approach[J].Bioinformatics,2008,24(13):223-231.
[2]Wei K,Cui D B,Mou X Y.Using network component analysis to dissect dynamic expression of gene and network structure in Alzheimer’s disease[J].ICBEB,2013,32(4):418-425.
[3]Cheng C,Shen K,Song C,et al.Ratio adjustment and calibration scheme for gene-wise normalization to enhance microarray inter-study prediction[J].Bioinformatics,2009,25(13):1655-1661.
[4]江丽华,李亦学,刘琪.综合Chip-chip数据、基因敲除数据和表达谱数据构建基因调控网络[J].生物化学与生物物理进展,2010,37(9):996-1005.
[5]谢建明.基于表达数据和基因组信息分析基因调控的方法学研究[D].东南大学生物医学工程学院,2009.
[6]Wang Y C,Chen B S.A network-based biomarker approach for molecular investigation and diagnosis of lung cancer[J].BMC Medical Genomics,2011,4(2):2-15.
[7]Guo Z,Li Y J.Edge-based scoring and searching method for identifying condition responsive protein-protein interaction sub-network[J].Bioinformatics,2009,25(12):2121-2128.
[8]Liang D,Han G,Feng X.Concerted perturbation observed in a Hub network in Alzheimer’s disease[J].PLoS ONE,2012,7(7):e40498.
[9]Pounds S,Morris S W.Estimating the occurrence of false positives and falsenegatives in microarray studies by approximating and partitioning the empirical distribution ofp-values[J].Bioinformatics,2003,19(10):1236-1242.
[10]Beisser D,Klau G W,Dandekar T.BioNet:an R-Package for the functional analysis of biological networks[J].Bioinformatics,2010,26(8):1129-1130.
[11]Ding D W,Wu P,Yang X H.Application of simulated annealing algorithm to biological network research[J].Computers and Applied Chemistry,2011,28(10):1032-1034.
[12]Keshava Prasad T S,Goel R,Kandasamy K.Human protein reference database—2009[J].Nucleic Acids Res,2009,37(Database issue):767-772.
[13]Gao X,Tang X C.The early sign of neurodegenerative disease:mitochondrial dysfunction[J].Chinese Bulletin of Life Sciences,2006,18(2):138-144.
[14]Smyth G K.Linear models and empirical bayes methods for assessing differential expression in microarray experiments[J].Statistical Applications in Genetics and Molecular Biology,2004,3(1):Article3.
[15]Huang D W,Sherman B T,Lempicki R A.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources[J].Nature Protocols,2009,4(1):44-57.
[16]李丽喜,章素芳,张鑫.阿尔茨海默病小鼠大脑和脊髓自噬变化的研究[J].上海交通大学学报,2012,32(5):536-542.
[17]Mann D M,Pickering-Brown S M,Takeuchi A,et al.Amyloid angiopathy and variability in amyloid beta deposition is etermined by mutation position in presenilin-1-linked Alzheimer’s disease[J].Am J Pathol,2001,158(6):2165-2175.
[18]Loquai C,Müller-Brenne T,Grabbe S.Serum S100Blevels correlate with clinical benefit in a metastatic melanoma patient treated by CTLA-4blockade:a case report[J].Onkologie,2013,36 (10):578-581.