APP下载

加权关联共表达网络在筛选致病候选基因上的优势分析

2013-10-27汪伟平汪晓银华中农业大学理学院湖北武汉430070

长江大学学报(自科版) 2013年4期
关键词:共表达相似性表型

王 骏,汪伟平,汪晓银 (华中农业大学理学院,湖北 武汉 430070)

周 磊 (华中农业大学生命科学技术学院,湖北 武汉 430070)

加权关联共表达网络在筛选致病候选基因上的优势分析

王 骏,汪伟平,汪晓银 (华中农业大学理学院,湖北 武汉 430070)

周 磊 (华中农业大学生命科学技术学院,湖北 武汉 430070)

面对多基因疾病的致病基因筛选的难题,加权关联共表达网络模型作为一种新的基于图论和统计学的生物信息挖掘方法,较其他传统方法以其较好的预测精确度,完备的生物学理论以及实现的简洁可行,有着较好应用前景。重点将加权关联共表达网络与基于网络距离和基于疾病表性相似性这2大主流方法进行实例对比分析,以体现加权关联共表达网络在致病候选基因筛选上的优势性。

加权关联共表达网络;基于网络距离法;基于疾病表性相似性;致病候选基因

人类疾病的基因组学研究已进入到多基因疾病这一难点。由于多基因疾病既是最常见的又是人们了解最少的人类遗传疾病,它们是多个基因相互作用所致,往往又不遵循孟德尔遗传规律。这方面的研究需要在人群和遗传标记的选择、数学模型的建立、统计方法的改进等方面进行艰苦的努力[1]。

多基因疾病的遗传异质性,基因上位显性,低外显率,表达多变性和基因多效性,以及环境因素的影响,这些因素使得寻找复杂疾病基因异常困难[2]。同时传统疾病基因识别方法存在诸多局限性。一方面需要耗费大量人力物力搜集样本并获取数据,而另一方面在实际中其定位精度往往难以满足要求。

以真实生物系统为对象,通过建立一个能够很好地反映生物系统,具有有限参数的数学模型,并提供有效的计算方法,对限定关联基因组区域的基因进行排序,筛选出与给定疾病最相关的基因,是目前解决这一问题的有效途径。

1 基于网络的疾病基因预测方法

由于基因与疾病关系在生物学上的复杂性,基于网络的疾病基因预测模型被越来越多的学者所认可和接受。基于网络的疾病基因预测方法大体分为2类:基于网络距离的方法和基于疾病表性相似性的网络方法。这些方法的不同之处在于其基本假设和具体实现。

致病基因预测的一般框架如下:对给定的n个候选基因,其中包含一个或多个致病基因,预测的目标是通过某种模型赋予每个候选基因一个得分,使得致病基因得分尽量高。

1.1基于网络距离的方法

基于网络距离的方法的基本假设如下:同种疾病的致病基因在网络中相互靠近。如果已知部分致病基因,则可根据其他基因到致病基因的距离对其他基因进行排序。如果没有已知疾病基因,则需要依赖更多的数据[3]。

1)依赖已知致病基因 由于大约一半的人类疾病有至少一个已知的致病基因,对于这类疾病,对候选基因的打分可以看作一个信号在网络中传播的过程:已知致病基因作为信号源发出信号,信号沿着网络中的路径从一个节点传播到相邻节点,并且随着传播的进行即距离的增加,信号逐渐减弱。网络中其他节点接收到的信号强弱则可以作为基因与疾病关系强度的一个估计。于是问题转化为如何定义和使用网络中的距离,方法有最近邻近法和最短路径法2种。

最近邻近法仅考虑直接相互作用的基因,即一阶邻居之间距离为 1,而其余为无穷,实质是一种“数邻居”的策略:如果一个基因周围有很多致病基因,则该基因也很有可能是致病基因。该策略的性能依赖于相互作用数据(基因网络)的选取,不同基因网络数据之间的差别很大,但都大大优于随机挑选的结果。

最短路径法更适用与不同基因在同一个蛋白复合体中,而不是同一个通路中。以最短路径长度作为距离可以考虑到所有联通的节点之间的影响。修正了最近邻方法中的一些局限性,2个能相关的基因并不一定直接相互作用。这2个可能在同一个生物过程的不同时刻起作用,但仍然导致相同的疾病。

2)不依赖已知致病基因 基于网络距离的方法在没有'先验基因'情况下虽然可依据同样的假设,即疾病的致病基因相互之间存在紧密关联,来预测其致病基因。前提是至少有2个存在致病基因的连锁区间,同时需要依赖更多的数据,在预测的精确度上可能效果不如已知致病基因的情形。

1.2基于疾病表性相似性的网络方法

基于疾病表性相似性的网络方法的基本假设如下:功能相关的基因导致表型相似的疾病。即不仅同一种疾病的致病基因倾向于紧密相关,相似疾病的致病基因之间也存在一定程度的关联[4]。

一个疾病可以用一组描述其临床症状的词汇来表示。基于这点,可以通过量化2个疾病之间症状的重合来量化其相似性,称之为疾病的表型相似性。van Driel[5]等通过文本挖掘的方式计算了5080 种人类疾病之间两两的表型相似性。Lage[6]等提出了一种加权的最近邻法,将表型相似性与最近邻法相结合,即待研究基因致病的可能性由最近邻所包含的致病基因决定,每个致病基因的权重为该基因导致的疾病与所研究的疾病之间的表型相似性。

2 加权关联共表达网络

使用网络模型分析的思想虽已达到共识,但传统方法中也存在着很多不完善的地方,致病基因预测的一般输入数据:疾病表型即疾病临床表现、蛋白质相互作用关系以及疾病与基因的关联信息数据。而以上研究中使用的网络基本为基因网络和疾病网络,还有它们的关联网络。在基因网络中,节点代表基因,而边代表基因或其编码的蛋白质之间的相互作用。在疾病网络中,节点代表疾病,边代表疾病之间的表型重叠[7]。

但在实际中,蛋白质相互作用关系数据并不算完备,疾病与基因的关联信息只是部分目前已知的有显著关系的基因与疾病。即其方法最终的精确度一定程度上取决于作为输入的已知信息量的大小。也正如基于网络距离的方法,必须依赖至少一个已知的致病基因才有较好的应用。基于疾病表性相似性的网络方法,其预先输入的表型相似性矩阵也是较主观的,虽然给最近邻法加了权重,但仍避免不了最近邻法的局限性。

新的已知信息的补充和完善有一定的客观性,对于科学研究来说,用已知或先验来预测未知,其实现过程方法不论如何改进,已知或先验的信息量大小及其客观性对预测精度有较大影响的事实是不会变的。那么不需要过多的已知或先验信息,仅提高样本量就能提高精度,并且理论完备符合生物学原理的方法是有待探讨的。加权关联共表达网络正是这样一种方法[8-9],以下结合实例说明。

3 实例分析

3.1数据预处理

所需数据为目标疾病的所有n个致病候选基因在不同个体样本上的基因表达谱,近年来随着DNA微阵列技术的发展,在基因表达谱的提取上带来了便利。由此得到矩阵X=(xij)n×m,n表示致病候选基因数目,m为样本数,每个基因即为网络结点。另外样本特征T=(tk)1×m,tk可取一定范围内的实数,表示疾病状态。

由于相似性变换与通过实验得到的基因表达谱具有一致性,即能在尽量小的信息损失下生成基因间的相似性矩阵,具体可以使用Pearson或Jacknife的相关性检验系数,最后得到相似性矩阵(Sij)n×n。

3.2邻接阵转换

加权网络的实质从图论的观点来说为赋权图,即表现为基因的邻接矩阵,将(Sij)n×n向邻接阵转换,转化函数一般采用Sigmoid和Power,得到邻接矩阵(aij)n×n。

值得说明的是,上述转化函数的参数的选取是依据构建出的网络,符合最佳贴近无尺度拓扑网络的原则,即选参中使用了回归的方法,这也是该方法的创新之一。

近年来很多复杂网络被发现有无尺度拓的特性,表现为在其结点度分布没有一个特定的平均值指标,即大多数节点的度在此附近,度分布时,其遵守幂律分布。在视图中表现为大部分节点只有少数几个连结,而某些节点却拥有与其他节点的大量连结。目前已证实生物代谢网络也具有上述性质。即该基因共表达网络建立时应以满足生物网络具有的无尺度拓扑的标准,否则建立的网络是违背生物学原理。在此假设下采用幂律分布的表征特点经行回归的方法选取构建网络时的参数。

3.3拓扑重叠差异性量度矩阵

3.4网络聚类和模块识别

对差异性度量矩阵采用系统聚类或层次聚类的方法,进行模块识别。模块是指具有高度拓扑重叠性质的集群。生物学解释为导致外部病症急剧变化的基因会聚集在一起。

图1 基因的聚类分析及模块颜色标注

图2 模块与致病特性的相关性

图1是以糖尿病致病基因筛选为例,依据基因的差异性量度矩阵进行层次聚类的树状图,图1的颜色标注表示不同树状分支所属的模块。实例所选基因数为7023个,最终得到13个模块,说明基因的聚类效果好,很好的构建出了符合生物代谢网络无尺度的特性。即模型既符合生物学假设,并且对原始数据经行变换后,使其变成了易于反映数据内部本质特征的形式,对后续的数据分析工作带来了便利。

3.5关联外部信息

模块核心基因E定义为该模块内的基因的表达矩阵的第一主成份基因。

模块关系指数MMblue(i):

MMbiue(i)=cor(xi,Eblue)

描述基因i与blue模块的模块核心基因Eblue的相关性。模块重要性度量即为该模块的核心基因与样本特征T的相关性,即不同基因的致病可能性的得分。

为了区分方便,分别为模块命名并计算其样本特征T的相关性(见图2),找到与外部病症相关最高的模块,同时可以得出该模块中各基因的致病得分,得到数目比其他方法少的致病基因,为后续进一步的生物实验设计提供了依据。

4 结 语

综上所述,加权关联共表达网络与传统基因网络方法相比,不需要过多的已知或先验信息,仅提高样本量就能提高精度,并且采用最新生物网络的无尺度特性的假设建立简单可行模型,通过事实证明了其在致病候选基因筛选上的优势。

[1]庞乐君.基因组学和蛋白质组学对新药研发的影响[D].中国人民解放军军事医学科学院,2005.

[2]范巍.基因分型错误对病例对照方法估计疾病外显率的影响研究[D]. 杨凌:西北农林科技大学,2011.

[3]彭佳扬.代谢网络中功能模块挖掘和进化分析研究[D].长沙:中南大学,2011.

[4]王宗尧.基于蛋白质网络的人类遗传致病基因预测算法研究[D].哈尔滨:哈尔滨工业大学,2011.

[5]van Driel M A. A new web-based data miningtool for the identification of candidate genes for human genetic disorders[J].EurJ Hum Genet,2003,11: 57-63.

[6]Lage K, Karlberg E O, Storling Z M, et al. A human phenome-interactome network of protein complexes implicated in genetic disorders[J].Nature Biotechnology,2007, 25: 309-316.

[7]Zhang B, Horvath S.A general framework for weighted gene co-expression network analysis[J]. Statistical Applications in Genetics and Molecular Biology,2005,4(1):1128-1128.

[8]Langfelder P,Horvath S.WGCNA: an R package for weighted correlation network analysis[J].BMC Bioinformatics,2008,9(1):559-559.

[9]Li A, Horvath S.Network neighborhood analysis with the multi-node topological overlap measure[J]. Bioinformatics,2007, 23(2): 222-231.

2012-11-26

湖北省自然科学基金项目(2011CDB152);国家大学生创新性实验计划项目(1210504024)。

王骏(1990-),男,硕士生,现主要从事数学建模方面的研究工作。

汪晓银(1971-),男,博士,教授,现主要从事数学建模方面的教学与研究工作;E-mail:wxywxq@163.com。

O29

A

1673-1409(2013)04-0036-04

[编辑] 洪云飞

猜你喜欢

共表达相似性表型
一类上三角算子矩阵的相似性与酉相似性
UdhA和博伊丁假丝酵母xylI基因共表达对木糖醇发酵的影响
侵袭性垂体腺瘤中lncRNA-mRNA的共表达网络
浅析当代中西方绘画的相似性
建兰、寒兰花表型分析
低渗透黏土中氯离子弥散作用离心模拟相似性
中国流行株HIV-1gag-gp120与IL-2/IL-6共表达核酸疫苗质粒的构建和实验免疫研究
共表达HIV-1与IL-6核酸疫苗质粒诱导小鼠免疫原性的研究
GABABR2基因遗传变异与肥胖及代谢相关表型的关系
慢性乙型肝炎患者HBV基因表型与血清学测定的临床意义