APP下载

基于网络资本评估和节点失效的关键蛋白质识别算法研究

2017-05-08许睿胡萍李纲

智能计算机与应用 2016年6期

许睿++胡萍++李纲

摘要:針对目前蛋白质节点删除方法存在破坏蛋白质相互作用网络拓扑结构的问题,在定义蛋白质节点可达性的基础上,提出了一种基于蛋白质网络资本评价和节点失效法的关键蛋白质节点识别算法。在保持网络整体拓扑结构完整的前提下,通过分析蛋白质节点失效前后网络资本值的下降程度评估该节点在蛋白质网络中的重要程度,从而识别关键蛋白质。实验结果表明本算法对最为重要的前1%和前5%数据的关键蛋白质预测结果优于四种典型的中心性测度方法,而且对于关键蛋白质的识别具有较高的准确性。

关键词: [蛋白质网络; 可达性; 网络资本评估; 关键蛋白质

中图分类号: TP301.6

文献标志码: A

文章编号: 2095-2163(2016)06-0025-04

0引言

在包括人类在内的动物体内,有一种生物大分子参与了大部分的机体活动过程,众所周知该类主体就是蛋白质。在蛋白质大家族中,有一类可统称为关键蛋白质,虽然其在数量上并不为多,但对于动物的生存生长却发挥着至关重要的决定性作用,而且对于维持动物正常的生命活动和繁衍生息也有着显著特殊的现实意义。当下研究表明,关键蛋白质所担负实现的生物学功能是其他蛋白质无法替代的。如何有效识别这一类关键蛋白质对于生物体的致病原理研究、从基因层面治疗的开展、以及动植物药用价值的开发等领域方面的升级完善均将产生广泛而深远的影响。

经过研究发现,蛋白质之间存在着相互作用,这些相互作用将蛋白质组合成为蛋白质网络。通过进一步分析展开蛋白质网络的研究设计过程,即会发现蛋白质在网络中所处的拓扑位置对于衡量蛋白质作用在生物体中的影响力则能呈现清晰明确助益效果,而关键蛋白质在蛋白质网络中通常将会处于更加重要的位置。因此,本文拟先通过计算蛋白质节点的可达性来进行蛋白质重要性排序,然后采用节点失效的方法,将重要的蛋白质节点不断地“失效”,再不断地计算新的蛋白质的重要性,从而在蛋白质网络中动态地识别关键蛋白质。

5结束语

本文在定义蛋白质网络的节点可达性和网络资本值的基础上,融合节点失效法,提出了一种识别关键蛋白质的混合识别算法。在保持蛋白质网络拓扑结构完整性的前提下,通过评价节点失效前后蛋白质网络的网络资本值的下降程度来识别网络中的关键蛋白质。实验结果表明本算法在关键蛋白质的识别效率上,要优于4种中心性测度方法(DC、CC、BC、EC),尤其对于最为重要的前 1%和前 5%蛋白质则具有更好的识别效果。

[HS1*2][HT5H]参考文献:[HT]

[WTBZ][ST6BZ][HT6SS][1] [ZK(#〗

[HJ*2]

JEONG H, MASON S P, BARABSI A L, et al. Lethality and centrality in protein networks[J]. Nature, 2001, 411(6833): 41-42.

[2] WUCHTY S, STADLER P F. Centers of complex networks[J]. Journal of Theoretical Biology, 2003, 223(1): 45-53.

[3] WUCHTY S. Interaction and domain networks of yeast[J]. Proteomics, 2002, 2(12): 1715-1723.

[4] BONACICH P. Power and centrality: A family of measures[J]. The American Journal of Sociology, 1987, 92(5): 1170-1182.

[5] 许睿,李琳芳. 基于网络资本评估的蛋白质节点重要性排序[J]. 微型机与应用, 2016,35( 8):6-8.

[6] ZACHARY W W. An information flow model for conflict and fission in small groups[J]. Journal of Anthropological Research,1977,33:452-473.

[7] LUSSEAU D, SCHNEIDER K, BOISSEAU O J, et al. The bottlenose dolphin community of Doubtful Sound features a large proportion of longlasting associations[J]. Behavioral Ecology and Sociobiology, 2003, 54: 396-405.

[8] GIRVAN M, NEWMAN M E J. Community structure in social and biological networks[J]. Proceedings of the National Academy of Sciences, 2002, 99(6): 7821- 7826.

[9] Database of Interacting Proteins. Arabidopsis thaliana network[EB/OL]. [2004-01-15]. http://dip.doe-mbi.ucla.edu/dip/Main.cgi.

[10]Pajek datasets. Proteinprotein interaction network in budding yeast[EB/OL]. [2003-07-25]. http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm.

[11]MEWES H W, FRISHMAN D, MAYER K F X, et al. MIPS: analysis and annotation of Proteins from whole genomes in 2005[J]. Nucleic Acids Research, 2006, 34(Database issue): D169-D172.

[12]CHERRY J M, ADLER C, BALL C, et al. SGD: Saccharomyces genome database[J]. Nucleic Acids Research, 1998, 26(1): 73-79.

[13]ZHANG R, LIN Y. DEG5.0, a data base of essential genes in both prokaryotes and eukaryotes[J]. Nucleic Acids Research, 2009, 37(Database issue): D455-D458.

[14]Saccharomyces Genome Deletion Project. Yeast deletion project[EB/OL]. [2008-06-25]. http://www-sequence.stanford.edu/group/yeast_deletion_project[ZK)]

[FL)]