APP下载

一种改进的基因功能相似度计算方法

2017-11-08田侦郭茂祖

智能计算机与应用 2017年5期

田侦 郭茂祖

摘要:近年来,基于基因本体比较基因之间的功能相似度成为一个研究热点。当前,基因功能相似度计算方法可以分为2种类型:逐对(pair-wise)比较法和成组(group-wise)比较法。然而,由于基因本体注释数据的丰度问题,造成大量的基因具有相同的本体注释数据,从而导致基因功能相似度计算方法的结果存在偏差。本文提出一种改进的基因功能相似度计算方法,对注释集合的语义信息量进行归一化,达到准确度量基因之间的功能相似度的目的。实验结果表明:本文提出的方法可以消除相同注释对基因功能相似度计算方法的影响,且在测试平台上获得非常优秀的结果。

关键词: 基因本体; 基因功能相似度; 相同注释; 相似度归一化

中图分类号: TP391.41

文献标志码: A

文章编号: 2095-2163(2017)05-0123-04

Abstract: In recent years, comparing the functional similarity of genes based on Gene Ontology has become a research hotspot. Currently, gene functional similarity calculation methods can be mainly divided into two types: pairwise approaches and groupwise approaches. However, due to the abundance of annotation data of genes, large number of genes has the identical ontology annotation, resulting in the deviation of results for these gene functional similarity calculation methods. This paper proposes an improved method for measuring the functional similarity of genes. The semantic information content of the annotated term set is normalized for the sake of measuring the functional similarity between genes more accurately. The experimental results show that the proposed method can eliminate the influence of the identical annotation on gene functional similarity calculation methods, and obtain a very good performance on the test platform.

Keywords: Gene Ontology; gene functional similarity; identical annotation; similarity normalization

0引言

基因本体(Gene Ontology,GO)联合会建立的数据库,其目标是能够满足跨数据库对基因和基因产物进行一致描述。GO是一个标准化、精确定义和控制(controlled vocabulary)的词汇库。当前,主要包括3个本体子结构:细胞成分(Cellular Component,CC)、分子功能(Molecular Function,MF)和生物过程(Biological Process,BP)[1]。3种子结构之间彼此是独立的,也就是说可以从BP、CC和MF三个方面对基因进行描述。

在后基因组时代,基于基因本体比较和分析基因之间的功能相似性,具有重要的研究意义[2]。当前,基因功能相似度的计算方法已经在各种研究中得到广泛的应用,例如蛋白质相互作用预测[3-4]、蛋白质复合体识别[5-6]以及基因功能预测[7]、网络预测(network prediction)[8]、疾病基因优先排序(disease gene prioritization)[9-10]等。基于基因本体和基因的功能注释数据,分析和比较基因之间的功能相似度,受到越来越多的关注。

1研究方法综述

近年来,研究人员提出许多基于基因本体的計算基因功能相似性的方法[11-15]。整体上这些方法可以分为两大类:逐对(pair-wise)比较法和成组(group-wise)比较法[16]。前者重点关注术语对之间的关系,即首先计算术语对之间的语义相似度,然后整合术语对之间的语义相似度,从而得到基因之间的功能相似度;后者则从术语集合的角度出发,借助术语集合的语义相似度计算基因之间的功能相似度[17]。接下来将简单回顾这2种方法的研究发展历程。

[BT5]1.1逐对比较法

逐对比较法度量基因的功能相似性时,整体上可以分为2步。第一步计算GO术语之间的语义相似性;第二步将术语之间的语义相似性整合,最终获得基因之间的功能相似性。计算术语之间语义相似性方法有3种类型:基于点(node-based)方法、基于边(ege-based)方法和混合(hybrid)法。Resnik[18]在计算2个术语的语义相似度时,利用2个术语的最有信息公共祖先(most informative common ancestor,MICA)的语义信息量,作为二者的语义相似度。有时最有信息公共祖先也称最低公共祖先节点(lowest common ancestor, LCA)。由于该方法相对简单,在实际的计算过程中发现,该方法会导致很多术语之间的语义相似度相同。后来,Jiang[13]及Lin[19] 在计算2个术语的语义相似度时,不仅考虑术语的最有公共祖先节点,还考虑2个术语自身的语义信息,分别提出各自的方法。上述这些方法均存在“浅注释”(shallow annotation)的问题,即距离根节点较近的2个术语节点也可能获得较高的语义相似度。Couto[20]通过考虑术语所有祖先节点的语义信息量,而不是最有信息公共祖先节点的语义信息量来计算术语之间的语义相似度。该方法的计算复杂度相对较高,在术语节点的子结构(subgraph)简单时,实验结果不够突出。基于边的方法通过计算连接2个术语边的特性来计算术语之间的相似度。Pekar[21]利用最有信息祖先节点到根节点的距离以及术语分别到最有信息祖先节点距离,计算术语之间的语义相似度。但是该方法没有考虑到本体结构中语义关系的传递性,而是将其设定为同等看待。Cheng [22]将术语距离叶节点的距离引入语义相似度计算中。研究指出节点距离叶节点越近,其特异性越强,语义信息量越大。Wang[23]提出了综合计算的方法,提出语义贡献因子(semantic contribution factor)的概念。过程中既考虑术语的语义信息有一部分要通过语义关系传递给子孙节点,又考虑了在传递过程中,不同语义传递的强度不同。由此,最终提出既考虑术语节点本身、又考虑语义关系的综合计算方法。Othman[24]等考虑术语关系所在区域的连接密度、节点之间语义信息量差异以及节点的深度等信息,计算术语之间的语义相似度。endprint

[BT5]1.2成组比较法

成组比较法将基因的GO注释术语看成一个整体,也就说从集合的角度分析2个注释集合的相似度,从而得到基因之间的功能相似度。成组比较法又有3种常见的类型[16]:基于集合(set-based)方法、基于图方法和基于向量的方法。其中,基于集合的方法将基因的所有术语注释作为一个集合,用传统的集合之间的相似度作为基因之间的功能相似度。Gentleman [15]利用2个集合之间交集和并集的比率作为2个集合的相似度;方法simGIC[25]将术语的语义信息量引入到集合内。该方法主要通过计算集合并集的语义信息量和集合交集的语义信息量,而后综合求得集合之间的相似度。Teng则发现方法simGIC在计算术语集合语义信息量时,存在重复计算的问题,因此Teng[17]提出SORA方法,更加准确度量术语集合的语义相似度,从而提高基因功能相似度计算方法的效果。基于图的方法利用基因本体结构和基因的所有注释术语,获取这些注释术语的图形结构;通过图形比对方法,计算2个图形之间的相似度作为基因之间的功能相似度。基于向量的方法首先将基因的术语集合按照一定顺序,表示成0-1向量(如果基因被该位置的术语注释,则用1表示,反之亦然);用2个向量之间的余弦相似度作为2个基因之间的功能相似度。这些方法在文章[26]中已经得到详细的探讨论述。

2问题描述

近年来,虽然基因本体数据库获得了巨大的发展,基因功能注释数据也越来越丰富,科研人员可以获得更为丰富的生物数据。然而,当前对基因的本体注释信息还是存在一定的问题。其中,最突出的一个问题就是相同注释(identical annotation)问题。该问题可以简单描述为:当2个基因具有相同的基因功能注释信息,基因功能相似度的计算出现偏差(bias)。表1列举了基因相同注释在4种模式生物中的情况,这些数据均来自于最新的Uniprot-GOA数据库(http://www.ebi.ac.uk/GOA/downloads)。

而对于基因功能相似度计算方法来说,只要2个基因具有相同功能注释,那么二者的基因功能相似度就为1.0,显然这样是不合理的。目前,对不同生物的研究程度不同,从而导致对某些基因的功能注释信息较少;另一方面,研究相对成熟的基因也可能具有相同的功能注释信息。因此,对于这2种情况的相同注释问题应该区别对待。从表1中可以看出,相同注释在各个物种的功能注释数据库中普遍存在,在酵母和老鼠的功能注释数据库中,相同注释出现的频率非常高。所以,改进基因功能相似度计算方法去克服相同注释是非常必要的。

图1具体描述了相同注释对于基因功能相似度计算方法的影响。在图1中,基因1(gene1)和基因2(gene2)分别被3个相同的GO注释,分别是GO1、GO2和GO3;基因3(gene3)和基因4(gene4)分别被3个相同的GO注释,分别是GO4、GO5、GO6。如果采用GIC[25]方法,那么基因1和基因2的功能相似度为1.0,而基因3和基因4的功能相似度也为1.0。显然,不同基因之间的这种相同注释,会造成明显的误差,存在一定的不合理性。这是因为当前对基因1、基因2、基因3和基因4研究的详细程度各有不同而造成的。

表2总共包含3种本体类型的12组实验。其中,本文提出的方法(SimGICNorm)在MF的Seq实验、BP的Seq实验和CC的Pfam、Seq实验中分别获得了第一,实验结果分别为0.670 2、0.797 6、0.512 5和0.736 4。与之对应的SimGIC方法在MF的ECC和Pfam实验中获得了第一名,实验结果分别为0.587 4和0.582 4。除此之外,Lin方法在3组实验中获得第一名,而Resnik方法和SimUI方法也分别获得了2组第一和1组第一。表2中最好的实验结果用粗体表示。

从上述结果中可以看出,本文提出的方法在Seq度量指标上的性能非常出色,说明该方法和基因的序列相似性保持高度一致;由于本文提出的方法对基因之间的功能相似度进行归一化操作,因此可以有效克服相同注释对相似度计算结果的影响,从而使得该方法在CESSM测试平台上获得了较好的实验结果。

5结束语

基于基因本体和基因功能注释数据,计算基因之间的功能相似度具有重要的研究意义。与基因的结构相似度和序列相似度类似,功能相似度可以从一个全新的角度理解基因之间的关系。本文针对基因的相同注释问题提出一种改进的方法,从而准确度量基因之间的功能相似度。该方法主要基于术语注释集合,使用统一的相似度归一化操作,从而使基因功能相似度计算方法可以区分不同的相同注释,最终提高计算方法的效果。具体的实验结果表明,本文提出的改进方法在CESSM平台上获得非常出色的實验结果,从而证实本文提出方法的有效性和合理性。

参考文献

ASHBURNER M, BALL C A, BLAKE J A, et al. Gene Ontology: Tool for the unification of biology[J]. Nature genetics, 2000, 25(1): 25-29.

[2] MALLADI V S, ERICKSON D T, PPDDUTURI N R, et al. Ontology application and use at the ENCODE DCC[J]. Database, 2015, 2015:bav010.

[3] BRAMEIER M, WIUF C. Coclustering and visualization of gene expression data and gene ontology terms for Saccharomyces cerevisiae using selforganizing maps[J]. Journal of biomedical informatics, 2007, 40(2): 160-173.endprint

[4] YANG Da, LI Yanhui, XIAO Hui, et al. Gaining confidence in biological interpretation of the microarray data: The functional consistence of the significant GO categories[J]. Bioinformatics, 2008, 24(2): 265-271.

[5] KING A D, PRULJ N, JURISICA I. Protein complex prediction via costbased clustering[J]. Bioinformatics, 2004, 20(17): 3013-3120.

[6] WU Xiaomei, ZHU Lei, GUO Jie, et al. Prediction of yeast proteinprotein interaction network: Insights from the Gene Ontology and annotations[J]. Nucleic acids research, 2006, 34(7): 2137-2150.

[7] [JP3]MI Huaiyu, HUANG Xiaosong, MURUGANUJAN A, et al. PANTHER version 11: Expanded annotation data from Gene Ontology and Reactome pathways, and data analysis tool enhancements[J]. Nucleic acids research, 2017, 45:D183-189.[JP]

[8] LEE P H, LEE D. Modularized learning of genetic interaction networks from biological annotations and mRNA expression data[J]. Bioinformatics, 2005, 21(11): 2739-2747.

[9] CHENG Liang, LI Jie, JU Peng, et al. SemFunSim: A new method for measuring disease similarity by integrating semantic and gene functional association[J]. PLoS One,2014,9(6):e99415.

[10]TRANCHEVENT L C, ARDESHIRDAVANI A, ELSHAL S, et al. Candidate gene prioritization with Endeavour[J]. Nucleic acids research, 2016, 44(W1): W117-W21.

[11]XU Yungang, GUO Maozu, SHI Wenli, et al. A novel insight into Gene Ontology semantic similarity[J]. Genomics, 2013, 101(6): 368-375.

[12]SCHLICKER A, DOMINGUES F S, RAHNENFHRER J, et al. A new measure for functional similarity of gene products based on Gene Ontology[J]. BMC bioinformatics, 2006, 7:302.

[13]JIANG J J, CONRATH D W. Semantic similarity based on corpus statistics and lexical taxonomy[J]. arXiv preprint cmp-lg/9709008, 1997.

[14]PESQUITA C, FARIA D, BSATOS H, et al. Metrics for GO based protein semantic similarity: A systematic evaluation[J]. BMC bioinformatics, 2008, 9(S5):S4.

[15]GENTLEMAN R, CAREY V J, HUBER W, et al. Bioinformatics and computational biology solutions using R and Bioconductor[M]//Statistics for Biology and Health. NewYork: Springer Science & Business Media, 2005:388-389.

[16]PESQUITA C, FARIA D, FALCO A O, et al. Semantic similarity in biomedical ontologies[J]. PLoS computational biology, 2009, 5(7): e1000443.

[17]TENG Zhixia, GUO Maozu, LIU Xiaoyan, et al. Measuring gene functional similarity based on groupwise comparison of GO terms[J]. Bioinformatics, 2013, 29(11): 1424-1432.endprint

[18]RESNIK P. Semantic similarity in a taxonomy: An informationbased measure and its application to problems of ambiguity in natural language[J]. Journal of Artifical Intelligence Research, 1999, 11:95-130.

[19]LIN Dekang. An informationtheoretic definition of similarity[C]//ICML '98 Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1998: 296-304.

[20]COUTO F M, SILVA M J, COUTINHO P M. Semantic similarity over the gene ontology: Family correlation and selecting disjunctive ancestors[C]//CIKM '05 Proceedings of the 14th ACM international conference on Information and knowledge management.Bremen, Germany: ACM, 2005: 343-344.

[21]PEKAR V, STAAB S. Taxonomy learning: Factoring the structure of a taxonomy into a semantic classification decision[C]//COLING '02 Proceedings of the 19th international conference on Computational linguistics. Taipei: ACM, 2002: 1-7.

[22]CHENG J, CLINE M, MARTIN J, et al. A knowledgebased clustering algorithm driven by gene ontology[J]. Journal of biopharmaceutical statistics, 2004, 14(3): 687-700.

[23]WANG J Z, DU Z, PAYATTAKOOL R, et al. A new method to measure the semantic similarity of GO terms[J]. Bioinformatics, 2007, 23(10): 1274-1281.

[24]OTHMAN R M, DERIS S, ILLIAS R M. A genetic similarity algorithm for searching the Gene Ontology terms and annotating anonymous protein sequences[J]. Journal of biomedical informatics, 2008, 41(1): 65-81.

[25]PESQUITA C, FARIA D, BASTOS H, et al. Evaluating GObased semantic similarity measures[C]//Proceedings of 10th Annual BioOntologies Meeting. [S.l.]: ISCB, 2007: 37-40.

[26]MAZANDU G K, CHIMUSA E R, MULDER N J. Gene ontology semantic similarity tools: Survey on features and challenges for biological knowledge discovery[J]. Briefings in bioinformatics, 2016: bbw067.

[27]PESQUITA C, PESSOA D, FARIA D, et al. CESSM: Collaborative evaluation of semantic similarity measures[J]. JB2009: Challenges in Bioinformatics, 2009, 157(190):1-5.endprint