基于碱基组成的横向基因转移预测方法研究概况
2014-12-16张园胡凯谭艳平
张园 胡凯 谭艳平
(湘潭大学 湖南湘潭 411105)
1 HGT的定义
HGT是指从亲代以外的个体中获取遗传物质的过程。其中亲代以外的个体可以是同种但含有不同遗传信息的个体,也可以是远亲缘关系的物种,甚至是无亲缘关系的物种。HGT不同于一般的供体到受体的基因转移,它必须使整合到受体中的转移基因进行表达,并产生有益于受体细胞的特性[1]。
2 基于碱基组成的HGT预测
每个物种的基因序列组中都存在一些在相对稳定的碱基组成特征,这些特征在横向转移的基因中是不存在的[2]。因此,可以通过判断碱基组成来预测基因是否发生HGT。下面主要介绍该类方法的常用特征和预测方法。
2.1 常用特征
(5)密码子使用偏性。遗传信息的翻译主要是通过mRNA链上密码子来完成的,通常一种氨基酸对应的密码子有多个,即存在多个密码子编译同一个氨基酸,我们称这种现象为密码子的简并性,并称这些密码子为同义密码子。大量研究表明,不同物种在翻译时对同义密码子使用具有偏向性。因此提出用密码子使用偏向性特征来判断是否发生HGT。它的提取方法有两种:
①密码子的绝对使用频率。
②密码子的相对使用频率。
2.2 预测方法
该类方法最早使用密码子中的GC含量作为特征,它通过计算编码区内密码子中的GC含量,并设定阈值来判断基因是否发生横向转移。之后,人们在GC含量的基础上提出了G+C(K)(K=1,2,3)特征,其中K=1,2,3表示C在密码子中的位置。
1998年,Lawrence等人对每个基因依次计算其密码子的使用偏差值,并提出CAI特征。通过与G+C(1)和G+C(3)的组合特征结果进行比较,得到使用CAI的预测结果更好。同年,Karlin等人发现基因的DRA值基本在一个常值范围附近波动,提出使用DRA作为特征判断是否发生HGT。
2001年,Sandberg等人提出了核苷酸使用频率作为特征,并采用朴素贝叶斯分类器对28个真细菌和古生菌基因组进行分析,得出大小为400bp的序列可以被准确识别,精确度达85%。
2002年,Pride等人提出了由高位核苷酸组成的基因组特征,并得出四核苷酸使用频率在区分HGT时效果最好。
2005年,Tsirigos等人提出了Wn的方法(2 2006年,Hamdy等人提出使用核苷酸突变率来检测HGT,该方法认为不同物种间的突变过程不一样,提出使用检测速率矩阵变化的方法预测HGT。 2007年,吴建盛等人提出基于C-SVM和OC-SVM的方法,通过提取密码子绝对使用频率来预测HGT,该方法较W8-SVM的预测灵敏度更高。 2010年,陈阳等人提出采用神经网络的方法预测HGT,并将实验结果与W8、OC-SVM进行比较,其预测效果要优于前两者。 本文主要介绍了基于碱基组成的HGT预测方法中的常用特征及研究现状。该类方法由于计算量相对较小,且无需同源性序列等先验知识,因此受到研究者的青睐。但由于该方法的预测精度受提取特征的影响,因此如何寻找更具代表性的特征是研究者努力的方向。3 结语